ОПТИМИЗАЦИЯ КОЛИЧЕСТВА ПРИЗНАКОВ И МИНИМИЗАЦИЯ ОПИСАНИЯ РЕШЕНИЯ В ЗАДАЧАХ КЛАССИФИКАЦИИ (РАСПОЗНАВАНИЯ ОБРАЗОВ)

Авторы
Файлы

Тетерин А.Н.

154 KB

Распознавание подразумевает проработку широкого комплекса задач, начиная от оцифровки аналоговой информации и заканчивая ее семантической интерпретацией. В этот комплекс обязательно входит последовательное, параллельное или иерархическое решение классификационных задач.

Решение задач классификации имеет самостоятельное значение для корпоративных систем управления, экспертных систем в медицине и экономике при распознавании различных ситуаций, когда по набору заданных признаков (факторов) выявляется сущность некоторой ситуации, в зависимости от которой выбирается определенная последовательность действий. Для этих задач характерны следующие предметные области.

Интерпретация данных - выбор решения из фиксированного множества альтернатив на базе введенной информации о текущей ситуации.
Контроль - отклонение в данных о текущей ситуации от плановых целей и нормативов.
Диагностика - выявление причин, приведших к возникновению ситуации.
Коррекция - диагностика, дополненная возможностью оценки и рекомендаций действий по исправлению отклонений от нормального состояния рассматриваемых ситуаций.
Проектирование - определение конфигурации объектов с точки зрения достижения заданных критериев эффективности и ограничений.
Прогнозирование - предсказание последствий развития текущих ситуаций.
Мониторинг - контроль с возможной последующей коррекцией. Для этого выполняется диагностика, прогнозирование.
Управление - мониторинг, дополненный реализацией действий в автоматических системах.

Предлагается три типа верифицированных алгоритмов обучения на ограниченных бесконечных множествах. Первые два основаны на обучении с учителем третий может стать основой новой теории кластерного анализа без поиска центра кластера.

Rⁿ- действительное n-мерное пространство элементов x=(x₁,x₂,...,x_n), y=(y₁,y₂,...,y_n);

- минимальное расстояние между двумя множествами A и B;

Исключение избыточного признак целесообразно, если δв новом пространстве связано с δ₀ в предыдущем следующим соотношением:

для алгоритмов первого типа

для алгоритмов второго типа

для алгоритмов третьего типа

Аналогично, добавление нового признака оправдано, если:

для алгоритмов первого типа

для алгоритмов второго типа

для алгоритмов третьего типа

Главный недостаток алгоритмов первого типа - результат классификации получается на последних шагах работы алгоритма. Мы его потеряем, если есть ограничения по памяти и времени работы.

Недостаток алгоритмов второго типа - равномерная сходимость. Чем больше шагов, тем меньше они отличаются друг от друга. Отработав 50% времени, мы получаем примерно 50% объема, не обработанного единичного гиперкуба. Достоинство - полиномиальная оценка объема памяти.

Достоинства алгоритмов третьего типа - хорошая сходимость, естественность ( не проанализированная область гиперкуба находится вблизи разделяющей два множества границы, распознавание может идти параллельно обучению в фоновом режиме,. Отработав 20% времени в двухмерном пространстве, остальные 80% алгоритм затратит на удвоение δ₀. Недостаток - экспоненциальная оценка объема памяти. Поэтому необходимо использовать понятие чувствительности и применять алгоритмы первого и второго типа к непроанализированной части гиперкуба.

Для алгоритмов второго типа время распознавания

Для алгоритмов первого типа время распознавания

Для алгоритмов третьего типа время распознавания

Возникает вопрос, нужен ли ?
В многомерных пространствах (100,1000...) чаще будет встречаться ситуация , и это нужно учитывать при проектировании алгоритмов.

Понятие проекции в алгоритмах первого и второго типа позволяет решать задачу минимизации числа признаков (сокращение неинформативных признаков, не изменяющих количество ячеек) без вычислений по формулам.

Алгоритмы второго и третьего типа могут быть модифицированы для решения задачи дообучения без пересмотра всего обучающего множества. В этом случае обучение и распознавание сливаются в один процесс, качество которого повышается с течением времени, а распознавание начинается с одного элемента обучающего множества. Для алгоритмов первого типа в этом случае задача обучения решается заново.

Полученные оценки для большого описания множеств оправдывают следующий порядок использования алгоритмов. В качестве первого необходимо использовать алгоритм второго типа, его результаты являются входными данными для алгоритма первого и третьего типа. Их главное отличие друг от друга: первый тип строит разделяющую границу между двумя множествами
(в некоторых случаях этого вполне достаточно), третий тип - оболочки разделяемых множеств. Незначительное увеличение времени классификации является небольшой платой за дальнейшую работу с множествами как самостоятельными объектами с минимальным описанием. Для получения такого описания потребуются результаты работы алгоритма первого типа.

Общее достоинство теории: для каждой ячейки может быть индивидуально выбран алгоритм и принято решение об изменении пространства признаков. Что в целом позволяет говорить не только о динамическом изменении пространства признаков, но и о динамическом изменении применяемых алгоритмов. Общим критерием изменения пространства признаков (алгоритмы первого и второго типа) можно считать излишнее дробление R¹ или, другими словами, количество дочерних листьев (по R¹) значительно превосходит количество классов.

СПИСОК ЛИТЕРАТУРЫ

1. Тетерин А.Н. Геометрический подход к классификации - новая модель работы нейрона.//ЖВМ и МФ. 1992. Т 31. № 12. С. 1972-1980.

Библиографическая ссылка

Тетерин А.Н. ОПТИМИЗАЦИЯ КОЛИЧЕСТВА ПРИЗНАКОВ И МИНИМИЗАЦИЯ ОПИСАНИЯ РЕШЕНИЯ В ЗАДАЧАХ КЛАССИФИКАЦИИ (РАСПОЗНАВАНИЯ ОБРАЗОВ) // Современные наукоемкие технологии. 2009. № 11. С. 43-45;
URL: https://top-technologies.ru/ru/article/view?id=25944 (дата обращения: 05.03.2026).

Научный журнал
Современные наукоемкие технологии

ISSN 1812-7320

"Перечень" ВАК

ИФ РИНЦ = 1,279

ОПТИМИЗАЦИЯ КОЛИЧЕСТВА ПРИЗНАКОВ И МИНИМИЗАЦИЯ ОПИСАНИЯ РЕШЕНИЯ В ЗАДАЧАХ КЛАССИФИКАЦИИ (РАСПОЗНАВАНИЯ ОБРАЗОВ)

Библиографическая ссылка

Современные наукоемкие технологии
Научный журнал | ISSN 1812-7320 | ПИ №77-63399