Распознавание образов – неотъемлемая составляющая современного цифровизированного общества. Развитие информационных технологий немыслимо без использования интеллектуальных систем распознавания, будь то космическая промышленность либо простейшие системы видео- и фотофиксации. Общий алгоритм распознания фото- и видеоизображений состоит из основных шагов: захват кадра; предобработка; локализация выбранного объекта; распознание объекта (рис. 1).
Рис. 1. Алгоритм распознания образов
На первом шаге необходимо разделить видеопоследовательность на отдельные кадры для постобработки. На втором шаге предварительной обработки происходит коррекция контрастности искомого изображения, устранение размытия, бинаризация. На третьем шаге производят детектирование объекта и определение его координат. Обнаружение объекта является одним из вариантов распознания, а также при этом решается задача кластеризации или классификации, где один класс (кластер) – «объект», второй – «нет». На заключительном шаге полученную область необходимо отнести к одному из заданного множества классов.
Таким образом, целью данной работы является исследование задачи распознавания видео- и фотоизображений и реализация системы распознавания образов в виде готового устройства.
Обзор и анализ существующих методов распознавания образов
Обобщив и проанализировав данные о существующих методах распознавания образов, можно выделить основные методы для решения поставленной задачи:
1. Методы с использованием шаблонов.
В настоящее время довольно распространенным методом, основанным на использовании шаблонов, является метод, применяющий вычисления коэффициента корреляции между двумя исходными матрицами. Этот метод довольно широко распространен в различных сферах благодаря простоте реализации. Однако при распознавании физических объектов шаблонный метод характеризуется большой вычислительной сложностью. Связано это с необходимостью масштабирования распознаваемого изображения [1, 2].
2. Методы на основе контурных моделей.
Достаточно известным методом распознания контуров объекта является метод пространственного дифференцирования, заключающийся в оценке скорости изменения контрастности в каждой точки исследуемого изображения. Если контрастность изменяется с высокой скоростью, то искомая точка находится на границе двух областей разной контрастности, то есть принадлежит контуру. Преимуществами данного подхода является невысокая вычислительная сложность. В качестве недостатков можно выделить сильное влияния качества изображения на результат распознавания [3].
3. Методы, основанные на применении нейронных сетей.
В отличие от вышеприведенных методов, нейронные сети предлагают свой подход к решению задач распознания образов. Синапсы в нейронных сетях оптимизируются различными методами в процессе обучении. Также при обучении нейронных сетей происходит выявление ключевых признаков, определение их значимости и построение корреляционных взаимосвязей между ними. Обученная нейронная сеть действует на основании данных, полученных в процессе обучения, что приводит к достаточно высокой обобщающей способности при анализе неизвестных образов [4]. В качестве недостатка нейросетевых методов можно выделить тот факт, что при обучении на неудачной выборке результат может сильно отличаться от желаемого.
Данный подход выбран в дальнейшем для решения поставленной задачи. Несмотря на недостатки, при правильном обучении нейронной сети данный метод является достаточно эффективным, что было доказано авторами статьи.
4. Метод Виолы-Джонса.
Данный метод довольно часто применяется для поиска объектов на изображении в реальном времени и обладает низкой вероятностью ложного обнаружения.
Он основан на следующих подходах [2]:
1) используется интегральное представление образа;
2) анализируются признаки Хаара;
3) производится выбор наиболее значимых признаков для анализируемого объекта.
Несмотря на все преимущества, данный метод имеет ряд недостатков, наиболее важным из которых является сильная зависимость от обучающей выборки.
5. Метод k ближайших соседей.
Метод k – ближайших соседей заключается в том, что исследуемый объект присваивается тому или иному классу, наиболее используемому среди соседей данного объекта. Соседи выбираются, исходя из множества элементов с известными классами. Зная значения k, как наиболее важного параметра, определяется наиболее многочисленный класс из имеющихся. Все элементы имеют заданное количество размерностей (атрибутов). Предполагается, что имеется определенный набор элементов с заранее известной классификацией [1].
Преимуществом данного метода является простота реализации. Среди недостатков этого метода выделяют то, что он способен работать только с конечным массивом объектов. При добавлении новых объектов требуется выполнять все расчеты заново в полном объеме на новом наборе данных.
6. Простое невзвешенное голосование.
При использовании данного подхода в первую очередь необходимо узнать, сколько будет голосов при определении того или иного класса. Далее необходимо определить записи, имеющие это право голоса, а также расстояние от них до новой точки. Затем можно приступать к самому методу простого невзвешенного голосования. Расстояние от каждой записи при голосовании не играет роли, все имеют равные права в определении класса. Запись отдает предпочтение тому классу, к которому она принадлежит [2].
Недостатками такого метода является не только то, что он способен работать только с конечным массивом объектов, как метод k ближайших соседей, но и сложность классификации при равном количестве голосов. Эту проблему решает взвешенное голосование.
7. Взвешенное голосование.
При использовании данного подхода учитывается расстояние до новой записи. Чем меньше расстояние, тем больший вклад вносит тот или иной голос. Класс, набравший наибольшее количество голосов, присуждается новой записи. Совершенно очевидно, что при k = 1 новой записи присваивается класс самого ближайшего соседа [2].
Но и этот метод может работать только с конечным массивом объектов и имеющимся количеством классов.
Рис. 2. Обобщенная схема методов распознания образов и изображений
Вышеприведенные методы и способы распознания изображений и образов имеют различные преимущества и недостатки. Однако чаще всего можно выделить три основные части функционирования данных подходов (рис. 2) [1]:
1. Преобразование исходного изображения в его упрощенный вид для постобработки (включает в себя предобработку или различные преобразования, к примеру отражение, сжатие или поворот объекта).
2. Выявление значимых признаков (к примеру, находятся главные компоненты, либо ключевые точки).
3. Этап классификации основывается на причислении объекта к тому или иному классу и может представлять собой нейронную сеть, сложную математическую модель, главнокомпонентную модель либо различные Марковские модели и т.д.
Разработка устройства распознавания образов для управления контрольно-пропускным пунктом
На рис. 3 представлена структурная схема предлагаемого аппаратно-программного комплекса, реализующего управление автоматическим поручнем с электромагнитным приводом на контрольно-пропускном пункте, путем распознавания фотоизображения. Алгоритм работы аппаратно-программного комплекса следующий. С помощью камеры измеряются биометрические параметры, которые поступают на вход микропроцессорного блока, преобразующего с помощью аналогово-цифрового преобразователя (АЦП) аналоговую информацию с камеры в цифровую для работы с микроконтроллером. Информация о биометрических параметрах с микропроцессорного контроллера поступает через интерфейс USB в персональный компьютер (ПК). Далее информация о биометрических данных в ПК подаётся на блок сравнения, где сравнивается с образцами из базы данных. Программное обеспечение в ПК вырабатывает сигнал о результате сканирования и передаёт его в микроконтроллер. С микроконтроллера сигнал передается на цифро-аналоговый преобразователь (ЦАП). Аналоговый сигнал с ЦАП поступает на усилитель, где преобразуется до уровня, необходимого для работы с электромагнитным реле. На контрольно-пропускном пункте расположен поручень, механически связанный с реле, который исключает возможность прохода лиц, не зафиксированных в базе данных. На автоматизированном рабочем месте оператора (АРМО) находится блок ручного управления (БРУ) и дисплей, на котором отображаются коды ошибок [3].
Рис. 3. Функциональная схема устройства
Программная часть интеллектуальной системы состоит из трех важных этапов: обнаружение (детектирование) лиц; регистрация (кодирование для дальнейшего быстрого поиска лиц в базе); классификация (идентификация) лиц.
Этапы выполняются последовательно. Полученные с помощью аппаратной части интеллектуальной системы, изображения лиц поступают на этап регистрации, которая производит анализ изображений лиц по базе, а в ответ выдает «кандидатов», наиболее похожих на текущее изображение. Затем на этапе классификации обрабатываются изображения лиц найденных «кандидатов» с целью их более точного распознания.
Этап детектирования лица выявляет лицо человека на чёрно-белых либо цветных фотоизображениях во фронтальных проекциях и определяет координаты описанных прямоугольников для всех выявленных лиц. Система отслеживания лиц человека позволяет хранить в системе информацию (последовательность кадров, содержащих изображения лиц в различных ракурсах и с различной мимикой) до тех пор, пока человек не выйдет из зоны наблюдения или не отвернется от камеры.
Программная часть состоит из блоков, реализованных в графическом языке программирования LabVIEW (рис. 4 и 5) [5]. Данные модули описывают процессы сканирования образа (рис. 5) и сравнения его с имеющимися в базе (рис. 4).
Рис. 4. Фрагмент диаграммы, реализующий процесс сканирования
Рис. 5. Фрагмент диаграммы, реализующий процесс поиска
Анализ различных методов распознавания данных позволил выявить проблемы, существующие в данной области, и выявить области применения различных методов, их достоинства и недостатки в применении к решению различных задач.
Выводы
Рассмотрены основные методы, на которых строятся системы распознавания данных. В качестве основного метода выбран нейросетевой подход. Разработанный аппаратно-программный комплекс распознавания изображений и образов для управления контрольно-пропускным пунктом позволяет достичь точности распознавания до 80 %. Результаты были получены на тестовых образцах фотоизображений.