Основанная на потребностях современных технологических производств автоматизация отдельных модулей или процессов приобретает все большую значимость. При рассмотрении отдельных этапов производства, связанных с непрерывным визуальным контролем, можно отметить преобладающее применение ручного труда. Примером такого взаимодействия является процесс проверки поверхности на соответствие заданным характеристикам – цвету, рисунку, текстуре, детализации и отсутствию дефектов.
При анализе отдельных критериев описываемой предметной области обнаружено, что эффективность контроля в расчете на единицу рабочего персонала мала. Обусловлено это сценариями, когда контроль поверхности связан с большой площадью (более 300х2400 мм) и совершается на плоскости движимого конвейера. Текстурированная поверхность помещается на плоскость конвейерной ленты манипулятором, затем проходит проверку работником на соответствие контролируемым параметрам, например номенклатуре текстуры. Основная проблемная часть процесса контроля заключается в ограниченных параметрах работы человеческого глаза и мозга, связанное взаимодействие которых не способно единовременно обработать все захватываемое изображение полностью. Вследствие описанного человеческого фактора фиксируется довольно существенный процент ошибок, связанных с неспособностью точно распознать и произвести классификацию текстуры поверхности, особенно участков, схожих между собой и различающихся только некоторыми сегментами, цветовыми характеристиками или деталями [1].
Данная проблема решается путем перехода от ручного труда к автоматизированным системам, основанным на использовании технического зрения.
Целью исследования является повышение показателей эффективности контроля за нанесением текстурированного полотна, основанного на распознавании и классификации техническим зрением.
Материалы и методы исследования
Материалом исследования будет являться способ построения технического зрения. Анализ существующих производственных решений показывает, что техническое зрение в них основано в основном на организации программно-аппаратного комплекса из датчиков и камер, которые можно разделить на три категории.
1. Использование матричных камер – захват картинки осуществляется зонально, рабочая плоскость разделяется по принципу мультикамеры. При таком подходе камера стремится захватить изображение полотна на разных его участках, тем самым принимая в обработку максимальное количество деталей. Активно применяется такими компаниями, как MVTec [2].
2. Комплекс модульных устройств – связки световых датчиков, инфракрасных и ультразвуковых. Основная сфера использования заключается в применении для распознавания дефектов, контроля границ или поверхности. Классификация строится на перекрестном анализе выходных данных датчиков как с помощью стандартных математических методов анализа, так и с помощью нейросетевых технологий. Осуществляется, например, компанией Valmet [3].
3. Использование линейной камеры для захвата изображения – основные преимущества заключаются в считывании изображения построчно, тем самым извлекается максимальное количество деталей, накапливаемых в буфер и далее подвергающихся анализу [4].
Проводя сравнение материальной базы в рамах исследуемой технической сферы применения, важно отметить различающуюся специфику и недостатки. Первая организация имеет существенный недостаток в виде необходимости постоянной настройки изображения, параметров яркости, экспозиции и гаммы. Системы технического зрения могут генерировать существенные ошибки, связанные с искажением краев захватываемого изображения, а также со смазанностью, обусловленной движением наблюдаемой поверхности. Для получения качественного изображения часто требуется также предусматривать остановы и паузы в работе конвейера. В производственных условиях данные факторы все более причисляются к рудиментарным, так как необходимость в постоянной донастройке под неидеализированные условия (наличие помех, естественных воздействий) в итоге снижает показатели эффективности работы технологической линии.
Во второй организации, с использованием комплекса модульных устройств, основной недостаток заключается в узкой специализации и высокой стоимости под конкретное производство. Из-за того что использование сенсоров, как правило, рассчитано на воздействие на определенный материал, например на отражение спектра от типа поверхности или разницы в месте ее конца, единожды развернутая система при перенастройке потребует значительных вложений.
Произведя сравнение представленных категорий, авторы предложили вариант организации на базе линейной камеры с гибридным подходом по заимствованию датчиков, в основном связанных с освещением. Основная идея использования линейной камеры заключается в максимальном получении всех признаков захватываемого изображения полотна – при этом минимизируются ошибки, связанные с перемещением (частота забора изображения подстраивается под скорость конвейера), а также не требуются широкие настройки по цвету, формату, фокусу, не наблюдается искажений. Для организации освещения рабочей области достаточно лишь двух источников рассеянного света, тогда как при использовании матричной камеры необходимо сложное многомодульное решение. При необходимости линейную камеру также возможно настроить на связку с датчиками, к примеру активировать по фронту импульса от инфракрасного или оптического датчика, когда зафиксирован конец захватываемой камерой поверхности. Камера не накопит в своем буфере лишних данных, а получит лишь чистое изображение, которое в дальнейшем будет подвергнуто распознаванию и классификации.
Для выбора метода распознавания и классификации важно учитывать производственную специфику. Часто предприятия, на которых используется оценка качества нанесения текстурированного полотна, работают с заранее не известным числом классов и без режима простаивания, что требует особого подхода к организации – необходима разработка системы, обладающей принципом самообучения с минимальным вмешательством рабочего звена. Анализ производственных решений показал, что большинство систем являются узкоспециализированными, при этом отечественный рынок практически не обладает реальными эксплуатационными продуктами, вследствие чего дополнительно подчеркиваются новизна исследования и необходимость его разработки.
При применении метода распознавания текстур, основанного на методах вычислительной топологии [5], невозможно было осуществить корректное предсказание для ряда схожих между собой текстур практически одинаковой цветовой передачи, но незначительно различающихся сегментационными признаками (рис. 1).
Те же результаты показывали фильтр-алгоритмы [6], так как при наложении преобразований, связанных с шумом или изменением перспективы, алгоритм классификации склонял изображения одного класса к другим, при этом терялись мелкоразмерные отличительные признаки.
Предлагаемое применение паттернов и совокупного с ними уровневого анализа [7] также не удовлетворяет условиям цели исследования, так как проводить качественную сегментацию признаков по уровневым диаграммам сложно исходя из специфики – контроль за нанесением должен предусматривать неконтролируемое появление новых классов текстур поверхности, а следовательно, и постоянное формирование новых общих отличительных признаков. Данный процесс занимает значительное время по расчету, а также чувствителен к ложным ситуациям, когда общий паттерн оказывается рассчитанным для совершенно разных текстур.
Рис. 1. Ошибки алгоритмов классификации – фильтры, паттерны
Современные методы распознавания подразумевают использование CNN (сверточных нейронных сетей) для распознавания, однако большинство из нейросетевых архитектур (ResNet50, ResNet152, VGG16, VGG19) [8] при сравнительном рассмотрении не подходят под специфику предметной области, поскольку требуют значительного времени для обучения, а также имеют малый размер входного кадра после проведения глубокой свертки (порядка 128х128). Это приводит к потере качества изображения, малому извлечению признаков и к дополнительным сложностям по контролю за переобучением нейросети.
Авторами предложено использовать архитектуру EfficientNetV2 B1 [9] с размером входного кадра 480х480 из-за ряда преимуществ ее архитектуры. Применение блока глубинной свертки 3*3 позволяет четко выделить параметры для обучения и ускорить параметр времени препроцессинга. Использование улучшенного комбинированного масштабирования по ширине, глубине и разрешению является основным преимуществом EfficientNetV2 в сравнении с другими архитектурами распознавания и стало ключом к максимальному приросту точности при минимизации вычислительной сложности – изменяя входной кадр, нейросеть позволяет сегментировать и выявить максимальное число признаков. В сравнении с ранее описанными топологическими и фильтрационными методами использование EfficientNetV2 дает возможность выделить отдельные признаки изображения неотрывно от общего представления кадра, например одинаковые узоры на текстуре мрамора, четко разделив их на разные классы по общему оттенку широкоформатного полотна.
Для обучения нейронной сети авторами предлагается использование алгоритма аугментации, описываемого последовательной моделью со случайными параметрами. Для этого в работе разрабатываемой системы предлагается разбиение изображения текстурированного полотна размером 5760х1920 пикселей на 12 фрагментов размером 960х960 с дальнейшим применением для 50% выборки поворотов, масштабирования, аддитивного гауссова шума и трансформации по перспективе с сохранением размерности, чтобы в результате получить датасет аугментированных изображений для каждого класса (рис. 2).
Рис. 2. Аугментированный датасет
Рис. 3. Схематично представленный алгоритм
Стандартная работа EfficientNetV2 основана на однозначном отнесении к одному из известных по весовой модели классу. Для построения автоматизированного решения с использованием обучения на ранее не известных изображениях текстур авторами предложен следующий алгоритм.
1. Нейронная сеть генерирует векторы предсказаний для валидационной выборки из нескольких десятков текстур путем снятия их с внутреннего слоя, предшествующего свертке Dense. Каждый вектор содержит в себе 1280 признаков.
2. Для массива векторов высчитываются математическое ожидание, представляющее собой некий центроид в евклидовом многомерном пространстве признаков, а также величина дисперсии. Расчет ведется по столбцам массива.
3. При работе системы для каждого изображения текстуры, полученного линейной камерой, генерируется вектор признаков из пункта 1, который в дальнейшем участвует в расчете евклидова расстояния [10] между объектами. Производимой расчет схож с используемым в алгоритме классификации k-nearest [11], однако учитывает наименьшие расстояния и сравнивает впоследствии с дисперсией. Если ни одна из дисперсий уже известных центроидов не превышает найденное евклидово расстояние (выполняется условие формулы 1), то вектор предсказаний для текстуры считается уникальным и текстура с вектором помещается в словарь неизвестных:
(1)
4. Среди неизвестных текстур применением алгоритма kmeans++ определяются кластеры, число которых рассчитывается по коэффициенту Силуэта [12]. Они представляют собой ранее не известные множества векторов предсказаний, но предварительно сгруппированные.
5. Кластеризированные предсказания, а также связанные с ними изображения догружаются как псевдоклассы на вход нейронной сети EfficientNetV2 в процессе ее обучения. Таким способом организуется полный цикл автоматического функционирования системы как в режиме обучения, так и в режиме распознавания. Схематично это представлено на рисунке 3.
Результаты исследования и их обсуждение
Рассмотрим результаты, позволяющие оценить достижение повышения показателей эффективности контроля за нанесением текстурированного полотна (рис. 4). На рисунке представлены два сценария тестирования – синтетический (верхняя половина рисунка) и реальный. По результатам синтетического теста скорость распознавания одного фрагмента из 15 составила порядка 4,5 мс, при этом все текстуры определились верно.
По данным ранее проведенных исследований с использованием фильтрационных методов преимущества для различных скорость распознавания текстур достигла от 11 до 25 мс на одно изображение [6], что является более низким показателем по сравнению с описанным в работе. Подобные результаты показывает сравнение и c нейросетевыми подходами, например решениями на базе ResNet, где подтверждение ускорения обнаружения (благодаря EfficientNet) в FLOPS схоже с представленными в источнике [13].
Рис. 4. Результаты тестирования
Реальный тест, на котором было произведено распознавание линейной камерой вручную отобранной текстуры, правильно классифицировал текстуру на неизвестных участках. Таким образом, предложенный авторами статьи метод организации распознавания и классификации для автоматического контроля наносимой текстуры показывает свою пригодность для реальных задач.
Заключение
Предложенный метод автоматизированного контроля наносимой текстуры обеспечивает достаточную для интеграции в производственные линии эффективность выполнения. В настоящее время совместно с ООО «АНТРЕЛ-Автоматизация» проводятся работы по адаптации предложенного метода на предприятии МК «Кедр Столешницы». Полученные в работе результаты защищены свидетельством о государственной регистрации ПЭВМ 2022682176 «Программа для распознавания и классификации текстур столешниц» от 21.11.2022.