Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

AUTOMATIC CONTROL OF THE APPLIED SURFACE TEXTURE USING TECHNICAL VISION

Yakimainen D.S. 1 Shamraev A.A. 1 Shevtsov M.Y. 2 Karikov E.B. 3
1 Belgorod National Research University
2 LTD «ANTREL-Automatization»
3 Belgorod State Technological University named after V.G. Shoukhov
The effectiveness of control systems for applied textures is mostly characterized by manual labor. Due to the limited control capabilities of the human brain and eye, the development of systems based on automated replacement of human resources with the help of technical vision and the latest technologies is relevant. The article provides an overview of methodologies for building control systems based on technical vision. The subject area is described, which consists in the nomenclature control of applying texture to the surface. The analysis of the main problems of the subject area related to the processing of texture images is carried out. Recognition methods are considered, and a comparison is made according to recognition and classification criteria. Due to the highly specialized orientation and the actual absence of domestic analogues, a system solution based on the use of a linear camera in conjunction with a neural network is proposed. The neural network model EfficientNetV2 with an input frame format of 480x480 is taken as a basis. The algorithm of augmentation and preparation of datasets for training, extracted from the image of a linear camera, is described. An algorithm for automating the cycle of the solution based on the calculation of the centroids of Euclidean space, the calculation of class membership is proposed. Its application also allows for automatic retraining of the control system by using pseudo-class data from kmeans++ clustering. The solution proposed by the authors has been tested in production cycles, the results obtained indicate the suitability of the proposed approach for organizing automatic control of the applied texture.
texture mapping
classification
neural network
technical vision
clustering

Основанная на потребностях современных технологических производств автоматизация отдельных модулей или процессов приобретает все большую значимость. При рассмотрении отдельных этапов производства, связанных с непрерывным визуальным контролем, можно отметить преобладающее применение ручного труда. Примером такого взаимодействия является процесс проверки поверхности на соответствие заданным характеристикам – цвету, рисунку, текстуре, детализации и отсутствию дефектов.

При анализе отдельных критериев описываемой предметной области обнаружено, что эффективность контроля в расчете на единицу рабочего персонала мала. Обусловлено это сценариями, когда контроль поверхности связан с большой площадью (более 300х2400 мм) и совершается на плоскости движимого конвейера. Текстурированная поверхность помещается на плоскость конвейерной ленты манипулятором, затем проходит проверку работником на соответствие контролируемым параметрам, например номенклатуре текстуры. Основная проблемная часть процесса контроля заключается в ограниченных параметрах работы человеческого глаза и мозга, связанное взаимодействие которых не способно единовременно обработать все захватываемое изображение полностью. Вследствие описанного человеческого фактора фиксируется довольно существенный процент ошибок, связанных с неспособностью точно распознать и произвести классификацию текстуры поверхности, особенно участков, схожих между собой и различающихся только некоторыми сегментами, цветовыми характеристиками или деталями [1].

Данная проблема решается путем перехода от ручного труда к автоматизированным системам, основанным на использовании технического зрения.

Целью исследования является повышение показателей эффективности контроля за нанесением текстурированного полотна, основанного на распознавании и классификации техническим зрением.

Материалы и методы исследования

Материалом исследования будет являться способ построения технического зрения. Анализ существующих производственных решений показывает, что техническое зрение в них основано в основном на организации программно-аппаратного комплекса из датчиков и камер, которые можно разделить на три категории.

1. Использование матричных камер – захват картинки осуществляется зонально, рабочая плоскость разделяется по принципу мультикамеры. При таком подходе камера стремится захватить изображение полотна на разных его участках, тем самым принимая в обработку максимальное количество деталей. Активно применяется такими компаниями, как MVTec [2].

2. Комплекс модульных устройств – связки световых датчиков, инфракрасных и ультразвуковых. Основная сфера использования заключается в применении для распознавания дефектов, контроля границ или поверхности. Классификация строится на перекрестном анализе выходных данных датчиков как с помощью стандартных математических методов анализа, так и с помощью нейросетевых технологий. Осуществляется, например, компанией Valmet [3].

3. Использование линейной камеры для захвата изображения – основные преимущества заключаются в считывании изображения построчно, тем самым извлекается максимальное количество деталей, накапливаемых в буфер и далее подвергающихся анализу [4].

Проводя сравнение материальной базы в рамах исследуемой технической сферы применения, важно отметить различающуюся специфику и недостатки. Первая организация имеет существенный недостаток в виде необходимости постоянной настройки изображения, параметров яркости, экспозиции и гаммы. Системы технического зрения могут генерировать существенные ошибки, связанные с искажением краев захватываемого изображения, а также со смазанностью, обусловленной движением наблюдаемой поверхности. Для получения качественного изображения часто требуется также предусматривать остановы и паузы в работе конвейера. В производственных условиях данные факторы все более причисляются к рудиментарным, так как необходимость в постоянной донастройке под неидеализированные условия (наличие помех, естественных воздействий) в итоге снижает показатели эффективности работы технологической линии.

Во второй организации, с использованием комплекса модульных устройств, основной недостаток заключается в узкой специализации и высокой стоимости под конкретное производство. Из-за того что использование сенсоров, как правило, рассчитано на воздействие на определенный материал, например на отражение спектра от типа поверхности или разницы в месте ее конца, единожды развернутая система при перенастройке потребует значительных вложений.

Произведя сравнение представленных категорий, авторы предложили вариант организации на базе линейной камеры с гибридным подходом по заимствованию датчиков, в основном связанных с освещением. Основная идея использования линейной камеры заключается в максимальном получении всех признаков захватываемого изображения полотна – при этом минимизируются ошибки, связанные с перемещением (частота забора изображения подстраивается под скорость конвейера), а также не требуются широкие настройки по цвету, формату, фокусу, не наблюдается искажений. Для организации освещения рабочей области достаточно лишь двух источников рассеянного света, тогда как при использовании матричной камеры необходимо сложное многомодульное решение. При необходимости линейную камеру также возможно настроить на связку с датчиками, к примеру активировать по фронту импульса от инфракрасного или оптического датчика, когда зафиксирован конец захватываемой камерой поверхности. Камера не накопит в своем буфере лишних данных, а получит лишь чистое изображение, которое в дальнейшем будет подвергнуто распознаванию и классификации.

Для выбора метода распознавания и классификации важно учитывать производственную специфику. Часто предприятия, на которых используется оценка качества нанесения текстурированного полотна, работают с заранее не известным числом классов и без режима простаивания, что требует особого подхода к организации – необходима разработка системы, обладающей принципом самообучения с минимальным вмешательством рабочего звена. Анализ производственных решений показал, что большинство систем являются узкоспециализированными, при этом отечественный рынок практически не обладает реальными эксплуатационными продуктами, вследствие чего дополнительно подчеркиваются новизна исследования и необходимость его разработки.

При применении метода распознавания текстур, основанного на методах вычислительной топологии [5], невозможно было осуществить корректное предсказание для ряда схожих между собой текстур практически одинаковой цветовой передачи, но незначительно различающихся сегментационными признаками (рис. 1).

Те же результаты показывали фильтр-алгоритмы [6], так как при наложении преобразований, связанных с шумом или изменением перспективы, алгоритм классификации склонял изображения одного класса к другим, при этом терялись мелкоразмерные отличительные признаки.

Предлагаемое применение паттернов и совокупного с ними уровневого анализа [7] также не удовлетворяет условиям цели исследования, так как проводить качественную сегментацию признаков по уровневым диаграммам сложно исходя из специфики – контроль за нанесением должен предусматривать неконтролируемое появление новых классов текстур поверхности, а следовательно, и постоянное формирование новых общих отличительных признаков. Данный процесс занимает значительное время по расчету, а также чувствителен к ложным ситуациям, когда общий паттерн оказывается рассчитанным для совершенно разных текстур.

missing image file

Рис. 1. Ошибки алгоритмов классификации – фильтры, паттерны

Современные методы распознавания подразумевают использование CNN (сверточных нейронных сетей) для распознавания, однако большинство из нейросетевых архитектур (ResNet50, ResNet152, VGG16, VGG19) [8] при сравнительном рассмотрении не подходят под специфику предметной области, поскольку требуют значительного времени для обучения, а также имеют малый размер входного кадра после проведения глубокой свертки (порядка 128х128). Это приводит к потере качества изображения, малому извлечению признаков и к дополнительным сложностям по контролю за переобучением нейросети.

Авторами предложено использовать архитектуру EfficientNetV2 B1 [9] с размером входного кадра 480х480 из-за ряда преимуществ ее архитектуры. Применение блока глубинной свертки 3*3 позволяет четко выделить параметры для обучения и ускорить параметр времени препроцессинга. Использование улучшенного комбинированного масштабирования по ширине, глубине и разрешению является основным преимуществом EfficientNetV2 в сравнении с другими архитектурами распознавания и стало ключом к максимальному приросту точности при минимизации вычислительной сложности – изменяя входной кадр, нейросеть позволяет сегментировать и выявить максимальное число признаков. В сравнении с ранее описанными топологическими и фильтрационными методами использование EfficientNetV2 дает возможность выделить отдельные признаки изображения неотрывно от общего представления кадра, например одинаковые узоры на текстуре мрамора, четко разделив их на разные классы по общему оттенку широкоформатного полотна.

Для обучения нейронной сети авторами предлагается использование алгоритма аугментации, описываемого последовательной моделью со случайными параметрами. Для этого в работе разрабатываемой системы предлагается разбиение изображения текстурированного полотна размером 5760х1920 пикселей на 12 фрагментов размером 960х960 с дальнейшим применением для 50% выборки поворотов, масштабирования, аддитивного гауссова шума и трансформации по перспективе с сохранением размерности, чтобы в результате получить датасет аугментированных изображений для каждого класса (рис. 2).

missing image file

Рис. 2. Аугментированный датасет

missing image file

Рис. 3. Схематично представленный алгоритм

Стандартная работа EfficientNetV2 основана на однозначном отнесении к одному из известных по весовой модели классу. Для построения автоматизированного решения с использованием обучения на ранее не известных изображениях текстур авторами предложен следующий алгоритм.

1. Нейронная сеть генерирует векторы предсказаний для валидационной выборки из нескольких десятков текстур путем снятия их с внутреннего слоя, предшествующего свертке Dense. Каждый вектор содержит в себе 1280 признаков.

2. Для массива векторов высчитываются математическое ожидание, представляющее собой некий центроид в евклидовом многомерном пространстве признаков, а также величина дисперсии. Расчет ведется по столбцам массива.

3. При работе системы для каждого изображения текстуры, полученного линейной камерой, генерируется вектор признаков из пункта 1, который в дальнейшем участвует в расчете евклидова расстояния [10] между объектами. Производимой расчет схож с используемым в алгоритме классификации k-nearest [11], однако учитывает наименьшие расстояния и сравнивает впоследствии с дисперсией. Если ни одна из дисперсий уже известных центроидов не превышает найденное евклидово расстояние (выполняется условие формулы 1), то вектор предсказаний для текстуры считается уникальным и текстура с вектором помещается в словарь неизвестных:

missing image file (1)

4. Среди неизвестных текстур применением алгоритма kmeans++ определяются кластеры, число которых рассчитывается по коэффициенту Силуэта [12]. Они представляют собой ранее не известные множества векторов предсказаний, но предварительно сгруппированные.

5. Кластеризированные предсказания, а также связанные с ними изображения догружаются как псевдоклассы на вход нейронной сети EfficientNetV2 в процессе ее обучения. Таким способом организуется полный цикл автоматического функционирования системы как в режиме обучения, так и в режиме распознавания. Схематично это представлено на рисунке 3.

Результаты исследования и их обсуждение

Рассмотрим результаты, позволяющие оценить достижение повышения показателей эффективности контроля за нанесением текстурированного полотна (рис. 4). На рисунке представлены два сценария тестирования – синтетический (верхняя половина рисунка) и реальный. По результатам синтетического теста скорость распознавания одного фрагмента из 15 составила порядка 4,5 мс, при этом все текстуры определились верно.

По данным ранее проведенных исследований с использованием фильтрационных методов преимущества для различных скорость распознавания текстур достигла от 11 до 25 мс на одно изображение [6], что является более низким показателем по сравнению с описанным в работе. Подобные результаты показывает сравнение и c нейросетевыми подходами, например решениями на базе ResNet, где подтверждение ускорения обнаружения (благодаря EfficientNet) в FLOPS схоже с представленными в источнике [13].

missing image file

Рис. 4. Результаты тестирования

Реальный тест, на котором было произведено распознавание линейной камерой вручную отобранной текстуры, правильно классифицировал текстуру на неизвестных участках. Таким образом, предложенный авторами статьи метод организации распознавания и классификации для автоматического контроля наносимой текстуры показывает свою пригодность для реальных задач.

Заключение

Предложенный метод автоматизированного контроля наносимой текстуры обеспечивает достаточную для интеграции в производственные линии эффективность выполнения. В настоящее время совместно с ООО «АНТРЕЛ-Автоматизация» проводятся работы по адаптации предложенного метода на предприятии МК «Кедр Столешницы». Полученные в работе результаты защищены свидетельством о государственной регистрации ПЭВМ 2022682176 «Программа для распознавания и классификации текстур столешниц» от 21.11.2022.