В современном мире большое внимание уделяется экологическим проблемам. В связи с этим создается большое количество предприятий по сортировке твердых бытовых отходов.
Для одного из основных этапов сортировочного процесса – точной классификации фрагментов мусора на конвейерной ленте – по большей части применяется ручной труд. Моделирование показывает, что достаточная эффективность в расчете на одного рабочего конвейерной линии крайне мала. Скорость сортировки с ограниченной для человека точностью достигает 27,8 единиц/мин при скорости конвейера V = 0,39 м/c. При этом стоит учесть, что данные метрики идеализированы, с учетом человеческого фактора их реальные значения, как правило, меньше в два раза. Единоразово в своем поле зрения человек не способен правильно определить, к какому классу мусора относится объект, не потеряв в скорости – возможности скорости работы человеческого глаза и мозга ограничены [1].
В целях решения данной проблемы необходим переход от ручного труда к использованию роботизированных систем автоматической сортировки бытовых отходов.
Сравнение методов автоматической классификации бытовых отходов
Метод |
Критерии оценки эффективности |
||
Быстродействие |
Точность |
Себестоимость |
|
1. Фотоклассификатор + датчик ближнего инфракрасного спектра (NIR) |
около 80 кг/мин, без точной сортировки |
90 %, только для разделения пластика по классу |
4 млн руб. в среднем |
2. RGB-камера + NIR + датчик визуального спектра света (VLSI) + обработка нейронной сети |
66 объектов в минуту |
97 %, размером от 225 cм2, не менее чем 150 мм |
1,4 млн евро |
3. RGB-камера видимого спектра + обработка нейронной сетью |
70 объектов в минуту (NevLabs) или 80 (AMP Robotics) |
около 95 % |
4 млн руб. в среднем, 300 000$ |
Метод № 1 – используется «Экосорт», метод 2 – используется «ZenRobotics», метод 3 – используется «AMP Robotics» и «NevLabs».
Целью исследования является повышение показателей эффективности автоматической классификации бытовых отходов в задачах их сортировки.
Материалы и методы исследования
Материальной базой исследования будут служить имеющиеся производственные решения. Среди отечественных решений можно выделить разработки «Экотех» (г. Москва), «Экосорт» (Алтайский край) и «NeuroRecycle» (г. Санкт-Петербург). Среди зарубежных – ZenRobotics (Финляндия), Waste Robotics (Канада) и AMP Robotics (США). Решения по распознаванию мусора представлены различными методами [2], качественное сравнение которых приведено в таблице.
Если придерживаться вариации использования NIR-сенсора как «фундамента» для построения метода автоматизированной классификации, то возможна модификация с использованием нескольких дополнительных модульных устройств – RGB-камеры, VLS-сенсора (используются установками ZRR компании ZenRobotics). Нейросетевая обработка в данном случае помогает использовать последовательный «конвейер» из модулей с максимальной производительностью, оптимизируя вид сырых данных и производя необходимые вычисления – в случае с ZRR, нейронный модуль помогает находить пересечения данных между слоями (выходные параметры спектрометра, 3D-сенсоров глубины) и относить сортируемый мусор к определенному классу.
Однако такие методы организации автоматической классификации также обладают рядом недостатков. В первую очередь это высокая стоимость сенсоров, которая составляет порядка 70 % от стоимости оборудования (порядка 1 млн евро при общей стоимости в 1,4 млн). Во вторую очередь влияет критерий высоких затрат на развертку оборудования на предприятиях и узкий спектр выполнимых задач – если система настроена на сортировку ПЭТ пластика, то перенастройка её для классификации более крупных ТБО, например металла, потребует больших дополнительных вложений.
Наиболее перспективным является третий метод – использование RGB-камеры видимого спектра + обработка нейронной сетью. В этом методе нейросеть не является связующим вычислительным компонентом, а берет на себя работу по распознаванию и классификации в реальном времени. Такой подход имеет ряд преимуществ:
1. Простота настройки – нет необходимости объединять несколько модулей, работающих с разными данными, под один формат. Распознавание осуществляется одним модулем и зависит только от качества обучения нейросетевого обеспечения.
2. Низкая себестоимость метода, которая обусловлена стоимостью используемых компонентов – требуется только RGB-камера и вычислительное устройство.
3. Распознавание осуществляется в видимом спектре по полной аналогии с человеческим зрением – нейронная сеть распознает точно так же, как человек может отделить отдельные виды мусора из одинакового материала.
Стремясь минимизировать негативные последствия, разработчики из AMP Robotics используют в своем модуле распознавания AMP Neuron двухуровневую архитектуру Fast R-CNN [3] в связке с экстрактором классовых признаков ResNet101 [4]. Максимальная производительность такой связки может достичь порядка 17 FPS (кадров в секунду) при среднем mAP 80.5 [5].
Производительность накладывает определенные ограничения на построение системы автоматической классификации – необходимо либо постоянно рассчитывать задержку между обнаружениями, либо распараллелить процесс обнаружения при помощи нескольких RGB-камер, либо изменить скорость движения конвейерной ленты сортировочной линии. Большинство существующих решений базируются на использовании экстракторов уникальных признаков распознаваемых объектов, таких как ResNet50, AlexNet, VGG [6, 7].
Также вариативным рассматривается использование нейросетевых моделей на базе YOLO и SSD, при этом основной аргумент в сравнении с перечисленными выше технологиями заключается в высоких показателях точности обнаружения объектов при высокой производительности.
Специфика поставленной задачи – распознавание бытовых отходов на постоянно двигающейся плоскости сортировочной линии в реальном времени также требует качественного межфреймового трекинга. Мало распознавать объекты на каждом фрейме, необходимо также поддерживать между ними взаимосвязь, чтобы объекты не обнаруживались заново. Существующие методы либо не подготовлены для задач автоматической классификации, например как представленный в работе [8], либо основаны на классификаторах, что существенно влияет на производительность [6].
Для построения системы автоматической классификации бытового мусора авторами была выбрана архитектура YOLOv4 [9], построенная по принципу singleshot-детектора. Обращение к фрейму происходит однократно, что повышает производительность до зоны, в которой возможна классификация в режиме реального времени.
Нейросеть YOLOv4 обрабатывает поступающее изображение последовательно в несколько сценариев (рис. 1).
На этапе Backbone происходит извлечение отдельных регионов – то есть областей с повышенным шансом нахождения объекта, аналогичным с двухуровневой архитектурой способом. Предсказания, предоставляемые этим сценарием, содержат лишь общую информацию об отдельных признаках и вероятности появления объектов, без описания их качественной формы и математических параметров. Речь идет о том, содержит ли некая область объект мусора или нет (например, выделяется ли он на темном фоне конвейера).
Этап Neck представляет собой сценарий агрегации передаваемых с Backbone признаков алгоритмами SPP [10] и PAN [11] – совместное их применение способствует тому, что на выход в блок Head поступает фрейм с четко определенной пространственной характеристикой изображения (PAN обработка) и с единым набором характерных признаков, получаемых от регионов различного разрешения и объединяемых в одну взаимосвязь (SPP обработка). Данный этап необходим для условий, когда происходит обработка объектов мусора неоднородного качества или неоднозначных признаков (незначительно деформированный пластик, нестандартные формы или размеры).
В этап Head поступают фрагменты изображений с уже размеченной информацией – своего рода маской, над которой производится дополнительная обработка, связанная с привязкой математических расчетов нейронной сети к видимому кадру.
Рис. 1. Сценарии обработки входного кадра нейросетью
Помимо решения задачи классификации средствами YOLO также необходимо производить максимально точный трекинг распознанных объектов мусора на конвейерной линии. Конвейерная лента, по которой движется мусор, является неустойчивой поверхностью. В зависимости от количества поступающего движимого мусора распознавание в режиме реального времени может работать с ошибками и потерями, к примеру, если мусор будет перекрывать друг друга по ходу движения или попадать в слепую зону обработчика нейросети.
Решение данной задачи заключается в использовании так называемых SORT-алгоритмов [12], основанных на использовании фильтра Калмана и расстояния Махалонобиса [13]. SORT-алгоритм помогает минимизировать риск потери определенного объекта, предсказывая его положение и переопределяя его как уже обнаруженный объект в случае наличия данных об обнаружении.
Фильтр Калмана [14] определяет каждый классифицированный объект вектором вида (u, v, a, h, u’, v’, a’, h’), где u, v – центр bounding box; a, h – высоты; u’, v’, a’, h’ – производные переменных – скорости. Таким образом, для каждого bounding box формируется вектор, который будет определять траекторию движения объекта. Далее необходимо лишь совместить с помощью расстояния Махалонобиса предсказанные появления объектов (с множественными измерениями в пространстве) с появлениями, рассчитываемыми с помощью YOLO, с поправкой на корреляцию.
Оценку эффективности предложенного способа организации автоматической классификации необходимо произвести путем тестирования. Разделенная на train и test в соотношении 75/25 выборка из 6000 изображений подверглась результативному анализу по окончанию обучения нейросетевой модели. YOLOv4 для двух классов мусора была обучена за 8000 итераций. Для тестирования качества обучения был проведен эксперимент – распознавание было запущено на минутном ролике, в течение которого на конвейере демонстрировались пластиковые бутылки и металлические банки – в количестве 20 бутылок различной формы и размера и 10 консервных банок. Натренированные веса в формате yolo.weights были инициализированы в программном обеспечении, вычислительная база – CPU i3 7100U, GPU Nvidia GeForce 930MX.
Для тестирования качества отслеживания объектов было воспроизведено распознавание с симуляцией закрытой зоны по вышеописанному видео. На срединную часть кадра обрабатываемого видеофрагмента сортировочной линии была нанесена так называемая «слепая полоса». Объекты распознаются и отмечаются трекингом как до, так и после слепой полосы. В самой слепой полосе происходит модификация кадра (условные повороты, смены освещения, контрастности и шума) ради получения различающейся картинки на выходе из «слепой зоны». Эффективность предложенной методики трекинга была подтверждена экспериментально: после прохождения слепой зоны объекты мусора распознаются как уже ранее отслеживаемые, даже если они меняли свое положение и ориентацию.
Результаты исследования и их обсуждение
Рассмотрим результаты, позволяющие оценить достижение повышения эффективности автоматической классификации за счет предложенной организации (YOLO + SORT алгоритм) (рис. 2).
Рис. 2. Результаты тестирования
Обращаясь к ранее проведенным исследованиям, с использованием наиболее оптимального решения на базе CNN ResNet-50 и SVM (Support Vector Machine) была достигнута точность классификации 87 %, однако результаты оценки производительности представлены не были. Базируясь на представленных и реально используемых характеристиках в продуктах компании AMP Robotics, численно сравнимых с YOLO [5], можно подтвердить то, что выбранная модель организации распознавания на базе YOLOv4 является применимой для задач технического зрения по сортировке бытовых отходов. Такой вывод можно сделать исходя из результатов проведенных нами экспериментов, представленных в главе Results. Данные на рис. 2 свидетельствуют о достижении поставленных авторами исследования задач: получена требуемая производительность (32 FPS без трекинга) при слабой вычислительной мощности устройства, на котором было запущено распознавание (CPU i3 7100U, GPU Nvidia GeForce 930MX). Из 30 объектов мусора не распозналась лишь одна бутылка, точность распознавания превысила 91 %, при этом на обработку каждого фрейма требовалось меньше 350 мс.
Как видно из представленных на рис. 2 результатов, трекер показал одинаковое число отслеживаемых объектов до слепой зоны и после неё, при этом порядковый идентификатор последнего вошедшего и последнего вышедшего из слепой зоны объекта одинаков, что свидетельствует о работоспособности организации отслеживания объектов.
Ключевая особенность предложенного авторами заключается в том, что оно обеспечивает высокую точность и стабильность классификации мусора в реальном масштабе времени (более 30 кадров видеопотока в секунду), что является высоким значением в сравнении с существующими реализациями технического зрения для сортировки отходов мусора, превышая показатели имеющихся разработок на 10–13 FPS, точности – на 5–10 %, скорости – на 40 мс (80–85 объектов классифицируемого мусора в минуту).
Заключение
Предложенный подход автоматизированной классификации бытовых отходов обеспечивает высокую эффективность по сравнению с имеющимися аналогами, а также подходит для решения задачи по отбору ПЭТ бутылок из потока отходов на сортировочной линии после ручной сортировки для повышения эффективности валового отбора вторичного сырья из ТКО. Полученные в работе результаты защищены патентом 2021613763 «Программа для распознавания и классификации бытовых отходов» от 15.03.2021. В настоящее время совместно с ООО ТК «Экотранс» ведутся работы по адаптации автоматической системы классификации для работы в составе комплекса технического зрения при сортировке ПЭТ продукции на сортировочном комплексе МСК «Стрелецкое» (Белгородская область, Россия).
Работа выполнена в рамках гранта ФСИ «Разработка роботизированной технологической линии сортировки бытовых отходов на основе технического зрения», договор от 04 июля 2020 г. № 15536ГУ/2020.