Тема настоящего исследования находится на пересечении областей работы с геоданными, инфографики и исследования социальных явлений в различных слоях общества. Кроме того, важным элементом является сбор и анализ видеоданных с городских камер наблюдения с целью дальнейшего использования их для принятия решений в задачах ситуационного управления [1].
Ежедневно на инфраструктурных объектах происходят события, требующие ведения систематического контроля [1]. Ситуационным управлением называют деятельность уполномоченных органов, при которой решения и управляющие воздействия основываются на анализе вариантов возможных решений с учетом: текущего состояния объекта управления, располагаемых вариантов действий и прогноза последствий принимаемых управленческих воздействий. Принципы систем управления позволяют извлечь максимум выгоды для лица, принимающего решение, исходя из особенностей конкретных управленческих ситуаций, совокупности всех внешних и внутренних факторов, которые определяют условия функционирования объекта управления, что позволяет принимать и реализовывать решения не в некие установленные плановые периоды, а по мере возникновения проблем [1].
Актуальность исследования обусловлена сложной ситуацией в области реагирования на проблемы граждан, т.к. роль автоматизированных интеллектуальных систем в данной сфере в нашей стране на текущий момент мала. Научная новизна работы заключается в использовании методов распознавания объектов на видео с городских камер наблюдения для обнаружения дорожных ситуаций, требующих решения задач ситуационного управления. Внедрение данных методов позволит оперативно консолидировать информацию о реальном состоянии городской транспортной системы и предоставлять ответственным лицам актуальную информацию о происходящих событиях, а в будущем и оперативно предлагать возможные методы урегулирования ситуации. Практической ценностью работы следует считать возможность снижения фактора человеческих ошибок, автоматизацию сбора данных и сокращения времени реагирования на происходящие события.
Таким образом, целью работы является ускорение анализа состояния системы городской дорожной инфраструктуры за счет автоматизации сбора данных о его изменении с помощью методов распознавания объектов на кадрах видеопотока с камер наблюдения.
Материалы и методы исследования
Примерами ситуаций, порождающих задачи ситуационного управления, могут служить следующие ситуации на дорогах [2; 3]:
– заторы на дорогах [2];
– ДТП [2; 3];
– загруженность общественного транспорта и мест его ожидания;
– загрязнённость (засорённость) городских территорий [4].
В рамках настоящей статьи было решено сконцентрироваться на распознавании автомобилей на кадрах видеопотока, снятого с камер наблюдения за городскими дорогами.
Для решения задач распознавания дорожной обстановки часто применяются методы машинного обучения [5-7], в частности искусственные нейронные сети (далее – «нейросети») [8]. В рамках настоящего исследования было также принято решение для распознавания автомобилей на кадрах видеопотока использовать нейросеть Mask R-CNN [9; 10], работающую по принципу сегментации изображений, а также библиотеку OpenCV для работы с графической информацией [11] для визуализации данных. Пример применения нейросети Mask R-CNN в связке с OpenCV для решения задачи распознавания людей на изображениях представлен на рисунке 1.
Алгоритм работы разработанного на базе Mask R-CNN и OpenCV инструмента включает следующие шаги:
1) получение входного видеопотока;
2) разбиение видеопотока на отдельные кадры с помощью функций OpenCV;
3) обработка полученного массива кадров нейросетью Mask R-CNN для распознавания объектов на нём;
4) визуализация.
В результате визуализации сегментированные нейросетью кадры [9; 10] будут вновь «собраны» средствами OpenCV [11] в единые изображения, после чего на них будут наложены полученные нейросетью данные, такие как идентификатор (ID) объекта, вероятность верного обнаружения объекта, рамка видимого объекта и сама маска. Затем полученный массив кадров будет вновь объединён в цельный видеопоток. Для наглядности результатов было принято решение накладывать на объекты в каждый момент времени маски различного цвета, что позволит явно отслеживать изменения наблюдаемого видео. В качестве средства реализации инструмента был выбран язык программирования Python.
Рис. 1. Пример работы нейросети Mask R-CNN
Изначально было принято решение использовать публично доступную предварительно обученную на наборе данных MS COCO [12] модель нейросети Mask R-CNN. Данная модель обучена распознавать на изображениях не только транспортные средства, но и самые разнообразные другие объекты [12]. В рамках решения задач настоящего исследования список интересующих классов был ограничен следующими: человек, автомобиль (в том числе грузовики и автобусы), велосипед и дорожное полотно.
В процессе первичного тестирования было обнаружено, что выборка MS COCO, использованная при обучении открыто доступной модели, включает транспорт только иностранного происхождения. Как следствие, данная модель оказалась неспособна с достаточной точностью распознавать на кадрах видеопотока, к примеру, автомобили марки «ГАЗель». Модель идентифицировала представителей данной автомобильной марки как «грузовик» (truck) c точностью ~53%, «автобус» (bus) c точностью ~57% и «автомобиль» (car) с точностью ~55%, однако такой результат нельзя было назвать удовлетворительным.
Было принято решение о сборе дополнительных фото- и видеоданных с участием представителей данной автомобильной марки для дополнительного обучения модели [13; 14]. Решение этой задачи также было призвано подготовить почву для дальнейшего распознавания автомобилей скорой помощи, часто являющихся представителями той же автомобильной марки с несколькими дополнительными отличительными признаками.
Сбор данных проходил на площадке города Волгограда собственными силами без привлечения внешних источников в течение зимне-весеннего периода. Выбор временного промежутка для сбора данных был обусловлен замыслом ввести для модели следующие дополнительные условия:
– в указанный период автомобили достаточно загрязнены, чтобы усложнить их распознавание, однако успешное решение этой задачи в дальнейшем увеличит точность модели: усложненные данные должны повысить эффективность обучения;
– модель будет подготовлена к реальным ситуациям: поскольку данный вид транспорта эксплуатируется в достаточно тяжелых условиях, его внешний вид, по статистике, будет чаще именно загрязнённым.
Итогом сбора данных стали 3 гигабайта изображений и 10 гигабайт видеоматериалов с участием автомобилей «ГАЗель» в различных ракурсах. Следует уточнить, что количество видеоматериала было невелико, и такой объём данных обусловлен качеством изображения, снятого камерой высокого разрешения. Решение о сборе данных именно такого качества было принято для упрощения ручной работы разметки отдельных кадров. Примеры полученных в результате сбора данных фото- и видеоданных приведены на рисунках 2 и 3.
Рис. 2. Пример собранных фотоданных
Рис. 3. Пример собранных видеоданных
Результаты исследования и их обсуждение
Для апробации и отладки модели распознавания объектов была необходима дополнительная тестовая выборка фото- и видеоданных с реальных систем городского видеонаблюдения. В качестве площадки для тестирования был также выбран город Волгоград. С получением доступа к муниципальным камерам городского видеонаблюдения возникли сложности, было решено перейти к рассмотрению сторонних сервисов общественного наблюдения. В конечном итоге выбор пал на проект «Город на ладони» от компании Powernet [15]. Данный проект по запросу предоставляет доступ к просмотру данных, полученных с общественных камер видеонаблюдения, расположенных на дорогах города Волгограда, города Волжского и других населённых пунктов Волгоградской области. Небольшим недостатком в данном случае можно считать тот факт, что камеры расположены на большой высоте над дорожным полотном: такое удаление камер может оказывать некоторый негативный эффект на качество распознавания из-за размеров объектов в кадре. Для получения доступа к данным было отправлено формальное обращение к сотрудникам Powernet. В результате были получены записи с участков ул. им. Константина Симонова – ул. 8-й Воздушной Армии и ул. 30-летия Победы – ул. Константина Симонова. Общая продолжительность полученных видеоматериалов составила порядка 20 часов.
Также следует упомянуть проведённый для нужд настоящего исследования мониторинг данных сервиса «Яндекс.Пробки» (расширение «Яндекс.Карт») с целью сбора информации о ситуации на автомобильных дорогах города Волгограда и Волжского. Было выявлено, что для дорожной сети характерна пиковая нагрузка по понедельникам, четвергам и пятницам в промежутки времени с 8:00 до 10:00 и с 16:00 до 19:00 часов. На основе собранной информации была сформирована почасовая выборка данных, характеристика которой приводится в таблице.
Пропуск отдельных временных промежутков означает отказ от использования данных за данный промежуток в связи с их малой рентабельностью на фоне данных за пиковые часы нагрузки на дорожную сеть.
Выборка видеоданных по часам
День/час |
8 |
9 |
10 |
11 |
16 |
17 |
18 |
19 |
Понедельник |
+ |
+ |
+ |
+ |
+/– |
+ |
+ |
+/– |
Четверг |
+ |
+ |
+ |
– |
+/– |
+ |
+ |
+/– |
Пятница |
+ |
+ |
– |
– |
+ |
+ |
+ |
– |
Рис. 4. Определение ДТП на кадрах видеопотока
Рис. 5. Определение затора на кадрах видеопотока
На рисунках 4 и 5 представлены примеры работы разработанного инструмента: определение ДТП и транспортного затора на кадрах видеопотока.
В дальнейшем получаемые от модели данные можно будет использовать не только для детектирования дорожных ситуаций, приводящих к возникновению задач ситуационного управления, но и для поддержки принятия решений в подобных задачах как применительно к управлению транспортными потоками города, так и, например, для решения задач построения экологически чистых маршрутов (в обход участков с обнаруженными с помощью обученной модели загрязнениями и/или автомобильными заторами, порождающими загрязнение воздуха) [4].
Выводы
В результате проведённого исследования были получены следующие выводы:
1) при тестировании системы для распознавания дорожных заторов были выявлены следующие недостатки:
− в связи с количеством автомобилей типа «ГАЗель» на дорогах, несмотря на дополнительное обучение модели, вероятность ложноположительных и ложноотрицательных распознаваний моделью данного вида объектов в транспортном потоке по-прежнему сохраняется, из-за чего возможно некорректное наложение и отображение масок объектов;
− поскольку камеры расположены на значительном удалении от дорожного полотна, распознаваемые объекты могут иметь достаточно небольшой размер (можно пронаблюдать на рисунке 4), вследствие чего сохраняется вероятность ложноположительных и ложноотрицательных распознаваний;
2) при тестировании системы на кейсе загруженности остановочных пунктов значимых недостатков выявлено не было;
3) при тестировании системы для распознавания загрязненности участков дорожного полотна были выявлены следующие недостатки:
− некорректное наложение маски на объекты, относящиеся к типу «отходы», в связи с удаленностью камеры от объекта;
4) затраты времени на анализ состояния системы городской инфраструктуры сократились с часов (время, затраченное на ручную обработку видео для обучающей выборки) до минут.
В результате проведенного исследования был создан инструмент детектирования и распознавания дорожных ситуаций, требующих оперативного решения задачи ситуационного управления. Также был произведён сбор данных, сформирована и использована выборка фото- и видеоматериалов для дополнительного обучения нейросети Mask R-CNN распознаванию автомобилей модели «ГАЗель», а также проведено тестирование полученной модели на реальных данных, собранных с действующих камер видеонаблюдения за дорожной сетью города Волгограда.
Авторы выражают благодарность коллегам по лаборатории городских вычислений UCLab и кафедре «Цифровые технологии в урбанистике, архитектуре и строительстве» ИАиС ВолгГТУ, принимавшим участие в разработке проекта.