Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

AUTOMATIZATION OF DRAFT MARKS READING ON SHIPS WITH MACHINE LEARNING

Sokolov S.S. 1 Ivanovskiу A.N. 2
1 Admiral Makarov State University of Maritime and Inland Shipping
2 Kerch State Marine Technological University
1036 KB
Draft is the vertical distance measured from the top of the keel at the center of the vessel to the corresponding load waterline. The existing technical solutions do not allow high-precision measurements of the draft in conditions of sea waves. This paper proposes an alternative method for determining the ship’s draft, based on video processing using machine learning methods. The YOLOv5 neural network was used to detect and localize the digits of the indentation marks, and the U-Net neural network was used to segment the water surface. The primary results obtained show the effectiveness of this approach. For the purpose of this work, propose a method for determining the ship’s draft based on machine learning and computer vision algorithms, as well as substantiate its effectiveness. The advantages of this method include the absence of the need for architectural changes in the ship’s hull, its versatility for ships of any type, ensuring high-precision measurements in all weather conditions, as well as the relatively low cost of implementation and operation. On bulk vessels, knowledge of the draft is necessary to ensure the safety of the vessel throughout the entire cargo operation, to determine the mass of the cargo, and therefore directly affects the economic efficiency of the vessel. Means for determining draft are extremely important on such ships, however, due to the high cost of equipment and a relatively small gain in accuracy, shipowners prefer to compromise with the shipper and take into account the errors in determining the mass of the cargo when calculating the freight.
draft survey
ships draft
image segmentation
detection
YOLO
U-Net
computer vision

Осадкой именуется вертикальное расстояние, измеренное от верхней кромки киля посредине судна до соответствующей грузовой ватерлинии. Определение осадки судна является неотъемлемой процедурой при эксплуатации судна. Для снятия осадки разработано множество способов [1–3], однако каждый из них обладает своими ограничениями, ввиду которых такие методы так и не получили повсеместного применения. К таким трудностям относятся низкая точность при волнении, как при использовании методами, основанными на определении разности высот антенн GPS/GMSSB [2], а также сложность при установке и эксплуатации, например при использовании гидростатических датчиков [1, 4–6].

Степень востребованности знания осадки на разных судах так же отличается. Для судов-контейнеровозов, наливных, пассажирских судов знание осадки нужно в основном для планирования перехода в узкостях и каналах, а потому установка громоздких высокоточных систем определения осадки не оправдана.

Цель исследования – применение процесса автоматизации для определения осадки судна методами машинного обучения.

В данном исследовании разрабатывается модель авторегрессионной остаточной U-сети (AR-Runet) для прогнозирования зависящего от времени динамического потока для сложной двумерной морской (водной) системы с каналами связи. В исследовательской модели система идентифицирует характеристики судов и особые отметки. Здесь стратегия авторегрессии относится к использованию выходных данных предыдущего времени в качестве данных нейронной сети для прогнозирования выходных данных текущего времени, а не к изменению сетевой архитектуры. Было доказано, что стратегия остаточного обучения является эффективным решением для упрощения обучения сетей с достаточно глубокой архитектурой. Для этого к традиционной архитектуре U-net была добавлена уровневая глубокая остаточная единица, в результате чего была разработана новая остаточная архитектура U-net со значительно улучшенной производительностью для моделирования сложных отображений. Результаты показывают, что после того, как стратегия авторегрессии была обработана до входных и зависящих от времени выходных данных, точность предсказания метода значительно увеличилась, что превосходит другие доступные методы для задачи. В связи с этим в недавнем прошлом исследователи представили различные методы автоматической сегментации образов на морской поверхности. В отличие от традиционных методов обработки изображений, в исследованиях также использовались контролируемые методы. Некоторые из примеров – модели на основе форм и атласов.

Общая структура подсистемы для определения осадки судна. На каждом судне по бортам нанесено шесть марок углубления (рис. 1), которые представляют собой набор арабских или римских цифр, расположенных одна над другой на равных расстояниях. Осадка на каждой позиции определяется как точка пересечения марки углубления с водной поверхностью. Зная значения осадки на каждой из позиций, определяется средняя осадка судна (Mean of Mean), которая в дальнейшем и используется для определения текущей загрузки судна. В мировой практике замеры осадок на оконечностях производятся с лодки или катера совместно драфт-сюрвейером и грузовым помощником судна. На переходном этапе также можно проводить видеосъемку с катера, используя электронный стабилизатор с цифровой камерой. В дальнейшем, для полной автоматизации произведения замеров, предлагается использовать цифровую камеру, прикрепленную на беспилотный летательный аппарат (БПЛА), оснащенный системой автономной навигации.

Вне зависимости от способа получения видеозаписей марок углубления, видео передается на центральный компьютер, где подвергается обработке алгоритмами машинного обучения. В частности, сначала определяется положение цифр марки углубления, производится построение координатной шкалы, позволяющей сопоставить масштаб изображения с реальными размерами цифр [7, 8]. Затем производится сегментация водной поверхности, в окрестности точки пересечения с координатной шкалой строится ватерлиния и уже по ординате полученной точки пересечения определяется действительное значение осадки на каждом кадре. Функциональная схема алгоритма обработки видео представлена на рис. 2.

Doc23.pdf

Рис. 1. Положение марок углубления и их вид

Doc24.pdf

Рис. 2. Алгоритм обработки видеозаписей марки углубления

Выбор длительности видео обоснован экспериментально, путем обработки видео различной длины методами линейной фильтрации. Так, показано, что видео длительностью в одну минуту, соответствует массиву из 1800 значений осадки при 30 кадрах в секунду, достаточно, чтобы достичь точности в 0,5 мм при волнении, что уже значительно превосходит большинство альтернативных методов. Дальнейшее повышение точности возможно за счет увеличения точности единичных измерений, а также совершенствования цифровых фильтров, применяемых для обработки данных. В данной статье основное внимание будет уделено обработке изображений, а также получению дискретного значения осадки на каждом кадре.

Разработке модели управления БПЛА и цифровым фильтрам, применяемым для обработки массивов данных, будут посвящены последующие работы.

Обнаружение цифр марок углубления на изображении. В работах [5, 9–11] предложены способы определения цифр марок углубления при помощи методов компьютерного зрения. Такие методы эффективны при благоприятных условиях съемки и освещения, однако зачастую условия эксплуатации судна далеки от идеальных. Поэтому для успешного применения алгоритмов компьютерного зрения требуется их тщательная настройка в каждом отдельном случае. К такой настройке относится удаление шумов, подбор параметров бинаризации, настройка и оценка качества работы дескрипторов.

Помимо временных затрат, определение осадки таким способом требует высокой квалификации грузового офицера в вопросе алгоритмов компьютерного зрения. Очевидно, что в реальных условиях эксплуатации судна использование классических методов компьютерного зрения нецелесообразно.

При выборе алгоритмов мы руководствовались результатами International Conference on Document Analysis and Recognition (ICDAR Competition on Robust Reading) 2015 г. [8], а также публикациями из списка [12], однако многие из представленных методов больше подходят для распознавания заранее подготовленного большого объема текста, а также не исключают возможности дополнительной настройки человеком. Наша задача состоит в определении всего десяти различных цифр и буквы «М», при этом определение координат цифр так же важно, как и их идентификация.

Исходя из причин, описанных выше, было принято решение работать с изображениями с точки зрения детекции объектов, а не поиска текста. Для решения данной задачи существует ряд методов [4], большинство из которых предполагает применение искусственных нейронных сетей к изображению или видеоряду. Опираясь на результаты эффективности различных нейросетей в других задач обнаружения объектов на изображении, а также учитывая, что для определения осадки судна необходимо обрабатывать большие массивы изображений (до 10800 изображений за один драфт сюрвей) в реальном времени, было принято решение использовать нейросети архитектуры YOLO, в частности YOLO v5. К неоспоримым достоинствам данной нейросети стоит отнести скорость её работы (до 60 кадров в секунду), малые размеры (до 250 Мб), а также низкие требования к вычислительной мощности.

Для обучения нейронной сети была собрана база данных из 32 видео марок углубления с судов, находящихся на рейде Керченского пролива, а также балкеров мирового флота. Нейросеть обучалась распознавать 11 классов, среди которых десять цифр и буква «М». Для этого было размечено 750 изображений, на которых было выделено 6430 аннотаций. В качестве средства маркировки изображений использовался сервис «Roboflow». Для аугментации данных использовалось три вида аффинных преобразований (сдвиг, растяжение, поворот), а также зашумление изображений, в результате чего исходную выборку удалось расширить до 3750 изображений. Если оценивать точность определения без этих цифр, то она составит 93,9 %, а следовательно, высокоточная детекция цифр на изображении вполне реальна, и для дальнейшего улучшения качества работы нейросети необходимо увеличение доли редко встречающихся классов в тренировочной выборке. График зависимости метрики mAP от количества эпох, а также результаты точности определения цифр различных классов представлены на рис. 3.

Пример работы YOLO v5 на тестовом изображении приведен на рис. 4.

Doc25.pdf

Рис. 3. Оценка точности YOLO v5 совокупная и по классам

Doc26.pdf

Рис. 4. Пример определения цифр марки углубления на зашумленном изображении

Определение ватерлинии. После построения координатной шкалы, привязанной к цифрам марки углубления, нам необходимо определить точку пересечения марки углубления с ватерлинией. Иными словами, перед нами стоит задача определения границы водной поверхности. Для определения границ существует множество способов, в частности, классическими являются операторы Кенни, Собеля, Прюитта, Шарра, Робертса. Как и многие другие алгоритмы компьютерного зрения, данный набор детекторов требует тщательной настройки параметров степени размытия изображений и параметров двойной пороговой фильтрации. В зависимости от настройки, условий шума на изображениях, условий освещения, детекторы могут находить как чрезмерное, так и недостаточное количество границ на изображении.

В качестве замены предлагается использовать сверточные нейронные сети. Обычно для задач сегментации применяются нейронные сети семейств R-CNN, FCN, а также U-Net и ASPP. В нашем случае было принято использовать нейронную сеть типа U-Net, поскольку она наилучшим образом подходит для разделения изображения на два класса. На нейронной сети также подается изображение размерами 640х360 пикселей, на выходе мы получаем изображение-маску, где пиксели отнесены к одному из двух классов (рис. 5).

Получение конечного значения осадки судна. Зная расположение цифр марок углубления и их реальные размеры на корпусе судна (высота каждой буквы 0.1 м), мы можем построить координатную шкалу. В качестве опорных точек берутся цифры, находящиеся рядом с «М». Так, например, если рядом с «М» находится «8», то центр прямоугольника с буквой соответствует значению осадки в 8,05 метра. Далее мы сверяем порядок расположения цифр на всем изображении. Это нужно, чтобы выявить ошибочно определенные цифры и восполнить пробелы, если некоторые цифры не обнаружены вовсе [13, 14]. По центрам прямоугольников, используя метод наименьших квадратов, мы можем построить координатную прямую. По ней мы можем определить масштаб изображения и предельную точность каждого конкретного измерения. Пример такого построения показан на рис. 6. В показанном случае один пиксель изображения соответствует 3,5 мм, что также является предельной точностью данного измерения.

Для полной автоматизации определения осадки судна в перспективе предполагается интеграция данной технологии с автономным беспилотным летательным аппаратом.

Doc27.pdf

Рис. 5. Сегментация водной поверхности при помощи U-Net

Doc28.pdf

Рис. 6. Построение координатной прямой на изображении

Заключение

Идея применения технологий технического зрения к задаче определения осадки судна возникла еще в 2011 г. и параллельно развивалась несколькими группами исследователей. Тем не менее методы, основанные на классических алгоритмах компьютерного зрения, сильно подвержены влиянию шума, наличию бликов на изображении, требуют тонкой настройки перед применением и тщательного контроля со стороны человека во время работы.