Метод георадиолокации в настоящее время является наиболее передовым и производительным методом при решении задач инженерно-геологических исследований. Основанием метода служит изучение отклика объектов зондируемой среды, различающихся электрическим сопротивлением и диэлектрической проницаемостью [1]. В георадиолокации одним из классических способов определения диэлектрической проницаемости среды является использование осей синфазности, образованных локальными неоднородностями, залегающими в ее толще. Такие объекты образуют на изображениях радарограмм выраженные линии гиперболических форм. По кривизне гиперболической кривой и ее пространственно-временному положению на профиле радарограммы вычисляется диэлектрическая проницаемость среды. Это позволяет строить предположения о геологическом строении массива горных пород выше объекта дифракции, его структуре и глубине залегания.
Цель исследования – автоматизация обнаружения гиперболических осей синфазности в результатах георадиолокационных измерений массива мерзлых горных пород.
С точки зрения исследований георадиолокационные данные являются достаточно сложным объектом. Данная сложность часто обусловлена присутствием различного вида шума и помех. Вследствие чего линии осей синфазности не всегда четко визуализируются на изображениях георадиолокационных радарограмм. Поэтому обработка таких данных часто требует значительного времени. Несмотря на то, что задача интерпретации данных георадиолокации частично автоматизирована, основная нагрузка лежит на плечах оператора-геофизика. Таким образом, автоматизация процедур обработки и интерпретации данных георадиолокационных исследований является важной задачей не только для сокращения времени обработки, но и для получения достоверного результата.
Искусственные нейронные сети глубокого обучения успешно зарекомендовали себя в распознавании образов на изображениях, даже достаточно зашумленных. В данной работе для локализации гиперболических образов на изображениях радарограмм были применены искусственные нейронные сети на основе алгоритмов Faster R-CNN. Faster R-CNN – архитектура детектирования образов, разработанная в компании Microsoft, основана на сверточных нейронных сетях с оригинальной методикой системы якорей. Несмотря на появление в последние годы новых алгоритмов, показывающих более низкий процент ошибок, модели на основе Faster R-CNN стабильно не уступают им и держатся в лидерах.
Схема алгоритма Faster R-CNN [2] приведена на рис. 1.
На вход сети подается тензор изображения любого размера, который проходит через сверточные слои (Conv Layers). Из каждого слоя извлекаются признаки (Feature Maps), которые проходят через сеть регионов – Region Proposal Networks (RPN) – сеть региональных предложений. RPN – это центральный элемент Faster R-CNN. Распознанные регионы подаются затем на полносвязные слои, вместе с признаками (Feature Maps), отобранными после генерации регионов признаков. Последнее позволяет эффективно увеличивать скорость обучения сети без потери качества. В итоге на полносвязных слоях каждый прямоугольный регион получает свою оценку принадлежности объекту, также уточняются координаты регионов.
Рис. 1. Архитектура Faster R-CNN. Центральное звено – модуль RPN
Материалы и методы исследования
Для обучения и тестирования модели нейронной сети были использованы модули из программного пакета PyTorch – платформы машинного обучения с открытым исходным кодом [3]. Модули PyTorch позволяют создавать модели данных, основанные на известных архитектурах нейронных сетей глубокого обучения: resnet, alexnet, squeezenet, vgg16, densenet, inception и т.д.
Набор данных был подготовлен в созданном авторами приложении для разметки регионов и формирования xml-файлов описаний. Структура файлов описаний была создана на основе формата Pascal VOC [4] – один из рекомендуемых форматов для обучения моделей нейронных сетей детектирования объектов. Координаты ограничивающей рамки кодировались четырьмя значениями в пикселях: x_min и y_min – координаты верхнего левого угла ограничивающей рамки, x_max и y_max – координаты нижнего правого угла. Размеры изображений были установлены равными 640х640 пикселей с разрешением 72 dpi.
При обучении сети к тренировочной выборке были применены некоторые методы, предоставляемые библиотекой Albumentations [5] пакета PyTorch:
− RandomBrightnessContrast (порог яркости = 0.5, порог контрастности = 1, p = 0.1);
− RandomGamma (p = 0.2).
Использование методов аугментации помогает бороться с переобучением и повышает производительность глубоких нейронных сетей.
Для создания набора данных было использовано 330 изображений радарограмм, на каждой из которых были размечены от 2 до 10 регионов. Возможности функций библиотеки Albumentations были применены также для увеличения объема набора данных. Такие трансформации, как Blur, HorizontalFlip, RandomBrightnessContrast, RandomGamma, позволили расширить набор данных приблизительно в 5 раз. Изображения и файлы с разметкой были разбиты на обучающую и тренировочную выборку в соотношении 6:1.
Для обучения были взяты предварительно обученные модели, что позволило сократить время обучения по сравнению с обучением с нуля. Были использованы следующие модели сверточных нейронных сетей:
− ConvNext;
− DarkNet;
− EfficientNet;
− MbV3;
− SqueezeNet;
− MobileNetV3;
− Nano;
− ResNet50.
Для корректировки весов сети в качестве оптимизаторов обучения моделей были исследованы два наиболее распространенных метода: SGD – стохастический градиентный спуск и Adam – адаптивная оценка момента. Оптимизатор SGD был выбран с использованием скользящего среднего: импульс momentum = 0.9 и Nesterov Accelerated Gradient в значении True, что обеспечивает быструю сходимость и уменьшает колебания. Шаг обучения был установлен минимальным: learning rate = 0.001. Для Adam были установлены lr = 0.001 и weight_decay = 0.0005. Был выбран оптимизатор SGD, который по результатам обучения показал лучшую сходимость.
Обучение моделей проводилось с использованием видеокарты NVIDIA GeForce RTX 3060. Настраиваемые параметры обучения:
− количество эпох – 100;
− размер пакетов – 6;
− алгоритм оптимизации – SGD (learning rate = 0.01; momentum = 0.9; Nesterov = true).
Для анализа результатов обучения была использована оценка точности предсказания регионов по метрике mAP (mean Average Precision) [6] – популярная метрика измерения точности алгоритмов детекторов объектов, таких как Faster R-CNN, SSD и т.д.
.
Для оценки mAP используются следующие вычисления: precision – сколько положительных предсказаний оказались верными; recall – сколько положительных предсказаний были верными среди всех истинно верных случаев.
precision = TP / (TP + FP),
recall = TP / (TP + FN)
где TP (true positive) – предположение о принадлежности объекта классу было верным, FP (false positive) – предположение о принадлежности объекта классу было неверным, FN (false negative) – предположение о непринадлежности объекта классу было неверным.
IoU (Intersection over Union) – процент перекрытия предсказанной областью его реальной области нахождения. Для расчета точности модели были определены пороги IoU: до 0.5 и от 0.5 до 0.95.
Результаты исследования и их обсуждение
Расчет точности детектирования объектов оценивался на изображениях валидационного набора данных, не участвовавших в обучении. По результатам обучения лучший показатель точности детектирования по оценке mAP показала предварительно обученная модель ResNet50 FPN V2 (рис. 2).
Глубокие нейронные сети позволяют решать задачи повышения эффективность работы сети, но при увеличении количества сверточных слоев часто возникает проблема: стабильно возрастающая точность через несколько эпох начинает резко падать. Модели классов ResNet (Residual Network) [7] были разработаны для решения этой проблемы. Главной особенностью архитектуры сетей ResNet является наличие «остаточного обучения» – дополнительная передача признаков через два следующих слоя. Это дает возможность сохранять более детальную информацию со слоев (рис. 3).
Анализ результатов тестирования обученной модели показал обнаружение множественных близко расположенных/наложенных друг на друга, а также отображенных лишь частично гиперболических осей синфазности. Пример успешного обнаружения искомых объектов приведен на рис. 4, а. Однако большинство размеченных регионов набора данных содержат размытые, малоконтрастные образы гиперболических осей, которые не были локализованы. Это объясняет небольшой процент точности, равный 50 % по метрике mAP (рис. 4, б).
а) б)
Рис. 2. Результаты обучения сети: а) оценка точности по метрике mAP; б) график ошибки обучения тренировочного набора данных
Рис. 3. Строительный блок сети ResNet
а) б)
Рис. 4. Примеры результатов тестирования: а) с максимальным количеством локализованных образов; б) с нелокализованными образами
Заключение
Обработка результатов георадиолокационных исследований является сложной технической задачей из-за наличия на радарограммах большого количества помех и шума различного характера: переотражение, рассеяние волн и пр. Состав исследуемого грунта также влияет на картину сигналов на радарограмме: например, во влажных глинистых грунтах радиоволны быстро затухают. По этим причинам задача достоверного определения состава подпочвенной среды традиционно решается в комплексе с другими дорогостоящими методами: сейсморазведка, бурение и пр.
На сегодняшний день существует достаточно много успешных исследований в использовании нейронных сетей для автоматизации обработки георадарных данных. Авторы работы также применили алгоритмы искусственных нейронных сетей глубокого обучения для интерпретации результатов георадиолокационных измерений.
Полученное значение эффективности модели составило 50 % при IoU = 0.5 и 20 % при допуске IoU от 0.5 до 0.95, что является показателем малой успешности результатов обучения по метрике mean Average Precision. В данное время авторы продолжают работу по исследованию моделей сверточных нейронных сетей для повышения процента точности обнаружения. В частности, ведется работа по увеличению количества и качества данных и подбору/настройке параметров и гиперпараметров сети. Кроме того, планируется деление общего класса набора данных на несколько классов в зависимости от расположения осей синфазностей на временной оси. Данное изменение объясняется тем, что характер рисунка осей синфазности при увеличении глубины сканирования меняется: изображение становится размытым, бледным и нечетко визуализируемым. Такие изображения лучше выделить в отдельный класс.
Объем обучающего набора данных был расширен благодаря использованию методов аугментации программного пакета PyTorch. Кроме того, за счет применения некоторых методов аугментации также и при обучении модели удалось повысить процент точности детектирования. Например, показатель точности изменился с 25 до 40 % уже только при добавлении функции яркости/контрастности (RandomBrightnessContrast).
При достижении оптимальной точности локализации искомых объектов результаты работы планируется использовать авторами в приложении, предназначенном для исследования электрофизических свойств грунта. Таким образом, результаты данного исследования помогут эффективно и на более качественном уровне проводить работы по выявлению свойств горных пород и построению разрезов геологических слоев.