Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 1,279

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ ДЛЯ ОБНАРУЖЕНИЯ МАЛЫХ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ

Долженкова М.Л. 1 Махди М-А.Х. 1 Мельцов В.Ю. 1 Чистяков Г.А. 1
1 Федеральное государственное бюджетное образовательное учреждение высшего образования «Вятский государственный университет»
Долженкова М.Л. - методология исследования, административное руководство исследовательским проектом
Махди М.Х. - разработка программного обеспечения
Мельцов В.Ю. - разработка концепции, научное руководство, написание рукописи – рецензирование и редактирование
Чистяков Г.А. - работа с данными, анализ данных
В представленной работе объектом исследования являются системы компьютерного зрения, в частности методы и алгоритмы анализа изображений. Рассматривается возможность и эффективность применения нейросетевого подхода к поиску, детекции и классификации отдельных объектов на изображениях. Особое внимание уделяется анализу достоинств и недостатков различных вариантов решения задачи обнаружения малых объектов. Целью исследования является проведение сравнительного анализа современных нейросетевых технологий и создание более совершенной гибридной модели прикладного искусственного интеллекта для повышения эффективности обнаружения объектов за счет семантической интерпретации изображений. Представлено обоснование выбора нейросимвольной архитектуры на основе логических тензорных сетей, объединяющей логические правила и глубокое обучение. На основе анализа известных архитектур разработана модифицированная модель LtnDetector, дополненная тензорными адаптерами и сетью оценки соотношений для обработки контекста. Предлагаемая авторами интеллектуальная система обладает двухконтурной структурой: контур инференса ориентирован на непосредственную обработку входной информации и выдачу результатов обнаружения, тогда как контур обучения отвечает за адаптацию и улучшение параметров системы с течением времени. Проведенное экспериментальное тестирование программного прототипа системы на базе крупномасштабного датасета для обнаружения лиц Wider Face показало преимущества логических тензорных моделей с добавлением логических правил по основным метрикам, используемым при машинном обучении. Надежное обнаружение малых объектов критически важно для практических приложений, таких как анализ спутниковых снимков, видеонаблюдение (анализ лиц в толпе), медицинская диагностика, управление беспилотными автономными системами и т.п.
анализ изображений
нейронные сети
обнаружение объектов
малые объекты
модель
нейросимвольная архитектура
фреймворк
1. Zorin V.A., Mescheryakov R.V. Analytical review of neural network algorithms for fire detection in emergency situations // Vestn. Yuzhno-Ural. Gos. Un-ta. Ser. Matem. Mekh. Fiz. 2025. Vol. 17. Is. 2. P. 23–34. URL: https://www.mathnet.ru/eng/vyurm635 (дата обращения: 03.09.2025).
2. Hu H., Bai S., Li A., Cui J., Wang L. Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville. USA. 2021. P. 10180–10189. DOI: 10.1109/CVPR46437.2021.01005. URL: https://ieeexplore.ieee.org/document/9577760 (дата обращения: 05.09.2025).
3. Ma W., Liu S., Li Z., Sun J. IQDet: Instance-wise quality distribution sampling for object detection // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. P. 1717–1725. DOI: 10.1109/CVPR46437.2021.00176.
4. Liu Z., Gan M., Xiong L., Mao X., Que Y. Multilevel receptive field expansion network for small object detection // IET Image Processing. Vol. 17. Is. 8. Jun 2023. P. 2299–2559. DOI: DOI: 10.1049/ipr2.12799. URL: https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/ipr2.12799 (дата обращения: 05.09.2025).
5. Gao S.S., Cheng M.M., Zhao K., Zhang H.Y., Yang M.H., Torr P. Res2Net: A new multi-scale backbone architecture // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021. T. 43. № 2. P. 652–662. DOI: 10.1109/TPAMI.2019.2938758.
6. Захаров А.А. Метод обнаружения объектов на изображениях на основе нейронных сетей на графах и небольшого количества обучающих примеров // Программные системы и вычислительные методы. 2024. № 4. URL: https://nbpublish.com/library_read_article.php?id=72558 (дата обращения: 18.09.2025).
7. Köhler M., Eisenbach M., Gross H.M. Few-Shot Object Detection: A Survey // IEEE Transactions on Neural Networks and Learning Systems. 2024. Vol. 35 (9). P. 11958–11978. URL: https://ieeexplore.ieee.org/abstract/document/10103630 (дата обращения: 17.09.2025).
8. Махди М.Х. Нейросимвольные архитектуры в задаче обнаружения малых объектов на изображении // Вектор научной мысли. 2025. № 3 (20) Март. С. 1–3. URL: https://vektornm.ru/03_2025/ (дата обращения: 18.08.2025).
9. Samarin A., Savelev A., Toropov A et al. ADSAR: Advanced Dual-Stream Attention and Reweighting for Small Object Detection // Pattern Recognition and Image Analysis. 2025. Vol. 35. Is. 2. P. 211–218. DOI: 10.1134/S1054661825700129. EDN: ZMTMYY.
10. Zou Z., Chen K., Shi Z., Guo Y., Ye J. Object Detection in 20 Years: A Survey // Proceedings of the IEEE. 2023. Vol. 111 (3). P. 257–276. DOI: 10.1109/JPROC.2023.3238524.
11. Diligenti M., Gori M., Sacca C. Semantic-based regularization for learning and inference // Artificial Intelligence. 2019. Т. 244. P. 143–165. DOI: 10.1016/j.artint.2015.08.011.
12. Cohen W., Yang F., Mazaitis K. TensorLog: A Probabilistic Database Implemented Using Deep-Learning Infrastructure // Journal of Artificial Intelligence Research (JAIR). 2020. Vol. 67. P. 285–325. DOI: 10.1613/jair.1.11944.
13. Мельцов В.Ю., Страбыкин Д.А. Вывод следствий с построением схемы логического вывода // Фундаментальные исследования. 2013. № 11-8. С. 1588–1593. URL: https://fundamental-research.ru/ru/article/view?id = 33384 (дата обращения: 01.09.2025).
14. Liu Z., Jiang Z., Feng W., Feng H. OD-GCN: Object Detection Boosted by Knowledge GCN // 2020 IEEE International Conference on Multimedia & Expo Workshops (ICMEW). London, UK. 2020. P. 1–6. DOI: 10.1109/ICMEW46912.2020.9105952.
15. Крутиков А.К., Мельцов В.Ю. Метод формирования многоярусной нейросетевой системы прогнозирования с возможностью реконфигурации // Известия Юго-Западного государственного университета. 2024. Т. 28. № 4. С. 104–123. DOI: 10.21869/2223-1560-2024-28-4-104-123.
16. Donadello I., Serafini L., Garcez A. Logic Tensor Networks for Semantic Image Interpretation // Proceedings of the 26th International Joint Conference on Artificial Intelligence. 19 August 2017. P. 1596–1602. URL: https://dl.acm.org/doi/10.5555/3172077.3172109 (дата обращения: 23.09.2025).
17. Dong H., Mao J., Lin T., Wang C., Li L., Zhou D. Neural Logic Machines // Proceedings of the 7th International Conference on Learning Representations (ICLR 2019). 2019. Paper 1193. P 1–14. URL: https://openreview.net/forum?id = B1xY-hRctX (дата обращения: 24.09.2025).
18. Manhaeve R., Dumancic S., Kimmig A., Demeester T., De Raedt L. Neural Probabilistic Logic Programming in DeepProbLog // Artificial Intelligence. 2021. Vol. 298. 103504. DOI: 10.1016/j.artint.2021.103504.
19. WIDER_FACE_A_Face_Detection_Dataset. A Face Detection Benchmark. URL: https://www.kaggle.com/datasets/iamprateek/wider-face-a-face-detection-dataset (дата обращения: 05.07.2025).
20. Dai X., Chen Y., Xiao B., Chen D., Liu M., Yuan L., et al. Dynamic Head: Unifying Object Detection Heads with Attentions // IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, 2021. P. 7369–7378. DOI: 10.1109/cvpr46437.2021.00729.

Введение

Обнаружение объектов (Object Detection) – это процесс идентификации и локализации объектов на изображении или видеопотоке с использованием методов компьютерного зрения и машинного обучения. Этот процесс включает несколько ключевых компонентов [1]: идентификацию объектов; локализацию объектов; классификацию объектов.

Малым объектом обычно считается объект, занимающий очень малую площадь на изображении.

Таблица 1

Известные модели обнаружения объектов

Подход

Модели, использующие подход

Стратегии увеличения объема данных

SOD, RRNet, DS-GAN

Оптимизированное назначение меток

S3FD, EMO, DotD, RFLA

Детекторы, зависящие от масштаба

FPN, MS-CNN, SSH, ScaleMatch

Иерархическое объединение признаков

PANet, MFR-CNN, Fusion Factor, SSPNet

Методы, основанные на внимании

SCRDet, FBR-Net, MSCCA, CANet

Методы контекстного моделирования

PyramidBox, SINet, R2-CNN, CAD-Net

Примечание: составлена авторами на основе источников [5–7]

Часто используются следующие эмпирические пороги [2]:

– Площадь в пикселях менее 32x32 пикселя (стандарт MS COCO: объекты < 322 пикселей).

– Отношение площади объекта к площади изображения (< 0,01 %).

– Объект занимает менее 10 % ширины/высоты изображения.

Object Detection – одна из ключевых задач компьютерного зрения, с успехом решаемая современными глубокими нейронными сетями (DNN), такими как Faster R-CNN, YOLO, SSD, RetinaNet. Однако, несмотря на впечатляющие успехи в обнаружении объектов среднего и крупного размера, надежное обнаружение малых объектов (small objects) остается серьезной и нерешенной проблемой [3].

Причинами такого разрыва являются следующие моменты [4].

1. Малое количество пикселей означает малое количество визуальной информации (цвет, текстура, границы). Нейросети не хватает данных для построения надежных отличительных признаков (features).

2. Операции понижающей дискретизации, критически важные для увеличения рецептивного поля и уменьшения вычислительной сложности, неизбежно агрегируют информацию и теряют мелкие детали (pooling).

3. Малых объектов на изображениях обычно значительно больше, чем крупных. Однако аннотировать их сложнее и дороже (anchor boxes).

4. Точное очерчивание малых объектов (bounding box) сложно и субъективно. Кроме того, даже незначительное смещение аннотации может привести к большой потере IoU (Intersection over Union) для малого объекта.

В настоящее время научные исследования сосредоточены на трех ключевых направлениях: улучшение архитектуры сети, модификация процесса обучения и улучшение входных данных [5–7].

В табл. 1 представлены существующие современные подходы обнаружения малых объектов и модели, реализующие эти подходы.

К сожалению, данные технологии обладают рядом ограничений при решении указанной проблемы [8]: многие методы значительно увеличивают вычислительные затраты и замедляют инференс; детекция малых объектов остается чувствительной к размытию и сильному шуму [9]; эффективность сильно зависит от качества и количества малых объектов в обучающем наборе; имеется большое число ложных срабатываний. Кроме того, методы, хорошо работающие на одном наборе данных, могут хуже работать в других доменах (спутниковые снимки, медицинские изображения, автономное вождение). Уменьшение пространственной избыточности и поиск многомерных признаков зачастую «уничтожают» представление малых объектов [10].

Цель исследования – проведение сравнительного анализа современных нейросетевых технологий и создание более совершенной гибридной модели прикладного искусственного интеллекта (ИИ) для повышения эффективности обнаружения объектов.

Материалы и методы исследования

Главная идея проекта заключается в совмещении обучения на основе данных (нейросеть) с существующими фоновыми знаниями в виде реляционных баз знаний или логических аксиом (собственно искусственный интеллект), что даст системе возможность моделировать рассуждения [11]. В представленной работе основное внимание уделено результатам применения высокоточных систем с нейросимвольной архитектурой. Подобные системы представляют собой гибридный подход в области искусственного интеллекта, объединяющий символический ИИ и нейронные сети [12]. Символический ИИ фокусируется на явных, интерпретируемых представлениях знаний, используя правила и математическую логику для обработки информации [13]. Примерами современных субсимволических систем являются такие известные проекты, как GPT (Generative Pre-trained Transformer), семейство конволюционных нейронных сетей YOLO и диффузионно-трансформерных моделей DALLE [14].

Для проведения исследований была разработана интеллектуальная система обнаружения малых объектов (ИСМО). Ее структура представлена на рис. 1. Система имеет двухконтурную архитектуру – контур инференса и контур обучения, что позволяет решить две основные задачи исследования: оперативное выполнение процесса обнаружения объектов на основе текущих данных и совершенствование системы за счет обработки обучающих данных. Оба контура связаны через общий интерфейс, который обеспечивает согласованность в обработке данных, а также обмен параметрами между подсистемами. Это дает возможность системе оставаться актуальной и эффективной в условиях изменения внешней среды [15].

В основе ИСМО лежат три модели, которые условно обозначены как «Сверточная нейронная сеть» (CNN), «LTN-сеть с правилами» (LTN – Logic Tensor Network, логическая тензорная сеть) и «Light LTN-сеть» (упрощенная тензорная сеть). Важно отметить, что модели работают независимо друг от друга. Они могут вызываться по указанному пользователем циклу или, при наличии необходимой мощности аппаратной части, параллельно.

Сверточная нейронная сеть, реализованная в системе как ObjectDetector, является базовой аналитической моделью, предназначенной для обнаружения объектов на изображениях. Ее архитектура разработана для эффективного извлечения признаков, их обработки и выполнения задач классификации и локализации объектов.

Light LTN-сеть, реализованная в системе как LightLtnDetector, представляет собой гибридную аналитическую модель, которая наследует архитектурные основы сверточной нейронной сети и дополняет их адаптерами для извлечения дополнительных признаков, подготавливая их для логических рассуждений. Эта модель занимает промежуточное положение между базовой сверточной сетью и полноценной LTN-сетью с логическими правилами, обеспечивая баланс между вычислительной эффективностью и интеграцией элементов нейросимвольного подхода.

Рис. 1. Структура интеллектуальной системы Примечание: составлен авторами на основе полученных данных в ходе исследования

Математический аппарат LTN-сетей базируется на идее представления логических утверждений в виде тензорных операций, что обеспечивает их интеграцию в процесс обучения нейронной сети [16]. Модель LTN преобразует логику первого порядка в дифференцируемые функции потерь. Логические операторы (И, ИЛИ, НЕ) аппроксимируются с помощью непрерывных функций, таких как:

− логическое И:

;

− логическое ИЛИ:

;

− импликация:

.

Логические правила формализуются как ограничения, добавляемые в функцию потерь модели [17]:

(1)

где Sat(r) – степень удовлетворения правила r, а λ – гиперпараметр, регулирующий влияние логики.

Такой подход позволяет модели совмещать обучение на данных с соблюдением логических правил, что критично для задач с ограниченной размеченной информацией, таких как обнаружение малых объектов.

В качестве развития рассмотренного выше LTN подхода авторами была разработана LTN-сеть с логическими правилами. Такая модель представляет собой наиболее сложную, гибридную аналитическую модель для обнаружения малых объектов с учетом априорных знаний и контекстных зависимостей. Эта модель сочетает элементы сверточных нейронных сетей и нейросимвольного подхода, расширяя возможности базовой сверточной сети и Light LTN-сети за счет интеграции логических ограничений.

В рамках проекта были добавлены два ключевых правила, формализующих априорные знания о структуре сцены: ограничение на перекрытие объектов и согласованность размеров.

Правило 1. Ограничение на перекрытие объектов. Семантика правила заключается в том, что объекты одного класса не должны значительно перекрываться. Математическая запись правила имеет вид:

(2)

где IoU(x, y) – метрика перекрытия между боксами x и y, SameClass(x, y) – предикат совпадения классов.

Правило 2. Согласованность размеров. Семантика правила заключается в том, что размеры объектов в рамках одной сцены должны быть статистически однородными. Математическая запись правила имеет вид

(3)

где – площадь ограничивающей рамки, а MedianSize – медиана ограничивающих рамок.

Интеграция этих двух правил в функцию потерь позволяет LTN-сети эффективно справляться с задачами, где визуальные признаки недостаточны для точного обнаружения. Например, в сценах с высокой плотностью объектов или шумом она может отфильтровать ложные предсказания, опираясь на априорные знания. Это делает ее наиболее продвинутым инструментом в системе, особенно для обнаружения малых объектов в условиях ограниченных данных.

Результаты исследования и их обсуждение

Для сравнительного анализа эффективности трех представленных выше модулей ИСМО был разработан программный прототип с использованием языка программирования Python и фреймворка PyTorch [18]. Для ускорения вычислений применяется GPU NVIDIA RTX 4060 8gb и набор CUDA Toolkit 12.4. Поскольку основное внимание в исследовании было уделено предлагаемой модификации – модели LTN-сети с логическими правилами, то для нее было реализовано три варианта: с весами логических правил λ = 0,1; λ = 0,25; λ = 0,5.

В качестве обучающего пакета использован общепринятый, находящийся в свободном доступе крупномасштабный датасет для обнаружения лиц WIDER Face [19]. Он содержит 32203 изображения с 393703 размеченных лиц, из которых 40 % – малые объекты (менее 32×32 пикселей). Один из тестовых примеров показан на рис. 2.

Необходимо было распознать пять малых «смазанных» объектов – лиц марширующих музыкантов. Базовая модель CNN-сети правильно распознала четыре из них, еще два лица отнесла к малым объектам, хотя их размеры превышают метрику COCO, а также «увидела» три объекта, не относящихся к лицам (рис. 2). Модель LtnDetector даже с весом λ = 0,25 правильно обнаружила все пять мелких объектов.

Результаты экспериментов «Оверфит на одной картинке» представлены в табл. 2.

Рис. 2. Инференс базовой модели (CNN) Примечание: составлен авторами на основе источника [19] и результатов исследования

Таблица 2

Результаты экспериментов «Оверфит-1»

Модель

IoU

mAP

Precision

Recall

F1 Score

Avg

Max

Avg

Max

Avg

Max

Avg

Max

Avg

Max

CNN

0,956

0,993

0,000

0,001

0,000

0,016

0,041

0,290

0,001

0,022

Light LTN

0,956

0,994

0,000

0,002

0,000

0,018

0,040

0,258

0,001

0,023

LTN λ = 0,1

0,835

0,948

0,000

0,000

0,000

0,002

0,013

0,129

0,000

0,004

LTN λ = 0,25

0,811

0,948

0,000

0,001

0,000

0,003

0,017

0,129

0,001

0,005

LTN λ = 0,5

0,776

0,936

0,000

0,000

0,000

0,003

0,001

0,065

0,000

0,006

Примечание: составлена авторами на основе результатов исследования

Рис. 3. Результаты экспериментов по метрике IoU Примечание: составлен авторами на основе результатов исследования

В качестве метрик для оценки эффективности моделей выбраны типовые показатели, используемые в области искусственных нейронных сетей и методов машинного обучения.

– Precision (Точность) – доля правильно предсказанных объектов.

– Recall (Полнота) – доля правильно определенных реальных объектов.

– mAP (Mean Average Precision) – средняя точность по всем классам.

– F1 Score – среднее гармоническое между Precision и Recall.

– Intersection over Union (IoU) – степень перекрытия между предсказанным и реальным ограничивающим прямоугольником.

Результаты экспериментов по метрике IoU приведены на рис. 3.

В базовой модели CNN степень расхождения между предсказанным и реальным ограничивающим прямоугольником составила более 80 % (на диаграмме не показана). Для фреймворка Light LTN расхождение обнаружено примерно в 70 % случаев. Модель LTN с весом λ = 0,5 практически в половине экспериментов (~50 %) правильно спрогнозировала наличие малого объекта на изображении. Если взять в качестве оппонента одну из самых лучших современных моделей обнаружения объектов DyHead [20], то метрика Intersection over Union для малых объектов на тестовом наборе COCO, полученная DyHead, составляет около 72 %.

Заключение

Проблема обнаружения малых объектов с помощью нейронных сетей является сложной и многогранной задачей, уходящей корнями в фундаментальные ограничения архитектуры CNN (потеря деталей при пулинге), дисбалансы в данных и сложность формирования информативных признаков из малого числа пикселей. Проведенное исследование подтвердило, что нейросимвольный подход преодолевает фундаментальные ограничения субсимвольных методов в задачах с дефицитом размеченных данных и высокой вариативностью сцен.

Предлагаемое архитектурно-структурное решение интеллектуальной системы служит основой для проведения экспериментов с различными конфигурациями, методами оптимизации и стратегиями аугментации, сохраняя при этом целостность и управляемость системы. Тестирование программного прототипа показало преимущества LTN-моделей над существующими проектами по основным метрикам прикладного искусственного интеллекта. Модифицированная версия ИСМО обеспечивает не только эффективное обучение моделей, но и прозрачность процесса, что критично для научно-исследовательских задач. Добавление в LTN-сети логических правил делает их наиболее продвинутым инструментом в интеллектуальных системах, особенно для обнаружения малых объектов в условиях ограниченности исходных данных и наличия шумов. Надежное обнаружение малых объектов критически важно для практических приложений, таких как анализ спутниковых снимков, видеонаблюдение (анализ лиц в толпе), медицинская диагностика, управление беспилотными автономными системами и т.п.


Конфликт интересов
Авторы заявляют об отсутствии конфликта интересов

Финансирование
Статья подготовлена в рамках реализации гранта федерального проекта «Искусственный интеллект», входящего в состав национального проекта «Экономика данных и цифровая трансформация государства» на базе автономной некоммерческой организации «Аналитический центр при Правительстве Российской Федерации».

Библиографическая ссылка

Долженкова М.Л., Махди М-А.Х., Мельцов В.Ю., Чистяков Г.А. ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ ДЛЯ ОБНАРУЖЕНИЯ МАЛЫХ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ // Современные наукоемкие технологии. 2025. № 11. С. 30-36;
URL: https://top-technologies.ru/ru/article/view?id=40563 (дата обращения: 13.12.2025).
DOI: https://doi.org/10.17513/snt.40563