Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

СРАВНЕНИЕ АЛГОРИТМОВ ИСКУССТВЕННЫХ НЕЙРОННЫХ CЕТЕЙ ДЛЯ ГЕНЕРАЦИИ 3D-МОДЕЛЕЙ

Малецкая М.В. 1
1 ФГБОУ ВО «МИРЭА – Российский технологический университет»
Статья посвящена сравнению современных алгоритмов искусственных нейронных сетей, используемых для генерации 3D-моделей. Актуальность темы обусловлена растущим спросом на автоматизацию технологий создания 3D-моделей в различных областях, включающих игровую индустрию, дизайн, киноискусство, медицину. Целью работы является рассмотрение алгоритмов искусственных нейронных сетей для генерации трехмерных моделей с последующим акцентированием их преимуществ и недостатков, а также определение направлений для их возможного применения. В статье рассматриваются основные категории алгоритмов, включая воксельные подходы, методы, основанные на облаках точек, полигональные сетки, а также неявные поверхности. Особое внимание уделяется генеративно-состязательным сетям и нейронным полям излучения, которые демонстрируют высокое качество генерации и широкие возможности применения. Для каждого подхода описаны принципы работы, преимущества, ограничения и примеры использования. Методы исследования включают анализ научной литературы, сравнение подходов, используемых при генерации искусственными нейронными сетями, а также оценку качества генерации на основе публичных датасетов. Также рассматриваются вычислительные затраты, требования к данным и сложность реализации каждого алгоритма. Статья подчеркивает важность дальнейших исследований в этой области, включая разработку гибридных методов и улучшение существующих подходов.
алгоритмы
искусственные нейронные сети
3D-модели
воксельные подходы
облака точек
полигональные сетки
неявные поверхности
1. Yeh S-C., Yang C-K., Cheng L-C. A WebGL-based 3D furniture modeling system via light-field descriptor and interactive force-directed visualization // Multimedia Tools and Applications. March 2025. DOI: 10.1007/s11042-025-20746-w.
2. Münster S., Apollonio F.I., Bluemel I., Fallavollita F., Foschi R., Grellert M., Ioannides M., Jahn P.H., Kurdiovsky R., Kuroczyński P., Lutteroth J-E., Messemer H., Schelbert G. 3D Modeling // Handbook of Digital 3D Reconstruction of Historical Architecture. April 2024. Vol. 28. P. 107–128. DOI: 10.1007/978-3-031-43363-4_6.
3. Shi S., Jiang L., Deng J., Wang Z., Guo C., Shi J., Wang X., Li H. PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection // International Journal of Computer Vision. November 2022. Vol. 131. P. 531–551. DOI: 10.1007/s11263-022-01710-9.
4. Kleineberg M., Fey M., Weichert F. Adversarial Generation of Continuous Implicit Shape Representations // arXiv preprint arXiv. March 2020. DOI: 10.48550/arXiv.2002.00349.
5. Yang G-W., Liu Z-N., Li D.-Y., Peng H.-Y. JNeRF: An efficient heterogeneous NeRF model zoo based on Jittor // Computational Visual Media. June 2023. Vol. 9, Is. 2. P. 401–404. DOI: 10.1007/s41095-022-0327-z.
6. Qi C. R., Yi L., Su H., Guibas L.J. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space // NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems. December 2017. Vol. 17. P. 5105–5114. [Электронный ресурс]. URL: https://arxiv.org/abs/1706.02413 (дата обращения: 17.02.2025). DOI: 10.48550/arXiv.1706.02413.
7. Gkioxari G., Malik J., Johnson J. Mesh R-CNN // 2019 IEEE/CVF International Conference on Computer Vision (ICCV). October – November 2019. P. 9784–9794. DOI: 10.1109/ICCV.2019.00988.
8. Park J.J., Florence P., Straub J., Newcombe R., Lovegrove S. DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 2019. P. 165-174. DOI: 10.1109/CVPR.2019.00025.
9. Cho TH. Improved Chamfer Matching Using Interpolated Chamfer Distance and Subpixel Search // In: Ersbøll, B.K., Pedersen, K.S. (eds) Image Analysis. SCIA 2007. Lecture Notes in Computer Science. 2007. V. 4522. DOI: 10.1007/978-3-540-73040-8_68.
10. Lin F., Yue Y., Zhang Z., Hou S., Yamada K.D., Kolachalama V.B., Saligrama V. InfoCD: A Contrastive Chamfer Distance Loss for Point Cloud Completion // Advances in Neural Information Processing Systems. December 2023. Vol. 36. P. 76960–76973. URL: https://tohoku.elsevierpure.com/en/publications/infocd-a-contrastive-chamfer-distance-loss-for-point-cloud-comple (дата обращения: 27.02.2025).
11. Mescheder L., Oechsle M., Niemeyer M., Nowozin S., Geiger A. Occupancy Networks: Learning 3D Reconstruction in Function Space // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 2019. DOI: 10.1109/CVPR.2019.00459.
12. Zhang X., Fang Z., Wen Y., Li Z., Qiao Y. Range loss for deep face recognition with long-tailed training data // IEEE International Conference on Computer Vision (ICCV). October 2017. P. 5409–5418. DOI: 10.1109/ICCV.2017.578.
13. Raymond C. Meta-Learning Loss Functions for Deep Neural Networks // Open Access Te Herenga Waka-Victoria University of Wellington. Thesis. February 2025. DOI: 10.26686/wgtn.28448894.
14. Stutz D., Geiger A. Learning 3D Shape Completion Under Weak Supervision // International Journal of Computer Vision. October 2018. Vol. 128. P. 1162–1181. DOI: 10.1007/s11263-018-1126-y.
15. Li C., Xiao M., Li Z., Chen F., Wang D. Single-view 3D reconstruction via dual attention // PeerJ Computer Science. October 2024. Vol. 10. P. e2403. DOI: 10.7717/peerj-cs.2403.
16. Fang Z., Li X., Li X., Zhao S., Liu M. ModelNet-O: A Large-Scale Synthetic Dataset for Occlusion-Aware Point Cloud Classification // arXiv preprint arXiv. January 2024. DOI: 10.48550/arXiv.2401.08210.

Введение

В последнее десятилетие интерес к искусственным нейронным сетям значительно возрос, а искусственный интеллект, или AI, привлекает внимание огромной аудитории из пользователей сети Интернет и начинает повсеместно использоваться. Обозначенный интерес обусловлен выдающимися достижениями в сфере машинного обучения, реализуемых в самых различных отраслях, включая науку, образование и даже развлечения [1]. В то же время возрастает и желание к созданию качественных и рабочих 3D-моделей, а их генерация оказывается одной из ключевых задач не только в компьютерной графике, но также в машинном обучении.

Развитие технологий затронуло многие области, особенно выделяются разработки в виртуальной реальности, инновации в игровой индустрии и автоматизированном проектировании, вследствие этого спрос на эффективные методы создания трехмерных объектов существенно возрос. Однако традиционные подходы хоть и требуют временных ресурсов и качественно обученного персонала, фактически остаются востребованными и популярными [2]. В действительности же традиционные подходы в создании 3D-моделей становятся менее применимы в нынешних реалиях, когда необходимы скорость и автоматизация процессов.

Искусственные нейронные сети представляют собой революционные решения, позволяя автоматизировать процесс генерации 3D-моделей с высокой точностью и скоростью. Возможность осуществлять обучение на больших объемах данных, а помимо этого создавать сложные и детализированные объекты, которые ранее требовали выполнения работы вручную. Несмотря на многообразие подходов и алгоритмов в нейронных сетях, например воксельные, генеративно-состязательные (GAN), нейронные поля излучения (NeRF), подбор оптимального метода становится многоаспектной задачей [3–5].

Данная работа позволила рассмотреть и сравнить основные алгоритмы нейронных сетей, используемых для создания 3D-моделей, изучить их принципы работы, преимущества, недостатки и области применения, какие методы лучше всего подходят для решения конкретных задач. Исследование в равной мере затронуло вопросы, связанные с вычислительной сложностью, качеством генерации и перспективами развития этой развивающейся области.

Цель исследования – произвести комплексный анализ различных методов генерации 3D-моделей, определить их превалирования и проблемы, наряду с этим выделить наиболее уместные подходы для определенных задач, предоставив обзор современных технологий. На основе данного анализа специалисты смогут совершить осознанный выбор технологий для работы с 3D-моделями, что улучшит качество дальнейших разработок и их применения в данной области.

Материалы и методы исследования

Подходы к реализации трехмерных моделей подразделяются на две основные группы по методу создания – это традиционные и современные, базирующиеся на искусственных нейронных сетях.

Традиционные методы [5] включают три направления: полигональное моделирование, неоднородные рациональные B-сплайны (далее NURBS) и скульптинг – и могут работать как совместно, так и каждый сам по себе. Перечисленные подходы всегда нуждаются в большом количестве ресурсов, таких как временные затраты на формирование моделей, качественно подготовленный персонал, соблюдающий все этапы трехмерного моделирования, а также соответствующее техническое оснащение.

Полигональное моделирование – самый давний способ создания моделей, появился в момент, когда точки в пространстве необходимо было определять при помощи осей X, Y и Z. В полигональном моделировании модель состоит из треугольных или четырехугольных полигонов, выполняющих формирование поверхности объекта. Современные 3D-редакторы: Blender и Maya – поддерживают такой подход, но для создания достаточно гладких поверхностей важно качественное техническое оснащение, с помощью которого ведется разработка. Данный вариант моделирования широко применяется в развлекательном сегменте, а также архитектурной визуализации.

По сравнению с вышеупомянутым аналогом реализация объектов при помощи NURBS поверхностей, которые применяют сложные математические вычисления для передачи кривых и наклонных, создают более точные и гладкие модели. Rhinoceros и CATIA – популярные приложения для создания объектов в контексте данного моделирования. NURBS поверхности являются важным САПР инструментом, зачастую применяются при изготовлении деталей ЧМУ и конструировании машин.

Последний метод, скульптинг, – вариант трехмерного моделирования, при котором происходит реализация форм и очертаний объектов с использованием виртуального материала схожего с глиной, выполняя растяжение, сужение и другие манипуляции. Для работы с данной технологией необходимы хорошие навыки в моделировании, а также художественном искусстве, что делает такой подход самым сложным из описанных. Применение возможно в кино, играх, интенсивно используется в создании персонажей, где важно качество прорисовки и реалистичность.

Современные подходы, при которых происходит генерация трехмерных моделей с использованием искусственных нейронных сетей, требуют минимальных навыков для создания объекта. Все формирование происходит на программном уровне, важно подобрать правильный алгоритм генерации:

1. Воксельный подход (voxel-based) основан на проверке: является ли воксель частью объекта или нет? Нейронная сеть при данном подходе трансформирует облака точек в воксельную сетку, а после обрабатывает, используя 3D-свертки. Данный принцип поддерживается в одной известной в области глубокого обучения генеративно-состязательной сети. Понятное представление данных, интуитивная простота восприятия, доступная визуализация являются преимуществами представленного подхода. Однако исключительность данного метода теряется из-за возможного возникновения «блочности», по причине дискретности вокселей. Таким образом, снижается число возможных применений подхода до простых трехмерных объектов, например мебель или недетализированные здания.

2. Облака точек (point cloud-based) в трехмерной системе координат X, Y, Z проявляются в качестве набора вершин, составляющих поверхность моделируемого объекта. На основе обучения нейронная сеть учится генерировать подобные точки для объединения схожих признаков. Популярная на данный момент PointNet++ [6] имеет модуль абстракции набора, который ведет обработку и извлечение набора точек для формирования последующего с сокращенным количеством элементов. Значимыми достоинствами облака точек являются гибкость и эргономичность в сравнении с воксельным подходом, а основной недостаток – отсутствие явной топологии, что создает необходимость в дополнительной обработке, то есть неизбежно приводит к трате дополнительных ресурсов. Несмотря на вышеупомянутый недостаток данной технологии, существует большая вариативность в сферах применения.

3. Полигональные сетки в 3D моделировании – это основа объекта, состоящая из вершин, ребер и граней, которые составляют каркас для формирования сущности. В свою очередь, при генерации необходима оптимизация объекта с использованием, к примеру, Mesh R-CNN [7] – нейросетевая архитектура, которая после обучения позволяет генерировать и улучшать качество полигональной сетки. К преимуществам подхода, реализованного при помощи полигональной сетки, можно отнести высокий уровень детализации, применимость для генерации сложных объектов и распространенность во многих 3D редакторах, но следует обращать внимание на недостатки в виде затрудненного обучения, в связи с нерегулярной структурой данных.

4. Неявные поверхности (implicit surface) в евклидовом пространстве описывают форму объекта, используя математические формулы, например SDF (Signed Distance Functions) [8]. Искусственная нейронная сеть на основе DeepSDF имеет возможность предугадать расположение и расстояние до поверхности объекта, а следовательно, и реализовать в достаточной мере четкие и гладкие модели. Таким образом, представляются следующие преимущества в использовании неявных поверхностей: высокая точность, гибкость, детальность. Тем не менее недостатки заключаются в проблемах визуализации и высокой вычислительной сложности обучения и генерации. Применение неявных поверхностей существует в фотореалистической графике, игровой и киноиндустриях.

Результаты исследования и их обсуждение

Генерация трехмерных моделей в контексте использования нейронных сетей раскрывается как многоаспектная задача, в ходе выполнения которой требуется учесть множество факторов, таких как вычислительная сложность, качество генерации модели, обработка тестовых данных, область, в которой будет работать ИНС, и т.д.

1. Качество генерации трехмерной модели рассчитывается в зависимости от выбранного подхода по двум параметрам: точность и детализация.

Применяя воксельный подход, возможно обеспечить умеренную детализацию, точность при этом ограничивается разрешением сетки (обычно 643 или 1283). Качество соответственно оценивается по функции потерь MSE, которая минимизирует перепад между истинным значением вокселей и предсказанным по формуле

missing image file (1)

где y(i) – истинный ожидаемый результат вокселей, а ŷ(i) – предположение модели.

Облака точек в сравнении с вокселями обеспечивают высокое качество детализации, но ограничиваются в отсутствии явной топологии. Для оценки качества используется метрика Chamfer Distance, которая измеряет среднее расстояние между предсказанным и истинным облаками точек [9, 10]:

missing image file (2)

где S1 является предсказанным облаком точек, а S2 – истинным.

Полигональные сетки отличаются высокой точностью и детализацией, но качество генерации зависит от структуры сетки и методов оптимизации. Оценка подхода формируется по метрике степени пересечения между двумя ограничивающими рамками для 3D [11, 12]:

missing image file (3)

где A и B – предсказанная и истинная сетки соответственно.

Качество неявных поверхностей, например, в DeepSDF рассчитывается по функции потерь абсолютной ошибки LSDF, минимизируя ошибку предсказания, она повышает точность и гладкость объекта. Функция потерь соотносит, насколько предсказанные значения SDF отличаются от истинных, используя абсолютную ошибку, которая вычисляется как разница между предсказанным и истинным значением SDF для определенной точки [13]:

missing image file (4)

где missing image file – абсолютная ошибка между предсказанным и истинным значением.

2. Вычислительная сложность алгоритмов определяется архитектурой и типом данных.

К алгоритмам с более низкой вычислительной сложностью в O(n3), где n – разрешение сетки, относится воксельный подход. В то же время полигональные сетки хоть и имеют вычислительную сложность O(n), где n – количество полигонов, но относятся к низко эффективным алгоритмам, так как количество полигонов может сильно разниться от объекта к объекту.

Облака точек и неявные поверхности из представленных вариантов рассматриваются как оптимальные в вычислительной сложности с O(n), где n – количество точек и O(1) для параметрической модели соответственно.

3. Спецификация данных для каждого из подходов имеет различия.

Воксельные подходы нуждаются в массивном объеме обучающих данных ввиду необходимости точного предсказания определенного вокселя. Облака точек менее требовательны по сравнению с предыдущим аналогом, но испытывают потребность в четкой аннотации точек. Полигональные сетки достаточно детализированы, поэтому предполагают внушительный объем данных для обучения. Неявные поверхности пригодны для обучения на меньшем объеме данных благодаря использованию непрерывных функций.

Дополнительно проведем сравнительный анализ по вышеперечисленным параметрам в табл. 1.

Рассмотрим примеры использования нейросетей, поддерживающих различные подходы к генерации трехмерных моделей, обученных на различных датасетах.

1. Подходы на основе вокселей применяются для генерирования простых объектов: стульев, диванов, скамеек, домашней утвари и т.д. – данный перечень включает модели, которые содержат небольшое количество полигонов и ограничены в разрешении. Одним из успешных на данный момент репозиториев является крупномасштабный ShapeNet (Shapegan) для трехмерных моделей САПР, который по информации на официальном сайте ShapeNet содержит около 300 млн моделей, организованных с использованием гиперо-гипонимических отношений WordNet.

Таблица 1

Сравнение алгоритмов по параметрам

Параметр

Воксельный подход

Облака точек

Полигональная сетка

Неявные поверхности

Качество детализации

Умеренная

Высокая детализация

Высокая

Высокая

Вычислительная сложность

O(n3)

O(n)

O(n)

O(1)

Преимущества

Простое представление данных, понятность, легкая визуализация

Функциональность, гибкость

Детализированность, гладкость, поддержка многими 3D-редакторами

Высокая точность, гладкость

Недостатки

Блочность, большая нагрузка на память

Отсутствует топология

Трудности в обучении

Затрудненная визуализация

Источник: составлено автором на основе [14–16].

2. Облака точек ориентированы на проекты в областях компьютерной графики, компьютерного зрения, робототехники для предоставления качественной и полной коллекции трехмерных САПР моделей для объектов. На датасете ModelNet (PointNet++) при помощи сканирования создаются точные модели, например, самолетов, бытовой техники, но значительный недостаток проявляется в отсутствии явной топологии, то есть объекты не имеют четкой формы и содержат искажения, что порождает необходимость в дополнительной постобработке.

3. Полигональные сетки имеют применение в игровой и киноиндустриях, виртуальной реальности (VR), так как особенно хороши при реализации высокодетализированных объектов. Архитектурная модель Mesh R-CNN, включающая стандартные методы для распознавания форм на 2D изображениях, обучена на датасете Pix3D.

4. Метод неявных поверхностей используется в DeepSDF, представляя поверхность объекта непрерывной объемной поверхностью, обеспечивая компромисс между эффективностью, точностью и возможностью сжатия. Благодаря DeepSDF появляется больше возможностей при создании трехмерных моделей, позволяя работать в областях компьютерной графики, 3D-машинного зрения, робототехники.

Продемонстрируем работу данных датасетов в табл. 2, представив сравнение по параметрам и проиллюстрируем работу каждой искусственной нейронной сети на рисунке.

Успехи в области нейронных сетей порождают рост исследований и разработок в данной сфере, которые включают и возможные улучшения как существующих алгоритмов, так и разработку новых.

Возможными улучшениями существующих алгоритмов генерации трехмерных моделей могут выступать оптимизация архитектур, а также методов обработки данных для обучения нейронных сетей. Например, в воксельных подходах возможно использование разреженных сверток, которые позволят уменьшить вычислительную сложность и увеличить качество генерации. В алгоритмах, задействующих полигональные сетки, уже начинают реализовываться технологии mesh denoising, при помощи которых снижается вероятность возникновения шумов и неточностей.

Таблица 2

Сравнение датасетов по параметрам

Параметры

ShapeNet

(Shapegan)

ModelNet (PointNet++)

ShapeNet

(Mesh R-CNN)

ShapeNet (DeepSDF)

Формат данных

Воксели

Облака точек

Полигональные сетки

Неявные поверхности

Объем датасета

~300 000 моделей (135 классов)

~12 000 моделей (40 классов)

~50 000 моделей (55 классов)

~50 000 моделей (55 классов)

Качество разрешения данных

Низкое

Высокое (точки)

Высокое (вершины и грани)

Высокое (непрерывные функции)

Качество генерации

Умеренное

Высокое, но без топологии

Высокое, гладкие поверхности

Наивысшее, гладкие поверхности

Вычислительная сложность

Высокая O(n3)

Средняя O(n)

Высокая зависит от сетки)

Высокая (вычисления для каждой точки)

Скорость работы

Низкая

Средняя

Средняя

Низкая

Применение

Простые объекты (мебель)

Лазерное сканирование

Игры, фильмы, VR

Фотореалистичный рендер, медицина

Источник: составлено автором на основе [14–16].

missing image file

Примеры 3D-объектов, реализованных с использованием Shapegan, PointNet++, Mesh R-CNN и DeepSDF Источник: составлено автором на основе [7, 15, 16]

Также дополнительно для облаков точек возможно использование алгоритмов poisson surface reconstruction, которые позволят генерировать гладкие полигональные сетки.

Исследование алгоритмов позволило выделить как положительные, так и негативные стороны для генерации моделей, и так как алгоритмы и подходы имеют различные недостатки, то возможна реализация гибридных подходов, которые снизят или нейтрализуют изъяны, а в дополнение и усилят лучшие стороны. Например, воксельные подходы и методы на основе неявных поверхностей в совокупности могут значительно усилить качество генерации.

Заключение

В статье рассмотрены ключевые подходы к генерации трехмерных моделей: воксельные, облака точек, полигональные сетки и неявные поверхности. В частности, каждый подход имеет как превалирования, так и слабые стороны, решения по подбору подходящего алгоритма зависят от задачи: для простых объектов с низким качеством детализации могут выступать воксельные подходы, в то время как задачи по лазерному сканированию лучшие реализовать при помощи облаков точек. Для генерации высокодетализированных моделей в играх, фильмах и виртуальной реальности рекомендуется использовать полигональные сетки. Для задач, требующих высокой точности и гладкости, таких как фотореалистичная графика или медицинская визуализация, следует применять неявные поверхности.

Исследования в данной области в будущем необходимо нацелить на оптимизацию существующих алгоритмов для снижения вычислительных затрат и улучшения качества генерации, разработку новых улучшенных подходов, таких как гибридные методы, которые объединяют преимущества различных подходов, а также использование передовых технологий, включая квантовые вычисления, для ускорения вычислений и повышения эффективности.

Данные направления имеют значительный потенциал для улучшения качества, скорости и эффективности к генерации трехмерных моделей, что открывает новые возможности для их применения в различных областях, таких как игровая индустрия, графический дизайн, медицина и инженерное проектирование. Последующие исследования в этих направлениях приведут к созданию более совершенных и универсальных инструментов для работы с 3D данными.


Библиографическая ссылка

Малецкая М.В. СРАВНЕНИЕ АЛГОРИТМОВ ИСКУССТВЕННЫХ НЕЙРОННЫХ CЕТЕЙ ДЛЯ ГЕНЕРАЦИИ 3D-МОДЕЛЕЙ // Современные наукоемкие технологии. 2025. № 5. С. 55-60;
URL: https://top-technologies.ru/ru/article/view?id=40390 (дата обращения: 12.06.2025).
DOI: https://doi.org/10.17513/snt.40390