Введение
В последнее десятилетие интерес к искусственным нейронным сетям значительно возрос, а искусственный интеллект, или AI, привлекает внимание огромной аудитории из пользователей сети Интернет и начинает повсеместно использоваться. Обозначенный интерес обусловлен выдающимися достижениями в сфере машинного обучения, реализуемых в самых различных отраслях, включая науку, образование и даже развлечения [1]. В то же время возрастает и желание к созданию качественных и рабочих 3D-моделей, а их генерация оказывается одной из ключевых задач не только в компьютерной графике, но также в машинном обучении.
Развитие технологий затронуло многие области, особенно выделяются разработки в виртуальной реальности, инновации в игровой индустрии и автоматизированном проектировании, вследствие этого спрос на эффективные методы создания трехмерных объектов существенно возрос. Однако традиционные подходы хоть и требуют временных ресурсов и качественно обученного персонала, фактически остаются востребованными и популярными [2]. В действительности же традиционные подходы в создании 3D-моделей становятся менее применимы в нынешних реалиях, когда необходимы скорость и автоматизация процессов.
Искусственные нейронные сети представляют собой революционные решения, позволяя автоматизировать процесс генерации 3D-моделей с высокой точностью и скоростью. Возможность осуществлять обучение на больших объемах данных, а помимо этого создавать сложные и детализированные объекты, которые ранее требовали выполнения работы вручную. Несмотря на многообразие подходов и алгоритмов в нейронных сетях, например воксельные, генеративно-состязательные (GAN), нейронные поля излучения (NeRF), подбор оптимального метода становится многоаспектной задачей [3–5].
Данная работа позволила рассмотреть и сравнить основные алгоритмы нейронных сетей, используемых для создания 3D-моделей, изучить их принципы работы, преимущества, недостатки и области применения, какие методы лучше всего подходят для решения конкретных задач. Исследование в равной мере затронуло вопросы, связанные с вычислительной сложностью, качеством генерации и перспективами развития этой развивающейся области.
Цель исследования – произвести комплексный анализ различных методов генерации 3D-моделей, определить их превалирования и проблемы, наряду с этим выделить наиболее уместные подходы для определенных задач, предоставив обзор современных технологий. На основе данного анализа специалисты смогут совершить осознанный выбор технологий для работы с 3D-моделями, что улучшит качество дальнейших разработок и их применения в данной области.
Материалы и методы исследования
Подходы к реализации трехмерных моделей подразделяются на две основные группы по методу создания – это традиционные и современные, базирующиеся на искусственных нейронных сетях.
Традиционные методы [5] включают три направления: полигональное моделирование, неоднородные рациональные B-сплайны (далее NURBS) и скульптинг – и могут работать как совместно, так и каждый сам по себе. Перечисленные подходы всегда нуждаются в большом количестве ресурсов, таких как временные затраты на формирование моделей, качественно подготовленный персонал, соблюдающий все этапы трехмерного моделирования, а также соответствующее техническое оснащение.
Полигональное моделирование – самый давний способ создания моделей, появился в момент, когда точки в пространстве необходимо было определять при помощи осей X, Y и Z. В полигональном моделировании модель состоит из треугольных или четырехугольных полигонов, выполняющих формирование поверхности объекта. Современные 3D-редакторы: Blender и Maya – поддерживают такой подход, но для создания достаточно гладких поверхностей важно качественное техническое оснащение, с помощью которого ведется разработка. Данный вариант моделирования широко применяется в развлекательном сегменте, а также архитектурной визуализации.
По сравнению с вышеупомянутым аналогом реализация объектов при помощи NURBS поверхностей, которые применяют сложные математические вычисления для передачи кривых и наклонных, создают более точные и гладкие модели. Rhinoceros и CATIA – популярные приложения для создания объектов в контексте данного моделирования. NURBS поверхности являются важным САПР инструментом, зачастую применяются при изготовлении деталей ЧМУ и конструировании машин.
Последний метод, скульптинг, – вариант трехмерного моделирования, при котором происходит реализация форм и очертаний объектов с использованием виртуального материала схожего с глиной, выполняя растяжение, сужение и другие манипуляции. Для работы с данной технологией необходимы хорошие навыки в моделировании, а также художественном искусстве, что делает такой подход самым сложным из описанных. Применение возможно в кино, играх, интенсивно используется в создании персонажей, где важно качество прорисовки и реалистичность.
Современные подходы, при которых происходит генерация трехмерных моделей с использованием искусственных нейронных сетей, требуют минимальных навыков для создания объекта. Все формирование происходит на программном уровне, важно подобрать правильный алгоритм генерации:
1. Воксельный подход (voxel-based) основан на проверке: является ли воксель частью объекта или нет? Нейронная сеть при данном подходе трансформирует облака точек в воксельную сетку, а после обрабатывает, используя 3D-свертки. Данный принцип поддерживается в одной известной в области глубокого обучения генеративно-состязательной сети. Понятное представление данных, интуитивная простота восприятия, доступная визуализация являются преимуществами представленного подхода. Однако исключительность данного метода теряется из-за возможного возникновения «блочности», по причине дискретности вокселей. Таким образом, снижается число возможных применений подхода до простых трехмерных объектов, например мебель или недетализированные здания.
2. Облака точек (point cloud-based) в трехмерной системе координат X, Y, Z проявляются в качестве набора вершин, составляющих поверхность моделируемого объекта. На основе обучения нейронная сеть учится генерировать подобные точки для объединения схожих признаков. Популярная на данный момент PointNet++ [6] имеет модуль абстракции набора, который ведет обработку и извлечение набора точек для формирования последующего с сокращенным количеством элементов. Значимыми достоинствами облака точек являются гибкость и эргономичность в сравнении с воксельным подходом, а основной недостаток – отсутствие явной топологии, что создает необходимость в дополнительной обработке, то есть неизбежно приводит к трате дополнительных ресурсов. Несмотря на вышеупомянутый недостаток данной технологии, существует большая вариативность в сферах применения.
3. Полигональные сетки в 3D моделировании – это основа объекта, состоящая из вершин, ребер и граней, которые составляют каркас для формирования сущности. В свою очередь, при генерации необходима оптимизация объекта с использованием, к примеру, Mesh R-CNN [7] – нейросетевая архитектура, которая после обучения позволяет генерировать и улучшать качество полигональной сетки. К преимуществам подхода, реализованного при помощи полигональной сетки, можно отнести высокий уровень детализации, применимость для генерации сложных объектов и распространенность во многих 3D редакторах, но следует обращать внимание на недостатки в виде затрудненного обучения, в связи с нерегулярной структурой данных.
4. Неявные поверхности (implicit surface) в евклидовом пространстве описывают форму объекта, используя математические формулы, например SDF (Signed Distance Functions) [8]. Искусственная нейронная сеть на основе DeepSDF имеет возможность предугадать расположение и расстояние до поверхности объекта, а следовательно, и реализовать в достаточной мере четкие и гладкие модели. Таким образом, представляются следующие преимущества в использовании неявных поверхностей: высокая точность, гибкость, детальность. Тем не менее недостатки заключаются в проблемах визуализации и высокой вычислительной сложности обучения и генерации. Применение неявных поверхностей существует в фотореалистической графике, игровой и киноиндустриях.
Результаты исследования и их обсуждение
Генерация трехмерных моделей в контексте использования нейронных сетей раскрывается как многоаспектная задача, в ходе выполнения которой требуется учесть множество факторов, таких как вычислительная сложность, качество генерации модели, обработка тестовых данных, область, в которой будет работать ИНС, и т.д.
1. Качество генерации трехмерной модели рассчитывается в зависимости от выбранного подхода по двум параметрам: точность и детализация.
Применяя воксельный подход, возможно обеспечить умеренную детализацию, точность при этом ограничивается разрешением сетки (обычно 643 или 1283). Качество соответственно оценивается по функции потерь MSE, которая минимизирует перепад между истинным значением вокселей и предсказанным по формуле
(1)
где y(i) – истинный ожидаемый результат вокселей, а ŷ(i) – предположение модели.
Облака точек в сравнении с вокселями обеспечивают высокое качество детализации, но ограничиваются в отсутствии явной топологии. Для оценки качества используется метрика Chamfer Distance, которая измеряет среднее расстояние между предсказанным и истинным облаками точек [9, 10]:
(2)
где S1 является предсказанным облаком точек, а S2 – истинным.
Полигональные сетки отличаются высокой точностью и детализацией, но качество генерации зависит от структуры сетки и методов оптимизации. Оценка подхода формируется по метрике степени пересечения между двумя ограничивающими рамками для 3D [11, 12]:
(3)
где A и B – предсказанная и истинная сетки соответственно.
Качество неявных поверхностей, например, в DeepSDF рассчитывается по функции потерь абсолютной ошибки LSDF, минимизируя ошибку предсказания, она повышает точность и гладкость объекта. Функция потерь соотносит, насколько предсказанные значения SDF отличаются от истинных, используя абсолютную ошибку, которая вычисляется как разница между предсказанным и истинным значением SDF для определенной точки [13]:
(4)
где – абсолютная ошибка между предсказанным и истинным значением.
2. Вычислительная сложность алгоритмов определяется архитектурой и типом данных.
К алгоритмам с более низкой вычислительной сложностью в O(n3), где n – разрешение сетки, относится воксельный подход. В то же время полигональные сетки хоть и имеют вычислительную сложность O(n), где n – количество полигонов, но относятся к низко эффективным алгоритмам, так как количество полигонов может сильно разниться от объекта к объекту.
Облака точек и неявные поверхности из представленных вариантов рассматриваются как оптимальные в вычислительной сложности с O(n), где n – количество точек и O(1) для параметрической модели соответственно.
3. Спецификация данных для каждого из подходов имеет различия.
Воксельные подходы нуждаются в массивном объеме обучающих данных ввиду необходимости точного предсказания определенного вокселя. Облака точек менее требовательны по сравнению с предыдущим аналогом, но испытывают потребность в четкой аннотации точек. Полигональные сетки достаточно детализированы, поэтому предполагают внушительный объем данных для обучения. Неявные поверхности пригодны для обучения на меньшем объеме данных благодаря использованию непрерывных функций.
Дополнительно проведем сравнительный анализ по вышеперечисленным параметрам в табл. 1.
Рассмотрим примеры использования нейросетей, поддерживающих различные подходы к генерации трехмерных моделей, обученных на различных датасетах.
1. Подходы на основе вокселей применяются для генерирования простых объектов: стульев, диванов, скамеек, домашней утвари и т.д. – данный перечень включает модели, которые содержат небольшое количество полигонов и ограничены в разрешении. Одним из успешных на данный момент репозиториев является крупномасштабный ShapeNet (Shapegan) для трехмерных моделей САПР, который по информации на официальном сайте ShapeNet содержит около 300 млн моделей, организованных с использованием гиперо-гипонимических отношений WordNet.
Таблица 1
Сравнение алгоритмов по параметрам
Параметр |
Воксельный подход |
Облака точек |
Полигональная сетка |
Неявные поверхности |
Качество детализации |
Умеренная |
Высокая детализация |
Высокая |
Высокая |
Вычислительная сложность |
O(n3) |
O(n) |
O(n) |
O(1) |
Преимущества |
Простое представление данных, понятность, легкая визуализация |
Функциональность, гибкость |
Детализированность, гладкость, поддержка многими 3D-редакторами |
Высокая точность, гладкость |
Недостатки |
Блочность, большая нагрузка на память |
Отсутствует топология |
Трудности в обучении |
Затрудненная визуализация |
Источник: составлено автором на основе [14–16].
2. Облака точек ориентированы на проекты в областях компьютерной графики, компьютерного зрения, робототехники для предоставления качественной и полной коллекции трехмерных САПР моделей для объектов. На датасете ModelNet (PointNet++) при помощи сканирования создаются точные модели, например, самолетов, бытовой техники, но значительный недостаток проявляется в отсутствии явной топологии, то есть объекты не имеют четкой формы и содержат искажения, что порождает необходимость в дополнительной постобработке.
3. Полигональные сетки имеют применение в игровой и киноиндустриях, виртуальной реальности (VR), так как особенно хороши при реализации высокодетализированных объектов. Архитектурная модель Mesh R-CNN, включающая стандартные методы для распознавания форм на 2D изображениях, обучена на датасете Pix3D.
4. Метод неявных поверхностей используется в DeepSDF, представляя поверхность объекта непрерывной объемной поверхностью, обеспечивая компромисс между эффективностью, точностью и возможностью сжатия. Благодаря DeepSDF появляется больше возможностей при создании трехмерных моделей, позволяя работать в областях компьютерной графики, 3D-машинного зрения, робототехники.
Продемонстрируем работу данных датасетов в табл. 2, представив сравнение по параметрам и проиллюстрируем работу каждой искусственной нейронной сети на рисунке.
Успехи в области нейронных сетей порождают рост исследований и разработок в данной сфере, которые включают и возможные улучшения как существующих алгоритмов, так и разработку новых.
Возможными улучшениями существующих алгоритмов генерации трехмерных моделей могут выступать оптимизация архитектур, а также методов обработки данных для обучения нейронных сетей. Например, в воксельных подходах возможно использование разреженных сверток, которые позволят уменьшить вычислительную сложность и увеличить качество генерации. В алгоритмах, задействующих полигональные сетки, уже начинают реализовываться технологии mesh denoising, при помощи которых снижается вероятность возникновения шумов и неточностей.
Таблица 2
Сравнение датасетов по параметрам
Параметры |
ShapeNet (Shapegan) |
ModelNet (PointNet++) |
ShapeNet (Mesh R-CNN) |
ShapeNet (DeepSDF) |
Формат данных |
Воксели |
Облака точек |
Полигональные сетки |
Неявные поверхности |
Объем датасета |
~300 000 моделей (135 классов) |
~12 000 моделей (40 классов) |
~50 000 моделей (55 классов) |
~50 000 моделей (55 классов) |
Качество разрешения данных |
Низкое |
Высокое (точки) |
Высокое (вершины и грани) |
Высокое (непрерывные функции) |
Качество генерации |
Умеренное |
Высокое, но без топологии |
Высокое, гладкие поверхности |
Наивысшее, гладкие поверхности |
Вычислительная сложность |
Высокая O(n3) |
Средняя O(n) |
Высокая зависит от сетки) |
Высокая (вычисления для каждой точки) |
Скорость работы |
Низкая |
Средняя |
Средняя |
Низкая |
Применение |
Простые объекты (мебель) |
Лазерное сканирование |
Игры, фильмы, VR |
Фотореалистичный рендер, медицина |
Источник: составлено автором на основе [14–16].
Примеры 3D-объектов, реализованных с использованием Shapegan, PointNet++, Mesh R-CNN и DeepSDF Источник: составлено автором на основе [7, 15, 16]
Также дополнительно для облаков точек возможно использование алгоритмов poisson surface reconstruction, которые позволят генерировать гладкие полигональные сетки.
Исследование алгоритмов позволило выделить как положительные, так и негативные стороны для генерации моделей, и так как алгоритмы и подходы имеют различные недостатки, то возможна реализация гибридных подходов, которые снизят или нейтрализуют изъяны, а в дополнение и усилят лучшие стороны. Например, воксельные подходы и методы на основе неявных поверхностей в совокупности могут значительно усилить качество генерации.
Заключение
В статье рассмотрены ключевые подходы к генерации трехмерных моделей: воксельные, облака точек, полигональные сетки и неявные поверхности. В частности, каждый подход имеет как превалирования, так и слабые стороны, решения по подбору подходящего алгоритма зависят от задачи: для простых объектов с низким качеством детализации могут выступать воксельные подходы, в то время как задачи по лазерному сканированию лучшие реализовать при помощи облаков точек. Для генерации высокодетализированных моделей в играх, фильмах и виртуальной реальности рекомендуется использовать полигональные сетки. Для задач, требующих высокой точности и гладкости, таких как фотореалистичная графика или медицинская визуализация, следует применять неявные поверхности.
Исследования в данной области в будущем необходимо нацелить на оптимизацию существующих алгоритмов для снижения вычислительных затрат и улучшения качества генерации, разработку новых улучшенных подходов, таких как гибридные методы, которые объединяют преимущества различных подходов, а также использование передовых технологий, включая квантовые вычисления, для ускорения вычислений и повышения эффективности.
Данные направления имеют значительный потенциал для улучшения качества, скорости и эффективности к генерации трехмерных моделей, что открывает новые возможности для их применения в различных областях, таких как игровая индустрия, графический дизайн, медицина и инженерное проектирование. Последующие исследования в этих направлениях приведут к созданию более совершенных и универсальных инструментов для работы с 3D данными.
Библиографическая ссылка
Малецкая М.В. СРАВНЕНИЕ АЛГОРИТМОВ ИСКУССТВЕННЫХ НЕЙРОННЫХ CЕТЕЙ ДЛЯ ГЕНЕРАЦИИ 3D-МОДЕЛЕЙ // Современные наукоемкие технологии. 2025. № 5. С. 55-60;URL: https://top-technologies.ru/ru/article/view?id=40390 (дата обращения: 12.06.2025).
DOI: https://doi.org/10.17513/snt.40390