РАЗРАБОТКА И ОБУЧЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННОЙ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛИ ДЛЯ АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯ И ВАЛИДАЦИИ ПАРАМЕТРОВ В ЗАДАЧАХ ТРАНСПОРТНОГО МОДЕЛИРОВАНИЯ

Остроух А.В. 1, Подберёзкин А.А. 1, Пронин Ц.Б. 1, Поспелов П.И. 1, Котов А.А. 1

1 Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский автомобильно-дорожный государственный технический университет (МАДИ)»

Остроух А.В. - написание черновика рукописи, написание рукописи – рецензирование и редактирование

Подберёзкин А.А. - разработка концепции, валидация результатов

Пронин Ц.Б. - работа с данными, разработка программного обеспечения, визуализация результатов

Поспелов П.И. - привлечение финансирования, административное руководство исследовательским проектом, научное руководство

Котов А.А. - разработка концепции, анализ данных, валидация результатов

В статье рассматривается проблема высоких трудозатрат и значительного количества ошибок на этапе формализации исходных данных в задачах транспортного моделирования, что является критическим ограничением существующих систем автоматизации инженерных расчетов и подготовки исходных данных применительно к специфике транспортно-дорожного комплекса. Целью исследования является разработка предметно-ориентированной языковой модели для автоматизации извлечения и валидации параметров из неструктурированных и слабоструктурированных источников. Методология основана на тонкой настройке архитектуры трансформера на специализированном датасете, включающем реальные проектные документы, размеченные сущности и синтезированные примеры на основе нормативной документации. Особое внимание уделяется интеграции предметных знаний о методах расчета скорости движения автомобилей, требованиях ГОСТов и специфике дорожных данных. Проведен сравнительный анализ эффективности разработанной модели с традиционным ручным подходом к подготовке данных, включающий оценку точности извлечения и временных затрат. В результате создан действующий прототип модели, демонстрирующий высокую точность извлечения ключевых параметров и существенное сокращение времени подготовки данных. Применение разработанной модели позволяет перераспределить усилия инженера с рутинных операций ввода на задачи, требующие профессиональной экспертизы. Разработанная модель может служить основой для создания систем интеллектуальной автоматизации инженерных расчетов в области транспортного проектирования.

Статья в формате PDF

2881 KB

предметно-ориентированная языковая модель

тонкая настройка

валидация данных

транспортное моделирование

автоматизация инженерных расчетов

скорости движения автомобилей

проектирование автомобильных дорог

обработка естественного языка

1. Лыгина Л. А., Строков Д. М., Котов А. А. Организация и безопасность движения в малых населенных пунктах сельского типа вдоль автомобильных дорог и режимы движения автомобилей // Вестник Московского автомобильно-дорожного государственного технического университета (МАДИ). 2021. № 4 (67). С. 104–113. URL: https://elibrary.ru/download/elibrary_47520997_98885934.pdf (дата обращения: 06.02.2026). EDN: LQEEQL.

2. Подберёзкин А. А., Остроух А. В., Борзенков А. М., Шмонин А. М., Пронин Ц. Б. Исследование комплексных подходов к цифровизации транспортных систем с применением методов искусственного интеллекта // Транспорт и информационные технологии. 2025. Т. 15. № 3. С. 141–166. URL: https://www.elibrary.ru/download/elibrary_85317604_40569131.pdf (дата обращения: 06.02.2026). DOI: 10.12731/3033-5965-2025-15-3-396. EDN: CEIRIN.

3. Подберёзкин А. А., Борзенков А. М., Волков А. М., Пронин Ц. Б., Остроух А. В. Применение генетического алгоритма для оптимизации светофорного регулирования с учетом нормативных требований и приоритета общественного транспорта // Современные наукоемкие технологии. 2025. № 9. С. 181–185. URL: https://www.elibrary.ru/download/elibrary_82961592_57117288.pdf (дата обращения: 06.02.2026). DOI: 10.17513/snt.40504. EDN: XCVSFJ.

4. Конкин А. В., Мазырин Т. А., Бойков Н. В. Проблемы обеспечения единой координатной среды данных в геоинформационных системах на стадии эксплуатации автомобильных дорог // Дороги и мосты. 2025. № 2 (54). С. 237–250. URL: https://elibrary.ru/download/elibrary_87622399_55498177.pdf (дата обращения: 06.02.2026). DOI: 10.70991/1815-896X-2025-2-54-237-250. EDN: NXLQAU.

5. Навой Д. B., Капский Д. В., Филиппова Н. А., Пугачев И. Н. Анализ мирового опыта в применении искусственного интеллекта в системах управления дорожным движением различного уровня // Системный анализ и прикладная информатика. 2024. № 1. С. 26–36. URL: https://www.elibrary.ru/download/elibrary_67224706_38849770.pdf (дата обращения: 06.02.2026). DOI: 10.21122/2309-4923-2024-1-26-36. EDN: YFVQAE.

6. Капский Д. В., Богданович С. В., Куренков П. В., Филиппова Н. А. Вопросы совершенствования транспортной отрасли в условиях развития подключенных транспортных средств // Интеллект. Инновации. Инвестиции. 2024. № 3. С. 64–73. URL: https://www.elibrary.ru/download/elibrary_68546827_56710793.pdf (дата обращения: 01.02.2026). DOI: 10.25198/2077-7175-2024-3-64. EDN: JIPRZJ.

7. Зиннуров Б. Р., Гизатуллин З. М. Извлечение знаний в формате триплетов с использованием дообученных больших языковых моделей // Computational Nanotechnology. 2025. Т. 12. № 4. С. 13–19. DOI: 10.33693/2313-223X-202512-4-13-19. EDN: FLJQXL.

8. Сак А. Н. Использование синтаксических связей для классификации строительных документов с помощью методов машинного обучения // Экономика строительства. 2025. № 5. С. 508–511. EDN: YKBEFA.

9. Луцкович А. И., Васильев В. И., Вульфин А. М., Кириллова А. Д., Сулавко А. Е. Автоматизированная система анализа слабоструктурированных данных киберразведки с использованием больших языковых моделей // Информационно-управляющие системы. 2025. № 2. С. 50–67. DOI: 10.31799/1684-8853-2025-2-50-67. EDN: QFQTPU.

10. Бакеев Р. Н., Кузьмин В. Н., Менисов А. Б., Сабиров Т. Р. Метод определения уязвимостей программного кода на основе кластерного анализа и контекстной адаптации больших языковых моделей // Информационно-управляющие системы. 2025. № 4 (137). С. 58–70.

DOI: 10.31799/1684-8853-2025-4-58-70. EDN: XJDOLW.

11. Голиков А. А., Акимов Д. А., Романовский М. С., Тращенков С. В. Аспекты создания корпоративной вопросноответной системы с использованием генеративных предобученных языковых моделей // Litera. 2023. № 12. С. 190–205. DOI: 0.25136/2409-8698.2023.12.69353. EDN: FSTHRW.

12. Зайцев Е. И., Нурматова Е. В. Агентно-ориентированная интеллектуальная система поддержки принятия решений: Архитектура и разработка // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. 2025. № 3. С. 85–96. URL: https://www.elibrary.ru/download/elibrary_83055142_63409707.pdf (дата обращения: 03.02.2026). DOI: 10.18137/RNU.V9187.25.03.P.85. EDN: ODXWQI.

13. Рыбачук М. А. Аксиоматизация проектных решений при построении агентно-ориентированных моделей инновационно-технологических систем // Экономика науки. 2025. Т. 11. № 4. С. 38–51. URL: https://www.elibrary.ru/download/elibrary_88770667_39969003.pdf (дата обращения: 06.02.2026). EDN: UBTWOA.

14. Горбунова А. В. Оценка характеристик модели распределенных транзакционных приложений с микросервисной архитектурой и параллельными узлами // Информационно-управляющие системы. 2025. № 6. С. 42–50. DOI: 10.31799/1684-8853-2025-6-42-50. EDN: EGLAUQ.

15. Ефимова О. В., Кабанова Т. А. Методология оценки эффективности цифровых платформ для транспорта // Транспортное дело России. 2025. № 1. С. 32–36. URL: https://www.elibrary.ru/download/elibrary_80506950_44362161.pdf (дата обращения: 06.02.2026). EDN: RXPSZU.

Введение

Точное моделирование скоростных режимов автотранспорта является критически важной задачей для проектирования безопасных дорожных систем, оценки пропускной способности и анализа аварийности [1]. Однако ключевым ограничением существующих систем автоматизации подготовки исходных данных применительно к специфике транспортно-дорожного комплекса остается значительная доля ручного, трудоемкого и подверженного ошибкам труда на этапах подготовки и валидации разнородных исходных данных (проектные отметки, параметры транспортных средств, данные о покрытии и ограничениях) [2–4].

Современные исследования в области цифровизации транспортных систем демонстрируют перспективность применения методов искусственного интеллекта для решения подобных задач [5, 6]. Особый интерес представляют большие языковые модели (LLM), способные понимать контекст и извлекать структурированную информацию из неструктурированных текстов [7, 8]. Однако универсальные LLM не учитывают специфику предметной области – терминологию теории расчета скоростей движения автомобилей, требования ГОСТов к проектной документации, особенности дорожных данных [9, 10].

Цель исследования – разработка и обучение предметно-ориентированной большой языковой модели (Domain-Specific LLM – DSLM) для автоматизации извлечения и валидации параметров в задачах транспортного моделирования.

Научная новизна работы заключается в создании специализированной архитектуры и методики тонкой настройки модели, интегрирующей знания предметной области непосредственно в процесс обучения. В отличие от универсальных языковых моделей, разработанный подход учитывает фундаментальные положения теории движения автомобиля и методы расчета скоростных режимов на продольном профиле, а также требования нормативной базы к проектной документации [1]. Интеграция этих знаний позволяет модели корректно интерпретировать физические взаимосвязи между параметрами профиля (уклоны, радиусы кривых) и результирующими скоростными режимами, что принципиально отличает ее от существующих решений.

Актуальность исследования обусловлена необходимостью сокращения временных и трудовых затрат на этапе подготовки данных – «узком горлышке» современного инженерного анализа, а также потребностью в перераспределении усилий специалистов с рутинных операций по поиску/извлечению данных из документации на задачи, требующие профессиональной экспертизы [11].

Материал и методы исследования

В основе методологии разработки DSLM лежит принцип предметно-ориентированной адаптации универсальных языковых моделей к конкретной инженерной дисциплине.

Процесс создания модели включал несколько последовательных этапов.

Формирование обучающего датасета

Для обучения модели был создан специализированный датасет, включающий:

− реальные проектные документы (ведомости пикетов, продольные профили, пояснительные записки);

− размеченные сущности (пикетажные отметки, радиусы кривых, уклоны, параметры ТС, ограничения скорости) [1];

− синтезированные примеры на основе ГОСТ 21.701-2013 и нормативной документации.

Общий объем датасета составил 15 000 документов с более чем 150 000 размеченных сущностей.

Архитектура модели и тонкая настройка

В качестве базовой модели использовалась открытая LLM архитектура трансформера (transformer, аналогичная LLaMA). Тонкая настройка выполнялась методом LoRA (Low-Rank Adaptation), что позволило адаптировать модель к предметной области при сохранении общих языковых знаний. Особое внимание уделялось внедрению в модель знаний о методах расчета скорости движения автомобилей. В обучающий датасет были включены примеры, демонстрирующие физическую взаимосвязь между параметрами профиля (продольные уклоны, радиусы кривых) и результирующими скоростными режимами в соответствии с классическими подходами к моделированию движения транспортных средств [1]. Это позволило модели учитывать не только статические параметры документации, но и динамические закономерности движения автомобилей.

Процесс извлечения и валидации

Разработанная DSLM работает в связке с модулями постобработки (рис. 1). На вход модель получает неструктурированный документ (текст, таблицу, PDF) и запрос на извлечение конкретных параметров.

Рис. 1. Архитектура DSLM для извлечения и валидации параметров транспортного моделирования Примечание: составлен авторами по результатам данного исследования

На выходе формируется структурированный JSON-объект, содержащий извлеченные сущности с координатами и уверенностью модели. Модуль валидации проверяет:

− физическую реализуемость (например, отсутствие перепадов более 20 м между соседними пикетами);

− соответствие ГОСТам (формат представления, допустимые диапазоны);

− логическую согласованность (связь между уклонами и радиусами кривых).

Методика оценки

Качество извлечения оценивалось по метрикам precision, recall и F1-мере на тестовой выборке (20 % датасета). Временные затраты сравнивались с ручным вводом данных инженером-проектировщиком.

Результаты исследования и их обсуждение

В результате работы создан действующий прототип предметно-ориентированной языковой модели DSLM-TRANS (Domain-Specific Language Model for Transport). Ключевые технические характеристики модели:

− количество параметров: 7 млрд;

− размер контекстного окна: 8192 токена;

− специализация: извлечение 27 типов сущностей (пикетаж, отметки, радиусы, уклоны, параметры ТС, ограничения).

Результаты оценки качества извлечения представлены в табл. 1. Средняя точность (precision) на тестовой выборке составила 0,96, полнота (recall) – 0,93, F1-мера – 0,94.

Результат функционирования проиллюстрирован на примере кейса (рис. 2): на вход модели подается файл с пикетажными отметками в формате PDF (скан документа) и запрос «извлеки массив высот и радиусы кривых». DSLM успешно распознает структуру документа, извлекает 47 пикетажных отметок и 3 радиуса кривых с точностью 98 % (одна ошибка в распознавании цифры). Время обработки составило 3,2 с.

Сравнение с традиционным подходом

Для объективной оценки эффективности разработанной DSLM был проведен эксперимент, в котором сравнивались два подхода к подготовке исходных данных для транспортного моделирования:

− Традиционный подход (базовый уровень): инженер-проектировщик вручную вводит данные из проектной документации в расчетную программу, выполняя визуальный контроль корректности ввода. Этот подход включает открытие документа, поиск нужных значений, ручной набор цифр и проверку на наличие опечаток.

− Предлагаемый подход (DSLM): инженер загружает тот же документ в разработанную модель, которая автоматически извлекает все необходимые параметры, выполняет валидацию и формирует структурированный пакет данных, готовый к передаче в расчетное ядро. Инженер лишь просматривает результаты извлечения и подтверждает их корректность.

В эксперименте участвовали 10 различных проектных документов (ведомости пикетов, продольные профили) средней сложности. Результаты представлены в табл. 2.

Ключевой результат заключается не столько в ускорении самого процесса извлечения (3,2 с против 24 мин), сколько в перераспределении роли инженера: от оператора, выполняющего рутинные действия, к эксперту, осуществляющему контроль и принятие решений. Инженер тратит 83 % своего времени не на набор цифр, а на содержательный анализ – проверку корректности извлеченных данных, оценку их соответствия проектной логике и принятие решений в нестандартных ситуациях.

Таким образом, основным функциональным результатом является не просто ускорение, а качественное изменение характера труда инженера-расчетчика. Рутинные и подверженные ошибкам этапы подготовки данных делегируются интеллектуальной модели, а специалист фокусируется на задачах, требующих профессиональной экспертизы и творческого подхода.

Таблица 1

Метрики качества извлечения сущностей

Тип сущности	Precision	Recall	F1
Пикетажные отметки	0,98	0,97	0,97
Проектные отметки	0,97	0,95	0,96
Радиусы кривых	0,95	0,92	0,93
Продольные уклоны	0,96	0,94	0,95
Параметры ТС	0,94	0,91	0,92
Ограничения скорости	0,97	0,93	0,95
Среднее	0,96	0,93	0,94

Примечание: составлена автором на основе полученных данных в ходе исследования.

Рис. 2. Пример работы DSLM: извлечение параметров из проектного документа Примечание: составлен авторами по результатам данного исследования

Таблица 2

Сравнение временных затрат и качества подготовки данных

Показатель	Традиционный подход (ручной ввод)	Предлагаемый подход (DSLM)	Эффект
Среднее время на документ	24 мин	4,2 мин (3,2 с работа модели + 4 мин проверка)	Сокращение в 5,7 раз
Количество ошибок на документ	2,3 (опечатки, пропуски)	0,1 (после проверки инженером)	Снижение в 23 раза
Доля времени инженера	100 % (активная работа)	~17 % (проверка)	Высвобождение 83 % времени
Общее время на 10 документов	4 ч	42 мин	Сокращение в 5,7 раз

Примечание: составлена автором на основе полученных данных в ходе исследования.

Предложенный подход демонстрирует эффективность создания предметно-ориентированных языковых моделей для автоматизации инженерных задач. Основное преимущество разработанной DSLM заключается в ее способности понимать специфическую терминологию и структуру дорожно-проектной документации без необходимости предварительного программирования правил извлечения для каждого типа документа.

Тестирование универсальных моделей (GPT, LLaMA) на том же наборе документов показало существенно более низкие результаты: точность извлечения не превышала 65 %, а в 30 % случаев модель «галлюцинировала» – добавляла несуществующие данные. Тонкая настройка позволила не только повысить точность до 94 %, но и полностью устранить проблему генерации нерелевантной информации.

Выявленные проблемы и ограничения включают следующие аспекты.

Зависимость от качества исходных документов. При работе с сильно зашумленными сканами (низкое разрешение, рукописные пометки) точность извлечения снижается до 82 %. Требуется предварительная обработка изображений.

Необходимость обновления модели. Изменение нормативной базы (новые ГОСТы) требует дообучения модели на новых данных – процесс, требующий временных затрат.

Интерпретируемость. Несмотря на высокую точность, объяснение причин, по которым модель приняла то или иное решение, остается сложной задачей. Внедрение методов объяснимого ИИ (XAI) – перспективное направление развития.

Перспективы развития связаны с углублением автономии и расширением функциональности системы. Приоритетными являются следующие направления.

Реализация агента-оптимизатора, способного не только выполнить расчет по заданным параметрам, но и предложить инженеру варианты модификации исходных данных (профиля, плана) для достижения целевых показателей безопасности или эффективности на основе формализации (аксиоматизации) проектных решений [12, 13].

Расширение онтологии и базы знаний платформы для поддержки мультидисциплинарного моделирования, например, совместного расчета скоростных режимов и оценки воздействия на окружающую среду.

Усиление контура машинного обучения и эксплуатации (MLOps-контура) до промышленного уровня с развитыми системами мониторинга дрейфа данных, автоматического переобучения и управления экспериментированием (A/B-тестирование моделей).

Комплексная реализация перечисленных направлений позволяет перейти от автоматизации отдельных операций к созданию более автономной цифровой экосистемы проектирования при сохранении ответственности инженера за постановку задачи, выбор ограничений и финальную верификацию результатов. В такой системе инженер формулирует целевые показатели и ограничения, а интеллектуальные агенты помогают подбирать варианты решений, выполнять многовариантные расчеты, проводить машинную верификацию и формировать проектные артефакты в соответствии с нормативными требованиями. Дальнейшее повышение автономности требует расширения корпуса данных, формализации правил безопасности и внедрения механизмов контролируемого принятия решений в составе AI-Native платформ [14, 15].

Заключение

В статье представлена разработка предметно-ориентированной языковой модели, предназначенной для автоматизации критического этапа формализации исходных данных в задачах транспортного моделирования. Показано, что тонкая настройка универсальной модели на специализированном датасете, включающем нормативные требования и теоретические положения, позволяет достичь качества извлечения параметров, сопоставимого с человеческим, при кратном сокращении временных затрат.

Ключевыми результатами являются методика создания обучающего датасета на основе реальной проектной документации и ГОСТов, архитектура модели, интегрирующая предметные знания в процесс обучения, а также действующий прототип, позволяющий сократить время активной работы инженера на этапе подготовки данных и высвободить рабочее время для решения содержательных профессиональных задач. Разработанная модель может служить ядром систем интеллектуальной автоматизации инженерных расчетов, повышая общую надежность проектирования транспортных систем.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Финансирование

Исследование выполнено в рамках государственного задания Министерства науки и высшего образования Российской Федерации (тема № FSFM-2025-0004), что не повлияло на объективность представленных результатов и выводов.

Библиографическая ссылка

Остроух А.В., Подберёзкин А.А., Пронин Ц.Б., Поспелов П.И., Котов А.А. РАЗРАБОТКА И ОБУЧЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННОЙ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛИ ДЛЯ АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯ И ВАЛИДАЦИИ ПАРАМЕТРОВ В ЗАДАЧАХ ТРАНСПОРТНОГО МОДЕЛИРОВАНИЯ // Современные наукоемкие технологии. 2026. № 4. С. 317-323;
URL: https://top-technologies.ru/ru/article/view?id=40767 (дата обращения: 25.06.2026).
DOI: https://doi.org/10.17513/snt.40767

Научный журнал
Современные наукоемкие технологии

ISSN 1812-7320

"Перечень" ВАК

ИФ РИНЦ = 1,279

Конфликт интересов

Финансирование

Библиографическая ссылка

Современные наукоемкие технологии
Научный журнал | ISSN 1812-7320 | ПИ №77-63399