Введение
Рецензирование текстов сложных документов, то есть документов, имеющих как сложную структуру, так и значительное количество рассматриваемых вопросов, подготовленных студентами и молодыми учеными, является неотъемлемой составляющей как образовательного процесса, так и научно-исследовательской деятельности. Примерами таких документов являются научные статьи, курсовые работы и проекты, выпускные квалификационные работы. Анализ таких документов требует от рецензента внимательного анализа, глубокого понимания предметной области выполненного исследования и индивидуального подхода к каждой работе [1]. Увеличение количества текстов и связанное с этим возрастание объема работы экспертов, необходимость соблюдения сроков рассмотрения работ, а также то, что работа рецензента чаще всего не оплачивается, делают процесс рецензирования особенно напряженным и влияют на качество рецензирования [2]. В связи с этим возрастает потребность в интеллектуальных инструментах, способных поддержать рецензента, снизить рутинную нагрузку, структурировать информацию и обеспечить более эффективное взаимодействие с материалами [3]. Таковыми инструментами являются методы обработки естественного языка, основанные как на статистических и лингвистических характеристиках текстов, так и на технологиях искусственного интеллекта, например большие языковые модели. Исходя из этого, актуальным является обзор и сравнительный анализ методов автоматизации рецензирования для обнаружения их основных преимуществ, недостатков и ограничений с целью определения наиболее эффективной стратегии использования данных методов для анализа текстов.
Цель исследования – оценка состояния исследования в области автоматизации рецензирования сложных академических и научных работ на основе аналитического обзора актуальных научных источников.
Материалы и методы исследования
В ходе работы были проведены исследование, обзор и сравнительный анализ актуальных научно-исследовательских работ по теме автоматического рецензирования и оценки научных и академических работ. Анализировались рецензируемые научные статьи и обзоры, опубликованные не ранее 1 января 2015 г., из открытых баз данных ScienceDirect и IEEExplore. Критерий отбора публикаций: соответствие тематике исследования (обработка естественного языка (Natural Language Processing, NLP), автоматизация рецензирования научных текстов). Было проанализировано 176 публикаций, из которых, в соответствии с современной методологией проведения анализа источников PRISMA [4], для аналитического обзора было избрано 40 публикаций. Далее приводятся результаты аналитического обзора источников, разделенных на четыре группы по уровню применения технологий: статистические методы – 8 публикаций, методы обработки естественного языка с базовым машинным обучением – 14, большие языковые модели – 8 публикаций, большие языковые модели с дополнительными функциями – 6. Кроме того, 4 публикации использовались как источники общей информации о предметной области.
Результаты исследования и их обсуждение
1. Статистические методы обработки естественного языка
На первом этапе были рассмотрены статистические методы анализа текста, основанные на анализе частотности слов и фраз, их распределении, а также на выявлении статистических связей без глубокого учета семантического содержания. Оценка и анализ актуальности, новизны и значимости научных и практических работ с использованием статистических методов, как правило, сводится к определению частотности ключевых терминов в сопоставлении с другими текстами. Для извлечения ключевых слов часто используют метод TF-IDF (Term Frequency – Inverse Document Frequency). Данный метод основан на анализе частоты слов в тексте. Так как частота использования не является достаточным показателем значимости слова, метод TF-IDF зачастую дополняется иными методами. Различные коллективы авторов используют данный метод как в сочетании с расчетом весов выбранных ключевых слов с учетом предварительно заданных тематик (Z. Wang и др., 2021) [5], так и вместе с отбором тех ключевых понятий, частота которых ниже (L.C. Chen, 2024) [6]. В обоих случаях авторы достигают увеличения точности не менее чем на 10 % в сравнении со стандартным TF-IDF. Z. Xu и J. Zhang также предлагают комбинирование TF-IDF с методом TextRank, что позволяет учитывать не только частоту, но и связи между словами, в связи с чем также увеличивается точность извлечения ключевых слов [7]. Научная значимость также может быть оценена через анализ цитируемости, однако этот метод применим лишь ретроспективно.
Статистические методы используются и для тематического моделирования, то есть анализа основных тематик текста. Тематическое моделирование также может быть способом оценки актуальности, новизны и значимости работы, так как этот метод позволяет выявить основные темы текста и сравнить их с доминирующими темами в предметной области. Наиболее распространенный статистический метод тематического моделирования – LDA (Latent Dirichlet allocation). Данный метод позволяет не только извлекать перечень тем, но и анализировать изменения тематик с течением времени, что и показано в работе C.K. Kreutz [8]. Для данного метода также возможны улучшения. Один из вариантов улучшения, предложенных R.K. Gupta, R. Agarwalla и др., – комбинирование методов TF-IDF и LDA, что дает увеличение точности на 41 % по сравнению с применением только LDA [9]. Иной метод тематического моделирования предложен M.K. Alsmadi, M. Alzaqebah и др., в работе которых сравнение тематик текстов осуществляется путем подсчета расстояния Левенштейна, что, по сути, является оценкой их сходства. Данный метод может быть использован при заранее не определенном наборе тематик в коллекции документов [10].
Оценка качества научного стиля текста, в том числе связности, также возможна с помощью статистических методов. Качество и читаемость текста могут быть оценены по длине предложений, разнообразию словаря и иным текстовым характеристикам. S. Lei и R. Yang в своей работе проводят оценку лексического разнообразия текстов научных статей с помощью нескольких параметров, например Type-Token Ratio [11]. Другой параметр качества текста – связность текста. Вариант оценки связности на уровне предложений и абзацев с помощью комбинации статистических и графовых методов приводят в своем исследовании V. Sebestyén, E. Domokos, и J. Abonyi; предложенный авторами метод позволяет анализировать и визуализировать связи между терминами текста [12].
Несмотря на широкое применение, статистические методы обладают существенными ограничениями. Они не учитывают контекстуальные и семантические особенности текста, вследствие чего оказываются неспособны к глубокому содержательному анализу, включая оценку логичности аргументации и достоверности представленных данных.
2. Методы обработки естественного языка с базовым машинным обучением
В данной части обзора рассмотрены как лингвистически ориентированные подходы, так и элементы базового машинного обучения. Оценка актуальности, новизны и значимости работы может осуществляться, в частности, через классификацию по предметным областям. H. Chen, L. Wu и др. используют классификатор «случайный лес» на примере законодательных актов [13]. Данный метод можно применять и к текстам другого вида, в том числе к научным текстам.
Анализ тональности текста может помочь выявить степени уверенности или субъективности в утверждениях автора. H. Raza, M. Faizan и др. сравнивают различные алгоритмы классификации для оценки тональности научного текста и выясняют, что наилучшей точностью обладает байесовский классификатор [14].
Методы обработки естественного языка могут также использоваться для извлечения ключевых сущностей в тексте. Пример – задача NER (Named Entity Recognition, распознавание именованных сущностей), которая может быть решена различными методами. O.A. Tarasova, A.V. Rudik и др. предлагают решение задачи NER, основанное на байесовском классификаторе, для поиска основных химических терминов и формул [15]. Другое решение задачи NER, основанное на векторных представлениях слов и нейронных сетях LSTM (Long Short-Term Memory), используется для извлечения медицинских терминов и состояний пациента из историй болезни (Y. Zhuang и др., 2024) [16]. Следует отметить, что рассмотренные решения могут быть адаптированы под различные предметные области.
Для установления связей между ключевыми сущностями может также использоваться метод извлечения отношений (Relation Extraction), способствующий лучшему пониманию текста. K. Detroja, C.K. Bhensdadia и B.S. Bhatt в своей работе приводят обзор основных методов извлечения отношений и делают вывод, что как сверточные, так и рекуррентные нейронные сети могут быть эффективны для данной задачи [17]. Данные выводы подкрепляют B. Guo, J. Meng и др., используя графовые сверточные нейронные сети для извлечения отношений из медицинских текстов, и также достигают высокой точности работы реализованного ими метода [18].
Модели последовательностей, такие как CRF (Conditional Random Field), LSTM, также могут использоваться для выделения ключевых фрагментов и структурных элементов научного текста. N. Giarelis и N. Karacapilidis провели обзор различных методов извлечения ключевых сущностей, и выявлено, что наиболее эффективно с задачей справляются нейронные сети глубокого обучения [19]. Q. Chen и др. предлагают использовать сверточные нейронные сети для извлечения ключевых фраз вида факт-условие (Fact-Condition Statements) из текста, дополненного таблицами [20]. Для извлечения ключевых сущностей и фрагментов также используют векторные представления слов или предложений. A. Sharma и S. Kumar используют модель Word2Vec в сочетании с классификацией (по методу k ближайших соседей) для извлечения знаний в области инженерии на основе семантики текста [21]. X. Wu, Y. Liu и др. также используют метод семантического поиска для извлечения ключевых сущностей, а именно траекторий движения [22]. При автоматическом рецензировании приведенные методы могут быть использованы для извлечения целей и задач исследования, так как данные части текста чаще всего имеют схожую структуру.
Поскольку ключевые сущности могут быть представлены в тексте в различных формах, применяются методы разрешения кореференции. Пример такого метода с высокой точностью функционирования, основанный на анализе событий с помощью нейронных сетей, показан в работе Y. Lu, H. Lin и др. [23].
Методы обработки естественного языка могут быть использованы и для оценки качества научного стиля текста. Один из вариантов применения – синтаксический анализ для выявления сложных или грамматически некорректных конструкций. Подобный метод анализа используют J.K. Jia, Y.B. Shao и др., проводя декомпозицию предложений для оценки корректности их построения [24]. Качество научного изложения также может быть оценено с помощью нейронных сетей. S. Yeung в своей работе провел сравнение различных подходов к оценке качества текста и установил, что даже базовые методы машинного обучения демонстрируют приемлемую точность в оценке качества научного текста, несмотря на наличие более современных методов [25].
Оценка связности текста может базироваться на анализе дискурсивных маркеров, слов для организации связей и структуры аргументации. V. Bhatnagar и др. анализируют дискурсивные маркеры с помощью методов нейросетевого анализа и семантического сходства (в рамках собственного фреймворка CHIIA) для оценки связности научного текста и формирования рекомендаций по улучшению текста авторам [26]. Подобный анализ также может быть полезен и для рецензирования, так как позволит выявить недочеты текста.
Методы NLP имеют ряд ограничений. Их эффективность во многом зависит от качества извлеченных лингвистических признаков и разметки данных для обучения моделей. Кроме того, базовые методы обработки естественного языка с трудом справляются с пониманием сложных рассуждений и анализом контекста в пределах всего документа.
3. Большие языковые модели
За последние несколько лет большие языковые модели (LLM) стали широко применять в различных областях науки для извлечения информации из текстов, и применение языковых моделей дало впечатляющие результаты (D. Xu и др., 2024) [27]. Применение больших языковых моделей требует значительных навыков программирования и владения знаниями в области искусственного интеллекта. Также и специфика академических текстов, а именно высокая вариативность формулировок и неявная структура, требует разработки специализированных подходов и инструментов. В связи с этим M.P. Polak и D. Morgan предлагают метод извлечения информации из научных текстов с помощью диалоговой большой языковой модели с использованием пользовательского ввода [28]. Современные модели демонстрируют способность анализировать сложные тексты, выявляя логические, методологические и стилистические ошибки, и генерировать структурированные критические отзывы, сопоставимые с человеческими, при этом значительно ускоряя процесс обработки документов. Существуют, однако, и ограничения, например галлюцинации (фактические ошибки) и субъективность оценки. В связи с этим J. Lee и др. в своем обзоре LLM для оценки научных текстов в области медицины предлагают использовать LLM только для помощи в рецензировании текстов, но не для полной автоматизации процесса [29].
Задача автоматизации рецензирования научных и учебных работ с помощью LLM является актуальной в связи с большим количеством требований, которые необходимо учитывать. Для учета требований журналов необходимо понимание структуры работы. Для достижения понимания структуры текста T. Xie, Y. Kuang и др. разработали систему TLS (theme-based lecture summary), использующую большие языковые модели и графовые методы для анализа учебных материалов и их реферирования [30]. Предложенный подход может быть расширен и на научные работы для проверки их содержимого на соответствие требованиям.
Однако базовые реализации LLM сталкиваются с проблемой поверхностного, неполноценного анализа. R. Zhou и др. в ходе своего исследования выявили, что стандартные большие языковые модели (в частности, GPT), в отличие от человека, склонны избегать конструктивной критики и не способны генерировать полностью безошибочные отзывы [31]. Данное обстоятельство является существенным ограничением возможностей больших языковых моделей. Отчасти преодолеть данное ограничение можно путем имитации человеческого мышления. Так, Z. Li, C. Chen и др. предлагают фреймворк Chain of Thought, имитирующий процесс глубокого человеческого мышления через цепочки рассуждений [32]. Данный метод позволяет значительно улучшить процесс рассуждения модели, однако для дальнейшего увеличения точности необходимы иные методы обучения модели, например обучение с подкреплением.
Метод MAMORX (P. Taechoyotin и др., 2024) представляет собой новый подход к обработке длинных документов, распределяя текст между специализированными агентами. Каждый агент фокусируется на определенном аспекте: экспериментальная часть, ясность изложения, научная значимость. Также имеются агенты, анализирующие изображения и цитирования. Координирующий агент синтезирует частичные анализы в комплексный отзыв [33]. Таким образом, авторы реализуют мультимодальность, что позволяет существенно увеличить качество работы, ясность и конструктивность изложения. Аналогичный подход реализован в проекте Agent Review (Y. Jin, Q. Zhao и др., 2024), где моделирование социальной динамики между виртуальными рецензентами позволило выявить 37,1% вариативности оценок, обусловленной скрытыми предубеждениями [34]. Этот метод особенно важен для анализа субъективных факторов в процессе рецензирования. Предлагаемый авторами метод хорошо подходит для оценки значимости, новизны, преимуществ и недостатков работы, а также генерации рекомендаций к рецензируемой работе.
4. Большие языковые модели с дополнительными функциями
Большие языковые модели демонстрируют высокую эффективность при решении стандартных задач, входящих в область их предварительного обучения. Однако в случаях, когда задача выходит за рамки обучающих данных или требует учета специфики предметной области, производительность модели может значительно снижаться. Для адаптации LLM к новым задачам, включая автоматическое рецензирование научных и учебных текстов, необходимо дополнительное обучение на специализированных наборах данных (D.M. Anisuzzaman и др., 2025) [35].
В настоящее время разработано несколько подходов к адаптации LLM для решения специфических задач. Наиболее прямолинейным из них является Full Fine-tuning, при котором обновляются все параметры предварительно обученной модели. Несмотря на высокую эффективность, данный метод требует значительных вычислительных ресурсов, что ограничивает его применимость в определенных задачах и сценариях.
В качестве альтернативы были разработаны методы параметр-эффективного обучения (тонкой настройки) Parameter-Efficient Fine-Tuning (PEFT), позволяющие адаптировать модель к новым задачам при минимальных изменениях параметров и существенно сниженных ресурсных затратах, что компенсирует побочный эффект метода PEFT в виде небольшого ухудшения общей точности (S. Pratap, A.R. Aranha и др., 2025) [36]. Одним из вариантов метода PEFT является метод LoRA (Low-Rank adaptation), отличающийся от основного метода способом расчета значимости параметров. Подобный метод используют в своей Dehong D. Gao, Y. Yufei Ma и др. для создания модели FashionGPT. Используемый авторами метод LoRA дает существенное улучшение точности по сравнению со стандартными методами тонкой настройки [37]. Модель позиционируется авторами как многоцелевая и обученная на наборах данных различного содержания, а потому может быть использована и для автоматизации рецензирования текстов.
В то же время в работе Empirical Study of LLM Fine-Tuning for Text Classification in Legal Document Review (F. Wei, R. Keeling и др., 2023) рассматривается способ тонкой настройки модели DistilBERT для классификации юридических документов [38]. Однако в статье не указано, какой конкретно метод SFT (Supervised Fine-Tuning) был применен, что затрудняет воспроизводимость результатов и их оценку с точки зрения эффективности адаптации модели.
Другой пример представлен в исследовании J. Lu, L. Yu и др., где описывается способ оценки качества программного кода при помощи модели LLaMA, обученной методом PEFT LoRA. Авторы демонстрируют, что обученная ими модель показывает сопоставимые результаты с моделью Code Reviewer, изначально созданной специально для анализа качества исходного кода [39]. Подобный подход может быть эффективно применен и в задачах рецензирования отдельных компонентов научных и учебных текстов, таких как цели и задачи исследования, обоснование выбора методов или формулировка результатов.
Кроме того, наблюдается рост интереса исследователей к технологии RAG (Retrieval Augmented Generation), которая позволяет подключать внешние источники информации к процессу генерации ответа модели. Z. Li, Z. Wang и др. проводят обзор использования RAG в образовательной сфере. Авторы приходят к выводу, что использование RAG позволяет более эффективно актуализировать и персонализировать используемые данные, несмотря на недостатки в виде галлюцинаций и высоких затрат ресурсов [40]. При рецензировании RAG можно использовать для оценки актуальности, новизны и значимости через сравнение рецензируемого документа с ранее написанными.
Сравнительная таблица методов автоматического рецензирования
Группа методов |
Основные признаки, решенные задачи |
Глубина решения поставленной задачи (рецензирования) |
Статистические методы обработки естественного языка |
Статистический анализ текста. Анализ ключевых слов. Анализ лексики текста. Структурирование текста |
Оцениваются статистические характеристики текста и его частей. Не учитывается семантика текста |
Методы обработки естественного языка с базовым машинным обучением |
Анализ, классификация текстов. Извлечение ключевых сущностей, отношений. Анализ терминологии, тональности текста. Семантический поиск |
Оценка содержимого текста. Извлечение ключевых сущностей, отношений внутри текста, признаков. Анализ синтаксиса. Недоступны сложные рассуждения по тексту |
Большие языковые модели |
Автоматизация анализа. Генерация структурированных рецензий. Базовый анализ структуры и связности текста, соответствия терминологии. Поддержка многоаспектного анализа. Обучаемость и улучшение качества, генерация конструктивных рекомендаций |
Оценка содержимого текста. Анализ текста в совокупности и раздельно. Высокая гибкость и адаптивность. Ограничения при работе с многопараметрическими задачами |
Большие языковые модели с дополнительными функциями |
Автоматизация анализа, генерация структурированных рецензий. Классификация, анализ структуры, смысла, связности текста, соответствия терминологии, новизны, значимости, преимуществ и недостатков. Поддержка многоаспектного анализа. Генерация конструктивных рекомендаций |
Оценка содержимого текста. Анализ текста в совокупности и раздельно. Высокая гибкость и адаптивность. Комплексный многоаспектный анализ |
Источник: составлено авторами на основе обзора источников.
Таким образом, современные подходы к дообучению LLM открывают широкие возможности для автоматизации процесса рецензирования, обеспечивая гибкость, масштабируемость и высокую степень адаптируемости к различным предметным областям. Однако для достижения стабильных и воспроизводимых результатов требуется обеспечение высокого качества данных и тщательный подбор метода для обучения модели.
Далее был проведен сравнительный анализ выделенных групп методов. По результатам анализа была построена таблица.
Заключение
Проведенный обзор и сравнительный анализ показывает, что наибольшим функционалом обладают большие языковые модели с дополнительными функциями, прежде всего с тонкой настройкой (fine-tuning). При этом данная группа методов требует значительных вычислительных ресурсов и большого объема качественно размеченных данных для проведения настройки. Кроме того, необходима периодическая актуализация используемых данных. Вместе с тем качество результата при использовании больших языковых моделей с дополнительными функциями выше, чем у прочих рассмотренных групп методов, и этим компенсируется затратность такого подхода.
Наиболее эффективный анализ научных текстов может быть достигнут путем комбинирования методов, описанных в статье. Внутренние характеристики текста, включая логичность и качество аргументации, лучше всего оценивать с помощью больших языковых моделей с дополнительными функциями (с тонкой настройкой), которые лучше справляются с пониманием текста в целом и по частям. При этом следует использовать несколько языковых моделей, обученных на разные части задачи рецензирования. Тематическая актуальность, новизна, качество цитирований и даже наличие заимствований могут быть оценены с помощью более простых методов обработки естественного языка, потому как оценка данных показателей требует обработки большого количества актуальных на момент проведения оценки источников, что может быть затратно при использовании языковых моделей. Вместе с тем данная проблема также может быть решена с помощью включения внешних источников информации в процесс работы с большой языковой моделью.
В ходе работы был проведен обзор источников и сравнительный анализ методов автоматизации рецензирования сложных научных работ. Предлагается использовать комплексный подход, включающий разные группы методов. Результаты исследования могут быть использованы при разработке систем для анализа и рецензирования текстов.