Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 1,172

ОБЗОР СОВРЕМЕННЫХ ПОДХОДОВ К АВТОМАТИЗАЦИИ РЕЦЕНЗИРОВАНИЯ ТЕКСТОВ СЛОЖНЫХ РАБОТ СТУДЕНТОВ И МОЛОДЫХ УЧЕНЫХ

Бондарев Ю.А. 1 Терещенко В.В. 1 Марцинкевич В.И. 1 Духанов А.В. 1
1 ФГАОУ ВО «Национальный исследовательский университет ИТМО»
Рецензирование текстов сложных документов, то есть документов, как имеющих сложную структуру, так и затрагивающих значительное количество вопросов, является неотъемлемой составляющей образовательного процесса и научно-исследовательской деятельности. Однако данный процесс требует внимания, глубокого анализа и индивидуального подхода, что сложно обеспечить при возрастающем объеме научных работ. В связи с этим актуальной становится задача автоматизации рецензирования. Целью данного исследования является сравнительный анализ методов автоматизации рецензирования научных текстов для выявления наиболее эффективных подходов. Для проведения обзора было проанализировано 176 актуальных исследовательских и обзорных статей из открытых баз ScienceDirect и IEEExplore, опубликованных не ранее 1 января 2015 г., из которых было выбрано 40. Выбранные источники были разделены на четыре группы по виду используемых методов: статистические методы, методы обработки естественного языка с машинным обучением, большие языковые модели, в том числе с дополнительными функциями. Для каждой из групп методов выявлены основные функции и оценена глубина решения задачи рецензирования. Проведенный сравнительный анализ методов показывает, что наибольшую эффективность и глубину решения задачи рецензирования показывают большие языковые модели с дополнительными функциями (прежде всего дополнительно обученные). Вместе с тем для более эффективного использования вычислительных ресурсов предлагается комплексный подход, объединяющий как большие языковые модели, так и методы обработки естественного языка.
автоматическое рецензирование
обработка естественного языка
большие языковые модели
тонкая настройка
качество научного текста
1. Тихонова Е.В., Раицкая Л.К. Рецензирование как инструмент обеспечения эффективной научной коммуникации: традиции и инновации // Научный редактор и издатель. 2021. Т. 6. № 1. С. 6–17. DOI: 10.24069/2542-0267-2021-1-6-17.
2. Drozdz J.A., Ladomery M.R. The Peer Review Process: Past, Present, and Future // British Journal of Biomedical Science. 2024. Vol. 81. DOI: 10.3389/bjbs.2024.12054.
3. Иванова Л.А. Искусственный интеллект при написании научных статей – положительный или вредоносный фактор? // Crede Experto: транспорт, общество, образование, язык. 2024. № 4. URL: https://cyberleninka.ru/article/n/iskusstvennyy-intellekt-pri-napisanii-nauchnyh-statey-polozhitelnyy-ili-vredonosnyy-faktor (дата обращения: 11.05.2025).
4. Tedja B., Al Musadieq M., Kusumawati A., Yulianto E. Systematic literature review using PRISMA: exploring the influence of service quality and perceived value on satisfaction and intention to continue relationship // Future Business Journal. 2024. Vol. 10. DOI: 10.1186/s43093-024-00326-4.
5. Wang Z., Wang D., Li Q. Keyword Extraction from Scientific Research Projects Based on SRP-TF-IDF[J] // Chinese Journal of Electronics. 2021. Vol. 30, Is. 4. P. 652–657. URL: https://cje.ejournal.org.cn/article/doi/10.1049/cje.2021.05.007 (дата обращения: 21.05.2025).
6. Chen L.C. An extended TF-IDF method for improving keyword extraction in traditional corpus-based research: An example of a climate change corpus // Data & Knowledge Engineering. 2024. Vol. 153. URL: https://www.sciencedirect.com/science/article/abs/pii/S0169023X24000466 (дата обращения: 21.05.2025).
7. Xu Z., Zhang J. Extracting Keywords from Texts based on Word Frequency and Association Features // Procedia Computer Science. 2021. Vol. 187. P. 77–82. DOI: 10.1016/j.procs.2021.04.035.
8. Kreutz C.K. A Hybrid Approach for Dynamic Topic Models with Fluctuating Number of Topics // Proceedings – 30th GI-Workshop Grundlagen von Datenbanken. Wuppertal, Germany: Heinrich-Heine University Düsseldorf, Department of Computer Science. 2018. P. 35–40. [Электронный ресурс]. URL: https://ceur-ws.org/Vol-2126/paper5.pdf (дата обращения: 21.05.2025).
9. Gupta R.K., Agarwalla R., Naik B.H., Evuri J.R., Thapa A., Singh T.D. Prediction of research trends using LDA based topic modeling // Global Transitions Proceedings. 2022. Vol. 3, Is. 1. P. 298–304. DOI: 10.1016/j.gltp.2022.03.015.
10. Alsmadi M.K., Alzaqebah M., Jawarneh S., Almarashdeh I., Al-Betar M.A., Alwohaibi M., Al-Mulla N.A., Ahmed E.A.E., Al Smadi A. Hybrid topic modeling method based on dirichlet multinomial mixture and fuzzy match algorithm for short text clustering // Journal of Big Data. 2024. Vol. 11, Is. 68. DOI: 10.1186/s40537-024-00930-9.
11. Lei S., Yang R. Lexical richness in research articles: Corpus-based comparative study among advanced Chinese learners of English, English native beginner students and experts // Journal of English for Academic Purposes. 2020. Vol. 47, Is. 100894. DOI: 10.1016/j.jeap.2020.100894.
12. Sebestyén V., Domokos E., Abonyi J. Multilayer network based comparative document analysis (MUNCoDA) // MethodsX. 2020. Vol. 7, Is. 100902. DOI: 10.1016/j.mex.2020.100902.
13. Chen H., Wu L., Chen J., Lu W., Ding J. A comparative study of automated legal text classification using random forests and deep learning // Information Processing & Management, 2022. Vol. 59, Is. 2. № 102798. DOI: 10.1016/j.ipm.2021.102798.
14. Raza H., Faizan M., Hamza A., Mushtaq A., Akhtar N. Scientific Text Sentiment Analysis using Machine Learning Techniques // International Journal of Advanced Computer Science and Applications (IJACSA). 2019. Vol. 10, Is. 12. DOI: 10.14569/IJACSA.2019.0101222.
15. Tarasova O.A., Rudik A.V., Biziukova N.Y., Filimonov D.A., Poroikov V.V. Chemical named entity recognition in the texts of scientific publications using the naïve Bayes classifier approach // Journal of Cheminformatics. 2022. Vol. 14, Is. 55. DOI: 10.1186/s13321-022-00633-4.
16. Zhuang Y., Zhang J., Lu R., He K., Li X. MedNER: Enhanced Named Entity Recognition in Medical Corpus via Optimized Balanced and Deep Active Learning // ACM Transactions on Intelligent Systems and Technology. 2024. Vol. 15, Is. 5. № 108. P. 1–24. DOI: 10.1145/3678178.
17. Detroja K., Bhensdadia C.K., Bhatt B.S. A survey on Relation Extraction // Intelligent Systems with Applications. 2023. Vol. 19. № 200244. URL: https://www.sciencedirect.com/science/article/pii/S2667305323000698 (дата обращения: 21.05.2025).
18. Guo B., Meng J., Zhao D., Jia X., Chu Y., Lin H. Integrating graph convolutional networks to enhance prompt learning for biomedical relation extraction // Journal of Biomedical Informatics. 2024. Vol. 157, Is. 104717. DOI: 10.1016/j.jbi.2024.104717.
19. Giarelis N., Karacapilidis N. Deep learning and embeddings-based approaches for keyphrase extraction: a literature review // Knowledge and Information Systems. 2024. Vol. 66. P. 6493–6526. DOI: 10.1007/s10115-024-02164-w.
20. Qizhi Chen, Hong Yao, Diange Zhou. The joint extraction of fact-condition statement and super relation in scientific text with table filling method // Information Processing & Management, 2025. Vol. 62, Is. 1. № 103906. DOI: 10.1016/j.ipm.2024.103906.
21. Sharma A., Kumar S. Ontology-based semantic retrieval of documents using Word2vec model // Data & Knowledge Engineering. 2023. Vol. 144. № 102110. DOI: 10.1016/j.datak.2022.102110.
22. Wu X., Liu Y., Zhao X., Chen J. STKST-I: An Efficient Semantic Trajectory Search by Temporal and Semantic Keywords // Expert Systems with Applications. 2023. Vol. 225. № 120064. URL: https://www.sciencedirect.com/science/article/pii/S0957417423005663 (дата обращения: 21.05.2025).
23. Lu Y., Lin H., Tang J., Han X., Sun L., End-to-end neural event coreference resolution // Artificial Intelligence. 2022. Vol. 303. № 103632. DOI: 10.1016/j.artint.2021.103632.
24. Jia J.K., Shao Y.B., Long H., Du Q.Z. A Natural Language Sentence Analysis Algorithm Based on Word Order Modifier Syntax Rules // Procedia Computer Science. 2020. Vol. 166. P. 496–500. DOI: 10.1016/j.procs.2020.02.058.
25. Yeung S. A comparative study of rule-based, machine learning and large language model approaches in automated writing evaluation (AWE) // Proceedings – 15th International Learning Analytics and Knowledge Conference (LAK ‘25). Association for Computing Machinery, New York, NY, USA. 2025. P. 984–991. DOI: 10.1145/3706468.3706566.
26. Bhatnagar V., Duari S., Gupta S.K. Quantitative Discourse Cohesion Analysis of Scientific Scholarly Texts Using Multilayer Networks // IEEE Access. 2022. Vol. 10. P. 88538–88557. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9857833 (дата обращения: 21.05.2025).
27. Xu D., Chen W., Peng W., Zhang C., Xu T., Zhao X., Wu X., Zheng Y., Wang Y., Chen E. Large language models for generative information extraction: a survey // Frontiers of Computer Science. 2024. Vol. 18. № 18635718. DOI: 10.1007/s11704-024-40555-y.
28. Polak M.P., Morgan D. Extracting accurate materials data from research papers with conversational language models and prompt engineering // Nature Communications. 2024. № 15. URL: https://www.nature.com/articles/s41467-024-45914-8 (дата обращения: 21.05.2025).
29. Lee J., Lee J., Yoo J.J. The role of large language models in the peer-review process: opportunities and challenges for medical journal reviewers and editors // Journal of Educational Evaluation for Health Professions. 2025. Vol. 22, Is. 4. DOI: 10.3352/jeehp.2025.22.4.
30. Xie T., Kuang Y., Tang Y., Liao J., Yang Y. Using LLM-supported lecture summarization system to improve knowledge recall and student satisfaction // Expert Systems with Applications. 2025. Vol. 269, Is. 126371. DOI: 10.1016/j.eswa.2024.126371.
31. Zhou R., Chen L., Yu K. Is LLM a Reliable Reviewer? A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Torino, Italia. ELRA and ICCL. 2024. P. 9340–9351.
32. Li Z., Chen C., Li M., Liao B. Exploring formal defeasible reasoning of large language models: A Chain-of-Thought approach // Knowledge-Based Systems. 2025. Vol. 319, Is. 113564. DOI: 10.1016/j.knosys.2025.113564.
33. Taechoyotin P., Wang G., Zeng T., Sides B., Acuna D. Multi-agent multi-modal scientific review generation with external knowledge // Proceedings – Neurips 2024 Workshop Foundation Models for Science: Progress, Opportunities, and Challenges. 2024. [Электронный ресурс]. URL: https://openreview.net/forum?id=frvkE8rCfX (дата обращения: 11.05.2025).
34. Jin Y., Zhao Q., Wang Y., Chen H., Zhu K., Xiao Y., Wang J. Agent Review: Exploring Peer Review Dynamics with LLM Agents // Proceedings – 2024 Conference on Empirical Methods in Natural Language Processing, Miami, Florida, USA. Association for Computational Linguistics. 2024. P. 1208–1226. DOI: 10.18653/v1/2024.emnlp-main.70.
35. Anisuzzaman D.M., Malins J.G., Paul A. Friedman P.A., Zachi I. Attia Z.I. Fine-Tuning Large Language Models for Specialized Use Cases // Mayo Clinic Proceedings: Digital Health. 2025. Vol. 3, Is. 1. № 100184. DOI: 10.1016/j.mcpdig.2024.11.005.
36. Pratap S., Aranha A.R., Kumar D., Malhotra G., Iyer A.P.N., Shylaja S.S. The fine art of fine-tuning: A structured review of advanced LLM fine-tuning techniques // Natural Language Processing Journal. 2025. Vol. 11, Is. 100144. DOI: 10.1016/j.nlp.2025.100144.
37. Gao D., Ma Y., Liu S., Song M., Jin L., Jiang W., Wang X., Ning W., Yu S., Xuan Q., Cai X., Yang L. FashionGPT: LLM instruction fine-tuning with multiple LoRA-adapter fusion // Knowledge-Based Systems. 2024. Vol. 299, Is. 112043. DOI: 10.1016/j.knosys.2024.112043.
38. Wei F., Keeling R., Huber-Fliflet N., Zhang J., Dabrowski A., Yang J., Mao Q., Qin H. Empirical Study of LLM Fine-Tuning for Text Classification in Legal Document Review // Proceedings – 2023 IEEE International Conference on Big Data (BigData). 2023. P. 2786–2792. DOI: 10.1109/BigData59044.2023.10386911.
39. Lu J., Yu L., Li X., Yang L., Zuo C., LLaMA-Reviewer: Advancing Code Review Automation with Large Language Models through Parameter-Efficient Fine-Tuning // Proceedings – 2023 IEEE 34th International Symposium on Software Reliability Engineering (ISSRE), Florence, Italy. 2023. P. 647–658. DOI: 10.1109/ISSRE59848.2023.00026.
40. Li Z., Wang Z., Wang W., Hung K., Xie H., Wang F.L. Retrieval-augmented generation for educational application: A systematic survey // Computers and Education: Artificial Intelligence. 2025. Vol. 8. № 100417. DOI: 10.1016/j.caeai.2025.100417.

Введение

Рецензирование текстов сложных документов, то есть документов, имеющих как сложную структуру, так и значительное количество рассматриваемых вопросов, подготовленных студентами и молодыми учеными, является неотъемлемой составляющей как образовательного процесса, так и научно-исследовательской деятельности. Примерами таких документов являются научные статьи, курсовые работы и проекты, выпускные квалификационные работы. Анализ таких документов требует от рецензента внимательного анализа, глубокого понимания предметной области выполненного исследования и индивидуального подхода к каждой работе [1]. Увеличение количества текстов и связанное с этим возрастание объема работы экспертов, необходимость соблюдения сроков рассмотрения работ, а также то, что работа рецензента чаще всего не оплачивается, делают процесс рецензирования особенно напряженным и влияют на качество рецензирования [2]. В связи с этим возрастает потребность в интеллектуальных инструментах, способных поддержать рецензента, снизить рутинную нагрузку, структурировать информацию и обеспечить более эффективное взаимодействие с материалами [3]. Таковыми инструментами являются методы обработки естественного языка, основанные как на статистических и лингвистических характеристиках текстов, так и на технологиях искусственного интеллекта, например большие языковые модели. Исходя из этого, актуальным является обзор и сравнительный анализ методов автоматизации рецензирования для обнаружения их основных преимуществ, недостатков и ограничений с целью определения наиболее эффективной стратегии использования данных методов для анализа текстов.

Цель исследования – оценка состояния исследования в области автоматизации рецензирования сложных академических и научных работ на основе аналитического обзора актуальных научных источников.

Материалы и методы исследования

В ходе работы были проведены исследование, обзор и сравнительный анализ актуальных научно-исследовательских работ по теме автоматического рецензирования и оценки научных и академических работ. Анализировались рецензируемые научные статьи и обзоры, опубликованные не ранее 1 января 2015 г., из открытых баз данных ScienceDirect и IEEExplore. Критерий отбора публикаций: соответствие тематике исследования (обработка естественного языка (Natural Language Processing, NLP), автоматизация рецензирования научных текстов). Было проанализировано 176 публикаций, из которых, в соответствии с современной методологией проведения анализа источников PRISMA [4], для аналитического обзора было избрано 40 публикаций. Далее приводятся результаты аналитического обзора источников, разделенных на четыре группы по уровню применения технологий: статистические методы – 8 публикаций, методы обработки естественного языка с базовым машинным обучением – 14, большие языковые модели – 8 публикаций, большие языковые модели с дополнительными функциями – 6. Кроме того, 4 публикации использовались как источники общей информации о предметной области.

Результаты исследования и их обсуждение

1. Статистические методы обработки естественного языка

На первом этапе были рассмотрены статистические методы анализа текста, основанные на анализе частотности слов и фраз, их распределении, а также на выявлении статистических связей без глубокого учета семантического содержания. Оценка и анализ актуальности, новизны и значимости научных и практических работ с использованием статистических методов, как правило, сводится к определению частотности ключевых терминов в сопоставлении с другими текстами. Для извлечения ключевых слов часто используют метод TF-IDF (Term Frequency – Inverse Document Frequency). Данный метод основан на анализе частоты слов в тексте. Так как частота использования не является достаточным показателем значимости слова, метод TF-IDF зачастую дополняется иными методами. Различные коллективы авторов используют данный метод как в сочетании с расчетом весов выбранных ключевых слов с учетом предварительно заданных тематик (Z. Wang и др., 2021) [5], так и вместе с отбором тех ключевых понятий, частота которых ниже (L.C. Chen, 2024) [6]. В обоих случаях авторы достигают увеличения точности не менее чем на 10 % в сравнении со стандартным TF-IDF. Z. Xu и J. Zhang также предлагают комбинирование TF-IDF с методом TextRank, что позволяет учитывать не только частоту, но и связи между словами, в связи с чем также увеличивается точность извлечения ключевых слов [7]. Научная значимость также может быть оценена через анализ цитируемости, однако этот метод применим лишь ретроспективно.

Статистические методы используются и для тематического моделирования, то есть анализа основных тематик текста. Тематическое моделирование также может быть способом оценки актуальности, новизны и значимости работы, так как этот метод позволяет выявить основные темы текста и сравнить их с доминирующими темами в предметной области. Наиболее распространенный статистический метод тематического моделирования – LDA (Latent Dirichlet allocation). Данный метод позволяет не только извлекать перечень тем, но и анализировать изменения тематик с течением времени, что и показано в работе C.K. Kreutz [8]. Для данного метода также возможны улучшения. Один из вариантов улучшения, предложенных R.K. Gupta, R. Agarwalla и др., – комбинирование методов TF-IDF и LDA, что дает увеличение точности на 41 % по сравнению с применением только LDA [9]. Иной метод тематического моделирования предложен M.K. Alsmadi, M. Alzaqebah и др., в работе которых сравнение тематик текстов осуществляется путем подсчета расстояния Левенштейна, что, по сути, является оценкой их сходства. Данный метод может быть использован при заранее не определенном наборе тематик в коллекции документов [10].

Оценка качества научного стиля текста, в том числе связности, также возможна с помощью статистических методов. Качество и читаемость текста могут быть оценены по длине предложений, разнообразию словаря и иным текстовым характеристикам. S. Lei и R. Yang в своей работе проводят оценку лексического разнообразия текстов научных статей с помощью нескольких параметров, например Type-Token Ratio [11]. Другой параметр качества текста – связность текста. Вариант оценки связности на уровне предложений и абзацев с помощью комбинации статистических и графовых методов приводят в своем исследовании V. Sebestyén, E. Domokos, и J. Abonyi; предложенный авторами метод позволяет анализировать и визуализировать связи между терминами текста [12].

Несмотря на широкое применение, статистические методы обладают существенными ограничениями. Они не учитывают контекстуальные и семантические особенности текста, вследствие чего оказываются неспособны к глубокому содержательному анализу, включая оценку логичности аргументации и достоверности представленных данных.

2. Методы обработки естественного языка с базовым машинным обучением

В данной части обзора рассмотрены как лингвистически ориентированные подходы, так и элементы базового машинного обучения. Оценка актуальности, новизны и значимости работы может осуществляться, в частности, через классификацию по предметным областям. H. Chen, L. Wu и др. используют классификатор «случайный лес» на примере законодательных актов [13]. Данный метод можно применять и к текстам другого вида, в том числе к научным текстам.

Анализ тональности текста может помочь выявить степени уверенности или субъективности в утверждениях автора. H. Raza, M. Faizan и др. сравнивают различные алгоритмы классификации для оценки тональности научного текста и выясняют, что наилучшей точностью обладает байесовский классификатор [14].

Методы обработки естественного языка могут также использоваться для извлечения ключевых сущностей в тексте. Пример – задача NER (Named Entity Recognition, распознавание именованных сущностей), которая может быть решена различными методами. O.A. Tarasova, A.V. Rudik и др. предлагают решение задачи NER, основанное на байесовском классификаторе, для поиска основных химических терминов и формул [15]. Другое решение задачи NER, основанное на векторных представлениях слов и нейронных сетях LSTM (Long Short-Term Memory), используется для извлечения медицинских терминов и состояний пациента из историй болезни (Y. Zhuang и др., 2024) [16]. Следует отметить, что рассмотренные решения могут быть адаптированы под различные предметные области.

Для установления связей между ключевыми сущностями может также использоваться метод извлечения отношений (Relation Extraction), способствующий лучшему пониманию текста. K. Detroja, C.K. Bhensdadia и B.S. Bhatt в своей работе приводят обзор основных методов извлечения отношений и делают вывод, что как сверточные, так и рекуррентные нейронные сети могут быть эффективны для данной задачи [17]. Данные выводы подкрепляют B. Guo, J. Meng и др., используя графовые сверточные нейронные сети для извлечения отношений из медицинских текстов, и также достигают высокой точности работы реализованного ими метода [18].

Модели последовательностей, такие как CRF (Conditional Random Field), LSTM, также могут использоваться для выделения ключевых фрагментов и структурных элементов научного текста. N. Giarelis и N. Karacapilidis провели обзор различных методов извлечения ключевых сущностей, и выявлено, что наиболее эффективно с задачей справляются нейронные сети глубокого обучения [19]. Q. Chen и др. предлагают использовать сверточные нейронные сети для извлечения ключевых фраз вида факт-условие (Fact-Condition Statements) из текста, дополненного таблицами [20]. Для извлечения ключевых сущностей и фрагментов также используют векторные представления слов или предложений. A. Sharma и S. Kumar используют модель Word2Vec в сочетании с классификацией (по методу k ближайших соседей) для извлечения знаний в области инженерии на основе семантики текста [21]. X. Wu, Y. Liu и др. также используют метод семантического поиска для извлечения ключевых сущностей, а именно траекторий движения [22]. При автоматическом рецензировании приведенные методы могут быть использованы для извлечения целей и задач исследования, так как данные части текста чаще всего имеют схожую структуру.

Поскольку ключевые сущности могут быть представлены в тексте в различных формах, применяются методы разрешения кореференции. Пример такого метода с высокой точностью функционирования, основанный на анализе событий с помощью нейронных сетей, показан в работе Y. Lu, H. Lin и др. [23].

Методы обработки естественного языка могут быть использованы и для оценки качества научного стиля текста. Один из вариантов применения – синтаксический анализ для выявления сложных или грамматически некорректных конструкций. Подобный метод анализа используют J.K. Jia, Y.B. Shao и др., проводя декомпозицию предложений для оценки корректности их построения [24]. Качество научного изложения также может быть оценено с помощью нейронных сетей. S. Yeung в своей работе провел сравнение различных подходов к оценке качества текста и установил, что даже базовые методы машинного обучения демонстрируют приемлемую точность в оценке качества научного текста, несмотря на наличие более современных методов [25].

Оценка связности текста может базироваться на анализе дискурсивных маркеров, слов для организации связей и структуры аргументации. V. Bhatnagar и др. анализируют дискурсивные маркеры с помощью методов нейросетевого анализа и семантического сходства (в рамках собственного фреймворка CHIIA) для оценки связности научного текста и формирования рекомендаций по улучшению текста авторам [26]. Подобный анализ также может быть полезен и для рецензирования, так как позволит выявить недочеты текста.

Методы NLP имеют ряд ограничений. Их эффективность во многом зависит от качества извлеченных лингвистических признаков и разметки данных для обучения моделей. Кроме того, базовые методы обработки естественного языка с трудом справляются с пониманием сложных рассуждений и анализом контекста в пределах всего документа.

3. Большие языковые модели

За последние несколько лет большие языковые модели (LLM) стали широко применять в различных областях науки для извлечения информации из текстов, и применение языковых моделей дало впечатляющие результаты (D. Xu и др., 2024) [27]. Применение больших языковых моделей требует значительных навыков программирования и владения знаниями в области искусственного интеллекта. Также и специфика академических текстов, а именно высокая вариативность формулировок и неявная структура, требует разработки специализированных подходов и инструментов. В связи с этим M.P. Polak и D. Morgan предлагают метод извлечения информации из научных текстов с помощью диалоговой большой языковой модели с использованием пользовательского ввода [28]. Современные модели демонстрируют способность анализировать сложные тексты, выявляя логические, методологические и стилистические ошибки, и генерировать структурированные критические отзывы, сопоставимые с человеческими, при этом значительно ускоряя процесс обработки документов. Существуют, однако, и ограничения, например галлюцинации (фактические ошибки) и субъективность оценки. В связи с этим J. Lee и др. в своем обзоре LLM для оценки научных текстов в области медицины предлагают использовать LLM только для помощи в рецензировании текстов, но не для полной автоматизации процесса [29].

Задача автоматизации рецензирования научных и учебных работ с помощью LLM является актуальной в связи с большим количеством требований, которые необходимо учитывать. Для учета требований журналов необходимо понимание структуры работы. Для достижения понимания структуры текста T. Xie, Y. Kuang и др. разработали систему TLS (theme-based lecture summary), использующую большие языковые модели и графовые методы для анализа учебных материалов и их реферирования [30]. Предложенный подход может быть расширен и на научные работы для проверки их содержимого на соответствие требованиям.

Однако базовые реализации LLM сталкиваются с проблемой поверхностного, неполноценного анализа. R. Zhou и др. в ходе своего исследования выявили, что стандартные большие языковые модели (в частности, GPT), в отличие от человека, склонны избегать конструктивной критики и не способны генерировать полностью безошибочные отзывы [31]. Данное обстоятельство является существенным ограничением возможностей больших языковых моделей. Отчасти преодолеть данное ограничение можно путем имитации человеческого мышления. Так, Z. Li, C. Chen и др. предлагают фреймворк Chain of Thought, имитирующий процесс глубокого человеческого мышления через цепочки рассуждений [32]. Данный метод позволяет значительно улучшить процесс рассуждения модели, однако для дальнейшего увеличения точности необходимы иные методы обучения модели, например обучение с подкреплением.

Метод MAMORX (P. Taechoyotin и др., 2024) представляет собой новый подход к обработке длинных документов, распределяя текст между специализированными агентами. Каждый агент фокусируется на определенном аспекте: экспериментальная часть, ясность изложения, научная значимость. Также имеются агенты, анализирующие изображения и цитирования. Координирующий агент синтезирует частичные анализы в комплексный отзыв [33]. Таким образом, авторы реализуют мультимодальность, что позволяет существенно увеличить качество работы, ясность и конструктивность изложения. Аналогичный подход реализован в проекте Agent Review (Y. Jin, Q. Zhao и др., 2024), где моделирование социальной динамики между виртуальными рецензентами позволило выявить 37,1% вариативности оценок, обусловленной скрытыми предубеждениями [34]. Этот метод особенно важен для анализа субъективных факторов в процессе рецензирования. Предлагаемый авторами метод хорошо подходит для оценки значимости, новизны, преимуществ и недостатков работы, а также генерации рекомендаций к рецензируемой работе.

4. Большие языковые модели с дополнительными функциями

Большие языковые модели демонстрируют высокую эффективность при решении стандартных задач, входящих в область их предварительного обучения. Однако в случаях, когда задача выходит за рамки обучающих данных или требует учета специфики предметной области, производительность модели может значительно снижаться. Для адаптации LLM к новым задачам, включая автоматическое рецензирование научных и учебных текстов, необходимо дополнительное обучение на специализированных наборах данных (D.M. Anisuzzaman и др., 2025) [35].

В настоящее время разработано несколько подходов к адаптации LLM для решения специфических задач. Наиболее прямолинейным из них является Full Fine-tuning, при котором обновляются все параметры предварительно обученной модели. Несмотря на высокую эффективность, данный метод требует значительных вычислительных ресурсов, что ограничивает его применимость в определенных задачах и сценариях.

В качестве альтернативы были разработаны методы параметр-эффективного обучения (тонкой настройки) Parameter-Efficient Fine-Tuning (PEFT), позволяющие адаптировать модель к новым задачам при минимальных изменениях параметров и существенно сниженных ресурсных затратах, что компенсирует побочный эффект метода PEFT в виде небольшого ухудшения общей точности (S. Pratap, A.R. Aranha и др., 2025) [36]. Одним из вариантов метода PEFT является метод LoRA (Low-Rank adaptation), отличающийся от основного метода способом расчета значимости параметров. Подобный метод используют в своей Dehong D. Gao, Y. Yufei Ma и др. для создания модели FashionGPT. Используемый авторами метод LoRA дает существенное улучшение точности по сравнению со стандартными методами тонкой настройки [37]. Модель позиционируется авторами как многоцелевая и обученная на наборах данных различного содержания, а потому может быть использована и для автоматизации рецензирования текстов.

В то же время в работе Empirical Study of LLM Fine-Tuning for Text Classification in Legal Document Review (F. Wei, R. Keeling и др., 2023) рассматривается способ тонкой настройки модели DistilBERT для классификации юридических документов [38]. Однако в статье не указано, какой конкретно метод SFT (Supervised Fine-Tuning) был применен, что затрудняет воспроизводимость результатов и их оценку с точки зрения эффективности адаптации модели.

Другой пример представлен в исследовании J. Lu, L. Yu и др., где описывается способ оценки качества программного кода при помощи модели LLaMA, обученной методом PEFT LoRA. Авторы демонстрируют, что обученная ими модель показывает сопоставимые результаты с моделью Code Reviewer, изначально созданной специально для анализа качества исходного кода [39]. Подобный подход может быть эффективно применен и в задачах рецензирования отдельных компонентов научных и учебных текстов, таких как цели и задачи исследования, обоснование выбора методов или формулировка результатов.

Кроме того, наблюдается рост интереса исследователей к технологии RAG (Retrieval Augmented Generation), которая позволяет подключать внешние источники информации к процессу генерации ответа модели. Z. Li, Z. Wang и др. проводят обзор использования RAG в образовательной сфере. Авторы приходят к выводу, что использование RAG позволяет более эффективно актуализировать и персонализировать используемые данные, несмотря на недостатки в виде галлюцинаций и высоких затрат ресурсов [40]. При рецензировании RAG можно использовать для оценки актуальности, новизны и значимости через сравнение рецензируемого документа с ранее написанными.

Сравнительная таблица методов автоматического рецензирования

Группа методов

Основные признаки, решенные задачи

Глубина решения поставленной задачи (рецензирования)

Статистические методы обработки естественного языка

Статистический анализ текста. Анализ ключевых слов. Анализ лексики текста. Структурирование текста

Оцениваются статистические характеристики текста и его частей. Не учитывается семантика текста

Методы обработки естественного языка с базовым машинным обучением

Анализ, классификация текстов. Извлечение ключевых сущностей, отношений. Анализ терминологии, тональности текста. Семантический поиск

Оценка содержимого текста. Извлечение ключевых сущностей, отношений внутри текста, признаков. Анализ синтаксиса. Недоступны сложные рассуждения по тексту

Большие языковые модели

Автоматизация анализа. Генерация структурированных рецензий. Базовый анализ структуры и связности текста, соответствия терминологии. Поддержка многоаспектного анализа. Обучаемость и улучшение качества, генерация конструктивных рекомендаций

Оценка содержимого текста. Анализ текста в совокупности и раздельно. Высокая гибкость и адаптивность. Ограничения при работе с многопараметрическими задачами

Большие языковые модели с дополнительными функциями

Автоматизация анализа, генерация структурированных рецензий. Классификация, анализ структуры, смысла, связности текста, соответствия терминологии, новизны, значимости, преимуществ и недостатков. Поддержка многоаспектного анализа. Генерация конструктивных рекомендаций

Оценка содержимого текста. Анализ текста в совокупности и раздельно. Высокая гибкость и адаптивность. Комплексный многоаспектный анализ

Источник: составлено авторами на основе обзора источников.

Таким образом, современные подходы к дообучению LLM открывают широкие возможности для автоматизации процесса рецензирования, обеспечивая гибкость, масштабируемость и высокую степень адаптируемости к различным предметным областям. Однако для достижения стабильных и воспроизводимых результатов требуется обеспечение высокого качества данных и тщательный подбор метода для обучения модели.

Далее был проведен сравнительный анализ выделенных групп методов. По результатам анализа была построена таблица.

Заключение

Проведенный обзор и сравнительный анализ показывает, что наибольшим функционалом обладают большие языковые модели с дополнительными функциями, прежде всего с тонкой настройкой (fine-tuning). При этом данная группа методов требует значительных вычислительных ресурсов и большого объема качественно размеченных данных для проведения настройки. Кроме того, необходима периодическая актуализация используемых данных. Вместе с тем качество результата при использовании больших языковых моделей с дополнительными функциями выше, чем у прочих рассмотренных групп методов, и этим компенсируется затратность такого подхода.

Наиболее эффективный анализ научных текстов может быть достигнут путем комбинирования методов, описанных в статье. Внутренние характеристики текста, включая логичность и качество аргументации, лучше всего оценивать с помощью больших языковых моделей с дополнительными функциями (с тонкой настройкой), которые лучше справляются с пониманием текста в целом и по частям. При этом следует использовать несколько языковых моделей, обученных на разные части задачи рецензирования. Тематическая актуальность, новизна, качество цитирований и даже наличие заимствований могут быть оценены с помощью более простых методов обработки естественного языка, потому как оценка данных показателей требует обработки большого количества актуальных на момент проведения оценки источников, что может быть затратно при использовании языковых моделей. Вместе с тем данная проблема также может быть решена с помощью включения внешних источников информации в процесс работы с большой языковой моделью.

В ходе работы был проведен обзор источников и сравнительный анализ методов автоматизации рецензирования сложных научных работ. Предлагается использовать комплексный подход, включающий разные группы методов. Результаты исследования могут быть использованы при разработке систем для анализа и рецензирования текстов.


Библиографическая ссылка

Бондарев Ю.А., Терещенко В.В., Марцинкевич В.И., Духанов А.В. ОБЗОР СОВРЕМЕННЫХ ПОДХОДОВ К АВТОМАТИЗАЦИИ РЕЦЕНЗИРОВАНИЯ ТЕКСТОВ СЛОЖНЫХ РАБОТ СТУДЕНТОВ И МОЛОДЫХ УЧЕНЫХ // Современные наукоемкие технологии. 2025. № 6. С. 72-79;
URL: https://top-technologies.ru/ru/article/view?id=40424 (дата обращения: 10.07.2025).
DOI: https://doi.org/10.17513/snt.40424