Журнал Современные наукоемкие технологии

1812-7320

Общество с ограниченной ответственностью "Издательский Дом "Академия Естествознания"

10.17513/snt.40727

ART-40727

РАЗРАБОТКА МОДЕЛИ И ЧИСЛЕННЫХ МЕТОДОВ ДЛЯ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ ТЕКСТОВ НА ОСНОВЕ СИСТЕМЫ С ПРЕДОПРЕДЕЛЕННОЙ СЕМАНТИКОЙ

Алексеева

Наталья Робертовна

Alekseeva

N.R.

alexis-04@mail.ru

Ванюлин

Александр Николаевич

Vanyulin

A.N.

van-u-lin@yandex.ru

Давыдова

Оксана Владимировна

Davydova

O.V.

oxana_dani@mail.ru

ФГБОУ ВО «Чувашский государственный университет им. И. Н. Ульянова» Federal State Educational Budget Institution of Higher Education «The Ulianov Chuvash State University»

07 04 2026

4 41 47

This is an open-access article distributed under the terms of the CC BY 4.0 license.

https://top-technologies.ru/ru/article/view?id=40727

Целью исследования является разработка и апробация математической модели и численных методов для определения тональности текстов на основе системы с предопределенной семантикой. В качестве материалов исследования использовалась выборка из 1000 пользовательских отзывов. Для обучения системы была проведена ручная разметка тональности на уровне отдельных предложений, где каждому предложению присваивалась метка: +1 (позитивное), 0 (нейтральное) или -1 (негативное). Ключевым в предлагаемом методе является вычисление семантического спектра для языковых единиц (слов, фраз, предложений). Этот спектр представляет собой числовой вектор, который формируется по специальному алгоритму, учитывающему не только набор символов в слове, но и их порядок, причем последние символы вносят наибольший вклад в результирующий спектр. Для учета структуры предложения и минимизации влияния порядка слов был разработан алгоритм построения древовидной структуры предложения. На этапе обучения система формировала три базы данных (для позитивных, нейтральных и негативных слов), куда записывались скорректированные семантические спектры слов и информация об их наиболее вероятном уровне в дереве. Результаты тестирования метода на выборке, не участвовавшей в обучении, показали такую же точность распознавания, что и с помощью метода Bag of Words, что продемонстрировало сопоставимую точность. Основной вывод исследования заключается в том, что предложенный метод позволяет достигать уровня точности, сравнимого со стандартными методами, без привлечения внешних лингвистических ресурсов, таких как базы данных словоформ.

The aim of the study is to develop and test a mathematical model and numerical methods for determining the sentiment of texts based on a system with predefined semantics. A sample of 1,000 user reviews was used as research materials. To train the system, sentiment was manually annotated at the sentence level, with each sentence assigned a label: +1 (positive), 0 (neutral), or -1 (negative). The key to the proposed method is the calculation of a semantic spectrum for linguistic units (words, phrases, sentences). This spectrum is a numerical vector generated using a special algorithm that takes into account not only the set of characters in a word but also their order, with the last characters making the largest contribution to the resulting spectrum. To account for sentence structure and minimize the influence of word order, an algorithm for constructing a tree-like sentence structure was developed. During the training phase, the system created three databases (for positive, neutral, and negative words), which contained the adjusted semantic spectra of words and information about their most probable level in the tree. Testing the method on a sample not included in the training phase demonstrated the same recognition accuracy as the Bag of Words method, demonstrating comparable precision. The main conclusion of the study is that the proposed method achieves a level of accuracy comparable to standard methods without relying on external linguistic resources, such as word form databases.

математическое моделирование численные методы система с предопределенной семантикой семантический спектр анализ тональности комплекс программ классификация текстов

mathematical modeling numerical methods system with predefined semantics semantic spectrum sentiment analysis software suite text classification

1. Богданова Т. Ф., Бойчук Е. И. Основные теоретические проблемы, связанные с понятием тональности текста // Верхневолжский филологический вестник. 2020. № 4 (23). С. 136–141. DOI: 10.20323/2499-9679-2020-4-23-136-141.

2. Конурбаев М. Э. Тембр как тензор: многомерная модель жанрово-стилистического анализа литературного текста // Russian Linguistic Bulletin. 2026. № 1 (73). URL: https://rulb.org/archive/1-73-2026-january/10.60797/RULB.2026.73.2 (дата обращения: 22.03.2026). DOI: 10.60797/RULB.2026.73.2. EDN: SSNECB.

3. Двойникова А. А., Карпов А. А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. 2020. № 4. С. 20–30. DOI: 10.31799/1684-8853-2020-4-20-30.

4. Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы. 2015. № 1 (109). С. 72–78. DOI: 10.15827/0236-235X.109.072-078.

5. Райимкулов А. Б., Ашералиева М. Ж., Корякина Ю. С. Методы и технологии измерения тональности текста // Проблемы автоматики и управления. 2025. № 3 (54). С. 101–109. URL: https://pau.imash.kg/index.php/pau/ru/article/view/546 (дата обращения: 23.03.2026).

6. Максименко О. И., Беляков М. В. Сентимент-анализ как инструмент лингвоэмотиологии: оценка потенциала систем анализа тональности текста // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2025. Т. 16. № 3. С. 760–782. DOI: 10.22363/2313-2299-2025-16-3-760-782.

7. Ванюлин А. Н., Алексеева Н. Р., Мочалова Т. А. Лингвистические основы алгоритмов компьютерной обработки текстов на основе систем с предопределенной семантикой // Современные наукоемкие технологии. 2020. № 3. С. 35–39. URL: http://www.top-technologies.ru/ru/article/view?id=37936 (дата обращения: 23.03.2026). DOI: 10.17513/snt.37936.

8. Ванюлин А. Н., Алексеева Н. Р. Алгоритмы реализации систем с предопределенной семантикой на основе концепции семантических полей // Современные наукоемкие технологии. 2022. № 5-1. С. 7–11. URL: https://top-technologies.ru/ru/article/view?id=39142 (дата обращения: 22.03.2026). DOI: 10.17513/snt.39142.

9. Васильев В. В. Парадигмы анализа тональности и сентимент-анализа региональных интернет-СМИ на примере новостных порталов Якутии // Филология: научные исследования. 2025. № 12. С. 335–345. URL: https://nbpublish.com/library_read_article.php?id=77208 (дата обращения: 23.03.2026). DOI: 10.7256/2454-0749.2025.12.77208.

10. Жаксыбаев Д. О., Мизамова Г. Н. Алгоритмы обработки естественного языка для понимания семантики текста // Труды ИСП РАН. 2022. Т. 34. № 1. С. 135–150. DOI: 10.15514/ISPRAS-2022-34(1)-10.

11. Самигулин Т. Р., Джурабаев А. Э. У. Анализ тональности текста методами машинного обучения // Научный результат. Информационные технологии. 2021. Т. 6. № 1. С. 55–62. DOI: 10.18413/2518-1092-2021-6-1-0-7.

12. Ванюлин А. Н., Алексеева Н. Р. Определение тональности текстов методами компьютерной лингвистики: анализ отзывов о торговых сетях // Современные наукоемкие технологии. 2025. № 5. С. 27–31. URL: https://top-technologies.ru/ru/article/view?id=40386 (дата обращения: 23.03.2026). DOI: 10.17513/snt.40386.

13. Плешакова Е. С., Гатауллин С. Т., Осипов А. В., Романова Е. В., Самбуров Н. С. Эффективная классификация текстов на естественном языке и определение тональности речи с использованием выбранных методов машинного обучения // Вопросы безопасности. 2022. № 4. С. 1–14. URL: https://nbpublish.com/library_read_article.php?id=38658 (дата обращения: 22.03.2026). DOI: 10.25136/2409-7543.2022.4.38658.

14. Хорошилов А. А., Козловская Я. Д., Мусабаев Р. Р., Красовицкий А. М., Хорошилов А. А. Определение тональности сообщений СМИ методами их концептуального анализа // Моделирование и анализ данных. 2019. № 4. С. 67–79. DOI: 10.17759/mda.2019090405.

15. Басина П. А., Дунаева Д. О., Саркисова А. Ю. Валидация моделей машинного обучения для автоматизированного определения тональности русскоязычных текстов // Вестник Томского государственного университета. 2022. № 485. С. 206–216. DOI: 10.17223/15617793/485/23.