Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 1,279

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОЦЕНКИ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПАЦИЕНТОВ ПРИ ДИСТАНЦИОННОМ ПСИХОЛОГИЧЕСКОМ КОНСУЛЬТИРОВАНИИ

Путинцева А. А. 1, Андреева В. Д. 1, Эбрахим А. 1, Хасанов И. И. 1
1 Федеральное государственное образовательное бюджетное учреждение высшего образования «Финансовый университет при Правительстве Российской Федерации»
Распознавание эмоций по выражению лица рассматривается как дополнительный инструмент поддержки специалиста при дистанционном психологическом консультировании, однако перенос моделей из лабораторных условий в реальный видеопоток сопровождается существенной потерей устойчивости. Цель исследования – разработать и апробировать подход к оценке эмоционального состояния пациента в сценарии дистанционного психологического консультирования, объединяющий экспериментальное сравнение конфигураций моделей распознавания эмоций с практической реализацией модульного программного прототипа. Использованы два набора данных – Emotion-2 и адаптированная под задачу распознавания эмоций версия FairFace – и четыре конфигурации моделей детекции и классификации с единой схемой обучения, на основе которых спроектирован модульный программный прототип для анализа видеосессий. Определено, что наилучшее соотношение точности и вычислительной эффективности обеспечивает сбалансированная конфигурация одноэтапного детектора. Показано, что высокая точность на валидационной выборке не гарантирует устойчивой работы на реальном видеопотоке из-за шума разметки, дисбаланса классов, чувствительности к условиям освещения, ракурсу и частичным перекрытиям лица. В составе прототипа реализованы модули захвата видеопотока, предобработки изображения, детекции и классификации эмоций, временной агрегации предсказаний, событийной логики и визуализации, адаптированные к сценарию дистанционного консультирования. Полученные результаты показывают, что практическая ценность подобных систем определяется не только архитектурными решениями, но и качеством обучающих данных, применением временного сглаживания и адаптацией прикладной логики под конкретный сценарий использования.
распознавание эмоций
машинное обучение
компьютерное зрение
видеоаналитика
нейронные сети
дистанционное консультирование
1. Li S., Deng W. Deep Facial Expression Recognition: A Survey // IEEE Transactions on Affective Computing. 2022. Vol. 13. Is. 3. P. 1195–1215. URL: https://ieeexplore.ieee.org/document/9039580 (дата обращения: 02.04.2026). DOI: 10.1109/TAFFC.2020.2981446.
2. Picard R. W. Affective Computing. Cambridge, MA: MIT Press, 1997. 306 p. ISBN 978-0-262-16170-1.
3. Hutchinson B., Rostamzadeh N., Greer C., Heller K., Prabhakaran V. Evaluation Gaps in Machine Learning Practice // Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency. 2022. P. 1859–1876. DOI: 10.1145/3531146.3533233.
4. Goodfellow I. J., Erhan D., Carrier P. L., Courville A., Mirza M., Hamner B., Cukierski W., Tang Y., Thaler D., Lee D.-H., Zhou Y., Ramaiah C., Feng F., Li R., Wang X., Athanasakis D., Shawe-Taylor J., Milakov M., Park J., Ionescu R., Popescu M., Grozea C., Bergstra J., Xie J., Romaszko L., Xu B., Chuang Z., Bengio Y. Challenges in Representation Learning: A Report on Three Machine Learning Contests // Neural Networks. 2015. Vol. 64. P. 59–63. URL: https://www.sciencedirect.com/science/article/abs/pii/S0893608014002159?via%3Dihub (дата обращения: 11.04.2026). DOI: 10.1016/j.neunet.2014.09.005.
5. Mollahosseini A., Hasani B., Mahoor M. H. AffectNet: A Database for Facial Expression, Valence, and Arousal Computing in the Wild // IEEE Transactions on Affective Computing. 2019. Vol. 10. Is. 1. P. 18–31. URL: https://ieeexplore.ieee.org/document/8013713 (дата обращения: 03.04.2026). DOI: 10.1109/TAFFC.2017.2740923.
6. Karkkainen K., Joo J. FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and Mitigation // Proceedings of the 2021 IEEE Winter Conference on Applications of Computer Vision (WACV). 2021. P. 1547–1557. URL: https://ieeexplore.ieee.org/document/9423296 (дата обращения: 08.04.2026). DOI: 10.1109/WACV48630.2021.00159.
7. Singh K., Ahirwal M. K., Pandey M. Subject wise data augmentation based on balancing factor for quaternary emotion recognition through hybrid deep learning model // Biomedical Signal Processing and Control. 2023. Vol. 86. Is. A. Art. 105075. URL: https://www.sciencedirect.com/science/article/abs/pii/S1746809423005086 (дата обращения: 15.04.2026). DOI: 10.1016/j.bspc.2023.105075.
8. Taskiran S. F., Turkoglu B., Kaya E. et al. A comprehensive evaluation of oversampling techniques for enhancing text classification performance // Scientific Reports. 2025. Vol. 15. Is. 1. Art. 21631. URL: https://www.nature.com/articles/s41598-025-05791-7 (дата обращения: 12.04.2026). DOI: 10.1038/s41598-025-05791-7.
9. Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection // Proceedings – IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2016). 2016. P. 779–788. URL: https://ieeexplore.ieee.org/document/7780460 (дата обращения: 04.04.2026). DOI: 10.1109/CVPR.2016.91.
10. Carion N., Massa F., Synnaeve G., Usunier N., Kirillov A., Zagoruyko S. End-to-End Object Detection with Transformers // Computer Vision – ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I. 2020. P. 213–229. DOI: 10.1007/978-3-030-58452-8_13.
11. Savchenko A. V. Facial expression and attributes recognition based on multi-task learning of lightweight neural networks // 2021 IEEE 19th International Symposium on Intelligent Systems and Informatics (SISY). 2021. P. 119–124. URL: https://ieeexplore.ieee.org/document/9582508 (дата обращения: 13.04.2026). DOI: 10.1109/SISY52375.2021.9582508.
12. Zhao Z., Liu Q. Former-DFER: Dynamic Facial Expression Recognition Transformer // Proceedings of the 29th ACM International Conference on Multimedia (MM ‘21). 2021. P. 1553–1561. DOI: 10.1145/3474085.3475292.
13. Wang K., Peng X., Yang J., Lu S., Qiao Y. Suppressing Uncertainties for Large-Scale Facial Expression Recognition // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 6896–6905. URL: https://ieeexplore.ieee.org/document/9157210 (дата обращения: 29.03.2026). DOI: 10.1109/CVPR42600.2020.00693.
14. Ma F., Sun B., Li S. Facial Expression Recognition With Visual Transformers and Attentional Selective Fusion // IEEE Transactions on Affective Computing. 2023. Vol. 14. Is. 2. P. 1236–1248. URL: https://ieeexplore.ieee.org/document/9585378 (дата обращения: 01.04.2026). DOI: 10.1109/TAFFC.2021.3122146.
15. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J., Houlsby N. An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale // 9th International Conference on Learning Representations (ICLR 2021). 2021. URL: https://openreview.net/forum?id=YicbFdNTTy (дата обращения: 12.04.2026).
16. Liu Z., Lin Y., Cao Y., Hu H., Wei Y., Zhang Z., Lin S., Guo B. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows // Proceedings – 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada. 2021. P. 9992–10002. URL: https://ieeexplore.ieee.org/document/9710580 (дата обращения: 14.04.2026). DOI: 10.1109/ICCV48922.2021.00986.

Введение

Автоматическое распознавание эмоций по выражению лица относится к числу наиболее заметных направлений аффективных вычислений и компьютерного зрения. Для сферы дистанционного психологического консультирования такие системы представляют практический интерес как вспомогательный аналитический инструмент, позволяющий учитывать не только вербальные, но и визуальные сигналы пациента [1, 2].

Вместе с тем накопленные результаты показывают, что высокая точность на тестовых выборках далеко не всегда переносится на реальные видеосессии. На практике качество распознавания снижается из-за различий между лабораторными и прикладными условиями, ограничений исходных датасетов и нестабильности покадровых предсказаний [1, 3]. Именно этот разрыв между формальными метриками и практической пригодностью особенно важен в задачах консультирования, где интерпретация эмоциональной динамики требует устойчивого и воспроизводимого сигнала.

В представленной статье существенно переработан и расширен материал конференционной публикации за счет включения прикладной реализации из отчета о научно-исследовательской работе. В отличие от исходного варианта, внимание сосредоточено не только на сравнении моделей, но и на том, как экспериментальные выводы трансформируются в архитектуру прототипа программной системы и в рекомендации для ее практического применения.

Цель исследования – разработка и апробация подхода к оценке эмоционального состояния пациента в сценарии дистанционного психологического консультирования, объединяющего экспериментальное сравнение конфигураций моделей распознавания эмоций с практической реализацией модульного программного прототипа.

Материал и методы исследования

Видеопоток представлен последовательностью кадров It, t = 1,…,T, где It ∊ ℝH×W×3 – RGB-кадр в момент t. Задача распознавания эмоций по изображению лица формализуется как построение отображения fθ : It → (bi, ci, si), i = 1,…, Nt, где bi ∊ ℝ4 – координаты ограничивающей рамки лица, ci ∊ C – предсказанный класс эмоции из множества C = c1,…,cK, si ∊ [0,1] – уверенность модели, Nt – число обнаруженных лиц, θ – обучаемые параметры модели.

Параметры θ оцениваются минимизацией композиционной функции потерь

объединяющей слагаемые локализации лица, классификации эмоции и оценки уверенности. В сценарии дистанционного консультирования итоговое решение принимается не по отдельному кадру, а по агрегированной во времени последовательности предсказаний внутри скользящего окна (см. Алгоритм 1).

Экспериментальная часть работы опиралась на два набора данных. Первый набор, Emotion-2, содержит изображения лиц с аннотациями для одностадийной детекции и классификации эмоций. Второй набор представляет собой адаптированную под задачу распознавания эмоций версию FairFace. Использование двух наборов позволило сопоставить поведение моделей на относительно согласованных данных и на данных с выраженными признаками шумной разметки и межклассовой близости [4–6].

Адаптация FairFace к эмоциональным классам позволила увеличить объем обучающих данных, однако одновременно внесла систематические ограничения. Существенная часть изображений характеризуется слабовыраженной мимикой, классы распределены неравномерно, а категории neutral, sad и confused часто различаются только тонкими мимическими признаками [1, 6]. Поэтому на этапе подготовки данных использовались взвешивание классов, аугментации изображений и нормализация входа [7, 8].

Для сравнительного анализа были выбраны четыре конфигурации моделей: YOLOv12n, YOLOv12s, YOLOv12m и RF-DETR-medium. Такой набор позволил сопоставить компактную, сбалансированную и более емкую конфигурации одноэтапного детектора с трансформерным подходом к детекции объектов [9, 10].

Все четыре конфигурации обучались по общей схеме в режиме быстрой адаптации: 10 эпох, размер батча – 16, входное разрешение 640×640 пикселей. В качестве оптимизатора применялся SGD с моментом, весовым затуханием и косинусным расписанием скорости обучения. Из аугментаций использовался стандартный для YOLO набор – mosaic, аффинные преобразования, HSV-сдвиги, горизонтальный флип. Данные делились на обучающую и валидационную выборки в пропорции 80/20 со стратификацией по классам, случайное зерно фиксировалось для воспроизводимости.

В качестве метрик качества использовались mAP@0.5, mAP@0.5–0.95, Precision и Recall – этот набор отражает и качество локализации лица, и корректность классификации эмоции. Отдельно рассматривались межклассовые ошибки: для прикладного сценария важна не суммарная точность сама по себе, а характер систематических перепутываний между близкими эмоциями.

Практическая часть исследования была построена как проектирование прототипа программной системы для анализа эмоций в видеосессии. При разработке структуры прототипа учитывались требования к работе в реальном времени, необходимость стабилизации покадровых предсказаний и возможность адаптации решения к разным прикладным сценариям, включая телемедицинское консультирование и мониторинг в сервисной среде [1, 11, 12].

Результаты исследования и их обсуждение

Результаты сравнения моделей на датасете Emotion-2 приведены в табл. 1. Наилучшее сочетание точности и вычислительной эффективности продемонстрировала модель YOLOv12s. Именно она показала максимальное значение mAP@0.5 при более выгодном соотношении качества и ресурсов по сравнению как с компактной версией YOLOv12n, так и с более тяжелой конфигурацией YOLOv12m.

Полученные данные подтверждают, что простое увеличение числа параметров не гарантирует роста практического качества. Более крупная модель YOLOv12m не показала существенного выигрыша относительно YOLOv12s, что согласуется с литературными наблюдениями о высокой чувствительности задач распознавания эмоций к качеству данных и к особенностям обучающей выборки [1, 3, 13]. Для условий ограниченного вычислительного бюджета более рациональным оказывается выбор модели с лучшим балансом скорости и устойчивости, а не с максимальной емкостью.

Дополнительный анализ на адаптированном FairFace показал выраженную неоднородность качества по отдельным эмоциям. Результаты оценки модели по метрикам Precision и Recall представлены в табл. 2. Наиболее уверенно модель распознает положительное эмоциональное состояние, тогда как классы Confused и Angry характеризуются заметно большим числом ошибок. Это связано одновременно с дефицитом примеров для некоторых категорий и с мимической близостью ряда состояний [1, 6].

Таблица 1

Сравнительные результаты моделей на датасете Emotion-2

Модель

mAP@0.5

mAP@0.5–0.95

Precision

Recall

YOLOv12n

0,945

0,920

0,890

0,910

YOLOv12s

0,960

0,955

0,930

0,940

YOLOv12m

0,958

0,950

0,920

0,930

RF-DETR-medium

0,940

0,920

0,900

0,900

Примечание: составлена авторами на основе полученных данных в ходе исследования.

Таблица 2

Производительность модели YOLOv12s по классам на адаптированном FairFace

Класс эмоции

Precision, %

Recall, %

Happy

99,6

100,0

Neutral

96,3

97,5

Angry

87,3

81,8

Confused

75,4

87,5

Sad

88,1

85,2

Macro avg

89,3

90,4

Weighted avg

90,4

90,6

Примечание: составлена авторами на основе полученных данных в ходе исследования.

Для расширения статистического анализа результатов поклассовые значения precision и recall были дополнены макро- и взвешенными средними оценками. Macro avg характеризует качество распознавания при равном вкладе каждого эмоционального класса, тогда как weighted avg учитывает их относительную представленность в выборке. Для модели YOLOv12s macro precision и macro recall составили 89,3 и 90,4 %, а weighted precision и weighted recall – 90,4 и 90,6 % соответственно. Близость макро- и взвешенных оценок показывает, что интегральные результаты модели не определяются исключительно преобладающими классами. Вместе с тем поклассовые значения указывают на неравномерность распознавания отдельных эмоций: минимальное значение precision наблюдается для класса Confused, а минимальное значение recall – для класса Angry.

Наиболее принципиальный вывод экспериментальной части состоит в том, что высокая точность на валидационной выборке не обеспечивает автоматически надежную работу на реальном видеопотоке. При переносе модели в прикладной сценарий становятся критичными освещение, ракурс, частичные перекрытия лица и кратковременные покадровые колебания меток. Подобный разрыв между лабораторной оценкой и практикой неоднократно подчеркивался в работах по распознаванию эмоций и по оценке применимости моделей машинного обучения [1, 3].

Именно поэтому второй частью исследования стала практическая реализация прототипа программной системы. Архитектура прототипа показана на рис. 1. В ее составе выделены модуль захвата видеопотока, модуль предобработки изображений, ядро детекции и классификации на основе YOLOv12s, модуль временной агрегации, событийная логика и визуализация результатов. Такая структура позволяет отделить вычислительное ядро от прикладной логики и при необходимости адаптировать систему под другой контекст использования.

Рис. 1. Архитектура прототипа программной системы распознавания эмоций Примечание: составлен авторами по результатам данного исследования

Рис. 2. Интерфейс прототипа для сценария дистанционного психологического консультирования Примечание: составлен авторами по результатам данного исследования

Для сценария дистанционного психологического консультирования решающим оказался модуль временной агрегации предсказаний. Его назначение состоит в усреднении результатов по скользящему окну из нескольких соседних кадров, что снижает влияние случайных колебаний и делает визуализируемую динамику эмоционального состояния более интерпретируемой для специалиста [11, 12]. Без этого слоя даже достаточно точная модель может генерировать шумный сигнал, непригодный для прикладного анализа.

Алгоритм 1. Временная агрегация предсказаний эмоций.

Вход: поток кадровых предсказаний (ct, st); размер окна W; порог уверенности τ; число подтверждающих кадров R.

Выход: стабилизированная эмоция ĉt и агрегированная уверенность ŝt.

1. Инициализировать кольцевой буфер B размера W.

2. Для каждого нового кадра t:

2.1. если st ≥ τ – добавить (ct, st) в B;

2.2. если B пуст, сохранить предыдущее стабилизированное значение;

2.3. для каждого класса c ∊ C вычислить:

;

2.3. определить:

; ;

2.4. если значение ĉt удерживается R кадров подряд – зафиксировать событие смены эмоционального состояния.

Интерфейс прототипа для телемедицинского применения приведен на рис. 2. Пользователь получает не только текущую распознанную эмоцию, но и значение уверенности, параметры сглаживания, число обнаруженных лиц и наглядное представление распределения вероятностей по классам. Такая организация интерфейса соответствует задаче поддержки принятия решения, а не автоматической подмены специалиста.

Дополнительно прототип апробирован в ресторанном сценарии – для мониторинга эмоционального фона посетителей. Этот контекст не относится к основному предмету статьи, но позволил оценить универсальность выбранной архитектуры: одна и та же программная основа применяется в разных прикладных задачах за счет смены правил агрегации и визуализации. Прогоны на видеозаписях и в условиях, близких к реальным, показали работоспособность основных модулей и возможность обработки видеопотока в реальном времени на потребительском GPU. Вместе с тем выявились ограничения, заметные именно при внедрении: снижение качества при неравномерном освещении, ухудшение распознавания при отклонении головы от фронтального положения, ошибки на частично перекрытых лицах и нестабильность результата без сглаживания. Прикладная ценность системы, таким образом, складывается не только из метрик детектора – заметную роль играют качество постобработки и интерфейс интерпретации результата.

Из сопоставления экспериментальной и прикладной частей работы вытекает несколько практических выводов. При ограниченном бюджете на обучение и инференс модель YOLOv12s дает разумный компромисс между точностью и расходом ресурсов. При разработке системы предпочтительнее опираться на специализированные эмоциональные датасеты – или комбинировать несколько профильных наборов, чем ограничиваться адаптацией неспециализированных данных [5, 6]. В сценариях видеоконсультирования имеет смысл подключать временную фильтрацию предсказаний, пороги уверенности и механизмы подавления частых переключений между близкими эмоциями [1, 11, 14].

Среди направлений дальнейшего развития – переход от анализа отдельных кадров к более полному учету временной динамики и к мультимодальной обработке. Существенный потенциал в этой области показывают трансформерные архитектуры [15, 16] и методы совместного использования визуальных и иных сигналов [12, 14], хотя их практическая эффективность по-прежнему зависит от качества и репрезентативности обучающих данных.

Заключение

По результатам сравнения среди рассмотренных конфигураций YOLOv12s обеспечивает лучший баланс между точностью распознавания и вычислительной эффективностью и в этом смысле предпочтительнее остальных для задачи оценки эмоционального состояния пациента при дистанционном психологическом консультировании. При этом эксперименты на двух наборах данных подтвердили, что высокие валидационные метрики не гарантируют устойчивой работы на реальном видеопотоке: практическое качество заметно снижают шумная разметка, близость эмоциональных классов, вариации освещения, ракурс и частичные окклюзии лица.

Практическая реализация модульного прототипа подтвердила техническую реализуемость предложенного подхода для сценария дистанционного психологического консультирования. Ключевым элементом, обеспечивающим надежность системы в условиях реального видеопотока, оказался модуль временной агрегации предсказаний, позволяющий сгладить покадровые колебания и сформировать интерпретируемый сигнал для специалиста. Полученные результаты свидетельствуют о том, что практическая ценность подобных систем определяется не только архитектурными решениями и метриками детектора, но и качеством обучающих данных, продуманностью механизмов постобработки и соответствием прикладной логики конкретному сценарию использования.

Перспективы дальнейшего развития системы связаны с применением специализированных датасетов эмоций, тонкой адаптацией модели под прикладной домен, расширением мультимодального анализа и совершенствованием механизмов постобработки результатов, в том числе переходом от анализа одиночных кадров к учету временной динамики эмоционального состояния.


Конфликт интересов
Авторы заявляют об отсутствии конфликта интересов.

Финансирование
Исследование выполнено без внешнего финансирования.

Библиографическая ссылка

Путинцева А. А., Андреева В. Д., Эбрахим А., Хасанов И. И. ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОЦЕНКИ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПАЦИЕНТОВ ПРИ ДИСТАНЦИОННОМ ПСИХОЛОГИЧЕСКОМ КОНСУЛЬТИРОВАНИИ // Современные наукоемкие технологии. 2026. № 6. С. 156-161;
URL: https://top-technologies.ru/ru/article/view?id=40829 (дата обращения: 03.07.2026).
DOI: https://doi.org/10.17513/snt.40829