Сегодня практически все экономически развитые страны занимаются разработками, связанными с искусственным интеллектом. Применение искусственного интеллекта широко. Внедрение искусственного интеллекта в медицину помогает врачам установить точный диагноз, лечить пациентов, справляться с тяжелыми заболеваниями и проводить сложнейшие операции [1]. Системы распознавания усталости человека, которыми оснащаются некоторые современные автомобили, помогают в ряде случаев избежать аварий, вызванных невнимательностью, сонливостью или плохим самочувствием водителя [2]. В интеллектуальную транспортную систему городов вовлечены «умные» светофоры, которые в автоматическом режиме распределяют потоки и предотвращают многие аварийные ситуации [3]. Системы распознавания лиц и мимики широко используется в различных сферах деятельности человека, например в криминалистике, психологии, нейрофизиологии и др. [4]. Среди важных задач охранных систем можно выделить обнаружение людей, проявляющих эмоции, характерные для нарушителей правопорядка, психически больных, террористов [5]. Несмотря на усилия ученых всего мира нерешенными остаются базовые проблемы: поиск в пространстве решений, представление знаний и машинное обучение. Для совершенствования искусственного интеллекта необходимо раскрытие, формализация и моделирование процессов, которые искусственный интеллект должен распознавать или имитировать. Цель исследования – создание моделей эмоционального состояния человека, которые будут применяться в системах безопасности, применяющих искусственный интеллект.
В настоящее время практическое применение получили динамические биометрические системы анализа голоса, рукописного и клавиатурного почерков. Главным достоинством этих систем является низкая стоимость, обусловленная их реализацией преимущественно программными средствами. Недостатком динамической биометрии является точность идентификации и влияние на ее результат психофизического состояния личности (испуг, стресс, психотропные препараты и т.п.). Наиболее точными являются системы биометрической идентификации, использующие в качестве биометрики ДНК, рисунок радужной оболочки и сетчатки глаза. Однако данные системы являются дорогостоящими и не всегда могут быть использованы в охранных системах.
Xuhui Zhou представляет систему идентификации человека на расстоянии (DHID) – это система наблюдения в режиме реального времени, предназначенная для получения биометрических изображений людей на расстоянии. Система может обнаруживать и отслеживать движущихся людей на расстояниях до 50 м, в пределах поля зрения 60 ° [6]. Однако недостаточно использование только дистанционной идентификации человека, необходимо применение комплексного подхода. Arnold Wiliem представляет метод распознавания лиц с использованием моментов Зернике для основной цели обнаружения лиц в камерах наблюдения. Моменты Зернике инвариантны к вращению и масштабу, и эти свойства делают их подходящей функцией для автоматического распознавания лица. Требуется меньшее количество измерений, скорость распознавания выше, обработка выполняется быстрее и требуется меньше памяти. Предлагаемый подход распознавания лиц включает в себя устойчивость к поворотам, шкале, позе и дисперсии освещения [7].
А.М. Ахметвалеев на основании интеллектуального анализа определяет, находится ли данный человек в состоянии, в котором может совершить преступление. Совершение преступлений почти всегда сопряжено с высокими физическими и психологическими нагрузками. Поэтому преступники часто используют алкоголь, наркотические или психотропные вещества. Одним из внешних признаков психостимуляции и опьянения является слабая реакция глазных зрачков на свет [8]. Основными проблемами в данном подходе являются отсутствие методологической и алгоритмической базы для дистанционной диагностики зрачковых реакций глаза, а также невысокая детализация видеоизображения в системах видеонаблюдения. В.А. Минкин, первоначально установив экспериментальные зависимости между отдельными алгоритмами расчета движений головы человека и эмоциональным состоянием, определил, что технология виброизображения позволила систематизировать результаты и предложить единую энергетическую модель эмоций и общую формулу расчета эмоционального состояния. Наличие многих психофизиологических факторов, которые влияют на процесс движения головы, повышает информативность анализируемого движения. Однако сложность движения и сложность распознавания психофизиологических процессов, вызывающих движение головы, требует проведения широкомасштабных экспериментов и набора значительного объема статистических данных для определения формул расчета отдельных эмоциональных состояний [9].
Таким образом, для совершенствования существующих интеллектуальных систем безопасности, распознающих эмоции, необходимо описать общие, но достаточно конкретные алгоритмы всех эмоций. Наша работа посвящена моделированию зрачковой реакции на внешний раздражитель. В качестве раздражителей используются изображения выбранной тематики.
Материалы и методы исследования
В основу исследований положена зависимость размеров зрачков от испытываемых эмоций. Известно, что для каждого человека существуют темы, вызывающие сверхвысокие эмоциональные отклики. Информация, которая касается их, является значимо важной для человека и вызывает непроизвольное внимание в случае появления в поле восприятия индивида. Если предположить, что подобную информацию может содержать тест-объект, то реакция зрачков на такой тест-объект пропорциональна интенсивности испытываемых при этом эмоций. Таким образом, количественной оценкой эмоции может стать относительное изменение размеров зрачков.
Перед проведением экспериментов были определены и максимально возможно стабилизированы условия, которые могут оказывать незапланированное воздействие на размер зрачка (освещенность, изменение координат центра внимания и т.п.) [10]. Для правильной интерпретации получаемых результатов необходимо установить интервал изменений размеров зрачков, в пределах которого можно считать, что эмоция отсутствует. Вторая задача – это выбор подходящей математической модели. Для исследований разработан шлем [10], с помощью которого создается жесткая координатная связь с видеокамерой. Благодаря этому избегаем увеличения ошибки измерения размеров зрачков. В своих исследованиях мы применяли R-методологию: изучали изменчивость размеров зрачков под влиянием внешнего раздражителя. В качестве раздражителя (тест-объекта) использовались изображения выбранной тематической направленности. Один из пунктов калибровки оптоэлектронной системы – это установка интервала изменений размеров зрачков, в пределах которого можно считать, что эмоция отсутствует. Согласно [11], минимальный объем выборки при изучении взаимосвязи между какими-либо свойствами должен быть не меньше 30–35 человек. Для сравнения нескольких выборок необходимо, чтобы их общая численность составила не менее 50 человек. Проводилось несколько серий экспериментов, и набор статистики продолжается. Для исследований были приглашены студены разных возрастных групп: 17–22 (очного) и 23–40 (заочного) отделений. Группы включали людей разных национальностей, темпераментов и др. Все приглашенные дали согласие на проводимые исследования. Анализ снятых видеофайлов осуществляли в программе FiJi. Из полученных данных удаляли моменты моргания. Для данной системы регистрации пупиллограмм: Angular distance between points 1–3 is 5 °43'29''. Калибровка системы осуществлялась по стандартным изображениям сетки и слайдов с точками. Диаметр круглых черных точек 7 мм. Точка 1 расположена в середине слайда, точка 2 в правом нижнем углу. Методом сопоставления изображений, трека центра внимания и пупиллограмм можно заметить следующее: при смещении центра внимания из одной точки в другую (саккады) происходит изменение размеров зрачка, как и должно быть. Однако амплитуда пупиллограммы при этом меньше, чем в случае отсутствия саккад, т.е. при плавном, минимальном смещении взгляда (рис. 1, a–д).
Рис. 1. a) Пупиллограмма; Изменение координат центра внимания вдоль осей б) в); Изменения в пространстве размеров зрачков при перемещении центра внимания на единицу длины: г) по направлению X, д) по направлению Y
Если бы при этом испытуемые рассматривали эмоционально окрашенные тест-объекты, то можно было бы предположить возникновение ответных эмоций. Но на мониторе демонстрировались простые точки. У испытуемых было задание увидеть точку и смотреть на нее. На каждом слайде была одна точка. Опрос испытуемых показал отсутствие эмоций в ходе и после эксперимента (наблюдение точек). Возможное объяснение данного эффекта кроется во влиянии умственного напряжения на величину зрачков. При выполнении визуального поиска и в момент обнаружения цели диаметр зрачков меняется. Таким образом, исходя из полученных данных, нижним граничным значением «уровня узнавания» можно считать 0,3Smed.
Данные о площади зрачков нормировались к медианному значению зрачков каждого испытуемого. Как известно, на медиану величина каждого отдельного значения не влияет. Величина среднего значения, в отличие от медианы, чувствительна к выбросам. Поэтому для нормировки использовали медианное значение. Для характеристики изменчивости мы использовали стандартное отклонение, а не дисперсию. Это связано с тем, что стандартное отклонение выражает изменчивость в исходных единицах измерения признака. Проверим следующую гипотезу. Среднестатистический размер зрачка здорового человека, не испытывающего эмоциональный всплеск при рассматривании изображений, не несущих полезной информации, не превышает стандартное отклонение = 0,3 Smed, где Smed есть медианное значение измерений площади зрачков. Для статистического анализа полученных результатов был выбран Одновыборочный Т-тест (T-критерий). В соответствии с центральной предельной теоремой при достаточно большом размере выборки распределение статистики теста будет стремиться к распределению Стьюдента, и мы можем применить t-критерий, даже если требование нормальности распределения не выполняется. В нашем случае количество измерений более 100, что превышает рекомендуемое значение 30. Применение теста позволяет проверить гипотезу, что в условиях отсутствия эмоций размеры зрачков не изменяются больше, чем 0,3 Smed. Результаты представлены в табл. 1.
Таблица 1
T-тест с одним образцом (Mu0 = 0,3)
One-Sample T-Test |
Std Err |
N |
Difference |
Test Statistic |
d.f. |
p (1-tailed) |
H1: Mu < Mu0? |
With emotion |
4697650 |
457 |
–4697650 |
–1 |
456 |
0.1589 |
Rejected |
Without emotion |
306131.6 |
15679 |
–684619 |
–2.2364 |
15678 |
0.0127 |
Accepted |
Таким образом, можно с достаточной степенью достоверности считать, что присутствие эмоциональной компоненты в пупиллограммах приводит к зрачковой реакции, превышающей 0,3Smed. При анализе изображений считается, что «низким» пространственным частотам соответствует основное содержание изображения – фон и крупноразмерные объекты, а «высоким» пространственным частотам – мелкоразмерные объекты, мелкие детали крупных форм и шумовая компонента. Тогда чем на более низкую частоту приходится максимум в спектре, тем сильнее изменялся размер зрачков. Полученные результаты подтверждаются спектральным анализом пупиллограмм (табл. 2).
Таблица 2
FFT результат
Frequency |
Complex |
Real |
Imaginary |
Magnitude |
Amplitude |
Phase |
Power as MSA |
dB |
With emotion |
||||||||
0 |
1.57 |
1.57 |
0 |
1.57 |
0.03 |
0 |
7.30E–04 |
–31.37 |
1.57 |
0.12 – 0.08i |
0.12 |
–0.08 |
0.14 |
0 |
–31.46 |
1.25E–05 |
–46.02 |
6.27 |
0.24 + 0.01i |
0.24 |
0.01 |
0.24 |
0.01 |
3.05 |
3.33E–05 |
–41.76 |
10.97 |
0.12 + 0.07i |
0.12 |
0.07 |
0.14 |
0 |
29.57 |
1.18E–05 |
–46.25 |
Without emotion |
||||||||
0 |
0.14 |
0.14 |
0 |
0.14 |
0.02 |
0 |
2.96E–04 |
–35.28 |
11.36 |
0.03 |
0.03 |
–0.02 |
0.03 |
0.01 |
–32.91 |
2.85E–05 |
–42.45 |
15.15 |
0.04 |
0.04 |
0 |
0.04 |
0.01 |
0 |
6.02E–05 |
–45.22 |
Результаты исследования и их обсуждение
Вопрос протекания одной эмоции в некоторой степени изучен, как уже упоминалось выше. Имеются математические модели, в основном описывающие реакцию зрачка на свет. Поэтому поиск математической модели, описывающей зрачковую реакцию, обусловленную эмоцией, актуален. В совокупности с базовыми параметрами принято использовать скорость сужения и скорость расширения зрачков. График на рис. 1, а содержит две пупиллограммы (min 33, min 11), форму которых можно считать наиболее приближенными к стандартной, так как имеют одинаковые углы наклона соответствующих линий к оси ОХ. Поиск математической модели пупиллограммы осуществляли в Origin методом подгонки полиномом, результат представлен на рис. 2.
Рис. 2. Выполнение полиномиальной подгонки
Несмотря на удачную подгонку, результат слабо характеризует пупиллограмму. Для интерпретации пупиллограммы на языке эмоций, для подгонки кривых нужно применять функции, содержащие экспоненту. Известно, что существующие модели эмоций содержат экспоненту. Пики хорошо аппроксимируются функцией Gaussian [11]. Однако по такой подгоночной кривой возрастает погрешность определения скорости расширения и сужения зрачков. Работе по устранению этих недостатков будет посвящено наше следующее исследование.
Выводы
Для совершенствования систем безопасности, использующих искусственный интеллект и распознавание эмоций, необходимо создание их математических моделей. Проведенные исследования позволили: установить, что среднестатистический размер зрачка здорового человека, не испытывающего эмоциональный всплеск при рассматривании не несущих полезной информации изображений, угловой размер которых не более 5 °43'29'', не превышает стандартное отклонение = 0,3 Smed; обнаружить, что успешное выполнение простого задания (наблюдение точки) приводит к большему изменению размеров зрачков, чем только при смещении центра внимания. При этом эмоции испытуемыми не испытываются или не осознаются. Найденный порог можно назвать «нижним порогом уровня узнавания». Необходима проверка устойчивости значения «порога узнавания» к вариативности размеров равнояркостных тест-объектов, демонстрируемых на больших экранах; показать, что пупиллограммы, описывающие узнавание тест-объекта или достижение человеком поставленной цели хорошо аппроксимируются полиномом четвертой степени, обозначить недостатки этой модели.
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта 18-47-860018 р_а.