Наличие больших объемов данных, собранных в информационных базах, создает реальную проблему их изучения и интерпретации. Одним из возможных решений является использование факторного анализа и представление данных в когнитивном графическом виде. Создаваемые при этом образы на основе выделенных существенных признаков позволяют выявлять неявные обобщающие характеристики изучаемых явлений и процессов. В то же время они обладают устойчивостью к вероятностным распределениям признаков, что позволяет проводить классификацию и распознавание. Применение факторного анализа приводит к существенному сокращению числа анализируемых параметров, а визуализация вскрывает структуры взаимосвязей между переменными, позволяет понимать и классифицировать ситуации путем предварительного обучения образному анализу и пониманию данных. Вопросам образного анализа данных посвящены, например, работы [1–3]. В настоящей статье представлены некоторые результаты анализа данных о студентах медицинского факультета РУДН и пользователях социальных сетей с применением устойчивых когнитивных образов. Обработка данных выполнена на базе научных лабораторий ИПС им. А.К. Айламазяна РАН и ФИЦ ИУ РАН.
Целью настоящей работы является проверка возможности автоматического построения и применения на практике методов когнитивной графики для человеко-машинного (образного) анализа данных. Рассматриваются две задачи образного анализа медицинских (физиологических) данных и личностных (психологических) факторов, объединенные общей целью выявления инвариантных особенностей человеческой личности.
Материалы и методы исследования
Материалом и основой для образного анализа медицинских данных служит база данных РУДН, которая включает информацию о нескольких тысячах студентов с 35–50 параметрами физического состояния (признаками). Сократить число признаков можно, например, применяя метод главных компонент, на выходе которого получаем набор упорядоченных по убыванию главных компонент (дисперсий). В результате отбора наиболее значимых по величине компонент и пересчета информационных векторов переходим в новую сокращенную систему координат. Такая преобразованная информация, как правило, обладает устойчивостью к вариациям данных, позволяет упростить процесс когнитивного отображения и интерпретации. Были отобраны 10 наиболее информативных показателей: рост, вес, жизненная емкость легких, частота сердечных сокращений, артериальное давление систолическое, артериальное давление диастолическое, проба на задержку дыхания, гибкость тела, тест на координацию движений, тест на зрительно-двигательную реакцию.
Метод исследования опирался на построение трехмерных полярных разверток по формуле , где n – размерность вектора; xk – k-я компонента вектора; φ, ρ, ψ – сферические координаты. Первые составляющие информационного вектора определяют характер низкочастотных факторов, а последние – высокочастотных (локальных признаков), что влияет на структуру когнитивного образа. Поэтому имеет большое значение последовательность представленных для визуализации данных.
В настоящей работе формируются психологические портреты респондентов. Материалом для оценки личностных характеристик служили результаты анкетирования пользователей социальной сети «ВКонтакте» по опроснику «NEO-FFI» [4], полученные при участии сотрудников Психологического института Российской академии образования. Согласно психологическим исследованиям полный портрет личности человека можно составить из пяти основных факторов (Big Five): «открытость опыту» (openness to experience), «добросовестность» (conscientiousness), «экстраверсия» (extraversion), «сотрудничество» (agreebleness), «нейротизм» (neuroticism) [5]. Каждый основной личностный фактор объединяет группу черт, называемых «грани». На основе числовых оценок, получаемых путем анкетирования, выделяют уровни выраженности личностных черт: низкий уровень (0–20), средний уровень (21–32) и высокий уровень (33–48).
Методом оценки служило построение круговой секторной диаграммы, для графического представления пятифакторной модели личности включены три концентрические окружности. Радиусы окружностей соответствуют границам уровней выраженности личностных черт. Окружность меньшего радиуса ограничивает низкий уровень. Кольцо, образованное меньшей и средней окружностями, символизирует зону среднего уровня. Кольцо, образованное средней и наибольшей окружностями, служит для обозначения границ высокого уровня выраженности.
Известно, что графический способ представления информации значительно упрощает восприятие числовых данных [6]. Предполагается, что полученные цветояркостные образы помогут ускорить понимание психологических портретов респондентов, отражая одновременно все личностные факторы.
Результаты исследования и их обсуждение
Образный анализ устойчивых физиологических факторов
В таблице представлены устойчивые когнитивные образы среднестатистических представителей студенческой среды из разных стран.
Когнитивные графические образы
Регионы |
Образы юношей |
Образы девушек |
Азия |
||
Латинская Америка |
||
Африка |
||
Ближний и Средний Восток |
||
России |
Цвет фона на рисунках описывает первую главную компоненту: чем она больше, тем цвет дальше от зеленого и ближе к красному. Для представителей разных регионов можно выделить ряд характерных черт: например, малый размер и крайне сильная изрезанность образа, представляющего юношей Азии, или состав образа, представляющего юношей Африки, из одинаковых повторяющихся сдвоенных лепестков. Все «звезды» юношей достаточно различны, похожи лишь «звезды» юношей России и Латинской Америки. Все образы девушек являются уникальными. «Звезды» юношей и девушек всех регионов очень похожи, особенно это заметно на примере России и Африки; исключение составляет лишь Азия, причем контурные представления представителей этого региона значительно отличаются друг от друга. Трехмерные образы можно вращать в любых плоскостях, что обеспечивает их преимущество перед плоскими фигурами.
Образный анализ устойчивых личностных (психологических) факторов
Каждой оценке личностной черты ставится в соответствие определенный сектор (рисунок). Значения личностных факторов кодируются цветом и длинами радиусов секторов.
а) б)
в) г)
Графическое представление пятифакторной модели личности
Вычисление цвета выполняется по формуле
где (r, g, b) – код цвета в формате RGB, – нормализованное значение личностного фактора, ω – уровень выраженности личностного фактора, с = 255 – максимальная интенсивность цветовой компоненты в формате RGB. Нормализация значений личностных факторов выполняется по формуле
где y – значение личностного фактора, l1 = 20 – значение верхней границы низкого уровня выраженности фактора, l2 = 32 – значение верхней границы среднего уровня выраженности фактора, l3 = 48 – значение верхней границы высокого уровня выраженности фактора.
При низком уровне выраженности личностного фактора соответствующий ему сектор лежит в пределах окружности меньшего радиуса и закрашен оттенками синего и голубого цвета (рисунок, а, б, в).
Чем меньше значение фактора, тем темнее цвет сектора (рисунок, а) и тем более оттенок приближен к чистому синему цвету. Если фактор принимает верхнее граничное значение нижнего уровня, то сектор приобретает ярко-голубой цвет (рисунок, б). При среднем уровне выраженности личностного фактора сектор закрашивается в оттенки зеленого цвета (рисунок, а), с плавным переходом от бирюзового до салатового (рисунок, б, в, г). Если значение личностного фактора достигло верхнего, граничного, значения среднего уровня, то сектор приобретает желтый цвет (рисунок, в).
При высоком уровне выраженности личностной черты сектор закрашивается в оттенки оранжевого и красного. Чем больше значение фактора, тем более приближен оттенок к чистому красному цвету (рисунок, а). Чем ближе значение фактора к нижней границе высокого уровня, тем более приближен оттенок к чистому желтому цвету (рисунок, б). Предложенное когнитивное представление позволит психологам упростить работу по анализу психологических портретов респондентов.
Заключение
Предложен и реализован алгоритм 3D-визуализации многомерных данных, который позволил выявить устойчивые физиологические особенности студентов, отражающих региональные особенности. Рассмотрен метод построения 2D-цветояркостных секторных характеристик пользователей социальной сети, позволяющий наглядно представить личностные черты человека. Предлагаемые подходы легли в основу построения графических интерфейсов врачей и психологов с когнитивной компонентой образного анализа данных. Когнитивные образы обладают универсальностью, что позволяет применять их в различных приложениях [6].
Работа выполнена при частичной финансовой поддержке проектов РФФИ: 20-07-00022 А «Разработка и исследование методов распознавания образов на основе инвариантов к яркостным и геометрическим преобразованиям в системах технического зрения беспилотных летательных аппаратов»; 18-29-22003 мк «Разработка методов нейросетевого анализа визуального интернет-контента пользователей социальных сетей с целью автоматизированного определения выраженности личностных черт, связанных с психологическим неблагополучием».
Авторы выражают благодарность выпускнику РУДН Малышевскому А.А. за предоставленные материалы.