Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

METHODOLOGY FOR ANALYSIS OF DATA ON EMERGENCIES IN SOCIAL NETWORKS

Vostrykh A.V. 1 Maksimov A.V. 1 Matveev A.V. 1 Smirnov A.S. 1
1 Saint Petersburg University of the State Fire Service of the Ministry of Emergency Situations of Russia named after the Hero of the Russian Federation General of the Army E.N. Zinichev
Accurate and timely information and incidents play an important role in emergencies. This enables decision makers to draw up prompt and adequate action plans in an unfavorable situation. In recent years, one of the important sources of data on incidents has been various social networks, whose users exchange information by posting text, photo and video materials. The article presents a new original methodology that allows analyzing information published on social networks in order to respond to it in a timely manner. Unlike existing solutions, the proposed methodology takes into account the multicriteria of information dissemination in the real world, easily scales to any social networks, takes into account the relationship between users in the process of distributing information about emergencies. It also has the ability to both low-level analysis of individual users and high-level analysis of individual communities. When creating a specialized software product based on the presented methodology, it becomes possible to instantly access structured information about incidents to emergency services, thereby not only reducing the response time to emergency situations, but also preventing the spread of false information in a timely manner.
information dissemination
stochastic game
user behavior model
community model
social network

Сегодня в мире цифровых технологий общество все чаще использует новые каналы связи для коммуникации. В последнее десятилетие активной средой для обмена информацией являются социальные сети («Вконтакте», «Одноклассники» и др.), в которых люди разных возрастных и социальных категорий делятся своими взглядами, эмоциями и жизненными ситуациями. С помощью данных сетей ежедневно генерируется огромный объем гетерогенной информации, анализ которой может быть полезен для прогнозирования общественных волнений, социальной нестабильности, происшествий различного характера и т.д. При наступлении каких-либо происшествий или чрезвычайных ситуаций (далее – ЧС) многие пользователи социальных сетей делятся текстовыми, фото- или видеоматериалами с другими пользователями, формируя тем самым огромный массив информации, которая потенциально может быть использована спасательными службами, позволяя им снизить степень информационной неопределенности и помочь в принятии адекватных управленческих решений при реагировании [1, 2].

В настоящей статье сделана попытка применения новостных данных из социальных сетей для снижения информационной неопределенности, своевременного реагирования на ЧС и проведения превентивных мероприятий с целью минимизации рисков [3], предотвращения возникновения паники и недопущения ухудшения сложившейся ситуации.

Материалы и методы исследования

В целом анализ социальных сетей может быть использован для исследования информационного взаимодействия как отдельных агентов, так и определенных сообществ, образованных в той или иной социальной сети, прогнозирования их поведения, моделирования динамики распространения информации [4].

Ранее многие исследователи в различных научных областях уже проводили анализ социальных сетей. Для получения данных применялись различные подходы. Например, иностранными исследователями широко использовалась классическая модель Кермака – Маккендрика SIR, которая до этого применялась для анализа динамики распространения эпидемий [5], распределенные системы [6], линейные модели влияния [7], эвристико-жадный алгоритм [8], анализ отдельных пользователей [9]. Среди отечественных ученых значительный вклад в развитие теории анализа социальных сетей внесла научная школа Института проблем управления им. В.А. Трапезникова РАН [10]. Кроме того некоторые исследователи в решении данной задачи использовали аппарат теории нечетких множеств и нечеткого когнитивного моделирования [11], клеточные автоматы [12–14], методы имитационного моделирования [15], экспертно-стохастическое моделирование для измерения влияния в социальных сетях [16, 17], цепи Маркова [18] и др.

При использовании данных подходов и адаптации их к реальному миру у исследователей возник ряд вопросов, связанных с многокритериальностью распространения информации в реальном мире; сложностью масштабирования подходов; отсутствием учета взаимоотношений между пользователями в процессе распространения данных о ЧС в социальных сетях.

В статье предлагается новая методика, позволяющая анализировать социальные сети с целью своевременного реагирования на происшествия, а также предотвращения распространения ложной информации. В отличие от существующего подхода к анализу конкретных пользователей социальных сетей [9], в настоящей работе предлагается анализировать также и сообщества, которые объединяют определенное количество пользователей разных социальных групп и взглядов. Это сделано по причине того, что в настоящее время социальными сетями пользуется огромное количество людей, и анализ каждого из них, в свою очередь, будет требовать значительных вычислительных мощностей и ресурсов операторов на обработку результатов. Также анализировать и полагаться на мнения отдельных пользователей имеет смысл только в тех случаях, когда они владеют достоверной информацией и имеют значительное влияние на общество. Целесообразнее анализировать сообщества, охватывающие не только широкие массы людей и имеющие соответствующую тематику направленности, но и генерирующие достаточно большое количество данных. Другими словами, в статье предлагается учитывать также поступающие от групп и сообществ данные. При необходимости более низкоуровневого анализа и детализации возможен переход на учет показателей отдельных пользователей.

В наши дни в России широко распространена социальная сеть «Вконтакте», в которой, по последним данным, зарегистрировано порядка 72,5 млн пользователей. Около половины из них ведут активную деятельность в сети, объединяясь в различные группы и сообщества. В результате поиска по группам тематики экстренных сообщений на территории Санкт-Петербурга и Ленинградской области было найдено порядка пятидесяти сообществ с количеством подписчиков от тысячи до полутора миллионов. Так, сообщество «ДТП и ЧП | Санкт-Петербург | Питер Онлайн | СПб» имеет 1 346 038 подписчиков, «ДТП и ЧП | Ленинградская область Он-Лайн | СПб» – 104 637 подписчиков, «ДТП и ЧП Санкт-Петербурга | Новости | Угоны» – 54 222 подписчика и т.д. Ежедневно в каждом из данных сообществ публикуется порядка 10–40 сообщений о происшествиях, таким образом, общее количество сообщений в сообществах может доходить до нескольких тысяч за сутки. Ручная проверка, анализ и реагирование на данные сообщения экстренными службами в настоящее время практически невозможны по двум основным причинам: отсутствие достаточного количества специалистов и отсутствие специального программного продукта, позволяющего автоматически выявлять достоверные сообщения, обобщать, ранжировать и предоставлять оператору результаты вычислений [19, 20]. Данные причины являются взаимоисключающими: имея специализированное программное обеспечение, необязательно содержать внушительный штат сотрудников, а можно обойтись существующей в настоящее время дежурной сменой. Таким образом, разработка в будущем специализированного программного продукта (далее – ПП) на основе представленной в настоящей статье методики является перспективным направлением для работы. Данный ПП позволил бы решать следующие задачи:

– мгновенный сбор и обобщение информации о происшествиях в режиме реального времени;

– проверка достоверности информации за счет представленного ниже механизма;

– сокращение времени реагирования на происшествия экстренными службами;

– предотвращение распространения ложной информации, пресечение паники населения;

– выявление пользователей, умышленно способствующих распространению ложной информации [21];

– координация сил и средств для реагирования на происшествия и т.д.

Результаты исследования и их обсуждение

Перейдем к описанию предлагаемой методики. Примем следующие условные обозначения: Ri – репутация пользователя Ai, которая отражает доверие других пользователей к мнению, выраженному этим пользователем. Если Ri = 0, другие пользователи не доверяют пользователю Ai, напротив, если 0 < Ri < 1, то другие пользователи доверяют субъективным суждениям пользователя Ai относительно поступающих от него сообщений. Если Ri = 1, другие пользователи полностью доверяют мнению пользователя Ai. Обозначим уровень интереса других пользователей к сообщениям пользователя Ai через Ii с аналогичным характером его оценки. Так, при Ii = 0 другим пользователям не интересны публикации анализируемого пользователя, при 0 < Ii < 1 другие пользователи проявляют некоторый интерес к опубликованным суждениям, при Ii = 1 – проявляют максимальную заинтересованность.

Характер распространения информации о ЧС в социальной сети зависит от параметров определенного пользователя. При составлении шаблонов поведений можно использовать следующие составляющие:

– скорость прочтения и обработки информации (количество постов, прочитанных за единицу времени):

Vr = (Qs / Tr)×Kk , (1)

где Qs – число знаков в тексте (объем); Tr – время, затраченное на чтение текста (в минутах); Kk – коэффициент понимания;

– количество полученных откликов в виде оценок (в частности, в сети «Вконтакте» можно подсчитать количество отметок «нравится», полученных определенным пользователем за публикации):

Lk = Ml / Ts , (2)

где Ml – количество отметок «нравится», полученных определенным пользователем; Ts – время пользовательской сессии;

– количество поставленных откликов в виде оценок определенного пользователя другим пользователям:

Lks = Klks / Ts , (3)

где Klks – количество отметок «нравится», поставленных определенным пользователем за все время существования аккаунта; Ts – время пользовательской сессии;

– публикационная активность характеризуется количеством оставленных постов определенным пользователем:

Ps = Kps / Ts , (4)

где Kps – количество оставленных постов определенным пользователем; Ts – время пользовательской сессии;

– активность распространения характеризуется количеством вторичных публикаций, сделанных определенным пользователем:

Rps = Krs / Ts , (5)

где Krs – количеством вторичных публикаций, сделанных определенным пользователем; Ts – время пользовательской сессии;

– степень одобрения характеризуется количеством положительных комментариев, оставленных под записью определенного пользователя:

Kp = Kpt / Ts , (6)

где Kpt – количество положительных комментариев, оставленных под записью определенного пользователя; Ts – время пользовательской сессии;

– авторитетность пользователя характеризуется количеством активных подписчиков у определенного пользователя:

missing image file, (7)

где Ap – активный пользователь; Ps – публикационная активность; Ter– временной интервал (неделя, месяц, год – зависит от целей исследования); k – коэффициент, определяющий нижнюю границу понятия «активный пользователь» в используемом контексте;

– обратная активность распространения характеризуется количеством вторичных публикаций определенного автора другими пользователями:

missing image file (8)

где Ap – активный пользователь; Ptw – количество вторичных публикаций; Ter – временной интервал (неделя, месяц, год – зависит от целей исследования); k – коэффициент, определяющий нижнюю границу понятия «активный пользователь» в используемом контексте.

Значения показателей пользователей: личные познания Ci, интересность Ii и репутация Ri – определяются следующим образом:

missing image file (9)

Нормализация уровня интереса к пользователю, его репутации и осведомленности вычисляется с помощью следующего выражения:

missing image file (10)

Цель пользователя, предоставляющего информацию, заключается в максимизации своей полезности ui в социальной сети, которая определяется как комбинация личных познаний Ci, интересности Ii и репутации Ri:

missing image file

missing image file (11)

Набор весовых коэффициентов φ, ω, τ предназначен для идентификации конкретного типа личности пользователя, а также возможна корректировка в соответствии с приоритетами вычислений, когда, например, необходимо подчеркнуть значимость для исследования одного из параметров.

Относительно составления шаблонов сообществ можно выделить следующие показатели:

– количество активных пользователей (пользователи, оставляющие комментарии к постам, отметки «нравится», делающие вторичные публикации):

missing image file; (12)

– количество постов в сутки на стене сообщества:

missing image file; (13)

– среднее количество просмотров одного поста:

missing image file; (14)

– среднее количество комментариев, оставленных к одному посту:

missing image file; (15)

– среднее количество вторичных публикаций анализируемого сообщества в других сообществах:

missing image file; (16)

– среднее количество отметок «нравится» в других сообществах записи, изначально опубликованной в анализируемом сообществе и вторично опубликованном в других:

missing image file (17)

Количество данных параметров может быть увеличено в зависимости от целей исследования и функциональных возможностей социальной сети.

С помощью представленных выше параметров можно выразить актуальность Ср, интересность Iр и репутацию Rр сообществ в следующем виде:

missing image file . (18)

Нормализация уровня интереса к сообществу, его репутации и актуальности вычисляется с помощью следующего выражения:

missing image file  (19)

Так же как и для отдельных пользователей, цель сообщества состоит в максимизации своей полезности up в социальной сети, которая представляется в виде аддитивной свертки трех показателей (актуальности Ср, интересности Iр и репутации Rр ):

missing image file

missing image file (20)

Рассмотренные показатели напрямую влияют на оценку достоверности публикуемой информации в анализируемом сообществе, так как из-за имеющейся конкуренции администраторы данных групп стремятся получить как можно большую аудиторию с помощью качественных и интересных материалов, обладающих определенной ценностью. Это позволяет привлекать в сообщество больше людей и подниматься в рейтинге, становясь более популярным. Чем выше рейтинг сообщества, тем большая активность предоставления и передачи информации в нем присутствует.

В свою очередь пользователи, находящиеся в данном сообществе по личным или иным целям, осуществляют некоторую деятельность, которая влияет на все сообщество в целом. Предположим, что в определенном сообществе состоят два пользователя, целью которых, является максимизация ожидаемой полезности. Их отношения между собой рассмотрим в виде стохастической игры с общей суммой:

missing image file (21)

где missing image file– множество пользователей; W – набор характеристик пользователей; missing image file – множество наборов доступных действий пользователя N; Q – функция перехода missing image file; π – стратегия пользователей, демонстрирующая вероятность выбора конкретного перехода missing image file; missing image file – функция вознаграждения для пользователей, осуществляющих переход по ссылке; missing image file – коэффициент дисконтирования будущего вознаграждения.

Допустим, что пользователь i и пользователь j являются соседями в социальной сети, и их игра ведется следующим образом. В момент времени t пользователь i принимает действие missing image file из множества Di, а пользователь j принимает действие missing image file из множества Dj в состоянии wt. Пользователь i получает вознаграждение missing image file, а пользователь j получает вознаграждение missing image fileЗатем игра переходит в новое состояние wt+1 с условной вероятностью:

missing image file (22)

Ожидаемое вознаграждение определим как вектор:

missing image file (23)

Оператор ожидания missing image file характеризует выполнение действия пользователя k, используя распределение вероятностей πk(wt+n) в wt+n, после чего он получает вознаграждение:

missing image file (24)

где K = {i, j} – матрица вознаграждения пользователя в состоянии w.

При игре двух агентов равновесие Нэша (πi*, πj*) обеспечивается при следующем условии:

missing image file (25)

Для обеспечения равновесия агенты следуют стратегиям πi* и πj*. Отклонение от стратегий приводит к снижению полезности.

Выразим множество вероятностных векторов длины n через

missing image file (26)

Для рассматриваемой игры существует по крайней мере одна смешанная стратегия, приводящая к равновесию Нэша, которая для стохастической игры может быть найдена путем решения задачи нелинейного программирования. Для стохастической игры из двух игроков получаем следующее выражение:

missing image file. (27)

Глобальный минимум целевой функции определяет требуемые условия оптимальности, решение задачи нелинейного программирования (πi*, πj* ui*, uj*) будет формировать равновесие по Нэшу.

Методику анализа данных о ЧС и ее распространения в социальных сетях можно представить следующей последовательностью шагов:

Шаг 1 – Выбор социальной сети для анализа.

Шаг 2 – Выявление значимых кандидатов для оценки сообществ из пользователей сети.

Шаг 2.1 – Оценка репутации кандидатов по формулам (6) и (8).

Шаг 2.2 – Оценка интересности кандидатов по формулам (2) и (7).

Шаг 2.3 – Оценка личных познаний кандидатов по формулам (1), (3), (4), (5).

Шаг 2.4 – Нормализация показателей пользователей (10).

Шаг 2.5 – Ранжирование пользователей с помощью формулы (11).

Шаг 3 – Анализ сообществ по заданной тематике.

Шаг 3.1 – Поиск сообществ по их названиям в соответствии с ключевыми словами.

Шаг 3.2 – Оценка актуальности кандидатов по формулам (12) и (13).

Шаг 3.3 – Оценка интересности кандидатов по формулам (14) и (15).

Шаг 3.3 – Оценка репутации кандидатов по формулам (16) и (17).

Шаг 3.4 – Нормализация показателей сообществ с помощью формулы (19).

Шаг 3.5 – Ранжирование сообществ с помощью формулы (20).

Шаг 4 – Анализ данных по заданной тематике из выбранных сообществ.

Шаг 5 – Вывод результатов оператору в виде сообщений по заданной тематике, ранжированных по авторитетности пользователей.

Приведем пример использования предложенной методики. Допустим, в сети находится N = 1000 пользователей, коэффициент неопределенности λ = 0,5, исходные значения репутации ri выбраны случайным образом, коэффициент дисконтирования будущего вознаграждения β = 0,5.

В примере используем два типа пользователей: p1 – пользователь, пересылающий сообщения, основываясь на личной заинтересованности (p1+ – истинные сообщения, p1- – ложные сообщения), поэтому φ = τ = 0, ψ = 1; пользователь p2 (p2+ – истинные сообщения, p2- – ложные сообщения) имеет высокую репутацию, поэтому его коэффициенты будут равны φ = τ = 0,5, ψ = 0.

Используя формулу (11), получаем, что пользователи p1 будут распространять информацию с вероятностью s = 0,71, пользователи p2 с вероятностью s = 0,45. С помощью среды разработки PyCharm, языка программирования Python и библиотеки matplotlib построены кривые зависимости динамики распространения информации от параметров пользователей (рис. 1).

Из представленной диаграммы можно заметить, что ложные сообщения в начальной фазе быстро распространяются в широкие массы, но затем с течением времени их популярность падает. Это связано с тем, что после того, как в социальной сети появляется информация, например о ЧС, пользователи не сразу понимают, где истинные новости, но с течением времени получают подтверждение из других источников, и происходит отсеивание ложных сообщений.

missing image file

Рис. 1. Зависимости динамики распространения информации от параметров пользователей

missing image file

Рис. 2. Зависимость динамики распространения информации от размеров соцсети

Также из рис. 1 можно заметить, что пользователи, обладающие различными параметрами, имеют разный масштаб и скорость распространения их информации в социальной сети. Хотя распространение информации пользователями p1 быстрее, чем p2, это не означает, что пользователи p2 менее активные, а скорее это свидетельствует о том, что они делятся информацией с большей осторожностью.

В процессе исследования были сделаны выводы о том, что масштаб социальной сети практически не влияет на скорость распространения информации. На рис. 2 представлена динамика распространения информации в социальных сетях с численностью пользователей: N1 = 1000, N2 = 2000, N3 = 10000.

Также из рис. 2 можно выделить стадию стремительного распространения информации. Обладая достоверной информацией и имея авторитетный источник распространения, можно предотвратить популяризацию ложной информации на начальной стадии или снизить эффект ее воздействия на пользователей.

Заключение

Таким образом, в статье представлен процесс распространения информации по социальным сетям, выявлены параметры, влияющие на скорость ее популяризации, представлены два уровня анализа данных (уровень отдельных пользователей и уровень сообществ), представлена стохастическая игровая модель взаимодействия пользователей при обмене информацией, предложена новая методика, позволяющая анализировать информацию, опубликованную в социальных сетях о происходящих ЧС, с целью своевременного реагирования на них.

При разработке на основе представленной методики специализированного ПП появляется возможность мгновенного доступа к структурированной информации о происшествиях экстренным службам, что позволит сократить время реагирования на ЧС, а также своевременно предотвращать распространение ложной информации.