Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

ANALYSIS OF THE STRUCTURAL COMPLEXITY OF THE STATE INFORMATION SYSTEMS OF ST. PETERSBURG USING METHODS OF ANALYSIS OF SOCIAL GRAPHS

Naumov V.N. 1 Kucherenko D.V. 1
1 North-West Institute of Management – branch of the Russian Presidential Academy of National Economy and Public Administration
This article discusses the use of methods of analysis of social graphs in the study of the existing infrastructure of state information systems on the example of St. Petersburg, as in the modern, dynamically developing metropolis, which is actively working to automate the activities of the executive bodies of state power through the creation and development of existing state information systems. The paper presents the results of the analysis of a sample of state information systems. With the help of methods of analysis of social graphs in this article, the analysis of information infrastructure of St. Petersburg and found that the graph of information systems is connected, and therefore it is possible to integrate all state information systems to create a single information space of the city, identified systems that can be considered as the Central vertices of the graph, on the basis of which it is possible to implement the task of improving the infrastructure. As a result of the analysis, the communities of systems that also have their own internal structure and industry orientation are also identified, which indicates that the automation of end-to-end processes in one industry requires the organization of active interdepartmental information exchange, and as a consequence leads to the integration of industry systems. Based on the results articulated the need for the development and consolidation of common rules of management development of the it architecture of the government of St. Petersburg (the formation of the target it architecture).
e-government
state information systems
regional IT architecture
IT architecture planning
cluster analysis
graph of interaction of systems

В Санкт-Петербурге, как и в других мегаполисах, ведется активная работа по автоматизации деятельности исполнительных органов государственной власти (ИОГВ) за счет создания новых, а также развития уже существующих государственных информационных систем (ГИС). В федеральном законе «Об информации, информационных технологиях и защите информации» говорится, что такие системы создаются в целях реализации полномочий государственных органов и обеспечения обмена информацией между ними. Для достижения этих целей особое внимание обращается на инфокоммуникационные технологии, на создание и совершенствование инфраструктуры ГИС.

Существуют различные ГИС по уровню интеграции процессов, отраслевой специфике, типу решаемых задач. Данные системы взаимодействуют друг с другом, образуя инфраструктуру ИОГВ. В статье предложен подход к ее исследованию, а также приведены результаты такого исследования на примере Санкт-Петербурга.

Цель исследования состоит в обосновании возможности использования методов анализа социальных графов при решении задач исследования государственных информационных систем, а также потребности в наличии единых правил и инструментов управления развитием ИТ архитектурой органов власти Санкт-Петербурга, разработки и внедрении целевой модели ИТ архитектуры органов власти Санкт-Петербурга.

Результаты исследования и их обсуждение

Для анализа ГИС, их межсистемного взаимодействия была сделана выборка из Реестра государственных информационных систем Санкт-Петербурга [1].

Представим инфраструктуру графом, вершины которого соответствуют отдельным ГИС, а ребра определяют информационное взаимодействие между ними. Веса ребер графа определяют объем взаимодействия, частоту и важность передаваемой информации. Наличие разных типов взаимодействия определяет множество инфраструктурных графов

naum01.wmf,

где Vk – множество вершин графа; Ek – множество ребер графа; Wk – вес ребер графа; k – тип взаимодействия.

Объединенный граф инфраструктуры имеет вид

naum02.wmf

где naum03.wmf; K – число типов взаимодействия. Вес объединенного графа для каждого naum04.wmf ребра определяется суммой весов исходных графов naum05.wmf.

Под структурной сложностью инфраструктуры будем понимать свойство, оценивающее размерность такого объединенного графа, многообразие маршрутов между его вершинами, число циклов, близость между вершинами и др. Данное свойство является комплексным. Оно позволяет оценивать: надежность, устойчивость, живучесть, оперативность и инфраструктуру исполнительных органов государственной власти. Вопросы структурной сложности систем на основе использования теории графов были приведены в [2]. Вместе с тем в данной книге было рассмотрено сравнительно небольшое число параметров, формируемых на основе матрицы смежности и матрицы расстояний. Прикладные вопросы их применения рассмотрены кратко.

С другой стороны, прикладной характер теории графов нашел свое отражение в анализе социальных сетей, изучаемых социальных структур, наличие в них сообществ, клик и др. Данный анализ имеет ясную практическую направленность. Социальная сеть в нем понимается как граф, узлы которого представлены социальными объектами, а ребра – социальными связями между ними. При решении задач анализа социальных сетей используется большее число показателей, метрик, с помощью которых можно исследовать социальные объекты [3]. В настоящей статье показана целесообразность использования методов и средств построения и анализа социальных графов в решении задач исследования инфраструктуры исполнительных органов государственной власти.

К одному классу задач исследования социальных графов относятся задачи кластеризации с целью разбиения субъектов сетей на группы, разработки стратегий для каждой группы, более тщательного анализа каждой группы, определения кругов «общения» субъектов и др. Для решения таких задач разработаны различные методы кластеризации, основанные на исследовании показателей центральности (степенной, промежуточности, собственного вектора, Катца) и модулярности. В библиотеку igraph языка R [4] включено девять методов, среди которых можно выделить, например, метод betweenness, основанный на использовании коэффициента центральности по посредничеству.

Выбор метода кластеризации может быть основан на значении показателя модулярности для графа G, под которым понимается скалярная величина из отрезка [-1, 1], количественно описывающая неформальное определение структуры сообществ. Данный показатель вычисляется с помощью соотношения [3, 5]:

naum06.wmf

где aij – элемент матрицы смежности графа A;

ki – степень i-й вершины графа;

kj – степень j-й вершины графа;

ci, cj – метка вершины i, j (номер сообщества или кластера, к которому относится вершина);

m – общее количество ребер в графе;

δ (ci, cj) – дельта-функция, равная единице при ci = cj и нулю в других случаях. Таким образом, ненулевыми слагаемыми в целевой функции будут те, для которых вершины графа принадлежат одному кластеру.

В этой формуле просчитывается количество связей, находящихся внутри одного кластера, и потом они складываются. Обратим внимание, что здесь также присутствует член kikj/2m. Данное слагаемое указывает на относительные степени вершин (плотности) в случайном графе. Таким образом, плотность в оптимизируемом графе инфраструктуры можно использовать как относительную метрику. У сформированного кластера графа плотность должна быть строго больше, чем в случайном графе.

Для взвешенного графа данная формула уточняется и принимает вид

naum07.wmf

где naum08.wmf.

В данной формуле относительные степени вершин зависят от их веса. Решение задачи кластерного анализа для графа инфраструктуры ГИС предусматривает максимизацию значения модулярности. С целью решения данной задачи могут быть использованы различные алгоритмы, в том числе «жадный алгоритм» для графов большой размерности [6]. Выбор алгоритма зависит от значения показателя модулярности.

Распределение графа на кластеры (сообщества) позволит выявить подграфы, в которых число связей между ГИС сравнительно велико. Следовательно, такие подграфы можно рассматривать как отдельные сообщества, которые можно рассматривать как отдельную самостоятельную структуру. Развитие инфраструктуры ГИС возможно в пределах каждого сообщества.

Применение методов социальных сетей, а также методов теории графов позволяют провести дальнейший количественный анализ полученных сообществ. Такой анализ позволит определить возможные пути развития инфраструктуры в пределах каждого из сообществ, близость сообществ и возможность их объединения и др.

В дальнейшем воспользуемся данным алгоритмом при исследовании инфраструктуры ИОГВ Санкт-Петербурга. Будем представлять данную структуру социальным графом, вершинами которого являются отдельные ГИС с идентификаторами – номерами систем, а ребрами – информационные связи между ними. В силу того, что данные связи двунаправленные, граф является неориентированным. Он состоит из 63 вершин и 165 ребер. На рис. 1 приведен граф взаимосвязей ГИС Санкт-Петербурга. Исследуем свойства данного графа. С этой целью будем использовать программный пакет для анализа и визуализации Gephi, а также язык программирования и графическую оболочку RStudio, а также графическую библиотеку igraph [4].

При исследовании инфраструктуры ГИС Санкт-Петербурга примем допущение, что все веса одинаковые, поэтому ими можно пренебречь. Такое допущение основано на том, что задача определения весов нуждается в самостоятельном исследовании.

naum1.tif

Рис. 1. Граф взаимосвязей ГИС Санкт-Петербурга

Судя по рисунку, можно сделать следующие выводы:

1. Граф является связным. Таким образом, между любыми двумя ГИС исполнительных органов государственной власти Санкт-Петербурга имеется связь. Следовательно, имеется возможность интегрировать все государственные информационные системы в единую систему, создав единое информационное пространство города. Конечно, кроме существования физической связи необходимо обеспечить все протоколы взаимодействия, единые форматы данных, их целостность.

2. Диаметр исследуемого графа равен шести. Следовательно, максимальное число узлов коммуникации для связи между любыми двумя ГИС исследуемой инфраструктуры равно пяти. На рис. 2 приведена гистограмма эксцентриситетов всех вершин графа (максимальных расстояний между любыми ГИС инфраструктуры). Судя по гистограмме средний эксцентриситет равен 4,48.

naum2.tif

Рис. 2. Гистограмма распределения эксцентриситета

naum3.tif

Рис. 3. Гистограмма распределения степени вершин графа

3. Имеется большая дисперсия степеней вершин графа. Следовательно, есть системы, соответствующие вершины графа которых можно рассматривать как центральные. На их основе можно реализовать задачи совершенствования инфраструктуры с целью уменьшения диаметра и эксцентриситетов вершин графа. На рис. 3 приведена гистограмма распределения степени вершин графа. Несмотря на то, что средняя степень вершины графа примерно равна пяти, существует сравнительно небольшое число вершин с большой степенью. Максимальная степень вершины равна тридцати пяти.

4. По аналогии с социальными сетями рассматриваемый граф относится к категории безмасштабного графа. Степени вершин убывают по степенному закону. Вновь приходим к выводу о наличии центральных вершин, соответствующие ГИС для которых можно рассматривать как системообразующие. Вокруг них следует совершенствовать инфраструктуру ГИС Санкт-Петербурга.

В таблице приведены результаты решения задач кластеризации различными методами, полученными с помощью пакета igraph [4]. Данная таблица показывает, что рассмотренные методы кластеризации графов приводят к разным результатам, существенно отличающимся друг от друга по числу кластеров, а также по распределению объектов в них. Поэтому стоит задача выбора метода кластеризации, например, по значению показателя модулярности. Наибольшее значение модулярности, равное 0,39, характерно для двух из анализируемых методов, метода «жадной» оптимизации (fast greedy) и метода «спинового стекла» (spin glass). Сравнительно его большое значение свидетельствует о предрасположенности графа к кластеризации, наличии групп ГИС, тесно связанных между собой в сообщества [7].

Результаты решения задачи кластерного анализа

Метод кластерного анализа

Betweenness

Fast greedy

Info map

Label Propogation

Leading eigen

louvain Finding

Spin glass

Walk trap

Число кластеров

21

6

5

2

7

5

6

9

Значение модулярности

0,28

0,39

0,25

0,17

0,32

0,38

0,39

0,33

Сравнительный анализ результатов кластерного анализа, этими двумя методами, показывает, что степень совпадения состава кластеров, определенных с их помощью, составляет более 90 %, что свидетельствует о хорошем совпадении результатов решения задачи кластерного анализа.

В результате решения задачи оптимизации граф инфраструктуры ГИС Санкт-Петербурга разбит на шесть классов кластеров.

На рис. 4 приведен граф, в котором выделены шесть полученных кластеров, сообществ ГИС, построенных с помощью Gephi. Размер вершины графа соответствует номеру кластера. Судя по графику их размеры не сильно различаются. Однако первый кластер (соответствующий подграф находится справа внизу) включает наибольшее число треугольников. Для него также характерно максимальное значение среднего кластеринга, позволяющего оценить степень плотности кластера. Если данный показатель принимает значения близкие к единице, то это значит, что в подграфе, соответствующем кластеру, содержится много треугольников (замкнутых триплетов), и его вершины склонны образовывать связь, если они соединены через третью вершину. По аналогии с социальным графом друзей, данный коэффициент определяет долю друзей (смежных вершин) персонажа, которые дружат между собой. Отметим, что в данном кластере находятся вершины с наибольшей степенью вершин (средняя степень вершин для этого кластера равна 6,3). Такие вершины можно рассматривать как аномальные. Они являются центральными как для кластера, так и для всего графа в целом.

naum4.tif

Рис. 4. Граф инфраструктуры ГИС, разделенный на кластеры (сообщества)

Соответственно, если значение среднего кластеринга близко к нулю, то имеет место обратная тенденция. Такое значение присуще пятому кластеру (соответствующий подграф на рис. 4 расположен сверху слева). Можно предположить, что его образуют небольшие ГИС, которые слабо связаны с другими системами и вносят малый вклад в развитие информационной инфраструктуры города.

Таким образом, результаты кластеризации показывают, что несмотря на то, что в городе сформирована связная инфокоммуникационная структура, в ней существует шесть сообществ, которые следует рассматривать как отдельные подсети. В данных сообществах ГИС связаны друг с другом. В них сформированы треугольники (триплеты), свидетельствующие о плотности сформированных сообществ. Дальнейшая автоматизация возможна в направлении увеличения плотности таких сообществ с учетом их размера и кластеринга. На рис. 5 приведены графы для каждого из шести сообществ.

naum5a.tif

naum5b.tif

naum5c.tif

naum5d.tif

naum5e.tif

naum5k.tif

Рис. 5. Графы сообществ

Используя другие показатели социальных графов, можно оценить структурную важность каждой вершины. Так, определение показателей центральности: близости, промежуточности, собственного вектора позволяет выявить вершины, являющиеся структурно важными, на основе которых можно совершенствовать качество инфокоммуникационной сети. Определение центральности промежуточности с помощью соотношения позволяет определить ГИС, через которые проходит максимальное число маршрутов, соединяющих между собой две информационные системы.

В результате расчета выявлено, что существуют две ГИС (рис. 4, системы с номерами 1786 и 1783), которые наиболее важны в создании связной информационной структуры. Они выступают в виде «мостов», соединяющих отдельные сообщества в инфраструктуре ГИС Санкт-Петербурга. Данные две ГИС также имеют максимальные значения показателя pagerank, используемого при анализе важности веб-страниц, максимальное значение гармонической центральности, а также центральности собственного вектора, что подтверждает гипотезу о наибольшей важности этих ГИС в формируемой инфраструктуре.

Таким образом, в инфраструктуре ГИС Санкт-Петербурга имеется сравнительно небольшое число систем, с помощью которых можно сформировать единое городское информационное пространство.

Внешний вид каждого из приведенных графов позволяет сделать вывод, что сообщества также имеют свою внутреннюю структуру, включающую свои сообщества. Следует отметить, что между каждой парой сообществ имеется связь, что определяет структурную надежность инфраструктуры.

При анализе ГИС, вошедших в состав каждого кластера, удалось выявить 4 сообщества с явно выраженной отраслевой направленностью, в которые вошли системы со смежными целями, задачами и назначением (по данным Реестра ГИС [1]). Далее представлен состав основных систем в отраслевых блоках.

Подграф № 1 «Здравоохранение» содержит в своем составе следующие ГИС:

– 2634 – Система обеспечения вызова экстренных оперативных служб по единому номеру «112» г. Санкт-Петербурга;

– 2680 – Государственная информационная система Санкт-Петербурга «Управление скорой медицинской помощью Санкт-Петербурга»;

– 2206 – Специализированная медицинская информационная система;

– 1743 – Государственная информационная система Санкт-Петербурга «Региональный фрагмент единой государственной информационной системы в сфере здравоохранения»;

– 1754 – Государственная информационная система Санкт-Петербурга «Учет лиц без определенного места жительства, прибывающих в Санкт-Петербург из других регионов Российской Федерации и иностранных государств».

Подграф № 2 «Жилищно-коммунальное хозяйство»:

– 180 – Городская информационно-поисковая подсистема «Население. Жилой фонд»;

– 914 – Программно-технологический комплекс «Расселение коммунальных квартир в Санкт-Петербурге»;

– 1539 – Отраслевая информационная система «Банк данных о гражданах Санкт-Петербурга, нуждающихся в улучшении жилищных условий»;

– 2291 – Автоматизированная система, распределенная «Население. Жилой фонд. Паспортная служба»;

– 2292 – Автоматизированная система «Договор»;

– 2293 – Информационная система «Свободная площадь»;

– 2294 – Информационно-поисковая система по жилому фонду и населению (районный уровень);

– 2295 – Автоматизированная система «Учет использования жилищного фонда Колпино».

Подграф № 3 «Финансово-хозяйственная деятельность, землепользование» включает следующие ГИС:

– 243 – Государственная информационная система Санкт-Петербурга «Реестр государственных программ Санкт-Петербурга»;

– 1201 – Автоматизированная информационная система Санкт-Петербургского государственного казенного учреждения «Научно-исследовательский и проектный центр Генерального плана Санкт-Петербурга»;

– 1207 – Единая информационная система службы «Стройформ»;

– 1218 – Региональная информационная система, содержащая сведения об объектах недвижимости и объектах землеустройства «Геоинформационная система Санкт-Петербурга»;

– 1300 – Экологический паспорт территории Санкт-Петербурга;

– 1524 – Автоматизированная информационная система государственного заказа Санкт-Петербурга;

– 1557 – Информационно-технологическая система Комитета имущественных отношений Санкт-Петербурга;

– 1567 – Автоматизированная информационная система бюджетного процесса – электронное казначейство;

– 1568 – Информационно-аналитическая система по долговым обязательствам, связанным с учетом ценных бумаг, эмитируемых Комитетом финансов Санкт-Петербурга;

– 1569 – Автоматизированная информационно-аналитическая система оценки финансовых рисков «РИСК-1»;

– 1619 – Информационно-технологическая система «Кадастр-2»;

– 2000 – Государственная информационная система Санкт-Петербурга «Автоматизированная информационная система управления градостроительной деятельностью»;

– 2401 – Автоматизированная информационная система Контрольно-счетной палаты Санкт-Петербурга.

Подграф № 4 «Обеспечение безопасности жизнедеятельности и транспорт» включает следующие ГИС:

– 1503 – Государственная информационная система Санкт-Петербурга «Автоматизированная система дежурных частей ГУ МВД России по г. Санкт-Петербургу и Ленинградской области»;

– 1504 – Государственная информационная система Санкт-Петербурга «Дежурно-диспетчерская служба «01»;

– 1555 – Автоматизированная система управления городским и пригородным пассажирским транспортом общего пользования в Санкт-Петербурге;

– 2162 – Система электронного контроля оплаты проезда;

– 2421 – Автоматизированная информационная система обеспечения безопасности жизнедеятельности Санкт-Петербурга;

– 2685 – Государственная информационная система Санкт-Петербурга «Региональная навигационно-информационная система»;

– 2694 – Государственная информационная система Санкт-Петербурга «Аппаратно-программный комплекс «Безопасный город»;

– 218 – Автоматизированная информационная система Государственной административно-технической инспекции.

В оставшиеся сообщества вошли различные отраслевые системы, а также крупные инфраструктурные системы, такие как:

– 1786 – Государственная информационная система Санкт-Петербурга «Система межведомственного электронного взаимодействия Санкт-Петербурга»;

– 1783 – Межведомственная автоматизированная информационная система предоставления в Санкт-Петербурге государственных и муниципальных услуг в электронном виде.

Выявленное разделение на сообщества по отраслевой направленности свидетельствует о том, что автоматизация сквозных процессов в одной отрасли требует организации активного межведомственного информационного обмена и, как следствие, приводит к интеграции отраслевых систем. Данное отраслевое разделение и межведомственную связь необходимо учитывать на всех этапах планирования и проведения работ по развитию ГИС (сбор требований, анализ требований, выделение финансирования, подготовка технических заданий, выполнение работ и проведение комплексных испытаний при вводе в эксплуатацию), что позволит подходить комплексно к автоматизации отраслевых процессов, а также исключить ситуации, когда в результате развития одной ГИС нарушается информационный обмен и требуются дополнительные затраты и т.д.

Выводы

Таким образом, обоснована целесообразность использования методов анализа социальных графов для исследования инфраструктуры ГИС исполнительных органов государственной власти. Данные методы позволяют получить значения показателей графа инфраструктуры, решать задачи оптимизации структуры на их основе. Выделять сообщества в графе инфраструктуры, исследовать их свойства. Для подтверждения данной гипотезы с их помощью в настоящей статье проведен анализ информационной инфраструктуры Санкт-Петербурга.

В результате проведенного анализа установлено следующее:

1. Граф инфраструктуры ГИС является связным, а значит, имеется возможность интегрировать все государственные информационные системы в единую систему, создав единое информационное пространство города при должном обеспечении протоколов и регламентов взаимодействия. В результате исследования выявлены системы, которые можно рассматривать как центральные вершины графа. На их основе можно реализовать задачи совершенствования инфраструктуры с целью уменьшения диаметра и эксцентриситетов вершин графа, т.е. уменьшения длины маршрутов между различными ГИС.

2. В графе инфраструктуры выявлены сообщества (кластеры), которые также имеют свою внутреннюю структуру и отраслевую направленность, что свидетельствует о том, что автоматизация сквозных процессов в одной отрасли требует организации активного межведомственного информационного обмена и, как следствие, приводит к интеграции отраслевых систем.

3. Результаты проведенного анализа свидетельствуют о том, что создаваемое единое информационное пространство органов власти Санкт-Петербурга требует закрепления единых правил управления развитием ИТ архитектурой органов власти Санкт-Петербурга, внедрением соответствующей системы управления развитием ГИС.

4. Решение такой задачи требует дальнейших исследований данной области для проработки модели целевой архитектуры ГИС Санкт-Петербурга и закрепления её в Концепции информатизации Санкт-Петербурга на плановый период (Региональной стратегии информатизации).