- Modern high technologies

Основным инструментом практически любого бизнеса в современном мире является анализ информации. Без анализа данных невозможно провести оценку выбора пользователя («пользовательской корзины»), произвести сегментацию рынка и прогнозирование, оценить риски и разработать стратегию дальнейшего развития. Наиболее полно решить все перечисленные выше задачи способны программные продукты, реализующие методы технологии Data Mining. В статье рассмотрены варианты автоматизации одного из модулей Data Mining – визуализации результатов анализа данных для нереляционных баз данных.

Data Mining – (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [1]. В более узком смысле, Data Mining – это интеллектуальный анализ данных (ИАД), направленный на выявление скрытых, неявных, ранее неизвестных закономерностей. Технология Data Mining включает в себя такие модули, как классификация, кластеризация, прогнозирование, поиск данных и визуализация.

Являясь достаточно молодой методикой (с 1989 г.[2]), Data Mining представляет собой обширное поле для исследований и модернизации существующих методов анализа данных. Наименее изученным и разработанным модулем является модуль визуализации, который выбран в данной работе как тема научного исследования.

На данный момент сложно найти область производства, в которой в том или ином виде не применяется ИАД. Зачастую наработки Data Mining используются в сферах, далеких от информационных технологий и потребители программных продуктов анализа данных могут не иметь профессионального образования в данных областях, что требует от программных приложений для ИАД удобства и простоты использования.

Современные программные продукты, обеспечивающие анализ данных, уже решили проблемы автоматизации предварительной обработки данных для анализа. Так, программный комплекс PolyAnalyst компании Megaputer позволяет решить проблемы предобработки для таких модулей, как прогнозирование, классификация, кластеризация, группирование по родству, анализ связей и т.д. [3]. А флагман предсказательного моделирования – KXEN – и вовсе проводит первичную оценку данных на основе существующей базы знаний (то есть практически без вмешательства пользователя), разрешая возникающие конфликты в режиме диалога [4].

Однако и PolyAnalyst, и KXEN не производят предварительной оценки результатов анализа данных для выбора метода их визуализации: таблицы, графики, диаграммы, гистограммы и многое другое. Подобно программному пакету Excel, они предоставляют пользователю право выбрать нужный ему тип из каталога имеющихся видов визуализации. Данный подход является не совсем корректным, поскольку пользователь может не знать, какой тип визуализации лучше подходит для его задачи, либо какие вообще типы визуализации существуют в данном пакете. Поэтому возникает задача автоматизации ранжирования видов визуализации, которая рассматривается в данной статье.

Рассмотрим концепцию предварительной обработки данных для выбора типа визуализации. Основной алгоритм состоит из следующих шагов:

Выбор данных для анализа;

Анализ типа данных и количества их групп;

Выявление математических закономерностей исследуемого набора данных;

Сравнение полученных на предыдущем шаге закономерностей с параметрами каждого типа визуализации из имеющейся базы знаний типов визуализации;

Предоставление пользователю наиболее подходящего типа визуализации.

Данный метод требует предварительной разработки базы знаний для программного продукта. Параметрами каждого типа визуализации могут служить, например, типы данных в столбце и число столбцов. Так, для числовых данных или данных, имеющих тип «дата», при наличии двух столбцов для анализа приемлемей использовать графики или точечные диаграммы, поскольку они показывают динамику развития или распределение статических данных. Для случая, когда один из столбцов для анализа данных имеет символьный тип данных (CHAR), а второй – числовой или датированный, больше подходит отображение данных в виде линейных столбцов, круговой диаграммы или диаграммы-пирога (“pie chart”). Если же для анализа представлено более двух столбцов, то оптимальным вариантом является визуализация данных в виде гистограммы, позволяющей наглядно отобразить сравнение изменений нескольких групп данных. При этом важно отметить, что столбцы, содержащих символьные типы данных, преимущественно будут интерпретированы как группы данных (т.е. число столбцов в гистограмме), а датированные или числовые типы данных в свою очередь будут располагаться на осях X и Y соответственно.

Похожее решение проблемы автоматизации выбора типа визуализации уже было предложено корпорацией Microsoft, но на сегодняшний момент еще не было реализовано [5]. Однако предложенный метод пригоден только для реляционных баз данных, что заставляет пользовать проводить предварительную обработку данных, приводя их к табличному виду, а это является достаточно сложной, а порой и невозможной задачей.

Поскольку технология ИАД Data Mining направлена на анализ как реляционных, так и нерелляционных данных, ниже приводится принцип ранжирования видов визуализации для XML-файлов. Данный принцип будет базироваться на описанной выше технологии анализа типов данных и количества анализируемых атрибутов (столбцов), однако будет добавлен модуль, осуществляющий предварительное преобразование XML-файла к реляционному виду.

XML – рекомендованный W3C язык разметки. Спецификация XML описывает XML-документы и частично описывает поведение XML-процессоров[6]. XML-файлы имеют программный интерфейс DOM и иерархическую структуру, представленную корневым тэгом со вложенными в него элементами. [7] Таким образом программа-парсер, проводящая предварительную обработку XML-файла должна выполнить следующие шаги:

• Нахождение тэга по заданному пользователем имени;

• Фиксация значения, содержащегося в данном тэге;

• Подсчет данных тэгов и фиксация содержащихся в них значений;

• Проверка на наличие вложенных тэгов;

• Фиксация значения, содержащегося во вложенных тэгах;

• Подсчет данных тэгов и фиксация содержащихся в них значений.

Программа-парсер работает до тех пор, пока не будут разобраны все одноименные тэги в выбранном для анализе XML-файле. По завершении извлеченные из файла данные преобразуются к табличному виду (может происходить конвертация в любой подходящий тип файла: xls, csv, dtb и др.), и далее происходит анализ типов данных и количества атрибутов, описанный в данной статье выше.

Стоит заметить, что все предобработки, а также сам процесс ранжирования типов визуализации происходит автоматически, что значительно упрощает работу пользователей. Им необходимо ввести только имя тэга, по которому нужно построить диаграмму. В то время, как в аналогичном продукте корпорации Microsoft пользователь должен указать все необходимые для анализа столбцы таблицы.

Предложенный метод автоматизации ранжирования типов визуализации для нерелляционных баз данных имеет ряд преимуществ перед предложенным методом компании Microsoft. Среди них можно выделить следующие:

Уникальность: на данный момент отсутствуют реализации аналогичного программного продукта;

Универсальность: метод работает как с реляционными, так и с нетабличными БД;

Простота использования пользователем: при анализе нерелляционных баз данных пользователю необходимо указать только имя тэга;

Дешевизна реализации: описанный в данной статье метод достаточно прост для реализации, поскольку является лишь одним компонентом программного комплекса, осуществляющего интеллектуальный анализ данных.

Выводы

В работе проведен анализ предметной области, связанной с применением средств визуализации технологии Data Mining. Рассмотрены актуальные программные приложения. Обозначена концепция выявления параметров данных, влияющих на тип их визуализации. Описаны алгоритмы работы анализаторов для реляционных данных и предложен алгоритм ранжирования типов визуализации для нерелляционных данных.

Scientific journal
Modern high technologies

ISSN 1812-7320

"Перечень" ВАК

ИФ РИНЦ = 0,940

Modern high technologies
Scientific journal | ISSN 1812-7320 | Certificate - PI №77-15597