Медицинские информационные технологии приобретают все большую актуальность, а программное обеспечение для медицины становится все более востребованным. Под медицинской информационной системой (МИС) понимается комплексная автоматизированная информационная система, в которой объединены электронные медицинские записи о пациентах, данные медицинских исследований, данные мониторинга состояния пациента с медицинских приборов и т.п. [1].
Отличительной особенностью интеллектуальных МИС является наличие базы знаний. База знаний – это особого рода база данных, разработанная для управления знаниями, т.е. сбором, хранением, поиском и выдачей знаний.
Знание – это хорошо структурированные данные, или данные о данных, или метаданные. Для хранения знаний используются базы знаний, которые, в свою очередь, являются основами для любых информационных систем [2, 3].
Существуют три стратегии получения знаний [3]:
- приобретение знаний – это способ автоматизированного наполнения базы знаний посредством диалога эксперта и специальной программы;
- извлечение знаний – процедура взаимодействия инженера по знаниям с источником знаний (экспертом);
- обнаружение знаний.
Извлечение знаний – это процедура взаимодействия эксперта с источником знаний, в результате которой становится явным процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.
Приобретение знаний – процесс наполнения базы знаний экспертом с использованием специализированных программных средств.
Формирование знаний – процесс анализа данных и выявления скрытых закономерностей с использованием специального математического аппарата и программных средств.
Методы представления знаний
Существуют десятки моделей (или языков) представления знаний для различных предметных областей. Большинство из них может быть сведено к следующим классам [2, 3]:
- семантические сети;
- фреймы;
- формальные логические модели;
- продукционные модели.
Термин «семантическая» означает «смысловая», а сама семантика – это наука, устанавливающая отношения между символами объектами, которые они обозначают, т.е. наука, определяющая смысл знаков.
Семантическая сеть – это ориентированный граф, вершины которого – понятия, а дуги – отношения между ними.
Проблема поиска решения в базе знаний типа семантической сети сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети, отражающей поставленный запрос к базе. Недостатком этой модели является сложность организации процедуры поиска вывода на семантической сети.
Фрейм – это абстрактный образ для представления некоего стереотипа восприятия. Основным преимуществом фреймов как модели представления знаний является то, что она отражает концептуальную основу организации памяти человека, а также ее гибкость и наглядность.
Традиционно в представлении знаний выделяют формальные логические модели, основанные на классическом исчислении предикатов первого порядка, когда предметная область или задача описывается в виде набора аксиом. Эта логическая модель применима в основном в исследовательских «игрушечных» системах, так как предъявляет очень высокие требования и ограничения предметной области.
Продукции являются наиболее популярными средствами представления знаний. Продукции, с одной стороны, близки к логическим моделям, что позволяет организовывать на них эффективные процедуры вывода, а с другой стороны, более наглядно отражают знания, чем классические логические модели. В них отсутствуют жесткие ограничения, характерные для логических исчислений, что дает возможность изменять интерпретацию элементов продукции.
В общем виде под продукцией понимается выражение следующего вида:
(i); Q; Р; А => В; N.
Здесь i – имя продукции, с помощью которого данная продукция выделяется из всего множества продукций. В качестве имени может выступать некоторая лексема, отражающая суть данной продукции (например, «покупка книги» или «набор кода замка»), или порядковый номер продукции в их множестве, хранящемся в памяти системы.
Элемент Q характеризует сферу применения продукции. Такие сферы легко выделяются в когнитивных структурах человека. Наши знания как бы «разложены по полочкам». На одной «полочке» хранятся знания о том, как надо готовить пищу, на другой – как добраться до работы и т.п. Разделение знаний на отдельные сферы позволяет экономить время на поиск нужных знаний. Такое же разделение на сферы в базе знаний информационной системы целесообразно и при использовании для представления знаний продукционных моделей.
Основным элементом продукции является ее ядро: А => В. Интерпретация ядра продукции может быть различной и зависит от того, что стоит слева и справа от знака секвенции =>. Обычное прочтение ядра продукции выглядит так: ЕСЛИ A, ТО B, более сложные конструкции ядра допускают в правой части альтернативный выбор, например, ЕСЛИ А, ТО B1, ИНАЧЕ B2. Секвенция может истолковываться в обычном логическом смысле как знак логического следования В из истинного А (если А не является истинным выражением, то о В ничего сказать нельзя). Возможны и другие интерпретации ядра продукции, например A описывает некоторое условие, необходимое для того, чтобы можно было совершить действие В.
Элемент Р есть условие применимости ядра продукции. Обычно Р представляет собой логическое выражение (как правило, предикат). Когда Р принимает значение «истина», ядро продукции активизируется. Если Р ложно, то ядро продукции не может быть использовано.
Элемент N описывает постусловия продукции. Они актуализируются только в том случае, если ядро продукции реализовалось. Постусловия продукции описывают действия и процедуры, которые необходимо выполнить после реализации В. Выполнение N может происходить не сразу после реализации ядра продукции.
Если в памяти системы хранится некоторый набор продукций, то они образуют систему продукций. В системе продукций должны быть заданы специальные процедуры управления продукциями, с помощью которых происходит актуализация продукций и выбор для выполнения той или иной продукции из числа актуализированных.
В Институте кибернетики Томского политехнического университета разработан прототип системы поддержки научных исследований бронхиальной астмы [6–8]. Бронхиальная астма является причиной значительных ограничений жизнедеятельности, снижения социальной активности больных, т.е. снижения их качества жизни. Ограничение социальной и физической активности отрицательно сказываются на развитии человека, вызывают существенные трудности у больного. На развитие болезни влияют не только такие факторы, как наследственность, профессиональные факторы, экологические факторы, нервная и иммунная системы, но и возможно ряд других факторов. Для выявления скрытых закономерностей у больных бронхиальной астмой нами были использованы преимущественно продукционные модели [4–9].
Рис. 1. Дерево решений, построенное по данным анамнеза
Рис. 2. Дерево решений, построенное по психологическим признакам
Для получения закономерностей в виде продукционных моделей, т.е. поиск в данных «если... то...» правил, чаще всего используется алгоритм ограниченного перебора М.М. Бонгарда и метод деревьев решений [4, 5].
Построение деревьев решений
Дерево решений – это способ представления правил в иерархической, последовательной структуре. Деревья решений способны решать такие задачи, в которых отсутствует априорная информация о виде зависимости между исследуемыми данными.
Иерархическое строение дерева классификации – одно из наиболее важных его свойств.
В настоящее время на рынке программных продуктов имеется достаточно большой выбор инструментария для компьютерной реализации метода деревьев решений. В нашем исследовании был использован пакет STATISTICA – система для статистического анализа данных, включающая широкий набор аналитических процедур и методов.
Пример построения дерева решений представлен на рис. 1. Для примера определим зависимость между видами бронхиальной астмы и такими полями, как «пол», «возраст», «вес», «рост».
При построении дерева, представленного на рис. 1, использовался критерий останова N = 9, т.е. если количество объектов в данном правиле меньше либо равно 9, то выборка прекращается. Если же N > 9, то дерево продолжает ветвиться.
Дерево на рис. 2 выявляет закономерности вида бронхиальной астмы и психологического состояния пациента.
Заключение
Полученные результаты будут использованы для расширения имеющейся базы знаний системы поддержки научных исследований бронхиальной астмы, а также при создании прототипа виртуального центра оценки и мониторинга состояния детей с наиболее распространенными неинфекционными заболеваниями.
Исследование выполнено при частичной финансовой поддержке РФФИ в рамках выполнения научных проектов № 15-07-08922, № 14-07-00675, № 14-06-00026.