Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,909

BRANCH IDENTIFICATION OF DEMANDS IN THE AUTOMATED EXPERT SYSTEM OF DISTRIBUTION OF GRANTS

Sirotkin A.V. 1 Starikova O.A. 1
1 North-Eastern state University
Концептуализируется разработка автоматизированной системы распределения финансовых грантов, основанной на использовании искусственного интеллекта в части проведения экспертных оценок. Роль экспертов по оценке параметров заявки возлагается на автоматизированную систему, результатом работы которой является обобщённый показатель, учитывающий численные параметры соответствия заявки установленным критериям. В качестве предварительной процедуры предлагается использовать определение отраслевой принадлежности заявки, по результатам которой для проведения экспертной оценки будут выбраны критерии и процедуры, специфические для этой области знания. Процедура отраслевой идентификации основана на использовании тематической статистической модели, использующей фиксированные, заранее разработанные наборы ключевых признаков (идентификаторов), дополненные установленными для каждого ключа весами. Разработаны концептуальные модели процесса рассмотрения заявки на грант с помощью автоматизированной системы и математические модели для определения принадлежности заявки к определённой области знания. В качестве таких областей использованы классификаторы ГРНТИ, УДК и др. Степень соответствия заявки области знания устанавливается путем сопоставления множеств признаков, характеризующих области знания, и частоты вхождения их экземпляров в текст заявки. Сравниваются модели тематического анализа, в том числе векторная, и модели, учитывающие содержательное разнообразие и/или усреднённую длину текста. Представлен выбор одной области знания из нескольких, определённых в ходе идентификации.
Conceptualizes working out of the automated system of distribution of the financial grants, based on use of an artificial intellect regarding carrying out of expert estimations. The role of experts according to demand parametres is assigned to the automated system which result of work is the generalised indicator considering numerical parametres of conformity of the demand to installed criteria. As preliminary procedure it is offered to use definition of a branch accessory of the demand by which results for carrying out of an expert estimation criteria and the procedures specific to this area of knowledge will be chosen. Procedure of branch identification is based on use of the thematic statistical model using fixed, in advance developed sets of key signs (identifiers), added with the scales installed for everyone key. By means of the automated system and mathematical models conceptual models of process of consideration of the demand for the grant are developed for definition of an accessory of the demand to certain area of knowledge. As such areas qualifiers GRNTI are used, UDC, etc. Degree of conformity of the demand of area of knowledge is installed by comparison of sets of the signs characterising areas of knowledge, and frequency of occurrence of their copies in the demand text. Models of the thematic analysis, including vector and the models considering a substantial variety and-or average length of the text are compared. The choice of one area of knowledge from several, defined during identification is presented.
the thematic analysis
expert estimation
the grant
the demand

В настоящее время возросло количество задач, доверяемых решению автоматизированных экспертных системам. Следует отметить возрастание сложности задач и, как следствие, появление в них интеллектуальных систем, призванных решать задачи, основанные на неформализуемых или плохо формализуемых критериях, требующих использования не только знаний, но и систем, имитирующих работу эксперта, то есть его опыт, интуицию и пр.

Существуют задачи, решение которых требует анализа формализованных критериев наряду с неформализованными, относящихся к узкой области знаний или деятельности человека и общества, оценка принадлежности к которой также требует работы эксперта. К классу таких задач, например, можно отнести рассмотрение и удовлетворение заявок на проектное финансирование по отраслям деятельности, иначе называемое распределение грантов. Анализ и повышение эффективности решения таких задач имеют высокую актуальность, что отражается в работах исследователей, в частности [1].

В подобного вида деятельности практикуется привлечение экспертов, при том, что для этого класса задач не наблюдается широкого освещения в научной публицистике информации о разработке и использовании искусственных систем, основанных на автоматизированных технических решениях. В силу этого возникает возможность формулирования задачи построения автоматизированной системы распределения грантов (АСРГ) с использованием системы искусственного интеллекта, работающей на основе разработанных шаблонов по отраслям знаний.

Работа эксперта по рассмотрению заявки на грант достаточно типизирована независимо от предметной области. Как правило, в современных условиях, с использованием Web-технологий, процесс удовлетворения заявки и взаимодействия с заявителем подчиняется сценарию, приведённому на рис. 1.

sirot1.tif

Рис. 1. Диаграмма поточной модели (AS-IS) процесса удовлетворения заявки на грант

1. Заявитель самостоятельно направляет заявку грантооператору с использованием Web-формы.

2. Сотрудник грантооператора проводит первичную оценку заявки на соответствие базовым требованиям.

3. Эксперты проводят анализ заявки на соответствие требованиям и выносят частные решения об удовлетворении заявки.

4. Производится обобщение частных решений и принимается решение об удовлетворении заявки (как правило, сотрудником грантооператора).

5. Заявитель получает уведомление о результатах удовлетворения заявки.

Подобная модель действует для большинства предметных областей, различия могут быть в составе критериев, знаниях, используемых для оценки, а также в составе некоторых процедур оценки, характерных для конкретной отрасли.

Цель исследования: разработка автоматизированной информационной системы распределения грантов. Предметом исследования в рамках данной работы является разработка методики определения принадлежности заявки к конкретной области знания.

Для достижения поставленной цели был проведён анализ процесса рассмотрения заявки в моделях AS-IS и концептуализирован процесс автоматизированного рассмотрения в модели TO-BE.

Организационно-процессная модель удовлетворения заявки (на грант) Θ в модели AS-IS, задающая контекст отношений целевого процесса, может быть представлена следующим образом:

sirot01.wmf, (1)

где Ψ – множество заявок, ΩS – множество экспертов, Pp – множество процедур предварительной оценки (на соответствие требованиям), MΩ – множество процедур экспертной оценки, Qp – множество критериев для предварительной оценки (на соответствие требованиям), QM – множество критериев для экспертной оценки, OM – множество численных оценок.

Статическая модель эксперта в модели AS-IS может быть представлена следующим выражением

sirot02.wmf, (2)

где k – идентификатор эксперта, Υ – описание атрибутов эксперта, Φ – значение компетенции эксперта в соответствующей области знаний (фиксированное максимальное значение на текущий момент времени).

Исходя из модели (1–2) можно сделать предположение, что возможно построение универсальной системы распределения грантов, пригодной для использования в любой прикладной области, сопровождаемой кортежем

sirot03.wmf, (3)

где Λ – база знаний и фактов для проведения экспертной оценки по не формализуемым или плохо формализуемым критериям, B – отраслевой шаблон экспертной оценки, который устанавливает процедурные различия для проведения оценки для различных предметных областей. Данная модель, в отличие от модели (1–2), содержит только одну процедуру экспертной оценки, поскольку в системе присутствует только один эксперт – АСРГ. Соответственно (3), организационно-процессная модель удовлетворения заявки (на грант) Θ в модели TO-BE может быть представлена следующим образом:

sirot04.wmf. (4)

Приняв данную модель, можно сформулировать задачу разработки универсальной АСГР, контекстная диаграмма которой представлена на рис. 2.

sirot2.tif

Рис. 2. Главная контекстная диаграмма «Работа универсальной АСРГ»

В пояснение к диаграмме были сформулированы следующие аргументы.

Основным процессом в данной области деятельности является процесс рассмотрения заявки. Отклонение заявки (её неудовлетворение) не является целью и может рассматриваться как отрицательный результат. Целью грантодателя является именно удовлетворение заявок, соответствующих по наборам критериев требованиям выделения средств. Поэтому следует акцентировать внимание на том, что именно удовлетворение, но не рассмотрение заявки является целью всего процесса.

Статическая модель критериев для проведения экспертной оценки QM может быть построена на множествах sirot05.wmf формализованных sirot06.wmf и неформализованных sirot07.wmf критериев как

sirot08.wmf.

Статическая модель экспертных оценок OM строится на основе множеств оценок по формализованным критериям sirot09.wmf и множестве оценок по неформализованным или плохоформализованным критериям, требующим интеллектуальной оценки, sirot10.wmf

sirot11.wmf.

Модель процесса экспертного оценивания может быть построена как для традиционной модели (1–2), так и для АСРГ (3–4) при условии sirot12.wmf. Её вид может быть представлен следующим кортежем:

sirot13.wmf, (5)

где R – процесс оценивания на множествах sirot14.wmf или sirot15.wmf.

Диаграмма поточной модели TO-BE, иллюстрирующая модель (5) для АСРГ, представлена на рис. 3.

sirot3.tif

Рис. 3. Диаграмма поточной модели TO-BE работы АСРГ

Статическая модель оценки отдельной заявки может быть представлена выражением

sirot16.wmf,

где f – функция свёртки обобщённого показателя, принимаемого к розыгрышу гранта. Соответственно модель розыгрыша может быть представлена следующим кортежем:

sirot17.wmf,

где G – множество грантов, w – функция выбора (конкурсная процедура).

Реализация модели (3) возможна только после определения отраслевой принадлежности заявки, для чего требуется соотнести поданную заявку с той или иной областью знания. Решение этой задачи возможно различными способами, в том числе методами тематического анализа, достаточно хорошо разработанными для различных документальных массивов.

Отраслевая идентификация может быть решена путём анализа соответствия содержания заявки неким признакам, например, отнесённых по областям знаний классификаторами ГРНТИ, УДК, ББК и др. Однако данный перечень не исчерпывает всех возможных признаков, поэтому реальная реализация системы может быть дополнена собственной, заранее разработанной, базой признаков, построенной на основе развешанных лингвистических ключей.

Предлагаемое решение не предусматривает машинного обучения и построения базы термов на основе анализа документов, как это применяется в общепринятой методологии TF-IDF (например, [2]) или в автоматизированных системах машинного обучения (например, [3] или [4]). Более того, мы предполагаем, что терминологическая база строго формализована для исключения неадекватного трактования предметной области заявки, как, например, предложено в [5].

Предположим, что сформирована база данных, содержащая некоторое множество L отраслей знаний, sirot18.wmf, причём каждой области знания sirot19.wmf поставлен в соответствие набор Ki признаков или ключевых слов sirot20.wmf. Пусть R – множество поступивших заявок и sirot21.wmf. Относительно рассматриваемого множества R сопоставляем каждому признаку kij относительно заявки sirot22.wmf величину sirot23.wmf, называемую «весом». Кроме того, определяем частоты sirot24.wmf вхождений kij в rq.

Далее выявляем значение частного показателя sirot25.wmf, устанавливающего степень соответствия области знания li заявке sirot26.wmf. Для этой цели возможно использование векторной модели (vector space model) метода TF-IDF [6] с учётом длины текста sirot27.wmf:

sirot28.wmf. (6)

Для компенсации прямого влияния длины текста на величину ind можно использовать модель, учитывающую усреднённую длину текста Wavg [5]:

sirot29.wmf. (7)

Модель (7) также не лишена недостатков, в частности не учитывает содержательного разнообразия, за счёт чего многократное повторение одного и того же термина может значительно повысить показатель ind, не имея при этом весомых оснований для отнесения заявки к определённой отрасли знания. Для компенсации этого недостатка может быть предложена следующая модель, основанная на уравнении Шеннона:

sirot30.wmf.

При определении отраслевой принадлежности возможен случай, когда показатель ind имеет одинаковое максимальное значение более чем для одной области. В этом случае возникает как бы условие конкуренции отраслей знаний за заявку rq. Пусть для некоторых показателей pα и pβ запись H(pα; pβ) означает, что показатель pβ не превосходит показатель pα. Условие конкуренции для отраслей lα и lβ можно выразить следующим правилом:

sirot31.wmf.

Выявляем множество

sirot32.wmf.

Если sirot33.wmf, то заявка sirot34.wmf должна быть сопоставлена области знания lα. В случае, когда sirot35.wmf, формируем множество

sirot36.wmf. (8)

Множество L2 с одной стороны, с большей степенью вероятности позволяет выявить требуемую область знания lα, с другой стороны, как и в модели (8), позволяет уточнить полученный результат, например

sirot37.wmf.

Выводы

Представленная модель отраслевой идентификации документа может быть использована для проведения предварительного этапа рассмотрения заявки при разработке универсальной автоматизированной системы распределения финансовых грантов. Данный подход также может быть применён к анализу текстов в любой области, при условии использования формализованных множеств термов, например, формализованной тематической рубрикации, классификации документов и пр. Результаты отраслевой идентификации будут использованы для формирования аналитического пакета инструментов, используемого в качестве ресурса для дальнейшего экспертного анализа заявки средствами искусственного интеллекта.