Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

ОТРАСЛЕВАЯ ИДЕНТИФИКАЦИЯ ЗАЯВОК В АВТОМАТИЗИРОВАННОЙ ЭКСПЕРТНОЙ СИСТЕМЕ РАСПРЕДЕЛЕНИЯ ГРАНТОВ

Сироткин А.В. 1 Старикова О.А. 1
1 Северо-Восточный государственный университет
Концептуализируется разработка автоматизированной системы распределения финансовых грантов, основанной на использовании искусственного интеллекта в части проведения экспертных оценок. Роль экспертов по оценке параметров заявки возлагается на автоматизированную систему, результатом работы которой является обобщённый показатель, учитывающий численные параметры соответствия заявки установленным критериям. В качестве предварительной процедуры предлагается использовать определение отраслевой принадлежности заявки, по результатам которой для проведения экспертной оценки будут выбраны критерии и процедуры, специфические для этой области знания. Процедура отраслевой идентификации основана на использовании тематической статистической модели, использующей фиксированные, заранее разработанные наборы ключевых признаков (идентификаторов), дополненные установленными для каждого ключа весами. Разработаны концептуальные модели процесса рассмотрения заявки на грант с помощью автоматизированной системы и математические модели для определения принадлежности заявки к определённой области знания. В качестве таких областей использованы классификаторы ГРНТИ, УДК и др. Степень соответствия заявки области знания устанавливается путем сопоставления множеств признаков, характеризующих области знания, и частоты вхождения их экземпляров в текст заявки. Сравниваются модели тематического анализа, в том числе векторная, и модели, учитывающие содержательное разнообразие и/или усреднённую длину текста. Представлен выбор одной области знания из нескольких, определённых в ходе идентификации.
тематический анализ
экспертная оценка
грант
заявка
1. Яшин С.Н. Совершенствование инструментария системы оценки эффективности инновационных проектов, претендующих на получение грантов // Инновационное развитие. 2014. № 28 (604). С. 11–20.
2. Михайлов Д.В., Козлов А.П., Емельянов Г.М. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF // Компьютерная оптика. 2015. Т. 39. № 3. С. 429–438.
3. Царьков С.В. Автоматическое выделение ключевых фраз для построения словаря терминов в тематических моделях коллекций текстовых документов // Естественные и технические науки. 2012. № 6. С. 456–464.
4. Попков М.И. Автоматическая система классификации текстов для базы знаний предприятия // International Journal of Open Information Technologies. 2014. Vol. 2. no. 7. С. 11–18.
5. Сироткин А.В., Шарыпов С.А. Тематическая модель рейтингования интернет-сайтов по критерию социальной значимости // Инженерный вестник Дона. 2016. № 4. [Электронный ресурс]. URL: http://ivdon.ru/ru/magazine/archive/n4y2016/3794 (дата обращения: 17.06.2019).
6. Бондарчук Д.В. Векторная модель представления знаний на основе семантической близости термов // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2017. № 3. [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/vektornaya-model-predstavleniya-znaniy-na-osnove-semanticheskoy-blizosti-termov (дата обращения: 17.06.2019).

В настоящее время возросло количество задач, доверяемых решению автоматизированных экспертных системам. Следует отметить возрастание сложности задач и, как следствие, появление в них интеллектуальных систем, призванных решать задачи, основанные на неформализуемых или плохо формализуемых критериях, требующих использования не только знаний, но и систем, имитирующих работу эксперта, то есть его опыт, интуицию и пр.

Существуют задачи, решение которых требует анализа формализованных критериев наряду с неформализованными, относящихся к узкой области знаний или деятельности человека и общества, оценка принадлежности к которой также требует работы эксперта. К классу таких задач, например, можно отнести рассмотрение и удовлетворение заявок на проектное финансирование по отраслям деятельности, иначе называемое распределение грантов. Анализ и повышение эффективности решения таких задач имеют высокую актуальность, что отражается в работах исследователей, в частности [1].

В подобного вида деятельности практикуется привлечение экспертов, при том, что для этого класса задач не наблюдается широкого освещения в научной публицистике информации о разработке и использовании искусственных систем, основанных на автоматизированных технических решениях. В силу этого возникает возможность формулирования задачи построения автоматизированной системы распределения грантов (АСРГ) с использованием системы искусственного интеллекта, работающей на основе разработанных шаблонов по отраслям знаний.

Работа эксперта по рассмотрению заявки на грант достаточно типизирована независимо от предметной области. Как правило, в современных условиях, с использованием Web-технологий, процесс удовлетворения заявки и взаимодействия с заявителем подчиняется сценарию, приведённому на рис. 1.

sirot1.tif

Рис. 1. Диаграмма поточной модели (AS-IS) процесса удовлетворения заявки на грант

1. Заявитель самостоятельно направляет заявку грантооператору с использованием Web-формы.

2. Сотрудник грантооператора проводит первичную оценку заявки на соответствие базовым требованиям.

3. Эксперты проводят анализ заявки на соответствие требованиям и выносят частные решения об удовлетворении заявки.

4. Производится обобщение частных решений и принимается решение об удовлетворении заявки (как правило, сотрудником грантооператора).

5. Заявитель получает уведомление о результатах удовлетворения заявки.

Подобная модель действует для большинства предметных областей, различия могут быть в составе критериев, знаниях, используемых для оценки, а также в составе некоторых процедур оценки, характерных для конкретной отрасли.

Цель исследования: разработка автоматизированной информационной системы распределения грантов. Предметом исследования в рамках данной работы является разработка методики определения принадлежности заявки к конкретной области знания.

Для достижения поставленной цели был проведён анализ процесса рассмотрения заявки в моделях AS-IS и концептуализирован процесс автоматизированного рассмотрения в модели TO-BE.

Организационно-процессная модель удовлетворения заявки (на грант) Θ в модели AS-IS, задающая контекст отношений целевого процесса, может быть представлена следующим образом:

sirot01.wmf, (1)

где Ψ – множество заявок, ΩS – множество экспертов, Pp – множество процедур предварительной оценки (на соответствие требованиям), MΩ – множество процедур экспертной оценки, Qp – множество критериев для предварительной оценки (на соответствие требованиям), QM – множество критериев для экспертной оценки, OM – множество численных оценок.

Статическая модель эксперта в модели AS-IS может быть представлена следующим выражением

sirot02.wmf, (2)

где k – идентификатор эксперта, Υ – описание атрибутов эксперта, Φ – значение компетенции эксперта в соответствующей области знаний (фиксированное максимальное значение на текущий момент времени).

Исходя из модели (1–2) можно сделать предположение, что возможно построение универсальной системы распределения грантов, пригодной для использования в любой прикладной области, сопровождаемой кортежем

sirot03.wmf, (3)

где Λ – база знаний и фактов для проведения экспертной оценки по не формализуемым или плохо формализуемым критериям, B – отраслевой шаблон экспертной оценки, который устанавливает процедурные различия для проведения оценки для различных предметных областей. Данная модель, в отличие от модели (1–2), содержит только одну процедуру экспертной оценки, поскольку в системе присутствует только один эксперт – АСРГ. Соответственно (3), организационно-процессная модель удовлетворения заявки (на грант) Θ в модели TO-BE может быть представлена следующим образом:

sirot04.wmf. (4)

Приняв данную модель, можно сформулировать задачу разработки универсальной АСГР, контекстная диаграмма которой представлена на рис. 2.

sirot2.tif

Рис. 2. Главная контекстная диаграмма «Работа универсальной АСРГ»

В пояснение к диаграмме были сформулированы следующие аргументы.

Основным процессом в данной области деятельности является процесс рассмотрения заявки. Отклонение заявки (её неудовлетворение) не является целью и может рассматриваться как отрицательный результат. Целью грантодателя является именно удовлетворение заявок, соответствующих по наборам критериев требованиям выделения средств. Поэтому следует акцентировать внимание на том, что именно удовлетворение, но не рассмотрение заявки является целью всего процесса.

Статическая модель критериев для проведения экспертной оценки QM может быть построена на множествах sirot05.wmf формализованных sirot06.wmf и неформализованных sirot07.wmf критериев как

sirot08.wmf.

Статическая модель экспертных оценок OM строится на основе множеств оценок по формализованным критериям sirot09.wmf и множестве оценок по неформализованным или плохоформализованным критериям, требующим интеллектуальной оценки, sirot10.wmf

sirot11.wmf.

Модель процесса экспертного оценивания может быть построена как для традиционной модели (1–2), так и для АСРГ (3–4) при условии sirot12.wmf. Её вид может быть представлен следующим кортежем:

sirot13.wmf, (5)

где R – процесс оценивания на множествах sirot14.wmf или sirot15.wmf.

Диаграмма поточной модели TO-BE, иллюстрирующая модель (5) для АСРГ, представлена на рис. 3.

sirot3.tif

Рис. 3. Диаграмма поточной модели TO-BE работы АСРГ

Статическая модель оценки отдельной заявки может быть представлена выражением

sirot16.wmf,

где f – функция свёртки обобщённого показателя, принимаемого к розыгрышу гранта. Соответственно модель розыгрыша может быть представлена следующим кортежем:

sirot17.wmf,

где G – множество грантов, w – функция выбора (конкурсная процедура).

Реализация модели (3) возможна только после определения отраслевой принадлежности заявки, для чего требуется соотнести поданную заявку с той или иной областью знания. Решение этой задачи возможно различными способами, в том числе методами тематического анализа, достаточно хорошо разработанными для различных документальных массивов.

Отраслевая идентификация может быть решена путём анализа соответствия содержания заявки неким признакам, например, отнесённых по областям знаний классификаторами ГРНТИ, УДК, ББК и др. Однако данный перечень не исчерпывает всех возможных признаков, поэтому реальная реализация системы может быть дополнена собственной, заранее разработанной, базой признаков, построенной на основе развешанных лингвистических ключей.

Предлагаемое решение не предусматривает машинного обучения и построения базы термов на основе анализа документов, как это применяется в общепринятой методологии TF-IDF (например, [2]) или в автоматизированных системах машинного обучения (например, [3] или [4]). Более того, мы предполагаем, что терминологическая база строго формализована для исключения неадекватного трактования предметной области заявки, как, например, предложено в [5].

Предположим, что сформирована база данных, содержащая некоторое множество L отраслей знаний, sirot18.wmf, причём каждой области знания sirot19.wmf поставлен в соответствие набор Ki признаков или ключевых слов sirot20.wmf. Пусть R – множество поступивших заявок и sirot21.wmf. Относительно рассматриваемого множества R сопоставляем каждому признаку kij относительно заявки sirot22.wmf величину sirot23.wmf, называемую «весом». Кроме того, определяем частоты sirot24.wmf вхождений kij в rq.

Далее выявляем значение частного показателя sirot25.wmf, устанавливающего степень соответствия области знания li заявке sirot26.wmf. Для этой цели возможно использование векторной модели (vector space model) метода TF-IDF [6] с учётом длины текста sirot27.wmf:

sirot28.wmf. (6)

Для компенсации прямого влияния длины текста на величину ind можно использовать модель, учитывающую усреднённую длину текста Wavg [5]:

sirot29.wmf. (7)

Модель (7) также не лишена недостатков, в частности не учитывает содержательного разнообразия, за счёт чего многократное повторение одного и того же термина может значительно повысить показатель ind, не имея при этом весомых оснований для отнесения заявки к определённой отрасли знания. Для компенсации этого недостатка может быть предложена следующая модель, основанная на уравнении Шеннона:

sirot30.wmf.

При определении отраслевой принадлежности возможен случай, когда показатель ind имеет одинаковое максимальное значение более чем для одной области. В этом случае возникает как бы условие конкуренции отраслей знаний за заявку rq. Пусть для некоторых показателей pα и pβ запись H(pα; pβ) означает, что показатель pβ не превосходит показатель pα. Условие конкуренции для отраслей lα и lβ можно выразить следующим правилом:

sirot31.wmf.

Выявляем множество

sirot32.wmf.

Если sirot33.wmf, то заявка sirot34.wmf должна быть сопоставлена области знания lα. В случае, когда sirot35.wmf, формируем множество

sirot36.wmf. (8)

Множество L2 с одной стороны, с большей степенью вероятности позволяет выявить требуемую область знания lα, с другой стороны, как и в модели (8), позволяет уточнить полученный результат, например

sirot37.wmf.

Выводы

Представленная модель отраслевой идентификации документа может быть использована для проведения предварительного этапа рассмотрения заявки при разработке универсальной автоматизированной системы распределения финансовых грантов. Данный подход также может быть применён к анализу текстов в любой области, при условии использования формализованных множеств термов, например, формализованной тематической рубрикации, классификации документов и пр. Результаты отраслевой идентификации будут использованы для формирования аналитического пакета инструментов, используемого в качестве ресурса для дальнейшего экспертного анализа заявки средствами искусственного интеллекта.


Библиографическая ссылка

Сироткин А.В., Старикова О.А. ОТРАСЛЕВАЯ ИДЕНТИФИКАЦИЯ ЗАЯВОК В АВТОМАТИЗИРОВАННОЙ ЭКСПЕРТНОЙ СИСТЕМЕ РАСПРЕДЕЛЕНИЯ ГРАНТОВ // Современные наукоемкие технологии. – 2019. – № 7. – С. 99-103;
URL: https://top-technologies.ru/ru/article/view?id=37596 (дата обращения: 21.11.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674