Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

COMPUTATIONAL SEMANTIC INTERPRETATION OF SCIENTIFIC AND TECHNICAL TEXTS

Vishnyakov Yu.M. 1 Vishnyakov R.Yu. 1
1 Non-state Academy of Marketing and Social Information Technologies – IMSIT
The paper presents a formal approach to the semantic interpretation of scientific and technical texts. The identification of text semantics is performed by means of a computational procedure represented as a semantic scheme. For this purpose, the special concepts such as operation of semantic value context definition, context bunch as well as text chunk representation as expressions of Reverse Polish Notation were introduced. The approach suggests defining semantic similarity of text chunks by results of comparison of their semantic schemes, by applying the criterion of semantic similarity and comparison procedure. In this paper we show that semantic similarity criteria include a traditional frequency criterion as a special case. Furthermore, we constructed a linguistic variable of documents similarity, decision rules and selection procedure of relevant documents. Also, we provide semantic comparisons of text chunks and illustrate them in the examples. These examples show the performance of the described approach.
semantic interpretation
semantic proximity
semantic scheme
Reverse Polish notation
information retrieval
classification
fuzzy mathematics

В настоящее время в частотной парадигме релевантности по эффективности обработки информации фактически достигнут предел, однако рост объемов информации и возрастающие требования к качеству ее обработки усиливают внимание к использованию семантических подходов. Данное обстоятельство особенно явно проявляется в областях информационного поиска и классификации документов. В то же время использованию семантических подходов препятствует отсутствие приемлемой формализации, что обусловлено сложностью и неоднозначностью естественных языков (ЕЯ), порождающих многочисленные исследования в данном направлении, например [3, 4]. Предлагаемая работа отражает часть наших исследований по семантической интерпретации текстов научно-технического стиля, обобщая и развивая, в частности, результаты работ [1, 2, 5].

Метод

Суть предлагаемого подхода состоит в формировании смысла текстового фрагмента (ТФ) с помощью вычислительной процедуры над смысловыми значениями его слов. Процедура конструируется в виде семантической схемы (СемСх), которая положена в основу сравнения ТФ на смысловую близость, а для сравнения специально сконструирован семантический критерий близости (СКБ).

A. Основные термины и понятия

Пусть в ЕЯ задана некоторая цепочка q слов ai вида

q = a1a2...an, (1)

представляющая целостный по смыслу ТФ. Целостность означает, что между словами цепочки q существует отношение непосредственного подчинения, оно задается словосочетаниями и является однозначным.

Если в некотором словосочетании a – главное слово, а b – зависимое, то эту зависимость представим выражением (записью) вида

Vishnyakov01.wmf, (2)

в котором стрелка указывает на направление зависимости слов.

Если а – некоторое слово, входящее главным словом в несколько словосочетаний с зависимыми словами b1, b2, ..., bp, тогда зависимость запишем выражением вида

a: {b1, b2, ..., bp}, (3)

которое назовем его контекстной связкой.

Обозначим через S(ai) множество смысловых значений слова ai из q (1), а множество смысловых значений ФТ (1) представим функционалом вида

Vishnyakov02.wmf (4)

Если в ТФ q слово ai является главным, то для (4) справедливо соотношение

Vishnyakov03.wmf (5)

Таким образом, смысловое значение словосочетания есть подмножество смысловых значений его главного слова, задается оно смыслом зависимого слова, образующего контекст:

Vishnyakov04.wmf (6)

Для (6) справедливы соотношения

Vishnyakov05.wmf Vishnyakov06.wmf

Vishnyakov07.wmf (7)

На словосочетании следующим образом определим операцию контекстного уточнения смысла главного слова зависимым:

Vishnyakov08.wmf (8)

где Vishnyakov09.wmf – операция контекстного уточнения смысла, а стрелка над ней задает направление зависимости слов в словосочетании. Распространяя (8) на контекстную связку (3), получим

Vishnyakov10.wmf (9)

Теперь с учетом (8) и (9) для ТФ можно уже строить множество смысловых значений (4).

Поясним рассуждения примером ТФ q, где слова закодированы латинскими буквами:

Vishnyakov11.wmf

Используя (8) и (9) для примера ТФ q, получим выражение его смыслового значения:

Vishnyakov12.wmf (10)

B. Обратная польская запись функционала текстового фрагмента, семантическая схема

Основную особенность обратной польской записи (ОПЗ) представляет способ ее вычисления, он же однозначно определяет структуру вычислительной процедуры. Используем данное обстоятельство и распространим нотацию ОПЗ на функционал смысла.

В нотации ОПЗ операция контекстного уточнения смысла (8) будет иметь вид

Vishnyakov13.wmf (11)

В (11) для сохранения зависимости слов стрелка над операцией меняет направление.

Также ОПЗ контекстной связки (9) с учетом (11) принимает следующий вид:

Vishnyakov14.wmf (12)

где p соответствует арности операции пересечения.

Применяя (11) и (12) к ТФ q (10), получим следующую ОПЗ:

Vishnyakov15.wmf (13)

Промежуточные выражения пошагового вычисления ОПЗ (13) имеют вид

1. Vishnyakov16.wmf

2. Vishnyakov17.wmf

3. Vishnyakov18.wmf

4. Vishnyakov19.wmf

5. Vishnyakov20.wmf

6. Vishnyakov21.wmf

7. Vishnyakov22.wmf

pic_6.wmf

Рис. 1. Семантическая схема ТФ q

Здесь переменные ri являются временными и предназначены для хранения промежуточных результатов каждого шага. Пока важен только факт их существования.

Поставим в соответствие каждой операции графический элемент, в котором прямоугольник представляет операцию, круглые вершины слева – входные данные, справа – результат. Такое представление назовем элементом смысла. Объединяя элементы смысла выражения (13), получим графическое представление всей вычислительной процедуры, которое назовем семантической схемой (СемСх). Вычислительная схема, построенная для примера ТФ в виде ОПЗ (13), представлена ниже на рис. 1 и имеет следующий вид:

C. Критерий сравнения текстовых фрагментов на семантическую близость

Пусть задан ТФ q в виде (1), который назовем образцом сравнения. Данный образец сравним на семантическую близость с ТФ t вида

t = b1b2...bm, (14)

для чего введем критерий семантической близости (КСБ) следующим образом:

Vishnyakov23.wmf D = [0...1]. (15)

Здесь Сprox – КСБ, S(q) – множество смысловых значений образца, S(t) – множество смысловых значений ТФ t, а D – интервал значений КСБ Сprox. Если Сprox = 0, то близость между q и t отсутствует, при Сprox = 1 имеет место полное семантическое совпадение.

Отметим, что в общем случае всегда справедливо соотношение

Vishnyakov24.wmf (16)

Представим КСБ в виде доли совпадающих элементов смысла в СемСх образца q и сравниваемого ТФ t к общему числу элементов смысла образца:

Vishnyakov25.wmf (17)

Здесь m – число элементов смысла в СемСх образца q, p – число совпадающих элементов смысла q в СемСх t соответственно. Частным случаем (17) является частотный критерий релевантности (φ), когда m представляет число слов в ТФ q, а p – число слов из q, совпадающих со словами в t.

Поясним семантическое сравнение образца q и на примерах конкретных ТФ. Одновременно для примеров сравним КСБ и частотный критерий релевантности.

Пример 1. Пусть задан первый ТФ_1 в виде предложения:

Правительство России проводит политику, направленную на международное признание образовательных программ российских вузов.

Здесь образец q является подстрокой ТФ_1 (выделено курсивом) и его СемСх полностью укладывается в СемСх ТФ_1. Соответственно Cprox(S(q), S(t)) = 1 и φ = 1.

Пример 2. Пусть задан второй ТФ_2 вида

Образовательные программы российских вузов нуждаются в международном признании».

В ТФ_2 подчеркнутым курсивом выделены подстроки, совпадающие с фрагментами образца.

Выделим совпадающие элементы смысла на СемСх образца жирными линиями, тогда СемСх образца примет вид, показанный на рис. 2.

pic_7.wmf

Рис. 2. Результат сравнения на близость образца q и ТФ_2

СемСх образца содержит 5 совпадающих элементов смысла, поэтому Cprox(S(q), S(t)) = 5/7 и его значение еще достаточно велико. В то же время критерий близости φ = 1, он изменения смысла не чувствует, поскольку все слова образца входят в ТФ_2.

Пример 3. Пусть задан третий ТФ_3 вида

Международное признание образовательных программ поднимает репутационный рейтинг российских вузов».

После сравнения СемСх образца представлена на рис. 3. Здесь нетрудно заметить, что СемСх образца и ТФ_3 имеют всего три совпадающих элемента смысла, поэтому Cprox(S(q), S(t)) = 3/7. Действительно, смысловая близость образца и ТФ_3 имеет именно эту оценку. Однако φ = 1 и он снова не чувствует изменение смысла.

Пример 4. Пусть задан четвертый ТФ_4 вида

Международное признание вузов увеличивает возможности России по привлечению иностранных студентов.

Результат сравнения образца q и ТФ_4 показан на рис. 4.

Из рис. 4 видно, что СемСх образца имеет один совпадающий элемент смысла и Cprox(S(q), S(t)) = 1/7 достаточно мал. В то же время значение φ = 0,5 еще высоко, поскольку половина слов образца входит во фрагмент текста.

pic_8.wmf

Рис. 3. Результат сравнения на близость образца q и ТФ_3

pic_9.wmf

Рис. 4. Результат сравнения на близость образца ТФ_4

Пример 5. Рассмотрим пятый ТФ_5:

Международные программы академических обменов и участие в них российских ученых способствуют улучшению образовательного процесса вузов России.

Результат сравнения на близость СемСх образца и Сем Сх ТФ-5 показан ниже на рис. 5.

СемСх образца не имеет совпадающих элементов смысла с СемСх ТФ_5, поэтому Cprox(S(q), S(t)) = 0. В то же время φ = 0,83, поскольку 5 слов образца из 6 входит в ТФ_5.

Из приведенных примеров видно, что СКБ реально отражает семантическую близость образца и ТФ, в то время как значение частотного критерия не всегда отражает реальную семантическую близость. Особенно это явно проявляется в пятом примере.

D. Семантический информационный поиск и классификация документов.

Семантическую близость документов образцу (поисковому запросу) определим лингвистической переменной SemProx вида

Vishnyakov26.wmf (18)

где каждый терм терм-множества T является нечеткой переменной подынтервалов [0...p1), [p1...p2), [p2...p3), [p3...1] шкалы D соответственно.

Построим процедуру определения семантической близости документа запросу следующим образом. Для каждого предложения документа определим значение Cprox. Далее для каждого подынтервала шкалы D подсчитаем число попавших в него значений Cprox, после чего построим из этих чисел характеристический вектор документа вида

<(fслабая),(fотносительно слабая),(fдостаточно сильная),(fcильная)>

Вычисление лингвистической переменной реализуем процедурой Semantic_proximity (Dос, SemProx), в которой Dос – анализируемый документ, SemProx – возвращаемое значение лингвистической близости. Вычисление проведем по решающим правилам вида

IF ((fслабая>(fдостаточная +fсильная))&(fслабая>fотносительная) THEN SemProx?“Слабая“:;

IF ((fотносительная>(fдостаточная + fсильная))& (fотносительная>fслабая) THEN SemProx:“Относительно слабая“;

IF ((fдостаточная>(fслабая + fотносительная))& (fдостаточная>fсильная) THEN SemProx:“Достаточно сильная“;

IF ((fсильная>(fслабая + fотносительная))& (fсильная>fдостаточная) THEN SemProx :“Сильная“.

pic_10.wmf

Рис. 5. Результат сравнения на близость образца q и ТФ_5

Само включение документа в ВЫДАЧУ R реализуем простым способом:

BEGIN

WHILE (конец потока документов)

DO BEGIN

Semantic_proximity (Dос, SemProx);

IF (Semprox=(условие включения)) then D>R;

END

END.

Здесь > включение документа D в ВЫДАЧУ R. Введение условий для разных R превращает процедуру в семантический документный классификатор.

Заключение

Вычислительная модель семантической интерпретации на основе семантических схем позволяет перейти к формально математическому сравнению текстов на семантическую близость и организовать на этой основе высокоточный информационный поиск и классификацию документов. Особенно это актуально при семантическом различении текстов, использующих одну и ту же терминологию.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 16-07-00241\16.