Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 1,007

RESEARCH OF THE STRUCTURE AND CONTENT OF THE COMPETENCIES USING THE ELMO LANGUAGE MODEL

Giniyatullin V.М. 1 Ermolaev E.V. 1 Salikhova M.A. 1 Khlybov А.V. 1 Churilov D.A. 1 Churilova E.A. 1
1 Federal State Budgetary Educational Institution of Higher Edication «Ufa State Petroleum Technological University» (USPTU)
1085 KB
The emergence of a new educational standard (FSES), the main difference of which from the previous one was the focus on student learning outcomes, provided a dialogue between the educational institution and the labor market, which allowed the knowledge and skills acquired by students to be applied in building a career. However, the transition to a new educational standard was not without new problems. One of them is the lack of specificity and unambiguous understanding of the content of the formulations of competencies and the corresponding learning outcomes. This article proposes a methodology for assessment and analyzing the formulations of learning outcomes based on the assumption that the resulting vectors of these formulations are orthogonal to each other. These vectors were obtained using the ELMO language model and then fed into two metrics: Euclidean distance and cosine measure. Both the best formulations in terms of calculation and the worst were selected. According to the results of the analysis and comparison, it was revealed that in the best formulations, different words are mainly used, and they also have a short phrase length. The worst formulations are so because they use the same words and phrases. A recommendation was made to use 7 as the threshold value for the Euclidean distance and 0,6 for the cosine measure. To get an idea of how the ELMO model works an attempt was made to simplify the calculation by reducing the dimension of the vectors. Simplification made it possible to draw the following conclusion: if vectors intersect at peak values, then they are semantically close to each other, and vice versa.
federal state educational standard
competencies
language model
vector representation
neural network

В 2011 году был утвержден Федеральный государственный образовательный стандарт третьего поколения (ФГОС) [1; 2]. Отличительной чертой нового стандарта стало акцентирование внимания на результатах, которых достигает студент в процессе обучения [3; 4]. Результаты выражаются в компетенциях (общекультурных, общепрофессиональных, профессиональных), которые характеризуют выпускника не только с профессиональной точки зрения, но и как личность (получение в процессе обучения различных социально одобряемы ценностных установок, развитие коммуникативных навыков, стрессоустойчивости и т.д.). Таким образом требования рынка труда влияют на формирование образовательных программ для того, чтобы знания и навыки, полученные в университете, помогали в построении карьеры. Однако термин «компетенция» формализован расплывчато, что приводит к возникновению проблемы отсутствия однозначного понимания как состава и содержания компетенций, так и соответствующих им результатов обучения [5]. Из этого следуют конфликтные ситуации неоднозначности в толковании формулировок компетенций и результатов обучения студентов преподавателями, деканатами, учебной частью и другими подразделениями вуза.

В статье [6] была предложена методика оценки формулировок описаний критериев оценивания знаний студентов в рабочих программах учебных дисциплин. В результате использования данной методики формулировки оценок «2», «3», «4» и «5» преобразуются в векторное представление, после чего вычисляется семантическое расстояние между ними и проводится параболическая аппроксимация. В своем первоначальном виде она не может быть использована для формализации результатов обучения. Формулировки «знать», «уметь», «владеть» – понятия не числовые, следовательно, к ним не применимы отношения «больше/меньше», «порядок следования», «расстояние между» и т.д. Поэтому делается предположение, что получаемые векторы формулировок являются ортогональными друг другу.

В работе представлена методика оценки и анализа формулировок результатов обучения с помощью языковой модели ELMO. Были использованы рабочие программы учебных дисциплин для бакалавриата Уфимского государственного нефтяного технического университета (УГНТУ), Новосибирского государственного университета (НГУ) [7], Омского государственного педагогического университета (ОмГПУ) [8]. Часть рассмотренных формулировок компетенций не выдерживает критики, поэтому необходимо создать автоматизированный механизм поиска некорректных формулировок.

Используемая языковая модель и метрики

Трансформация исходного текста в вектор происходит с помощью языковой модели ELMO [9; 10]. В основе модели лежит двунаправленная нейронная сеть с долгой краткосрочной памятью (bidirectional LSTM). Благодаря ей значения векторного представления являются не фиксированными и зависящими от контекста. На выходе образуется вектор размерностью 1024.

Получаемые векторы подаются на вход двум метрикам: косинусной мере и евклидовому расстоянию. Косинусная мера является степенью близости (значения изменяются от 0 до 1, где 1 представляет максимальную близость), а евклидово расстояние – мерой расстояния (значения изменяются от 0 до ∞, при этом 0 является значением максимальной близости). Выбор только двух метрик основан на том, что большее их количество является избыточным, а использование только одной метрики может быть недостаточным [6].

Формула для расчета косинусной меры:

missing image file (1)

где missing image file и missing image file – векторы, между которыми производится расчет семантического расстояния.

Евклидово расстояние рассчитывается следующим образом:

missing image file (2)

Расчет семантического расстояния и анализ результатов

Расчеты проведены на 64 бакалаврских рабочих программах учебных дисциплин, основная часть – это рабочие программы Уфимского государственного нефтяного технического университета.

В качестве исходных данных выступают формулировки результатов обучения, между которыми вычисляется семантическое расстояние. Предполагается, что векторы формулировок «Знать», «Уметь», «Владеть» являются ортогональными друг другу, поэтому в идеальном случае значение евклидова расстояния стремится к бесконечности (максимально возможное значение), а косинусной меры – равно 0 (минимально возможное значение).

В ходе исследования был проведен расчет трех значений семантического расстояния для каждой компетенции (Знать-Уметь З-У, Знать-Владеть З-В, Уметь-Владеть У-В). Поскольку в идеальном случае евклидово расстояние стремится к ∞, а косинусная мера к 0, то были выбраны примеры с максимальным евклидовым расстоянием и минимальной косинусной мерой. В табл. 1 представлены формулировки компетенций и результатов вычисления евклидова расстояния и косинусной меры, которые являются лучшими с точки зрения предложенного расчета (жирным шрифтом выделены максимальные значения евклидова расстояния и минимальные значения косинусной меры). Компетенции анализируются для «Дисциплины (вуз, профиль обучения)», «Кристаллография (УГНТУ, профиль «Геология»)». Здесь и далее ОПК – общепрофессиональные компетенции, ПК – профессиональные компетенции, ПКО – обязательные профессиональные компетенции.

Таблица 1

Лучшие формулировки с точки зрения вычисления метрик

Шифр компетенции

Результат обучения

Евклидово расстояние

Косинусная мера

Кристаллография (УГНТУ, профиль «Геология»)

ОПК-1

Знать:

суть предмета кристаллографии и минералогии

10,0887 (З–У)

0,4940 (З–У)

Уметь:

собирать и анализировать геологическую информацию

10,7745 (З–В)

0,4025 (З–В)

Владеть:

мотивацией к выполнению профессиональных задач

10,7309 (У–В)

0,3101 (У–В)

Машиностроение (УГНТУ, профиль «Оборудование нефтегазопереработки»)

ОПК-1

Знать:

структуру машиностроительного производства

10,2244 (З–У)

0,5144 (З–У)

Уметь:

выполнять технологический контроль конструкторской документации

9,7041(З–В)

0,5226 (З–В)

Владеть:

методикой составления маршрута обработки

10,6332 (У–В)

0,4691 (У–В)

Экологическая геология (УГНТУ, профиль «Геология»)

ПК-1

Знать:

основные положения производственного экологического мониторинга нефтегазовых месторождений

9,1748 (З–У)

0,5496 (З–У)

Уметь:

грамотно анализировать последствия планируемого воздействия на окружающую геологическую среду и оценивать уровень риска и экологической опасности, возникающей в связи с ее нарушениями

9,1483 (З–В)

0,5421 (З–В)

Владеть:

аналитическими способностями в представлении масштабности и направленности работ по защите окружающей среды

10,0183 (У–В)

0,4649 (У–В)

Данные формулировки отличаются краткостью и преимущественным использованием различных слов.

В табл. 2 отобраны формулировки, которые являются худшими с точки зрения представленного расчета (формулировки компетенций приведены «как есть» из рабочих программ, вместе с грамматическими ошибками). Жирным шрифтом выделены минимальное евклидово расстояние и максимальная косинусная мера.

Таблица 2

Худшие формулировки с точки зрения вычисления метрик

Шифр компетенции

Результат обучения

Евклидово расстояние

Косинусная мера

Живопись/колористика (УГНТУ, профиль «Архитектура»)

ПК-9

Знать:

Знать о представлении архитектурного замысла, идеи и проектного предложения, об изучении и разрабатывании, формализовании и транслировании их в ходе совместной деятельности средствами устной и письменной речи, макетирования, ручной и компьютерной графики, количественных оценок

3,8287 (З–У)

0,9046 (З–У)

Окончание табл. 2

Шифр компетенции

Результат обучения

Евклидово расстояние

Косинусная мера

 

Уметь:

Уметь грамотно представлять архитектурный замысел, передавать идеи и проектные предложения, изучать, разрабатывать, формализовать и транслировать их в ходе совместной деятельности средствами устной и письменной речи, макетирования, ручной и компьютерной графики, количественных оценок

3,7915 (З–В)

0,9082 (З–В)

Владеть:

Владеть способностью грамотно представлять архитектурный замысел, передавать идеи и проектные предложения, изучать, разрабатывать, формализовать и транслировать их в ходе совместной деятельности средствами устной и письменной речи, макетирования, ручной и компьютерной графики, количественных оценок

1,4601 (У–В)

0,9863 (У–В)

Теория автоматического управления (УГНТУ, профиль «Электрооборудование и электрохозяйство предприятий, организаций и учреждений»)

ПК-4

Знать:

Особенности выбора технических средств, исходя из целей и задач управления

7,0236 (З–У)

0,7110 (З–У)

Уметь:

Обоснованно выбирать структуры и схемы регулирования и управления

2,7882 (З–В)

0,9533 (З–В)

Владеть:

Навыками выбора технических средств, исходя из целей и задач управления

7,1335 (У–В)

0,6995 (У–В)

Основы метрологии (УГНТУ, профиль «Автомобильные дороги»)

ПК-11

Знать:

Процедуру создания документации для создания и сертификации системы менеджмента качества в производственном подразделении

3,78 (З–У)

0,9191 (З–У)

Уметь:

Заполнять документацию для создания и сертификации системы менеджмента качества производственного подразделения

4,14 (З–В)

0,9018 (З–В)

Владеть:

Способностью заполнять документацию для создания и сертификации системы менеджмента качества производственного подразделения

2,38 (У–В)

0,9677 (У–В)

Очевидно, что «худшими» данные формулировки делает чрезмерное использование одних и тех же слов и фраз.

Анализ табл. 1 и 2, показал, что они не обладают достаточной полнотой (табл. 1 – из-за малой длины фраз, табл. 2 – из-за использования одних и тех же слов и фраз, что делает формулировки мало отличающимися друг от друга). В результате длительных дискуссий авторы пришли к мнению, что наиболее пригодными являются формулировки, для которых евклидово расстояние принимает значение около 7, а косинусная мера 0,6. В них хорошо сочетаются длина содержимого формулировок (достаточная полнота) и умеренное использование одинаковых слов и фраз, применение синонимов (табл. 3).

Таблица 3

Рекомендованные авторами формулировки

Шифр компетенции

Результат обучения

Евклидово расстояние

Косинусная мера

Инженерная геология и геокриология (НГУ, профиль «Геология»)

ПК-1

Знать:

основные понятия и термины из области инженерной геологии (ИГ) и геокриологии; закономерности формирования свойства грунтов различного генезиса, в том числе многолетнемерзлых; закономерности формирования криолитозоны; региональные ИГ и геокриологические особенности Западно-Сибирской плиты и Сибирской платформы

7,3429 (З–У)

0,6418 (З–У)

Уметь:

графически отображать гранулометрический состав дисперсных грунтов; проводить расчеты основных физико-механических свойств грунтов; выполнять построение ИГ разреза с выделением ИГ элементов

6,5748 (З–В)

0,7302 (З–В)

Владеть:

основными принципами ИГ и геокриологического районирования; основами рационального освоения геологической среды, включая криолизотоны; знаниями методов борьбы с негативными последствиями процессов, вызванных деятельностью человека

7,6692 (У–В)

0,61 (У–В)

Маркетинговые исследования и ситуационный анализ в образовании (ОмГПУ, профиль «Реклама и связи с общественностью в сфере образования»)

ПКО-3

Знать:

составляющие и последовательность маркетинговых исследований; способы организации прямого маркетинга и личных продаж; методы оценки эффективности применения маркетинговых коммуникаций; особенности маркетингового инструментария при планировании производства, мониторинга обратной связи

5,5771 (З–У)

0,8193 (З–У)

Уметь:

использовать основные маркетинговые инструменты в профессиональной деятельности, принимать участие в организации и выполнении профессиональных задач, связанных с применением маркетинговых коммуникаций при разработке и реализации коммуникационного продукта, проводить маркетинговый анализ собранных данных; дать оценку полученным результатам исследования

6,3821 (З–В)

0,7805 (З–В)

Владеть:

навыками маркетингового анализа; навыками составления плана маркетингового исследования и его проведения; современными технологиями сбора и анализа информации

6,8552 (У–В)

0,7337 (У–В)

Управление техносферной безопасностью (УГНТУ, профиль «Безопасность технологических процессов и производств»)

ПК-11

Знать:

о безопасности производственных помещений, состоянии строительных конструкций, зданий и оборудования в условиях техногенных аварий; принципы обеспечения устойчивости объектов в ЧС

7,8098 (З–У)

0,6670 (З–У)

Уметь:

ориентироваться в основных нормативно-правовых актах в области обеспечения промышленной безопасности

7,4779 (З–В)

0,6613 (З–В)

Владеть:

способностью предлагать и обосновывать мероприятия по обеспечению безопасности на опасном производственном объекте

7,9414 (У–В)

0,6362 (У–В)

Результатом данной работы являются рассчитанные значения семантического расстояния по двум метрикам: косинусной мере и евклидову расстоянию. На вход этим метрикам подается числовой вектор размерности 1024, полученный с помощью модели ELMO. Модель схематически можно разделить на два блока:

1) символьный эмбеддинг (char embedding), получаемый с помощью сверточной нейронной сети (CNN) [9; 11];

2) двунаправленная нейронная сеть с долгой краткосрочной памятью (bidirectional LSTM) [9].

Для получения входного числового вектора двунаправленной нейронной сети из исходного текста используется сверточная нейронная сеть с макс пулингом (max pooling) [9]. Исходный текст разбивается на слова. Каждое слово затем делится на символы (буквы), и ему в соответствие ставится свой числовой вектор, первоначальное приближение которого задается случайным образом [11; 12]. В результате получается вектор размерности 1024. На рис. 1 и 2 дано графическое представление значений выходов предпоследнего слоя нейронной сети, в виде гистограмм. Рис. 1 – лучшая формулировка, рис. 2 – худшая.

missing image file

Рис. 1. Графическая иллюстрация вектора формулировки «Знать» компетенции ОПК-1 для дисциплины «Машиностроение», профиль «Геология»

missing image file

Рис. 2. Графическая иллюстрация вектора формулировки «Знать» компетенции ПК-4 для дисциплины «Теория автоматического управления», профиль «Электрооборудование и электрохозяйство предприятий, организаций и учреждений»

Рис. 1 и 2 являются малоинформативными и не несут информации о различии между векторами «хороших» и «плохих» формулировок. Поскольку в модели ELMO используются случайным образом заданные начальные приближения, то теряется смысл в анализе векторов из-за невоспроизводимости получаемых результатов.

Для получения представления о том, как работает модель ELMO, была предпринята попытка упрощения расчета за счет уменьшения размерности векторов. Случайным образом трижды сгенерированы вектора «А», «В» и «С», размерностью в 21 индекс, первая треть которых символизирует результат обучения «знать», вторая «уметь», третья «владеть». В табл. 4 в векторах А жирным шрифтом выделены «пики» (максимальные, по модулю, значения), а на рис. 3 дано представление первого вектора А в виде гистограммы. Рис. 3, как и предполагалось, есть упрощенная версия рис. 1 и 2.

Предполагается, что пики вектора В преимущественно не пересекаются с пиками вектора А, а с вектором С пересекаются.

missing image file

Рис. 3. Графическая иллюстрация вектора А

Таблица 4

Расчет метрик упрощенного вычисления

 

A

B

C

A

B

C

A

B

C

Знать

1,5

0,1

1

-0,2

1,1

0,9

-0,8

0,7

0,6

-0,4

0,7

0,9

0

0,7

0,8

-0,2

0,5

1,1

0,5

0,7

1,2

-0,7

0,6

1,4

-0,1

1,2

0,7

3,4

0,2

1,9

0,2

0,3

2,5

3,3

0,7

3,3

3

1,1

3,2

1,6

0,7

1,5

2

1

1,1

0,8

0,8

-0,1

-1

0,5

-0,9

-0,5

1,5

-0,9

-0,8

0,4

1,8

-0,7

0,8

-0,2

-0,1

1,5

-0,9

Уметь

1,3

0,9

0,4

0,8

-0,4

-0,6

1,1

1,3

-0,6

0,7

0,9

0,2

0,8

1,3

0,4

1,2

1,5

1,6

1,5

0,2

1,3

1,1

0,5

2,1

0,7

1,5

2

1,2

1,5

0

1,4

0,3

2,2

0,7

1,4

0,8

0,7

1,4

0,6

0,7

0,4

0,7

1,5

0,6

1

0,9

0,8

1

1

1,2

1,5

0,7

0,8

0,9

1,3

0,9

1,5

0,8

0,5

1,4

0,9

0,8

0,6

Владеть

1,1

-0,6

0,8

1,1

-0,1

0,9

0,7

-0,6

0,7

1,2

-0,9

0,6

0,6

-0,4

1,5

0,7

0,6

1,2

1,4

0,1

1

1,1

0,6

1,4

1,1

2

0,8

-0,3

0,5

1,1

0,8

1,8

0,7

1,4

1,9

1,4

1,3

0,3

1,4

1,1

0,4

1,2

0,6

-0,8

1,3

1,4

0,3

1,2

1,5

-0,6

1,5

1,5

0,2

1

1,2

-1

0,7

0,9

-0,7

1,5

1

-0,5

0,7

Евклидово расстояние

 

6,15

4,21

 

4,88

4,18

 

5,43

3,49

Косинусная мера

 

0,39

0,77

 

0,24

0,74

 

0,49

0,81

Из табл. 4 видно, что когда пики одного вектора находятся в пересекающихся областях с другим вектором, то они являются семантически близкими, и наоборот (евклидово расстояние пересекающихся в пиках векторов меньше, а косинусная мера больше, чем для непересекающихся векторов). Таким образом, предположение об ортогональности исследуемых векторов подтверждается.

Заключение

– Предложенная методика оценки формулировок результатов обучения студентов имеет практическую значимость и может быть использована как механизм поиска некорректных формулировок. Рекомендуется в качестве пороговых значений использовать следующие: евклидово расстояние около 7, косинусная мера примерно 0,6.

– Понятие «семантическая близость» можно понимать как «взаиморасположение объектов в n-мерном пространстве», следовательно, к ним могут быть применимы отношения «больше/меньше», «порядок следования», «расстояние между» и т.д.