Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

ЭНТРОПИЙНОЕ МОДЕЛИРОВАНИЕ ДИСКРЕТНЫХ СЛУЧАЙНЫХ ВЕКТОРОВ НА ПРИМЕРЕ ГРУППИРОВОК И БАЛЛЬНЫХ ПОКАЗАТЕЛЕЙ

Тырсин А.Н. 1, 2
1 ФГАОУ ВО «Южно-Уральский государственный университет (национальный исследовательский университет)»
2 ФГБУН Научно-инженерный центр «Надежность и ресурс больших систем и машин» УрО РАН
Энтропийное моделирование широко используется при исследовании открытых стохастических систем в различных областях. Однако при использовании дифференциальной энтропии для моделирования стохастических систем все компоненты случайного вектора должны быть непрерывными случайными величинами. На практике исследуемые явления обычно являются непрерывными, дискретность возникает при группировании данных или при переходе к балльным показателям. В статье описана методика энтропийного моделирования многомерных стохастических систем на примере группировок и балльных показателей. Показано, что дифференциальная энтропия не может использоваться при моделировании дискретных случайных величин. Однако для случаев, когда дискретные случайные величины получаются в результате группирования данных или перехода к балльным показателям, возможно использование дифференциальной энтропии. Это достигается за счет перехода от дискретных случайных величин к их аппроксимациям непрерывными случайными величинами, имеющими кусочно-линейные функции распределения. Рассмотрены два случая. Во-первых, когда дискретность возникает при группировках исходных непрерывных величин. Во-вторых, при переходе к балльным показателям. В статье приведен пример расчета дифференциальной энтропии дискретной компоненты, полученный в результате группировки нормально распределенной случайной величины.
дифференциальная энтропия
модель
система
дискретный случайный вектор
группировка
балльный показатель
1. Малинецкий Г.Г., Потапов А.Б., Подлазов А.В. Нелинейная динамика: Подходы, результаты, надежды. 3-е изд. М.: ЛИБРОКОМ, 2011. 280 с.
2. Попков Ю.С. Математическая демоэкономика: Макросистемный подход. М.: ЛЕНАНД, 2013. 560 с.
3. Цветков О.В. Энтропийный анализ данных в физике, биологии и технике. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2015. 202 с.
4. Чумак О.В. Энтропия и фракталы в анализе данных. М. – Ижевск: НИЦ «Регулярная и хаотическая динамика», Институт компьютерных исследований, 2011. 164 с.
5. Shannon C.E. A Mathematical Theory of Communication. The Bell System Technical Journal. 1948. Vol. 27. P. 379–423, 623–656.
6. Тырсин А.Н. Энтропийное моделирование многомерных стохастических систем. Воронеж: Научная книга, 2016. 156 с.
7. Сибурина Т.А. Базовая оценка и практика рейтинговых оценок в здравоохранении // Социальные аспекты здоровья населения. 2012. № 5 (27). [Электронный ресурс]. URL: http://vestnik.mednet.ru/content/view/427/30/ (дата обращения: 17.01.2021).
8. Орлов А.И. Организационно-экономическое моделирование. Ч. 2: Экспертные оценки. М.: Изд-во МГТУ им. Н.Э. Баумана, 2011. 486 с.
9. Ефимова М.Р., Ганченко О.И., Петрова Е.В. Практикум по общей теории статистики. 3-е изд., перераб. и доп. М.: Финансы и статистика, 2011. 368 с.
10. Тырсин А.Н., Шалькевич Л.В., Остроушко Д.В., Шалькевич О.В., Геворгян Г.Г. Исследование перинатального поражения центральной нервной системы у детей в неонатальном периоде методами многомерного статистического анализа // Системный анализ и управление в биомедицинских системах. 2017. Т. 16. № 3. С. 595–605.
11. Гельфанд И.М., Колмогоров А.Н., Яглом А.М. Количество информации и энтропия для непрерывных распределений // Труды III Всесоюзного математического съезда. Т. 3. М.: АН СССР, 1958. С. 300–320.
12. Тырсин А.Н., Соколова И.С. Энтропийно-вероятностное моделирование гауссовских стохастических систем // Математическое моделирование. 2012. Т. 24. № 1. С. 88–102.

Энтропия – это одно из фундаментальных свойств стохастических систем. В настоящее время достаточно распространено использование энтропии для описания поведения открытых стохастических систем в различных областях [1–4]. Общим в этих работах является использование введенной К. Шенноном информационной энтропии [5].

Однако применение информационной энтропии в качестве модели многомерных стохастических систем сталкивается с затруднениями: необходимо оценивать вероятности всех возможных состояний системы (это требует больших объемов выборок, кроме того, некоторые состояния заранее могут быть неизвестны), а также затруднено моделирование взаимосвязей между элементами многомерных систем.

Этих недостатков лишена модель, использующая дифференциальную энтропию [6]. Она основана на представлении системы в виде случайного вектора и разложении его дифференциальной энтропии на компоненты – энтропии хаотичности и самоорганизации. Однако все компоненты вектора должны быть непрерывными случайными величинами. Это существенно сужает область применения энтропийного моделирования, поскольку во многих приложениях, например в медицине, экономике, часто вместо фактических значений признаков используют их сгруппированные величины или вводят их балльные (рейтинговые) оценки [7–9].

В [10] описан частный случай энтропийного моделирования, когда несколько компонент были дискретными случайными величинами. Однако выбор вида закона распределения непрерывной случайной величины, аппроксимирующей дискретную компоненту, недостаточно обоснован. Также не приведено исследование точности энтропийного моделирования при наличии балльных компонент, а также не были учтены особенности смешанного (непрерывного и дискретного) состава компонент случайного вектора.

Целью статьи является описание методики энтропийного моделирования многомерных стохастических систем, все или часть компонент которых являются балльными показателями или получены с помощью группировки, и ее апробация на модельных данных.

Материалы и методы исследования

Представим многомерную стохастическую систему в виде случайного вектора TIR01.wmf. Его дифференциальная энтропия равна

TIR02.wmf, (1)

где TIR03.wmf – плотность распределения случайного вектора Y.

Формула (1) была предложена К. Шенноном в [5] как формальный аналог понятия информационной энтропии для m-мерного непрерывного случайного вектора Y. Эта величина впоследствии А.Н. Колмогоровым совместно с И.М. Гельфандом и А.М. Ягломом была названа дифференциальной энтропией [11].

Предлагаемый подход основан на модели многомерной стохастической системы в виде случайного вектора Y с взаимно зависимыми компонентами, являющимися непрерывными случайными величинами и использует дифференциальную энтропию: TIR04.wmf.

Каждая компонента Yi вектора Y является одномерной случайной величиной, характеризующей функционирование соответствующего элемента системы.

В [6] доказано, что если все компоненты Yi имеют дисперсии TIR05.wmf, то дифференциальная энтропия H(Y) случайного вектора Y равна

TIR06.wmf, (2)

где TIR07.wmf – энтропийный показатель типа закона распределения случайной величины Yi; TIR08.wmf – индексы детерминации регрессионных зависимостей. Первые два слагаемых TIR09.wmf названы энтропией хаотичности, а третье TIR10.wmf – энтропией самоорганизации.

Проблема состоит в том, что все компоненты Yi в (1) должны быть непрерывными случайными величинами, что не позволит определить энтропийные показатели типа их законов распределения. Покажем это. Рассмотрим некоторую дискретную случайную величину Z, имеющую ряд распределения, представленный в табл. 1.

Таблица 1

Ряд распределения случайной величины Z

Z

z1

z2

z3

...

zn–1

zn

pk = P(Z = zk)

p1

p2

p3

...

pn–1

pn

Запишем функцию распределения FZ(x) случайной величины Z

TIR11.wmf

очевидно, что плотность вероятности pZ(x) случайной величины Z всюду, кроме точек zk, равна нулю, а в точках zk не существует, т.е.

TIR12.wmf

Рассмотрим дифференциальную энтропию дискретной случайной величины Z

TIR13.wmf

TIR14.wmf.

Поскольку TIR15.wmf TIR16.wmf и TIR17.wmf, то предел в каждом слагаемом расходится и стремится к TIR18.wmf. Поэтому дифференциальная энтропия дискретной случайной величины Z не существует (TIR19.wmf).

Таким образом, при использовании энтропийной модели (1)–(2) все компоненты случайного вектора Y должны быть непрерывными случайными величинами. Если некоторая компонента Yi является дискретной случайной величиной, то ее необходимо заменить на непрерывную. В общем виде это делать нельзя, так как в зависимости от вида непрерывной функции распределения TIR20.wmf, аппроксимирующей функцию FZ(x), можно получить практически любое значение энтропии TIR21.wmf, от некоторой константы до любой сколь угодно большой отрицательной величины (с ростом точности аппроксимации). Таким образом, энтропия (1) может использоваться для дискретных случайных величин только, если они получены из непрерывных путем преобразований (группировки, переход к балльным величинам и т.д.). В этом случае для определения необходимо восстановить исходную функцию распределения непрерывной случайной величины Z0, которую заменили дискретной случайной величиной Z. Восстановить истинную функцию TIR22.wmf невозможно.

Поэтому ограничимся приближенным вариантом применительно к распространенным ситуациям, когда от Z0 к Z переходят с помощью группировки данных и балльных показателей.

Результаты исследования и их обсуждение

Рассмотрим оба этих случая.

Случай 1. Группировки данных. Пусть ряд распределения дискретной случайной величины Z, представленный в табл. 2, получен путем группировки значений некоторой непрерывной случайной величины Z0.

Таблица 2

Ряд распределения случайной величины Z

zk

4

8

10

14

19

22

pk = P(Z = zk)

0,1

0,15

0,2

0,25

0,2

0,1

Обозначим середины всех внутренних интервалов групп как TIR23.wmf. Обычно при группировке данных левую границу z0,1 первого интервала и правую границу последнего интервала определяют следующим образом [9]: TIR24.wmf, TIR25.wmf. В результате от ряда распределения из табл. 2 перейдем к группировке (табл. 3).

Таблица 3

Группировка для случайной величины Z

Группа

(z0,1, z1,2)

(z1,2, z2,3)

(z2,3, z3,4)

(z3,4, z4,5)

(z4,5, z5,6)

(z5,6, z6,7)

(2; 6)

(6; 9)

(9; 12)

(12; 16,5)

(16,5; 20,5)

(20,5; 23,5)

pk

0,1

0,15

0,2

0,25

0,2

0,1

Считая, что на каждом интервале некоторая непрерывная случайная величина Y распределена равномерно, с учетом заданных вероятностей pk, достаточно просто восстановить плотность вероятности pY(x): на каждом k-м интервале она будет постоянна и равна TIR26.wmf. На рисунке приведен график плотности вероятности pY(x).

tirsin1.wmf

График плотности вероятности pY(x)

В общем случае для ряда распределения из табл. 1 аппроксимирующая плотность вероятности непрерывной случайной величины TIR27.wmf будет равна

TIR28.wmf (3)

где TIR29.wmf, TIR30.wmf, TIR31.wmf, TIR32.wmf, TIR33.wmf.

Теперь вычисляем оценку дифференциальной энтропии распределения (3) по формуле

TIR34.wmf.

Случай 2. Балльные показатели. Пусть исследуемая непрерывная случайная величина Z0 была в результате некоторых преобразований заменена на ряд балльных показателей (для определенности считаем баллы от 1 до M) (табл. 4).

Таблица 4

Ряд распределения балльной случайной величины Z

Z

1

2

3

...

M–1

M

pk = P(Z = k)

p1

p2

p3

...

pM–1

pM

Очевидно, что это частный случай рассмотренного выше случая группировок, если приравнять TIR35.wmf, TIR36.wmf. Тогда вместо (3) получим формулу для аппроксимирующей плотности вероятности непрерывной случайной величины TIR37.wmf:

TIR38.wmf

где TIR39.wmf, TIR40.wmf.

Пример. Сгенерируем выборку из стандартного нормального распределения Z0 объема 100 чисел. Выборочное среднее квадратичное отклонение оказалось равным s = 0,9278. Дифференциальная энтропия равна [12]

TIR41.wmf.

Теперь сгруппируем данные на 7 интервалов (табл. 5). Ширина интервала каждой группы оказалась равной D = 0,59.

Таблица 5

Группировка для выборки из 100 наблюдений

(z0,1, z1,2)

(z1,2, z2,3)

(z2,3, z3,4)

(z3,4, z4,5)

(-2,19; -1,6)

(-16; -1,01)

(-1,01; -0,42)

(-0,42; 0,17)

p1 = 0,06

p2 = 0,13

p3 = 0,18

p4 = 0,16

(z4,5, z5,6)

(z5,6, z6,7)

(z5,6, z6,7)

(0,17; 0,76)

(0,76; 1,35)

(1,35; 1,94)

p5 = 0,29

p6 = 0,12

p7 = 0,06

Дифференциальная энтропия для распределения, задаваемого табл. 5, равна

TIR42.wmf.

Разница между величинами H(Z) и H(Z0) составила менее 4 %, что говорит о достаточно точной оценке дифференциальной энтропии.

Выводы

Показано, что дифференциальная энтропия не может использоваться при моделировании дискретных случайных величин.

Для случаев, когда дискретные случайные величины получаются в результате группирования данных или перехода к балльным показателям, возможно использование дифференциальной энтропии. Это достигается за счет перехода от дискретных случайных величин к их аппроксимациям непрерывными случайными величинами, имеющими кусочно-линейные функции распределения.

Описана методика энтропийного моделирования многомерных стохастических систем, все или часть компонент которых являются балльными показателями или получены с помощью группировки.

Работа выполнена при финансовой поддержке гранта РФФИ, проект № 20-51-00001.


Библиографическая ссылка

Тырсин А.Н. ЭНТРОПИЙНОЕ МОДЕЛИРОВАНИЕ ДИСКРЕТНЫХ СЛУЧАЙНЫХ ВЕКТОРОВ НА ПРИМЕРЕ ГРУППИРОВОК И БАЛЛЬНЫХ ПОКАЗАТЕЛЕЙ // Современные наукоемкие технологии. – 2021. – № 1. – С. 51-56;
URL: https://top-technologies.ru/ru/article/view?id=38470 (дата обращения: 21.11.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674