Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

НЕЭЛЕМЕНТАРНЫЕ ЛИНЕЙНЫЕ РЕГРЕССИИ С ЛИНЕЙНЫМИ КОМБИНАЦИЯМИ ПЕРЕМЕННЫХ В АРГУМЕНТАХ БИНАРНЫХ ОПЕРАЦИЙ

Базилевский М.П. 1
1 ФГБОУ ВО «Иркутский государственный университет путей сообщения»
Статья посвящена разработке новой спецификации регрессионных моделей. Рассмотрены известные неэлементарные линейные регрессии, содержащие в качестве регрессоров как объясняющие переменные, так и все возможные их парные комбинации, преобразованные с помощью бинарных операций min и max. Путём последовательной трансформации известной функции Леонтьева сформулированы неэлементарные линейные регрессии с линейными комбинациями переменных в аргументах бинарных операций. Предложенные модели обобщают известные неэлементарные линейные регрессии. Они содержат ещё большее количество неизвестных параметров, что делает их весьма гибким инструментом регрессионного моделирования. Разработан алгоритм их численного оценивания с помощью метода наименьших квадратов. Его ключевой этап состоит в формировании областей возможных значений параметров из бинарных операций. Показано, как формировать такие области. Решена задача моделирования сельскохозяйственной продукции в Республике Бурятия по ежегодным статистическим данным за период с 2000 по 2021 год. Объясняющими переменными для этого выбраны урожайность овощей, производство скота и птицы на убой и надой молока на одну корову в сельскохозяйственных организациях. Построена высокоточная неэлементарная линейная регрессия с величиной коэффициента детерминации, равной 0,9755. Дана её интерпретация.
неэлементарная линейная регрессия
метод наименьших квадратов
бинарная операция
функция Леонтьева
линейная комбинация
интерпретация
продукция сельского хозяйства
1. Boateng E.Y., Abaye D.A. A review of the logistic regression model with emphasis on medical research // Journal of data analysis and information processing. 2019. Vol. 7. No. 4. P. 190-207.
2. Dharma F., Shabrina S., Noviana A., Tahir M., Hendrastuty N., Wahyono W. Prediction of Indonesian inflation rate using regression model based on genetic algorithms // Jurnal Online Informatika. 2020. Vol. 5. No. 1. P. 45-52.
3. Mazucheli J., Alves B., Menezes A.F., Leiva V. An overview on parametric quantile regression models and their computational implementation with applications to biomedical problems including COVID-19 data. Computer Methods and Programs in Biomedicine. 2022. P. 106816.
4. Базилевский М.П. Оценивание линейно-неэлементарных регрессионных моделей с помощью метода наименьших квадратов // Моделирование, оптимизация и информационные технологии. 2020. Т. 8. № 4 (31). DOI: 10.26102/2310-6018/2020.31.4.026.
5. Базилевский М.П. Отбор информативных операций при построении линейно-неэлементарных регрессионных моделей // International Journal of Open Information Technologies. 2021. Т. 9. № 5. С. 30-35.
6. Базилевский М.П. Метод построения неэлементарных линейных регрессий на основе аппарата математического программирования // Проблемы управления. 2022. № 4. С. 3-14.
7. Клейнер Г.Б. Экономика. Моделирование. Математика. Избранные труды. М.: ЦЭМИ РАН, 2016. 856 с.
8. Камышова Г.Н., Каневская И.Ю., Терехова Н.Н., Монахов С.В. Экономико-статистическое исследование деятельности сельскохозяйственных предприятий на основе использования методов корреляционно-регрессионного анализа // The Agrarian Scientific Journal. 2018. № 4. С. 77-81.
9. Клычова Г.С., Цыпин А.П., Валиев А.Р. Статистическое исследование пространственно-временного развития сельского хозяйства на мезоуровне // Вестник Казанского государственного аграрного университета. 2021. Т. 16. № 4. С. 105-114.
10. Адамадзиев К.Р., Касимова Т.М. Методы прогнозирования развития сельского хозяйства // Фундаментальные исследования. 2014. № 5-1. С. 122-126.
11. Гельфанова Д.Д., Мандражи З.Р., Сухтаева А.М. Регрессионная модель и прогнозирование экономических процессов производства сельскохозяйственной продукции // Ученые записки Крымского инженерно-педагогического университета. 2017. № 4. С. 37-42

Регрессионный анализ в настоящее время успешно применяется для решения широкого круга различных прикладных задач (см., например, [1-3]). А запас методов регрессионного анализа постоянно расширяется – появляются новые спецификации регрессионных моделей, методы их оценивания и критерии адекватности. Так, в работе [4] впервые была введена неэлементарная линейная регрессия (НЛР), регрессорами в которой выступают как объясняющие переменные, так и все возможные комбинации их пар, преобразованные с помощью бинарных операций min и max. В той же работе предложен алгоритм их приближенного оценивания с помощью метода наименьших квадратов (МНК). В [5] рассмотрены некоторые стратегии построения НЛР, основанные на переборных процедурах. А в [6] задача выбора оптимальной структуры НЛР сведена к задаче частично-булевого линейного программирования. До сегодняшнего дня рассматривались лишь НЛР, содержащие в каждом аргументе бинарной операции только одну объясняющую переменную.

Цель исследования состоит в формализации новой спецификации НЛР, разработке алгоритма её МНК-оценивания и решении задачи моделирования сельскохозяйственной продукции в Республике Бурятия.

Материал и методы исследования

НЛР с бинарными операциями min и max, впервые введенная в [6], имеет следующий вид:

missing image file missing image file missing image file, (1)

где n – объем выборки; l – число входных переменных; yi – i-е значение выходной переменной; xij – i-е значение j-й входной переменной; min (max) – бинарные операции, возвращающие минимум (максимум) двух чисел; missing image file – число всех возможных комбинаций пар входных переменных; μj1, μj2, missing image file – элементы первого и второго столбца матрицы M размера p×2, содержащей по строкам в лексикографическом порядке индексы всех возможных комбинаций пар входных переменных; αj , missing image file, missing image file, missing image file, missing image file, missing image file, missing image file – неизвестные параметры; εi – i-я ошибка аппроксимации.

Для обобщения модели (1) рассмотрим часто применяемую в экономике производственную функцию Леонтьева [7]:

missing image file, missing image file. (2)

Модель (2) можно обобщить, используя в аргументах операции min линейные комбинации объясняющих переменных:

missing image file, missing image file. (3)

Аргументы в модели (3) естественным образом должны быть различны, т.е. в них не должно быть одинаковых линейных комбинаций объясняющих переменных. Также в регрессии (3) каждый аргумент должен срабатывать хотя бы 1 раз.

Пусть операция min в (3) является бинарной, т.е. содержит 2 аргумента. Тогда модель (3) примет вид:

missing image file, missing image file. (4)

Для (4) будем считать, что missing image file, missing image file, missing image file, а все объясняющие переменные коррелируют с y с одинаковым знаком, т.е. оценки параметров missing image file, missing image file, missing image file либо только положительны, либо только отрицательны. Тогда за знак операции min в (4) можно вынести общий множитель:

missing image file, missing image file, (5)

где κj, missing image file, kj, missing image file – неизвестные положительные параметры.

Добавим в модель (5) свободный член α0:

missing image file, missing image file. (6)

Приближенно найти МНК-оценки модели (6) можно по следующему алгоритму.

Найти область D возможных значений параметров κj, missing image file, kj, missing image file.

Разбивая область D точками, определить для каждой из них МНК-оценки параметров α0 и α1 модели (6).

Выбрать оценки, для которых сумма квадратов остатков минимальна.

Область D идентифицируется по следующему алгоритму.

Находится область D1 значений параметров κj, missing image file, kj, missing image file, в которой срабатывает только первый аргумент бинарной операции в (6). Для этого необходимо решить систему линейных неравенств:

missing image file

Находится область D2 значений параметров κj, missing image file, kj, missing image file, в которой срабатывает только второй аргумент бинарной операции в (6). Для этого решается система линейных неравенств:

missing image file

В условиях неотрицательности параметров κj, missing image file, kj, missing image file, находится открытая область D как инверсия объединения областей D1 и D2.

Пусть в модель (6) каждая объясняющая переменная входит ровно 1 раз. Тогда сколько комбинаций различных регрессий можно из неё составить? Число переменных l можно разбить на 2 аргумента missing image file способами, где [z] – целая часть числа z. Пусть все эти разбиения содержатся в матрице V = {vij} размера q×2. Тогда по этой матрице можно вычислить общее количество регрессий по формуле missing image file, где

missing image file

Просуммируем все эти уравнения, получив следующую модель:

missing image file, missing image file, (7)

где missing image file – элементы матрицы M(r) размера d(r)×l, содержащей все возможные комбинации переменных для их r-го разбиения.

Например, если l = 4, то спецификация (7) принимает вид:

missing image file

missing image file

missing image file

missing image file, missing image file.

В модели (7) в каждую бинарную операцию min входит ровно l объясняющих переменных. Расширим эту регрессию регрессорами с бинарными операциями min, содержащими 2, 3, ..., l–1 переменных:

missing image file, missing image file, (8)

где missing image file, missing image file missing image file – элементы матрицы V(s) размера qs×2, содержащей все разбиения числа s по 2, missing image file – элементы матрицы M(s,r) размера d(s,r)×l, содержащей все возможные комбинации s переменных для их r-го разбиения.

Тогда с использованием спецификации (8) введем НЛР с линейными комбинациями переменных в аргументах бинарных операций:

missing image file

missing image file, missing image file. (9)

Очевидно, что если в (9) взять s = 2, то эта модель вырождается в НЛР (1).

Приближенные МНК-оценки регрессии (9) можно найти с использованием описанного выше алгоритма.

Результаты исследования и их обсуждение

Сформулированные в этой работе НЛР (9) были использованы для моделирования продукции сельского хозяйства в Республике Бурятия. Стоит заметить, что моделирование и прогнозирование сельскохозяйственной продукции является актуальной научной задачей. Решению этой проблемы посвящено множество научных работ. Так, например, в [8] построена модель регрессии зависимости стоимости произведенной продукции от объема затрат на неё в Саратовской области, в [9] – модель сельскохозяйственной продукции в Оренбургской области, в [10] – модели производства основных видов продукции сельского хозяйства в Республике Дагестан, в [11] – модель производства молочной продукции в Республике Крым.

Для построения НЛР были использованы ежегодные статистические данные (https://rosstat.gov.ru/) за период с 2000 по 2021 г. по следующим переменным:

y – продукция сельского хозяйства в Республике Бурятия (млн руб.);

x1 – урожайность овощей (центнеров с одного га убранной площади);

x2 – производство скота и птицы на убой (в убойном весе, тыс. тонн);

x3 – надой молока на одну корову в сельскохозяйственных организациях (кг).

Все объясняющие переменные тесно коррелируют с y со знаком «+».

Сначала с помощью МНК было получено уравнение линейной регрессии:

missing image file. (10)

Коэффициент детерминации R2 модели (10) составил 0,942, что позволяет судить о её весьма высоком качестве.

Затем с помощью МНК оценивались следующие спецификации НЛР:

missing image file, missing image file, (11)

missing image file, missing image file, (12)

missing image file, missing image file. (13)

Оценивание моделей (11) – (13) проводилось с использованием специально разработанного скрипта для эконометрического пакета Gretl.

Для каждой из моделей (11) – (13) предварительно была найдена область возможных значений параметров, входящих в бинарные операции. Для параметров k11 и k12 модели (11) эта область представлена на рис. а, для k21 и k22 модели (12) – на рис. б, для k31 и k32 модели (13) – на рис. в.

missing image file

Области возможных значений параметров

Затем для каждой области (рисунок) были выбраны прямоугольники, у которых координаты левого нижнего угла (0,0), а координаты правого верхнего угла (9.343044,0.136461), (0.225949,0.026446) и (14.0987,100.2632) соответственно, т.е. эти прямоугольники целиком «покрывают» найденные области. После чего прямоугольники равномерно разбивались на 10 000 точек. Каждая точка проверялась на предмет попадания в соответствующую область, и, в случае попадания, находились МНК-оценки параметров α0 и α1 регрессий (11) – (13). Далее из каждой области выбиралась точка, обеспечивающая минимум суммы квадратов остатков НЛР. В итоге были получены следующие оцененные модели (11) – (13):

missing image file, (14)

missing image file, (15)

missing image file. (16)

Для НЛР (14) R2 = 0,9388, для (15) R2 = 0,9608, для (16) R2 = 0,9755. Таким образом, модель (16) оказалась самой лучшей из регрессий (14) – (16) по величине коэффициента детерминации. Она также лучше линейной регрессии (10). Заметим, что дополнительно проводилось оценивание моделей (11) – (13) с бинарной операцией max. Однако по величине R2 все они оказались хуже зависимости (16).

Как видно, в уравнении (16) знаки всех коэффициентов удовлетворяют смыслу решаемой задачи, поэтому полученную модель можно интерпретировать. Для этого представим её в кусочно-заданной форме:

missing image file

Тогда справедлива следующая интерпретация. Если линейная комбинация урожайности овощей x1 и производства скота и птицы x2 (4,7461x1 + 26,803x2) превосходит надои молока на одну корову x3, то на продукцию сельского хозяйства в Республике Бурятия y влияет только x3. Так происходило в 2000–2003 гг. и в 2014 году. При этом с увеличением x3 на 1 кг y увеличивается примерно на 11,486 млн руб. Если линейная комбинация 4,7461x1 + 26,803x2 не превосходит x3, то на y влияют и x1, и x2. Так происходило в 2004–2013 гг. и в 2015–2021 гг. При этом с увеличением x1 на 1 центнер y увеличивается примерно на 54,512 млн руб., а с увеличением x2 на 1 тыс. тонн увеличивается примерно на 307,851 млн руб.

Заключение

В результате проведенных исследований были предложены неэлементарные линейные регрессии с линейными комбинациями переменных в аргументах бинарных операций. Предложенные модели содержат большое число неизвестных параметров, что делает их довольно гибким инструментом регрессионного моделирования. Разработан алгоритм их численного МНК-оценивания. С помощью предложенных моделей успешно решена задача моделирования сельскохозяйственной продукции в Республике Бурятия. Дальнейшие работы автора будут связаны с разработкой универсального программного обеспечения для оценивания предложенных регрессий.


Библиографическая ссылка

Базилевский М.П. НЕЭЛЕМЕНТАРНЫЕ ЛИНЕЙНЫЕ РЕГРЕССИИ С ЛИНЕЙНЫМИ КОМБИНАЦИЯМИ ПЕРЕМЕННЫХ В АРГУМЕНТАХ БИНАРНЫХ ОПЕРАЦИЙ // Современные наукоемкие технологии. – 2023. – № 4. – С. 14-18;
URL: https://top-technologies.ru/ru/article/view?id=39574 (дата обращения: 19.04.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674