Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

NON-ELEMENTARY LINEAR REGRESSIONS WITH LINEAR COMBINATIONS OF VARIABLES IN THE ARGUMENTS OF BINARY OPERATIONS

Bazilevskiy M.P. 1
1 Irkutsk State Transport University
This article is devoted to the development of a new regression models specification. The well-known non-elementary linear regressions are considered, containing as regressors both explanatory variables and all their possible pair combinations, transformed using binary operations min and max. By sequential transformation of the known Leontief function, non-elementary linear regressions with linear combinations of variables in the arguments of binary operations are formulated. The proposed models generalize known non-elementary linear regressions. They contain even more unknown parameters, which makes them a very flexible tool for regression modeling. An algorithm for their numerical estimation using the ordinary least squares method has been developed. Its key step is to form the ranges of possible parameter values from binary operations. It is shown how to form such areas. The problem of modeling agricultural products in the Republic of Buryatia based on annual statistical data for the period from 2000 to 2021 has been solved. The explanatory variables for this are the yield of vegetables, the production of livestock and poultry for slaughter, and the milk yield per cow in agricultural organizations. A high-precision non-elementary linear regression was constructed with the value of the coefficient of determination equal to 0.9755. Its interpretation is given.
non-elementary linear regression
ordinary least squares
binary operation
Leontief function
linear combination
interpretation
agricultural output

Регрессионный анализ в настоящее время успешно применяется для решения широкого круга различных прикладных задач (см., например, [1-3]). А запас методов регрессионного анализа постоянно расширяется – появляются новые спецификации регрессионных моделей, методы их оценивания и критерии адекватности. Так, в работе [4] впервые была введена неэлементарная линейная регрессия (НЛР), регрессорами в которой выступают как объясняющие переменные, так и все возможные комбинации их пар, преобразованные с помощью бинарных операций min и max. В той же работе предложен алгоритм их приближенного оценивания с помощью метода наименьших квадратов (МНК). В [5] рассмотрены некоторые стратегии построения НЛР, основанные на переборных процедурах. А в [6] задача выбора оптимальной структуры НЛР сведена к задаче частично-булевого линейного программирования. До сегодняшнего дня рассматривались лишь НЛР, содержащие в каждом аргументе бинарной операции только одну объясняющую переменную.

Цель исследования состоит в формализации новой спецификации НЛР, разработке алгоритма её МНК-оценивания и решении задачи моделирования сельскохозяйственной продукции в Республике Бурятия.

Материал и методы исследования

НЛР с бинарными операциями min и max, впервые введенная в [6], имеет следующий вид:

missing image file missing image file missing image file, (1)

где n – объем выборки; l – число входных переменных; yi – i-е значение выходной переменной; xij – i-е значение j-й входной переменной; min (max) – бинарные операции, возвращающие минимум (максимум) двух чисел; missing image file – число всех возможных комбинаций пар входных переменных; μj1, μj2, missing image file – элементы первого и второго столбца матрицы M размера p×2, содержащей по строкам в лексикографическом порядке индексы всех возможных комбинаций пар входных переменных; αj , missing image file, missing image file, missing image file, missing image file, missing image file, missing image file – неизвестные параметры; εi – i-я ошибка аппроксимации.

Для обобщения модели (1) рассмотрим часто применяемую в экономике производственную функцию Леонтьева [7]:

missing image file, missing image file. (2)

Модель (2) можно обобщить, используя в аргументах операции min линейные комбинации объясняющих переменных:

missing image file, missing image file. (3)

Аргументы в модели (3) естественным образом должны быть различны, т.е. в них не должно быть одинаковых линейных комбинаций объясняющих переменных. Также в регрессии (3) каждый аргумент должен срабатывать хотя бы 1 раз.

Пусть операция min в (3) является бинарной, т.е. содержит 2 аргумента. Тогда модель (3) примет вид:

missing image file, missing image file. (4)

Для (4) будем считать, что missing image file, missing image file, missing image file, а все объясняющие переменные коррелируют с y с одинаковым знаком, т.е. оценки параметров missing image file, missing image file, missing image file либо только положительны, либо только отрицательны. Тогда за знак операции min в (4) можно вынести общий множитель:

missing image file, missing image file, (5)

где κj, missing image file, kj, missing image file – неизвестные положительные параметры.

Добавим в модель (5) свободный член α0:

missing image file, missing image file. (6)

Приближенно найти МНК-оценки модели (6) можно по следующему алгоритму.

Найти область D возможных значений параметров κj, missing image file, kj, missing image file.

Разбивая область D точками, определить для каждой из них МНК-оценки параметров α0 и α1 модели (6).

Выбрать оценки, для которых сумма квадратов остатков минимальна.

Область D идентифицируется по следующему алгоритму.

Находится область D1 значений параметров κj, missing image file, kj, missing image file, в которой срабатывает только первый аргумент бинарной операции в (6). Для этого необходимо решить систему линейных неравенств:

missing image file

Находится область D2 значений параметров κj, missing image file, kj, missing image file, в которой срабатывает только второй аргумент бинарной операции в (6). Для этого решается система линейных неравенств:

missing image file

В условиях неотрицательности параметров κj, missing image file, kj, missing image file, находится открытая область D как инверсия объединения областей D1 и D2.

Пусть в модель (6) каждая объясняющая переменная входит ровно 1 раз. Тогда сколько комбинаций различных регрессий можно из неё составить? Число переменных l можно разбить на 2 аргумента missing image file способами, где [z] – целая часть числа z. Пусть все эти разбиения содержатся в матрице V = {vij} размера q×2. Тогда по этой матрице можно вычислить общее количество регрессий по формуле missing image file, где

missing image file

Просуммируем все эти уравнения, получив следующую модель:

missing image file, missing image file, (7)

где missing image file – элементы матрицы M(r) размера d(r)×l, содержащей все возможные комбинации переменных для их r-го разбиения.

Например, если l = 4, то спецификация (7) принимает вид:

missing image file

missing image file

missing image file

missing image file, missing image file.

В модели (7) в каждую бинарную операцию min входит ровно l объясняющих переменных. Расширим эту регрессию регрессорами с бинарными операциями min, содержащими 2, 3, ..., l–1 переменных:

missing image file, missing image file, (8)

где missing image file, missing image file missing image file – элементы матрицы V(s) размера qs×2, содержащей все разбиения числа s по 2, missing image file – элементы матрицы M(s,r) размера d(s,r)×l, содержащей все возможные комбинации s переменных для их r-го разбиения.

Тогда с использованием спецификации (8) введем НЛР с линейными комбинациями переменных в аргументах бинарных операций:

missing image file

missing image file, missing image file. (9)

Очевидно, что если в (9) взять s = 2, то эта модель вырождается в НЛР (1).

Приближенные МНК-оценки регрессии (9) можно найти с использованием описанного выше алгоритма.

Результаты исследования и их обсуждение

Сформулированные в этой работе НЛР (9) были использованы для моделирования продукции сельского хозяйства в Республике Бурятия. Стоит заметить, что моделирование и прогнозирование сельскохозяйственной продукции является актуальной научной задачей. Решению этой проблемы посвящено множество научных работ. Так, например, в [8] построена модель регрессии зависимости стоимости произведенной продукции от объема затрат на неё в Саратовской области, в [9] – модель сельскохозяйственной продукции в Оренбургской области, в [10] – модели производства основных видов продукции сельского хозяйства в Республике Дагестан, в [11] – модель производства молочной продукции в Республике Крым.

Для построения НЛР были использованы ежегодные статистические данные (https://rosstat.gov.ru/) за период с 2000 по 2021 г. по следующим переменным:

y – продукция сельского хозяйства в Республике Бурятия (млн руб.);

x1 – урожайность овощей (центнеров с одного га убранной площади);

x2 – производство скота и птицы на убой (в убойном весе, тыс. тонн);

x3 – надой молока на одну корову в сельскохозяйственных организациях (кг).

Все объясняющие переменные тесно коррелируют с y со знаком «+».

Сначала с помощью МНК было получено уравнение линейной регрессии:

missing image file. (10)

Коэффициент детерминации R2 модели (10) составил 0,942, что позволяет судить о её весьма высоком качестве.

Затем с помощью МНК оценивались следующие спецификации НЛР:

missing image file, missing image file, (11)

missing image file, missing image file, (12)

missing image file, missing image file. (13)

Оценивание моделей (11) – (13) проводилось с использованием специально разработанного скрипта для эконометрического пакета Gretl.

Для каждой из моделей (11) – (13) предварительно была найдена область возможных значений параметров, входящих в бинарные операции. Для параметров k11 и k12 модели (11) эта область представлена на рис. а, для k21 и k22 модели (12) – на рис. б, для k31 и k32 модели (13) – на рис. в.

missing image file

Области возможных значений параметров

Затем для каждой области (рисунок) были выбраны прямоугольники, у которых координаты левого нижнего угла (0,0), а координаты правого верхнего угла (9.343044,0.136461), (0.225949,0.026446) и (14.0987,100.2632) соответственно, т.е. эти прямоугольники целиком «покрывают» найденные области. После чего прямоугольники равномерно разбивались на 10 000 точек. Каждая точка проверялась на предмет попадания в соответствующую область, и, в случае попадания, находились МНК-оценки параметров α0 и α1 регрессий (11) – (13). Далее из каждой области выбиралась точка, обеспечивающая минимум суммы квадратов остатков НЛР. В итоге были получены следующие оцененные модели (11) – (13):

missing image file, (14)

missing image file, (15)

missing image file. (16)

Для НЛР (14) R2 = 0,9388, для (15) R2 = 0,9608, для (16) R2 = 0,9755. Таким образом, модель (16) оказалась самой лучшей из регрессий (14) – (16) по величине коэффициента детерминации. Она также лучше линейной регрессии (10). Заметим, что дополнительно проводилось оценивание моделей (11) – (13) с бинарной операцией max. Однако по величине R2 все они оказались хуже зависимости (16).

Как видно, в уравнении (16) знаки всех коэффициентов удовлетворяют смыслу решаемой задачи, поэтому полученную модель можно интерпретировать. Для этого представим её в кусочно-заданной форме:

missing image file

Тогда справедлива следующая интерпретация. Если линейная комбинация урожайности овощей x1 и производства скота и птицы x2 (4,7461x1 + 26,803x2) превосходит надои молока на одну корову x3, то на продукцию сельского хозяйства в Республике Бурятия y влияет только x3. Так происходило в 2000–2003 гг. и в 2014 году. При этом с увеличением x3 на 1 кг y увеличивается примерно на 11,486 млн руб. Если линейная комбинация 4,7461x1 + 26,803x2 не превосходит x3, то на y влияют и x1, и x2. Так происходило в 2004–2013 гг. и в 2015–2021 гг. При этом с увеличением x1 на 1 центнер y увеличивается примерно на 54,512 млн руб., а с увеличением x2 на 1 тыс. тонн увеличивается примерно на 307,851 млн руб.

Заключение

В результате проведенных исследований были предложены неэлементарные линейные регрессии с линейными комбинациями переменных в аргументах бинарных операций. Предложенные модели содержат большое число неизвестных параметров, что делает их довольно гибким инструментом регрессионного моделирования. Разработан алгоритм их численного МНК-оценивания. С помощью предложенных моделей успешно решена задача моделирования сельскохозяйственной продукции в Республике Бурятия. Дальнейшие работы автора будут связаны с разработкой универсального программного обеспечения для оценивания предложенных регрессий.