Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

1 1
1 Financial University under the Government of the Russian Federation

Введение

Данная работа посвящена анализу предложений на автомобиль Toyota Camry на вторичном рынке, выявления тенденций, а также прогнозирования стоимости на конкретное авто с заданными значениями факторов. Эта задача представляет интерес и актуальна для дилеров, автосалонов, для оценки и назначение адекватной цены на авто.

Целью работы является проведение анализа предложений автомобиля Toyota Camry, полученное с сайта auto.ru по состоянию на 17.12.2013. По этим данным будет построена регрессионная модель, а также произведена оценка качества модели. Для выполнения исследования использовался программный продукт Microsoft Excel.

Результирующей (эндогенной) переменной будем считать стоимость автомобиля.

Факторы выбраны следующие: возраст автомобиля, пробег (км), количество владельцев, тип коробки – фиктивная переменная (0 – автомат, 1 - механика), тип салона – фиктивная переменная (0 – ткань, 1 - кожа), наличие легкосплавных дисков – фиктивная переменная (0 – нет в комплекте в предложении, 1 – есть в комплекте), наличие люка – фиктивная переменная (0 – нет, 1 – есть).

Исходные данные получены с сайта auto.ru по состоянию на 17 декабря 2013 года – были выбраны предложения автомобиля Toyota Camry модификации 2,4i 2011 -2013 годов выпуска. Получена выборка по 70 предложениям.

Реализация

Схема проведения количественной оценки взаимосвязей финансовых показателей при решении данной задачи будет выглядеть следующим образом:

1. Выбор факторов для регрессионного анализа.

1.1. Корреляционный анализ данных, включая проверку теста Фаррара- Глоубера на мультиколлинеарность факторов.

Получим матрицу коэффициентов парной корреляции для всех факторов а с помощью инструмента Корреляция из пакета Анализ данных в Excel.

Для выявления мультиколлинеарности факторов выполним тест Фаррара-Глоубера по факторам: возраст авто, пробег, количество владельцев, тип коробки, тип салона, наличие легкосплавных дисков, наличие люка.

Проверка теста Фаррара-Глоубера на мультиколлинеарность факторов включает несколько этапов, реализация которых представлена ниже:

1) Проверка наличия мультиколлинеарности всего массива переменных:

Построим матрицу межфакторных корреляций R и найдем её определитель det[R] = 0,075234492 с помощью функции МОПРЕД.

Определитель матрицы R стремится к нулю, что позволяет сделать предположение об общей мультиколлинеарности факторов. Подтвердим это предположение оценкой статистики Фаррара-Глоубера.

Вычислим наблюдаемое значение статистики Фаррара – Глоубера по формуле:

prus1.wmf

где n = 70 – количество наблюдений (компаний); k = 7 – количество факторов (переменных анализа).

prus1.tif prus2.tif157,3846837

 

Фактическое значение этого критерия prus3.tif сравниваем с табличным значением критерия prus4.tif с

prus5.tif

степенью свободы и уровне значимости α=0,05. Табличное значение prus6.wmf32,67057334 можно найти с помощью функции ХИ2ОБР. ХИ2.ОБР.ПХ(0,05; 21). Так как prus7.tif (953,87>32,67), то в массиве объясняющих переменных существует мультиколлинеарность.

2) Проверка наличия мультиколлинеарности каждой переменной с другими переменными:

Вычислим обратную матрицу prus8.wmf с помощью функции Excel МОБР.

Вычислим F-критерим

prus9.tif, где prus10.tif– диагональные элементы матрицы prus8.wmf.

 

Фактические значения F-критериев сравниваются с табличным значением prus11.wmf при n1= 7 и n2= n - k – 1=70-7-1=62 степенях свободы и уровне значимости α=0.05, где k – количество факторов.

Так как все значения F-критериев больше табличного, то все исследуемые независимые переменные мультиколлинеарны с другими. Больше других влияет на общую мультиколлинеарность факторов фактор возраст авто, меньше – фактор легкосплавные диски.

3) Проверка наличия мультиколлинеарности каждой пары переменных

Вычислим частные коэффициенты корреляции по формуле prus12a.tif , где prus13%d0%b2.tif– элементы матрицы prus8.wmf. Матрицу коэффициентов частной корреляции prus14.tif получим вручную с помощью Microsoft Excel.

Вычислим t-критерии по формуле

prus15.tif.

Фактические значения t-критериев сравниваются с табличным значением prus16.tif при степенях свободы (n - k – 1)=70-7-1=62 и уровне значимости α=0,05.

По результатам выполненных действий можно сделать вывод, что две пары факторов возраст авто и пробег, возраст авто и тип салона имеют высокую статистически значимую частную корреляцию, то есть являются мультиколлинеарными. Для того, чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных коллинеарной пары. В паре возраст авто и пробег оставляем возраст авто, так как у нее меньше связи с другими факторами; в паре возраст авто и тип салона оставим оба фактора, с экономической и логической точки зрения.

Таким образом, в результате проверки теста Фаррара-Глоубера остается шесть факторов: возраст авто, количество владельцев, тип коробки, тип салона, наличие легкосплавных дисков, наличие люка.

Уточнение набора факторов, наиболее подходящих для регрессионного анализа, осуществим другими методами отбора.

1.2. Пошаговый отбор факторов методом исключения из модели статистически незначимых переменных.

В соответствии с общим подходом, пошаговый отбор следует начинать с включения в модель всех имеющихся факторов, то есть в нашем случае с семифакторной регрессии. Но мы не будем включать в модель факторы из заранее известных коллинеарных пар (в связи с наличием коллинеарности ранее были исключен из рассмотрения пробег). Таким образом, пошаговый отбор факторов начнем с шестифкаторного уравнения.

Статистически незначимыми (prus17.tif) оказался фактор легкосплавные диски. На следующем этапе пошагового отбора удаляем статистически незначимый фактор с наименьшим значением t-критерия, то есть фактор количество владельцев.

Аналогично поступаем до тех пор, пока не получим уравнение, в котором все факторы окажутся статистически значимыми. Из модели исключены последовательно факторы: количество владельцев, наличие люка, тип коробки.

Таким образом, в результате пошагового отбора получено двухфакторное уравнение регрессии, все коэффициенты которого (кроме свободного члена) значимы при 5%-ном уровне значимости, вида prus18.wmf где prus19.wmf – возраст авто, prus20.wmf – тип салона (1 – кожа, 0 – ткань).

Экономический смысл коэффициентов уравнения: при увеличении возраста автомобиля на 1 год стоимость его уменьшается в среднем на 62062 р., кожаный салон в сравнении с велюровым добавляет к стоимости 60216 р.

2. Оценка качества модели регрессии. Проверка статистической значимости уравнения с помощью F-критерия Фишера.

Расчетное значение F-критерия Фишера можно найти в регрессионном анализе.

prus21.wmf2,75548072. Так как prus22.tifто уравнение двухфакторной регрессии статистически значимо на 95% уровне значимости. Таким образом, связь стоимости с включенными в модель факторами существенна.

3. Оценка уровня точности модели.

Уровень точности модели характеризует степень отклонения в среднем фактических значений результативной переменной стоимость авто от ее значений, полученных по модели регрессии (предсказанных). Для оценки уровня точности используются различные ошибки: средняя относительная, стандартная и другие.

Cтандартная ошибка модели

prus23.tif

выводится в первой таблице «Регрессионная статистика» отчета по регрессионному анализу.

Точность модели тем лучше, чем меньше ее стандартная ошибка (это же имеет место и при использовании для оценки уровня точности других видов ошибок). Однако, понятие «чем меньше» является относительным и зависит от порядка чисел, представляющих данные задачи. Поэтому модель считается точной, если стандартная ошибка модели prus24.tif меньше стандартной ошибки (среднеквадратического отклонения) результативного признака

Y prus25.tif.

Стандартную ошибку prus26.tif легко найти в Excel с помощью статистической функции СТАНДОТКЛОН.

В нашем случае стандартная ошибка модели prus27.wmf, а среднеквадратическое отклонение (или стандартная ошибка) ЧП prus26.tif=80815,45939. Так как prus24.tif<prus26.tif, то трехфакторная модель регрессии является точной.

Заключение

Итак, в данной работе проведен анализ предложений автомобиля Toyota Camry на вторичном рынке. В процессе решения поставленной задачи была простроена регрессионная модель.

Методом пошагового отбора были получены только статистически значимые факторы. В частности, из решения задачи можно сделать вывод, что пробег не оказывает влияния на стоимость автомобиля. Полученное регрессионное уравнение позволяет сделать вывод: как изменится в цене автомобиль с кожаным салоном в отличие от автомобиля с тканевым; насколько в среднем автомобиль потеряет в цене при увеличении возраста.

Полученные данные могут быть использованы автомобильными дилерами для назначения адекватной цены своим предложениям.