Корреляционно-регрессионный анализ в Excel: инструкция выполнения. Многофакторный регрессионный анализ в оценке недвижимости

25.09.2019

Многофакторный регрессионный анализ в оценке недвижимости

Регрессия в математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов , т. е. эти явления многофакторны. Между факторами существуют сложные взаимосвязи, поэтому их влияние комплексное и его нельзя рассматривать как простую сумму изолированных влияний.

Факторный анализ позволяет определить, какое влияние на изучаемый показатель оказало изменение того или иного фактора.

При моделировании функциональных факторных моделей необходимо соблюдать ряд требований:

1. Факторы, включаемые в модель, должны реально существовать и иметь конкретноефизическое значение.

2. Факторы, которые входят в систему факторного анализа, должны иметь причинно-следственную связь с изучаемым показателем.

3. Факторная модель должна обеспечивать измерение влияния конкретного фактора на общий результат.

Метод применяется для построения прогноза какого-либо показателя с учетом существующих связей между ним и другими показателями. Сначала в результате качественного анализа выделяется k факторов (X 1 , X 2 ,..., X k), влияющих на изменение прогнозируемого показателя Y , и строится чаще всего линейная регрессионная зависимость типа:

где Ai - коэффициенты регрессии, i = 1,2,...,k.

Значения коэффициентов регрессии (A 0 , A 1 , A 2 ,..., A k) определяются в результате сложных математических вычислений , которые обычно проводятся с помощью стандартных статистических компьютерных программ.

Определяющее значение при использовании данного метода имеет нахождение правильного набора взаимосвязанных признаков, направления причинно-следственной связи между ними и вида этой связи, которая не всегда линейна.

Для успешного применения данного метода необходимо выполнение трёх основных условий :

Ø наличие обширной и достоверной базы данных о сделках купли-продажи с описанием физических и экономических характеристик объектов недвижимости, участвовавших в этих сделках;

Ø наличие критерия подбора аналогов из вышеуказанной базы данных;

Ø существование методологии расчёта соответствующих поправок к стоимости выбранных аналогов.

В основном, при подборе аналогов и внесении поправок эксперты-оценщики руководствуются профессиональным опытом и интуицией , что является заведомо субъективным подходом . Привлечение современных статистических методов для обработки и анализа данных, используемых для сопоставления, позволяет снизить влияние субъективизма оценщика.

Для решения задач, связанных с обработкой и анализом статистической информации применяются методы математической статистики. Эти методы позволяют выявить закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценку вероятностей их выполнения или невыполнения . В последнее время статистические методы, а в частности методы корреляционного и регрессионного анализа, находят всё более широкое применение в оценочной деятельности, правда. Оценщику, владеющему принципами, методами и навыками статистического моделирования, значительно легче обосновать результаты оценки, а также спрогнозировать рыночную стоимость на базе имеющихся данных.

После того, как выявлены наиболее существенные факторы, влияющие на стоимость рассматриваемых объектов, встает вопрос о подборе вида функциональной зависимости, т. е. виде многофакторной регрессионной модели. От правильности этого выбора зависит то, насколько построенная модель будет адекватна изучаемому явлению, т. е. будет ли она соответствовать ему при заданном уровне точности, что, в свою очередь, предопределяет практическую ценность получаемых результатов.

Запас кривых для описания статистических данных, которыми располагает математический анализ, бесконечно разнообразен . Для выбора той из них, которая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинной зависимости между изучаемым показателем и обуславливающими его факторами, исходят из соображений самого различного характера - логического, графического и статистического.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров , т. к. для их оценки требуется меньшее количество эмпирических данных.

На практике наибольшее распространение получили линейные (1), степенные (2) и экспоненциальные (3) формы зависимости.

y = a 0 + a 1 x 1 + a 2 x 2 + … + a n x n (1)

y = a 0 x 1 a1 x 2 a2 … x n an (2)

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.

В экономических исследованиях результативный признак У формируется под влиянием нескольких факторных признаков
Х 1 , Х 2 , …, Х р. Уравнение множественной регрессии имеет вид
у = f(х 1 , х 2 , …, х р).

Теоретическое линейное уравнение регрессии имеет вид

Значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу при условии, что все остальные факторы остались неизменными. Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК, некоторые из них аналогичны парной регрессии:

1 0 . E (ε i) = 0 (i=1,...,n).

2 0 .

Первая строчка означает гомоскедастичность остатков, вторая предполагает отсутствие автокорреляции.

3 0 . X 1 , ... , Х п –неслучайные величины.

4 0 . Модель является линейной относительно параметров.

5 0 . Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели.

6 0 . Ошибки имеют нормальное распределение . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок.

Для нахождения коэффициентов линейной множественной регрессии представим данные наблюдений и параметры модели в матричной форме:

n -мерный транспонированный вектор – столбец наблюдений зависимой переменной;

– (p+1) -мерный транспонированный вектор – столбец параметров уравнения регрессии;

n -мерный транспонированный вектор – столбец отклонений выборочных значений y i .

Тогда значения независимых переменных запишем в виде прямоугольной матрицы размерности :

В этих обозначениях эмпирическое уравнение регрессии выглядит так: . Тогда функционал, который минимизируется по МНК, равен: Наилучшей оценкой является вектор .

Уравнение регрессии в стандартизованном масштабе имеет вид

где ,

σ -среднее квадратичное отклонение, β j – стандартизованные коэффициенты регрессии, которые показывают, насколько значений средних квадратичных отклонений (с.к.о.) изменится в среднем результат, если соответствующий фактор х j изменится на одно с.к.о. при неизменном среднем уровне других факторов.

Применяя МНК, после соответствующих преобразований получим систему нормальных уравнений:

Сравнивая коэффициенты β j между собой, можно ранжировать факторы по силе их воздействия на результат, а также использовать коэффициенты при отсеве факторов – из модели исключаются факторы с наименьшим значением β j .



Коэффициенты «чистой» регрессии b j связаны с
β -коэффициентами формулой .

Как и в случае парной регрессии, проверка гипотезы о статистической значимости уравнения регрессии осуществляется на основе дисперсионного анализа: Н 0: D факт = D ост против альтернативной гипотезы Н 1: D факт > D ост . При этом строится
F -статистика:

.

Если F наб > F табл (α; р; n p 1) , то Н о отклоняется, т. е. факторная дисперсия превышает остаточную, уравнение регрессии является статистически значимым.

Для проверки общего качества уравнения регрессии используется также коэффициент детерминации R 2 , который рассчитывается аналогично парой регрессии. Анализ статистической значимости коэффициента детерминации проводится на основе проверки Н 0 : R 2 = 0 против альтернативной гипотезы Н 1 : R 2 > 0. Для проверки данной гипотезы используется следующая
F -статистика:

.

Если F наб > F табл (α; р; n p 1) , то Н о отклоняется, что равносильно статистической значимости R 2 .

Наряду с коэффициентом детерминации используется скорректированный коэффициент детерминации

.

Статистическая значимость параметров множественной линейной регрессии с р факторами: Н 0: b j = 0 проверяется на основе t -статистики:

, ,

где - j -й диагональный элемент обратной матрицы , . Если |t наб | < t таб (1 α ; n p 1 ), параметр считается статистически незначимым и Н 0 не может быть отвергнута, фактор х j линейно не связан с результатом, поэтому переменную х j рекомендуется исключить из уравнения регрессии.

Доверительные интервалы для значимых коэффициентов находятся по формуле

Пусть объясняющие переменные принимают значение
Х Т 0 = (1; х 1 0 ; х 2 0 ;…;х р 0). Тогда доверительный интервал для функции регрессии равен

где .

Доверительный интервал для индивидуальных значений зависимой переменной:

где .

При исключении или добавлении факторов для проверки статистической значимости оставшихся коэффициентов используют статистику Фишера. Проверяя гипотезу , можно определить, существенно ли ухудшилось качество описания поведения зависимой переменной. Для этого используют статистику



.

Если F наб > , то Н о должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно.

Для оценки тесноты между признаками применяются парные, частные и множественные коэффициенты корреляции и детерминации.

Для линейной регрессии множественный коэффициент корреляции можно определить по формулам:

- , где Δr – определитель матрицы парных коэффициентов корреляции: ,

а Δr 11 – определитель, который остаётся после вычеркивания из матрицы коэффициентов парной корреляции первого столбца и первой строки;

Для модели, в которой присутствуют две независимые переменные, формула упрощается .

Коэффициенты частной корреляции для трехфакторной модели рассчитаем по формулам , , .

Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

.

Пример 2. Исследуется зависимость между стоимостью грузовой автомобильной перевозки Y (тыс. р.), весом груза X 1 (т) и расстоянием Х 2 (тыс. км) по 20 транспортным компаниям. Исходные данные приведены в табл. 6.

Таблица 6

Y X 1 X 2 Y X 1 X 2
1,3
1,1 0,35
2,55 5,8 1,65
7,5 1,7 13,8 3,5 2,9
2,4 6,2 2,8 0,75
1,55 7,9 0,6
11,5 0,6 5,4 3,4 0,9
2,3 2,5
15,8 1,4 25,5 2,2
2,1 7,1 4,5 0,95

Требуется:

1. Построить выборочное уравнение линейной множественной регрессии. Привести полученное уравнение к стандартизированному виду, сделать выводы о влиянии факторов на результирующий фактор. Определить коэффициенты эластичности.

2. Проверить статистическую значимость уравнения регрессии с помощью дисперсионного анализа и через коэффициент детерминации.

3. Проверить статистическую значимость параметров уравнения регрессии и для значимых коэффициентов построить доверительные интервалы.

5. Определите парные и частные коэффициенты корреляции, проверить их на значимость. Для значимых коэффициентов постройте доверительные интервалы.

7. Найти прогнозное значение у i , если х 1 =10, х 2 =5 , и доверительные интервалы для среднего и индивидуального значения у 0 .

Решение

1. Модель специфицируем в виде линейной функции:

Вектор В найдем по формуле :

Матрица Х Х Т

1,1 4,5
1,1 2,2 0,95
2,2
4,5 0,95

Х Т *Х (Х Т *Х) -1 Х Т *У

277,2 31,8 0,344766 -0,00562 -0,13643 454,5
277,2 5860,9 459,235 -0,00562 0,000503 -0,00085 8912,57
31,8 459,235 61,455 -0,13643 -0,00085 0,093251 908,555
-17,3133
1,156057
5,10401

Следовательно, уравнение регрессии имеет вид

Y = 17,31 + 1,16 X 1 + 15,10 Х 2 .

Для приведения к стандартному виду построим вспомогательную таблицу (табл. 7).

Таблица 7

Y X 1 X 2 Y 2 X 2 1 X 2 2
1,1 1,21
2,55 6,5025
7,5 1,7 56,25 2,89
2,4 5,76
1,55 2,4025
11,5 0,6 132,25 0,36
2,3 5,29
15,8 1,4 249,64 1,96
2,1 4,41
1,3 1,69
0,35 0,1225
5,8 1,65 33,64 2,7225
13,8 3,5 2,9 190,44 12,25 8,41
6,2 2,8 0,75 38,44 7,84 0,5625

Окончание табл.7

Y X 1 X 2 Y 2 X 2 1 X 2 2
7,9 0,6 62,41 0,36
5,4 3,4 0,9 29,16 11,56 0,81
2,5 6,25
25,5 2,2 650,25 4,84
7,1 4,5 0,95 50,41 20,25 0,9025
Σ 454,5 277,2 31,8 18206,89 5860,9 61,45

; 0,74;

= 0,77; = 0,56;

t Y = 0,77t x1 + 0,56t x2 .

То есть с ростом веса груза на одну сигму при неизменном расстоянии стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,77 сигмы. С ростом расстояния на одну сигму при неизменном весе груза стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,56 сигмы. Поскольку 0,77 > 0,56, то влияние веса груза на стоимость грузовых автомобильных перевозок больше, чем фактора расстояния.

Найдем коэффициенты эластичности:

= ,

= 1,05.

С увеличением среднего веса груза на 1% от его среднего уровня средняя стоимость перевозок возрастет на 0,71% от своего среднего уровня. При увеличении среднего расстояния перевозок на 1% средняя стоимость доставки груза увеличится на 1,05%. Поскольку 0,71 < 1,05, то влияние веса груза на стоимость грузовых автомобильных перевозок меньше, чем фактора расстояния. Различия в силе влияния факторов на результат, полученные при сравнении уравнения регрессии в стандартизованном масштабе и коэффициентов эластичности, объясняются тем, что коэффициент эластичности рассчитывается исходя из соотношения средних, а стандартизованные коэффициенты регрессии - из соотношения средних квадратических отклонений.

2. Проверим на значимость уравнение регрессии, для этого составим таблицу (табл. 8).

Таблица 8

|(y-y р)/y|
53,45 799,193 6,00 0,0462095
17,82 45,293 3,31 0,1123748
42,04 2628,613 1021,76 0,4322848
10,64 231,953 9,86 0,4234144
35,13 105,473 4,537 0,0642756
44,34 10,693 336,17 0,7018371
14,91 126,113 11,63 0,2930625
46,38 856,7329 31,58 0,10909
18,87 48,025 9,43 0,193736
16,68 216,973 75,34 1,0896515
26,64 10,693 0,41 0,0230416
0,695 279,893 28,143 0,8850491
11,045 286,625 27,51 0,9097353
30,5 79,7449 278,89 1,2126453
-2,777 273,241 80,587 1,4432832
11,43 219,929 12,461 0,4432973
0,184 300,329 27,207 0,9609482
48,24 1106,893 60,218 0,1394274
26,31 7,673 0,6561 0,0321573
2,215 244,297 23,863 0,684825
Сум. 454,732 7878,378 2049,568 10,200346

Проверка с помощью дисперсионного анализа:

Н 0: D факт = D ост ; Н 1: D факт > D ост ;

Q об = 7878,378; Q ост =2049,558; Q факт = 5828,82;

F н = (5828,82/2049,56)·(17/2) = 24,17.

Так как F н > F кр (0,05; 2; 17) = 3,59 , то нулевая гипотеза отклоняется и уравнение множественной регрессии статистически значимо.

Проверка с помощью коэффициента детерминации:

; .

Он показывает, что 74% различий стоимости всех перевозок объясняется вариацией их грузоподъемности и расстояния, а
16% - другими, неучтенными факторами. Скорректированный коэффициент детерминации достаточно велик, следовательно, смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки:

Н 0 : R 2 = 0 ; Н 1 : R 2 > 0.

.

Так как F фак > F кр (0,05; 2; 17) = 3,59, то Н 0 отклоняется, коэффициент детерминации отличается от нуля, следовательно, уравнение регрессии статистически значимо.

3. Проверим статистическую значимость коэффициентов регрессии:

Н 0: b 0 = 0; Н 1: b 0 ≠ 0.

; ;

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля, доверительный интервал (– 30,92; – 3,71).

Н 0: b 1 = 0; Н 1: b 1 ≠ 0.

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля,доверительный интервал (0,64; 1,68).

Н 0: b 2 = 0; Н 1: b 2 ≠ 0.

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля,доверительный интервал (8,03; 22,18).

4.Определим ошибку аппроксимации А = = 51%. Фактические значения стоимости перевозок от расчетных данных по уравнению регрессии в среднем отличаются на 51% .

5.Определим парные и частные коэффициенты корреляции. Для этого построим таблицу (табл. 9).

Таблица 9

Y X 1 X 2 Y 2 x 1 2 x 2 2 yx 1 yx 2 х 1 x 2
1,1 1,21 17,6 17,6
2,55 6,5025 188,7 45,9
7,5 1,7 56,25 2,89 12,75 3,4
2,4 5,76 79,2 33,6
1,55 2,4025 40,3 51,15
11,5 0,6 132,25 0,36 6,9
2,3 5,29 119,6 57,5
15,8 1,4 249,64 1,96 205,4 22,12 18,2
2,1 4,41 16,8 4,2
1,3 1,69 33,8 27,3
0,35 0,1225 2,1 3,85
5,8 1,65 33,64 2,7225 17,4 9,57 4,95
13,8 3,5 2,9 190,44 12,25 8,41 48,3 40,02 10,15
6,2 2,8 0,75 38,44 7,84 0,5625 17,36 4,65 2,1
7,9 0,6 62,41 0,36 134,3 4,74 10,2
5,4 3,4 0,9 29,16 11,56 0,81 18,36 4,86 3,06
2,5 6,25
25,5 2,2 650,25 4,84 229,5 56,1 19,8
7,1 4,5 0,95 50,41 20,25 0,9025 31,95 6,745 4,275
Ср. знач. 22,73 13,86 1,59 910,34 293,05 3,07 445,63 45,43 22,96

Матрица парных коэффициентов корреляции имеет вид .

Проверим их на значимость Н 0: ρ = 0 при Н 1: ρ ≠ 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 ;

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим;

< t кр (0,05; 18) = 2,1 -гипотеза Н 0 не отвергается, коэффициент корреляции статистически не значим.

На основе матрицы корреляции найдем еще раз коэффициент детерминации: Δ = 0,256; Δ 11 = 0,984; R 2 = 1 – 0,246/0,984 =
= 0,74; .
Величина множественного коэффициента детерминации свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится. Множественный коэффициент детерминации можно рассчитать по формулам

Рассчитаем частные коэффициенты корреляции. Коэффициенты частной корреляции характеризуют тесноту связи между двумя переменными, исключив влияние третьей переменной:

;

;

.

Связь между стоимостью перевозок и весом груза прямая и тесная, между стоимостью перевозок и расстоянием прямая и тесная, между весом груза и расстоянием обратная и средняя. Проверим их на значимость Н 0: ρ = 0 при Н 1: ρ ≠ 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим;

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим.

Для значимых коэффициентов корреляции построим доверительный интервал. Для этого вычислим ; ; ; ; .

Тогда ;

6. Рассчитаем частные F -критерии Фишера и оценим целесообразность включения в уравнение одного из факторов после другого:

Н 0: R 2 = r 2 yx1 ; Н 1: R 2 ≠ r 2 yx1.

F часх1 = > F кр = 4,45 , следовательно, приходим к выводу о целесообразности включения в модель фактора х 2 после фактора х 1 .

Н 0: R 2 = r 2 yx2 ; Н 1: R 2 ≠ r 2 yx2.

F часх2 = > F кр = 4,45 , следовательно, приходим к выводу о нецелесообразности включения в модель фактора х 1 после фактора х 2 .

7. Стоимость грузовых перевозок при весе груза 10 т и расстояние 5 км , т.е. x 0 T =(1; 10; 5), составит y 0 = – 17,31 + 1,16 10 +
+ 15,10 5 = 69,77 тыс. р.

Доверительный интервал для среднего составит
(44,77; 94,76 ), где Х 0 Т ·(Х Т ·Х) -1 ·Х о = 1,16; ; t кр (0,95; 17) = 2,11.

Доверительный интервал для индивидуального значения ― (35,69; 103,85 ), где .

Вопросы для самоконтроля

1. Перечислите предпосылки МНК. Каковы последствия их невыполнимости либо выполнимости? В чем суть наилучших линейных несмещенных оценок?

2. Сформулируйте алгоритм определения коэффициентов регрессии в матричной форме. Что характеризуют коэффициенты регрессии?

3. Опишите схему проверки гипотез о величинах коэффициентов регрессии. В чем суть статистической значимости коэффициентов регрессии? Опишите «грубое» правило анализа статистической значимости коэффициентов регрессии.

4. Как определяются стандартные ошибки регрессии и коэффициентов регрессии? Приведите схему определения интервальных оценок коэффициентов регрессии.

5. Как осуществляется анализ качества эмпирического уравнения множественной линейной регрессии?

6. Объясните суть коэффициента детерминации множественной регрессии. В каких пределах он изменяется? Сформулируйте схему проверки статистической значимости коэффициента детерминации.

7. Чем скорректированный коэффициент детерминации отличается от обычного?

8. Как строится и что позволяет определить доверительный интервал для условного математического ожидания зависимой переменной? В чем суть предсказания индивидуальных значений зависимой переменной?

9. Сформулируйте критерий проверки целесообразности включения или исключения независимых факторов.

10. Что называется линейным коэффициентом множественной корреляции и как с помощью матрицы парных коэффициентов корреляции его можно определить?

11. Как определяются частные коэффициенты корреляции? Как связаны коэффициент частной корреляции и коэффициент детерминации?

12. Что представляет собой фиктивная переменная? Каковы основные причины использования фиктивных переменных в регрессионных моделях? В чем суть «ловушки» фиктивных переменных?

13. Что представляют собой ANOVA-модели? Что представляют собой ANCOVA-модели? Приведите примеры их использования.

14. Объясните значение термина «мультиколлинеарность». В чем отличие совершенной и несовершенной мультиколлинеарности? Каковы последствия мультиколлинеарности?

15. Как можно обнаружить и устранить мультиколлинеарность?

16. В чем сущность гетероскедастичности? Сформулируйте последствия гетероскедастичности.

17. Приведите схемы теста ранговой корреляции Спирмена и Голдфелда – Квандта для проверки на гомоскедастичность.

18. В чем суть метода взвешенных наименьших квадратов?

19. Что такое автокорреляция? Каковы причины и последствия автокорреляции?

20. Опишите схему использования статистики Дарбина – Уотсона. Перечислите ограничения ее использования.


Временные ряды

Экономические процессы и явления, их связи и зависимости могут рассматриваться как в пространстве, так и во времени, путем построения и анализа одного или нескольких временных рядов.

Временной ряд (динамический ряд или ряд динамики) ― совокупность изучаемого показателя в последовательные моменты времени. Отдельные наблюдения называются уровнями ряда у t , t=1,…,n, где n – число уровней. Под длиной ряда понимают время, прошедшее от начального момента наблюдения до конечного. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые можно условно разделить на три группы:

Факторы, формирующие тенденцию ряда (Т ). Тенденция характеризует долговременное воздействие факторов на динамику показателя. Тенденция может быть возрастающей или убывающей;

Факторы, формирующие циклические колебания ряда (S ). Циклические колебания могут носить сезонный характер или отражать динамику конъюнктуры рынка, а также фазу бизнес-цикла, в которой находится экономика страны;

Случайные факторы (E ), отражающие влияние, не поддающееся учету и регистрации.

Модель, в которой временной ряд представлен как сумма перечисленных выше компонент, называется аддитивной моделью временного ряда (), в случае произведения – мультипликативной моделью ().

Основная задача эконометрического исследования временного ряда – выявление количественного выражения каждой из компонент и использование полученной информации для прогноза будущих значений ряда или построение модели взаимосвязи двух или более временных рядов.

Для выявления наличия той или иной неслучайной компоненты исследуется корреляционная зависимость между последовательными уровнями временного ряда, или автокорреляция уровней ряда

где

Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. Последовательность коэффициентов автокорреляции уровней различных порядков, начиная с первого, называется автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага называется коррелограммой.

Если наиболее высоким является коэффициент автокорреляции первого порядка, очевидно, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка τ , ряд содержит циклические колебания с периодичностью в τ моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то либо ряд не содержит тенденции и циклических колебаний и имеет только случайную составляющую, либо ряд содержит сильную нелинейную тенденцию, для исследования которой нужно провести дополнительный анализ.

В случае, если при анализе структуры временного ряда обнаружена только тенденция и отсутствуют циклические колебания, следует приступать к моделированию тенденции. Если же во временном ряде имеют место и циклические колебания, прежде всего следует исключить именно циклическую составляющую и лишь затем приступать к моделированию тенденции.

Построение аналитической функции для моделирования тенденции (тренда) временного ряда называют аналитическим выравниванием временного ряда. Тенденция во времени может принимать разные формы, для ее формализации используются следующие функции:

Линейная: ;

Полиномиальная: , где
а 1 - линейный прирост, а 2 - ускорение роста, а 3 - изменение ускорения роста;

Гипербола: ;

Экспоненциальный тренд: (или ), где а - начальный уровень, e b - средний за единицу времени коэффициент роста;

Степенной тренд: .

Параметры каждого из трендов можно определить обычным МНК, используя в качестве независимой переменной время t , а в качестве зависимой переменной – фактические уровни временного ряда y t . Для нелинейных трендов предварительно проводят стандартную процедуру линеаризации.

Для выявления полиномиального тренда применяется метод последовательных разностей, состоящий в вычислении последовательных разностей Δt к при к = 1, 2,…,n:

Δt = y t - y t-1 ; Δt 2 = Δ t - Δ t-1 ;…; Δt к = Δt (к-1) – Δ(t-1) (к-1) .

Если примерно одинаковы все абсолютные приросты Δt , то имеем линейный тренд; если абсолютные ускорения Δt 2 , то тренд - парабола. Анализ цепных коэффициентов роста К t = y t /y t-1 позволяет выявить наличие экспоненциального или степенного тренда.

Пример 3. Пусть имеются данные (табл. 10) об объёмах потребления электроэнергии жителями района за 16 кварталов, м. квт.-ч:

Таблица 10

t y t t y t
4,4 5,6
6,4
7,2
4,8 6,6
10,8

Требуется:

1. Построить график временного ряда и определить автокорреляционную функцию. Определить составляющие временного ряда.

2. Если ряд содержит сезонную компоненту, то выявить и устранить ее с помощью статистических методов, построив аддитивную модель.

В действительности на результативный признак влияет, как правило, не один фактор, а множество различных одновременно действующих факторных признаков. Так, себестоимость единицы продукции зависит от количества произведенной продукции, цены закупки сырья, заработной платы работников и производительности их труда, накладных расходов.

Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком у и факторными признаками x it х 2 , ...»х * можно, используя многофакторный регрессионный анализ , который сводится к решению следующих задач:

  • - построение уравнения множественной регрессии;
  • - определение степени влияния каждого фактора на результативный признак;
  • - количественная оценка тесноты связи между результативным признаком и факторами;
  • - оценка надежности построенной регрессионной модели;
  • - прогноз результативного признака.

Уравнение множественной регрессии характеризует среднее изменение у с изменением двух и более признаков-факторов: у = /(лг р x v x k).

При выборе признаков-факторов, включаемых в уравнение множественной регрессии, нужно прежде всего рассмотреть матрицы коэффициентов корреляции и выделить те переменные, для которых корреляция с результативной переменной превосходит корреляцию с другими факторами, т.е. для которых верно неравенство

объясняющие переменные, тесно связанные между собой: при г > 0,7

У" j

переменные и х } дублируют друг друга, и совместное включение их в уравнение регрессии не дает дополнительной информации для объяснения вариации у. Линейно связанные переменные называются коллинеар- ными.

Нс рекомендуется включать в круг объясняющих переменных признаки, представленные как абсолютные и как средние или относительные величины. Нельзя включать в регрессию признаки, функционально связанные с зависимой переменной у , например, те, которые являются составной частью у (скажем, суммарный доход и заработная плата).

Наиболее простым для построения и анализа является линейное уравнение множественной регрессии:

Интерпретация коэффициентов регрессии линейного уравнения множественной регрессии следующая: каждый из них показывает, на сколько единиц в среднем изменяется у при изменении.г, на свою единицу измерения и закреплении прочих введенных в уравнение объясняющих переменных на среднем уровне.

Так как все включенные переменные х х имеют свою размерность, то сравнивать коэффициенты регрессии Ь { нельзя, т.е. по величине Ъ х нельзя сделать вывод, что одна переменная влияет сильнее на г/, а другая слабее.

Параметры линейного уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК). Условие МНК: или

Условие экстремума функции равенство нулю частных производных первого порядка данной функции:

Отсюда получаем систему нормальных уравнений, решение которой дает значения параметров уравнения множественной регрессии:


При записи системы уравнений можно руководствоваться следующим простым правилом: первое уравнение получается как сумма п уравнений регрессии; второе и последующее - как сумма п уравнений регрессии, все члены которой умножены на затем на х 2 и т.д.

Параметры уравнения множественной регрессии получаем через отношение частных определителей к определителю системы:

Рассмотрим построение уравнения множественной регрессии на примере линейной двухфакторной модели:

Представим все переменные как центрированные и нормированные, т.е. выраженные как отклонения от средних величин, деленные на стандартное отклонение. Обозначим преобразованные таким образом переменные буквой t

Тогда уравнение множественной регрессии примет следующий вид:

где p t и р 2 - стандартизированные коэффициенты регрессии (бс га-коэф- фициенты), определяющие, на какую часть своего среднеквадратического отклонения изменится у при изменении Xj на одно среднеквадратическое отклонение.

Уравнение регрессии (8.20) называется уравнением в стандартизованном масштабе (или стандартизированным уравнением регрессии). Оно не имеет свободного члена, поскольку все переменные выражены через отклонения от средних величин, а, как известно, а = у-Ь { х х -Ь 2 х 2 , или при k объясняющих переменных

В отличие от коэффициентов регрессии в натуральном масштабе Ьр которые нельзя сравнивать, стандартизированные коэффициенты регрессии Р; можно сравнивать, делая вывод, влияние какого фактора на у более значительно.

Стандартизированные коэффициенты регрессии находятся также с помощью МНК:

Приравняем первые частные производные нулю получим систему нормальных уравнений

Поскольку


систему можно записать иначе:


Отсюда находим p-коэффициенты и сравниваем их. Если Р,>Р 2 , то фактор Xj сильнее влияет на результат, чем фактор х 2 .

От стандартизированной регрессии можно перейти к уравнению регрессии в натуральном масштабе, т.е. получить регрессию

Коэффициенты регрессии в натуральном масштабе находятся на основе ^-коэффициентов:

После этого вычисляется совокупный коэффициент детерминации:

который показывает долю вариации результативного признака под воздействием изучаемых факторных признаков. Важно знать вклад каждой объясняющей переменной. Он измеряется коэффициентом раздельной детерминации:

Влияние отдельных факторов в уравнении множественной регрессии может быть охарактеризовано с помощью частных коэффициентов эластичности. В случае двухфакторной линейной регрессии коэффициенты эластичности рассчитываются по формулам и измеряются в процентах:

Мы разобрали технику построения уравнения множественной регрессии. Очевидно, что оценки параметров уравнения регрессии можно получить, используя только микрокалькулятор. В современных условиях построение регрессии и расчет показателей корреляции производят с помощью ПК и пакетов прикладных программ, таких как Excel либо более специализированных: Statgraphics или Statistica и др.

Чтобы выполнить построения уравнения множественной регрессии с помощью Microsoft Office Excel, надо воспользоваться инструментом анализа данных Регрессия. Выполняются действия, аналогичные расчету параметров парной линейной регрессии, рассмотренные выше, только в отличие от парной регрессии при заполнении параметра входной интервал X в диалоговом окне следует указать все столбцы, содержащие значения факторных признаков.

Рассмотрим построение множественного уравнения регрессии при двух объясняющих переменных (двухфакторная модель). Продолжая пример, введем второй фактор время, затраченное студентом в течение недели с целью получения заработка, в часах. Данные представлены в табл. 8.5.

Расчетная таблица

Таблица 8.5

Номер студента

(у -у) 2

- у) 2

Таблица 8.6

Регрессионный анализ, выполненный для двухфакторной модели с помощью Microsoft Office Excel

ВЫВОД итогов

Регрессионная статистика

Множественный R

Я-квадрат

Нормированный Я-квадрат

Стандартная ошибка

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

Коэффициент ы

Стандартная

ошибка

t-статистика

Р-значение

Нижние 95%

Верхние 95%

У-пересечение

  • 1. Введем исходные данные в таблицу Excel, как было описано в параграфе 8.3.
  • 2. Воспользуемся инструментом анализа данных Регрессия.

Полученные результаты представлены в табл. 8.6.

Как следует из итоговой табл. 8.6, уравнение регрессии имеет следующий вид:

F= 25; значимость F= 0,002, т.е. вероятность ошибки незначительна.

Согласно регрессии оценка на экзамене в среднем повысится на 0,058 балла при увеличении накопленных за семестр баллов на один балл при закреплении второй объясняющей переменной на среднем уровне; экзаменационная оценка снизится в среднем на 0,026 балла при увеличении времени, затраченного на заработок, на один час при закреплении фактора Х на среднем уровне.

3. Перейдем к уравнению в стандартизированном масштабе. Для этого определим 0-коэффициенты;

Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:

  • 1) выберем Данные -> Анализ данных -> Корреляция;
  • 2) заполним диалоговое окно ввода данных и параметров вывода.

Результаты вычислений показаны в табл. 8.7.

Таблица 8.7

Матрица коэффициентов парной корреляции


Получили стандартизированное уравнение регрессии

Так как |Р,|>|Р 2 1» т0 фактор x i (сумма накопленных баллов за семестр) сильнее влияет на результат (экзаменационная оценка), чем фактор х 2 (время, затраченное студентом в течение недели с целью получения заработка). Заметим, что связь между результатом у и фактором х 2 обратная: чем больше времени студент тратит для получения заработка, тем ниже экзаменационная оценка.

  • 4. Совокупный коэффициент детерминации определяется из Регрессионной статистики (табл. 8.6): R 2 = 0,911, т.е. вариация возможной оценки на экзамене на 91,1% зависит от вариации накопленных за семестр текущих баллов и вариации времени, которое студент тратит в течение недели на заработок.
  • 5. Найдем коэффициенты раздельной детерминации:


Таким образом, за счет вариации накопленных за семестр текущих баллов объясняется 72,3% вариации оценки на экзамене, а за счет времени, затраченного в течение недели на заработок, - 18,8%. Сумма коэффициентов раздельной детерминации равна R 2 .

6. Рассчитаем частные линейные коэффициенты эластичности:


Это означает, что при увеличении накопленных за семестр баллов на 1% их среднего уровня оценка за экзамен увеличивается на 10,97% своего среднего уровня, при увеличении времени на заработок на 1% его среднего значения результат снижается на 0,07%. Очевидно, что сила влияния фактора х х сильнее, чем фактора х 2 . Аналогичные выводы о силе связи мы получили, сравнивая Р-коэффициенты.

7. Расчитаем ожидаемую оценку, которую получит студент на экзамене, если сумма накопленных в течение семестра баллов (л,) равна 85, а время, затраченное студентом в течение недели для заработка (х 2), составляет 5 ч. Воспользуемся полученным уравнением регрессии в натуральном масштабе:

Следовательно, ожидаемая экзаменационная оценка составляет четыре балла.

Линейный многофакторный регрессионный анализ На практике при анализе результатов научных исследований часто имеет место ситуация, когда количественное изменение изучаемого явления (функции отклика) зависит не от одного, а от нескольких причин (факторов). При проведении экспериментов в такой множественной ситуации исследователь записывает показания приборов о состоянии функции отклика (y) и всех факторов, от которых она зависит (x). Результатами наблюдений являются уже не два вектор-столбца (x и y), как при проведении однофакторного регрессионного анализа, а матрица результатов наблюдений. где yi – значение функции отклика в i-ом эксперименте, Xij – значение j-го фактора на i-ом эксперименте, n – количество экспериментов, p – количество факторов Задача многофакторного линейного регрессионного анализа состоит в построении такого уравнении плоскости в (p+1)-мерном пространстве, отклонения результатов наблюдений yi от которой были бы минимальными.

Или, другими словами, следует вычислить значения коэффициентов b 0, bj в уравнении на которых достигается минимум Для отыскания минимума необходимо найти частные производные по всем неизвестным b 0, bj и приравнять их нулю. Полученные уравнения образуют систему нормальных уравнений, которая в матричной форме имеет вид где Из этого уравнения можем найти вектор-столбец коэффициентов регрессии: , каждый элемент которого можно найти по формуле: В которой cij – элементы обратной матрицы (XTX)-1.

Проверка значимости коэффициентов регрессии Проверка значимости уравнения регрессии мало отличается от соответствующей проверки однофакторной регрессии. Вычисляют остаточную дисперсию по формуле: которую сравнивают с дисперсией среднего Фишера: с помощью критерия с числом степеней свободы в числителе (n-1) и в знаменателе (n-р-1). Значимость коэффициентов регрессии b 0, bj проверяют по критерию Стьюдента: (, где - диагональные элементы матрицы).

Парные коэффициенты корреляции Корреляционный анализ начинают с вычисления парных коэффициентов корреляции, характеризующих тесноту связи между двумя величинами. В многофакторной ситуации вычисляют два типа парных коэффициентов корреляции: 1) - коэффициенты, определяющие тесноту связи между функцией отклика и одним из факторов; 2) - коэффициенты, показывающие тесноту связи между одним из факторов и фактором (). , где Значимость парных коэффициентов корреляции можно проверить по критерию Стьюдента: , где

Корреляционная матрица Значение парного коэффициента корреляции изменяется от - 1 до +1. Если, например, коэффициент - величина отрицательная, то это значит, что уменьшается с увеличением. Если положителен, то увеличивается с увеличением. Если один из коэффициентов окажется равным 1, то это означает, что факторы и функционально связаны между собой и тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент больше. После вычисления всех парных коэффициентов корреляции и исключения из рассмотрения того или иного фактора можно построить матрицу коэффициентов корреляции вида:

Частные коэффициенты корреляции Используя парных коэффициентов корреляции матрицу, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов на функцию отклика при условии, что остальные факторы закреплены на постоянном уровне. Частные коэффициенты корреляции вычисляются по формуле где - определитель матрицы, образованной из матрицы парных коэффициентов корреляции вычеркиванием 1 -й строки j-го столбца, определитель - j-ой строки j-го столбца. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1. Значимость и доверительный интервал для коэффициентов частной корреляции определяются так же, как для коэффициентов парной корреляции с числом степеней свободы v = n – k - 2, где k = р - 1 - порядок частного коэффициента парной корреляции.

Коэффициент множественной корреляции и его значимость Для изучения тесноты связи между функцией отклика и несколькими факторами используют коэффициент множественной корреляции R. Коэффициент множественной корреляции служит и для оценки качества предсказания; R всегда положителен и изменяется от 0 до 1. Чем больше R, тем лучше качество предсказаний данной моделью опытных данных. Коэффициент множественной корреляции вычисляется по формуле Значимость коэффициента множественной корреляции проверяют по критерию Стьюдента: , где - среднеквадратическая погрешность коэффициента множественной корреляции: Значимость R можно проверить также и по критерию Фишера: Полученное значение сравнивают с табличным при выбранном уровне значимости и числах степеней свободы v 1 = n - р - 1 и v 2 = p. Если расчетное значение превышает табличное, то гипотезу o равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой.

Многофакторный нелинейный регрессионный анализ Первый этап нелинейного многофакторного регрессионного анализа - получение полной квадратичной формы. Для этого определяют коэффициенты регрессии b 0, bk и bjk в полиноме Степень уравнения можно повышать до тех пор, пока уменьшается остаточная дисперсия. Задача нелинейной регрессии сводится к задаче линейной регрессии заменой переменных и т. д. Мерой тесноты связи в нелинейной зависимости служит множественное корреляционное отношение, но используя для вычисления у нелинейную форму уравнения. Сравнение множественного корреляционного отношения с коэффициентом множественной корреляции, вычисленным по линейной форме, дает некоторое представление о «кривизне» изучаемой зависимости.

Выбор оптимальной формы регрессии 1) метод полного перебора 2) метод отсеивания факторов При использовании метода исключения переменных уравнение регрессии расширяют сразу до полной квадратичной или, если возможно, до полной кубической формы. Исключение начинают с фактора, имеющего наименьший критерий Стьюдента. На каждом этапе после исключения каждого фактора для нового уравнения регрессии вычисляют множественный коэффициент корреляции, остаточную дисперсию и F-критерий Фишера. Наибольшую трудность представляет решение вопроса, на каком этапе прекратить исключение факторов. Здесь возможны следующие подходы: a) прекратить исключение факторов, когда остаточная дисперсия начнет увеличиваться; b) назначить уровень значимости (0. 05) при вычислении t-критерия Стьюдента для последнего оставляемого фактора. Во втором случае перед началом отсева факторов строят диаграмму ранжирования t-критериев Стьюдента для всех факторов расширенной модели.

3) метод включения факторов При использовании метода включения факторов в уравнение регрессии последовательно включаются факторы (наиболее значимые) пока остаточная дисперсия не увеличивается.

Пример регрессионного анализа Рассмотрим пример многофакторного регрессионного и корреляционного анализа с выбором оптимальной формы регрессии методом исключения эффектов (факторов и парных взаимодействий) на примере построения модели для вычисления ползучести бетона. В этой задаче строится зависимость удельных относительных деформаций ползучести бетона С(t, т) от десяти факторов: . В матрицу исходных данных включены результаты 367 опытов над бетонными образцами, в которых фиксировались значения у = С(t, т) , и следующих 10 факторов: -отношение массы цемента к массе заполнителя в 1 м 3 бетона (Ц/3); - расход цемента на 1 м 3 бетона (Ц); - влажность среды (W); - масштабный фактор (М); - водоцементное отношение (В/Ц); - возраст бетона в момент загружения (т); - время действия нагрузки (t - т); - нормальная густота цементного теста (НГ); - значение напряжений (); - модуль упругости заполнителя (E 3).

Решение Коэффициент корреляции близок к единице, поэтому фактор исключен из рассмотрения; На первом этапе была построена полная квадратичная модель с 54 эффектами. Критерий Фишера для этой модели получился: Затем был произведен 11 -ступенчатый отсев незначимых эффектов, в процессе которого было исключено 28 статистически незначимых по критерию Стьюдента эффектов, в результате была получена модель с 26 эффектами, для которой критерий Фишера возрос незначительно: а остальные параметры оказались хорошими Значимые, связи для наглядности удобно изображать в виде графа. Используя методы теории графов, можно построить таблицу, наглядно показывающую количество статистически значимых связей между функцией отклика и факторами. Такую таблицу называют еще матрицей смежности вершин.



Похожие статьи