Лабораторная работа
Нарушения допущений классической модели
линейной регрессии
Задания
- Проведите графический анализ остатков. Проверьте остатки на гетероскедастичность с помощью:
- графического анализа,
- теста Голдфелда-Квандта,
- теста ранговой корреляции Спирмена,
- теста Уайта (White test).
- Если будет обнаружена гетероскедастичность остатков, примените для исходных данных ОМНК, предполагая, что .
- Проверить остатки на наличие автокорреляции первого порядка, используя метод рядов, критерий Дарбина – Уотсона и Q- статистику Льюинга – Бокса. Если гипотеза об отсутствии автокорреляции первого порядка не будет отвергнута, то применить ОМНК для оценивания параметров уравнения регрессии.
Реализация типовых заданий
- Провести графический анализ остатков
В лабораторной работе № 1 выявили, что на чистый доход (y) предприятий оказывают влияния такие факторы, как использованный капитал (x2) и численность служащих (x3).
Для нахождения остатков можно воспользоваться инструментом анализа данных Регрессия. Порядок действий следующий:
а) в главном меню выберите Сервис/Анализ данных/Регрессия. Щелкните по кнопке ОК;
б) заполните диалоговое окно ввода данных и параметров ввода как показано на рисунке 3.1:
Входной интервал Y – диапазон, содержащий данные результативного признака;
Входной интервал Х – диапазон, содержащий данные всех пяти факторов;
Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;
Константа – ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении;
Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;
Новый рабочий лист - можно задать произвольное имя нового листа;
Остаток - флажок, указывает вывод остатков и теоретические значения результативного признака.
Рисунок 3.1 – Регрессия с остатками
Результаты регрессионного и корреляционного анализа, а также вспомогательные характеристики представлены на рисунке 3.2.
ВЫВОД ОСТАТКА |
|
|
|
|
|
Наблюдение |
Предсказанное Y |
Остатки |
1 |
2,826964 |
-0,32696 |
2 |
2,81806 |
0,48194 |
3 |
2,703333 |
-0,40333 |
4 |
2,518199 |
0,781801 |
5 |
3,250229 |
0,949771 |
6 |
2,80471 |
0,09529 |
7 |
6,467996 |
-0,768 |
8 |
3,091662 |
0,108338 |
9 |
7,758046 |
0,741954 |
10 |
2,182173 |
-0,18217 |
11 |
2,465955 |
0,434045 |
12 |
2,825509 |
0,674491 |
13 |
2,793327 |
0,706673 |
14 |
3,614922 |
-0,61492 |
15 |
3,008511 |
-1,00851 |
16 |
2,390182 |
0,009818 |
17 |
3,232481 |
0,167519 |
18 |
2,826559 |
-0,32656 |
19 |
3,27327 |
-0,57327 |
20 |
2,743836 |
0,756164 |
21 |
2,891819 |
-2,19182 |
22 |
2,729187 |
0,170813 |
23 |
2,77 |
0,83 |
24 |
2,297066 |
-0,09707 |
25 |
2,716004 |
-0,416 |
Рисунок 3.2 – Вывод остатков
Проверим остатки полученного уравнения регрессии на гетероскедастичность.
Графический анализ остатков
Построим графики остатков для каждого уравнения (рисунок 3.3 и 3.4)
Рисунок 3.3 – График остатков для фактора х2
Рисунок 3.4 – График остатков для фактора х3
Как видно на рисунке отклонения не лежат внутри полуполосы постоянной ширины, это говорит, о зависимости дисперсионных остатков от величины х3 и о их непостоянстве, т.е. о наличии гетероскедастичности.
Так же как видно по рисунку 3.3 отклонения не лежат внутри полуполосы постоянной ширины, следовательно это говорит о зависимости дисперсионных остатков от величины x2 и о их непостоянстве, т.е о наличии гетероскедастичности.
Тест Голфелда-Квандта
- Все n наблюдений упорядочиваются по величине X2 и X3.
Таблица 3.1 – Упорядоченные значения по фактору х2
№п/п |
||
1 |
2 |
0,4 |
2 |
0,7 |
0,4 |
3 |
2,2 |
0,5 |
4 |
2,4 |
0,9 |
5 |
3,3 |
1,3 |
6 |
2,9 |
1,6 |
7 |
2,3 |
1,6 |
8 |
2,5 |
1,9 |
9 |
2,9 |
2,2 |
10 |
2,9 |
2,4 |
11 |
3,6 |
3,2 |
12 |
3,5 |
3,3 |
13 |
2 |
3,4 |
14 |
3 |
3,5 |
15 |
3,4 |
3,6 |
16 |
3,5 |
3,7 |
17 |
3,3 |
3,8 |
18 |
2,7 |
4,2 |
19 |
2,3 |
5,1 |
20 |
2,5 |
5,3 |
21 |
3,5 |
5,3 |
22 |
3,2 |
5,6 |
23 |
4,2 |
6,1 |
24 |
8,5 |
16,8 |
25 |
5,7 |
27,5 |
Таблица 3.2 – Упорядоченные значения по фактору х3
№п/п |
у |
Х3 |
1 |
2 |
1,6 |
2 |
2,2 |
8,9 |
3 |
2,3 |
9,2 |
4 |
2,9 |
10,3 |
5 |
2,4 |
12,9 |
6 |
3,5 |
16,4 |
7 |
2,5 |
16,5 |
8 |
3,3 |
19,3 |
9 |
3,5 |
22,8 |
10 |
3,5 |
23,8 |
11 |
3,3 |
24,9 |
12 |
3,6 |
25,2 |
13 |
2,9 |
27,2 |
14 |
2,3 |
31,1 |
15 |
3,2 |
32,9 |
16 |
2,5 |
36,9 |
17 |
2,9 |
37,2 |
18 |
2 |
40,4 |
19 |
4,2 |
40,8 |
20 |
0,7 |
50,4 |
21 |
2,7 |
53,8 |
22 |
3,4 |
54,6 |
23 |
3 |
81,5 |
24 |
5,7 |
133,5 |
25 |
8,5 |
286,5 |
- Исключим С центральных наблюдений, разобьем совокупность на две части: а) со значениями x ниже центральных; б) со значениями x выше центральных.
Пусть С=5, это наблюдения с порядковыми номерами 11-15.
- Оцениваются отдельные регрессии для первой подвыборки (10 первых наблюдений) и для третьей подвыборки (10 последних наблюдений). Если предположение о пропорциональности дисперсий отклонений значениям X верно, то дисперсия регрессии по первой подвыборке (сумма квадратов отклонений ) будет существенно меньше дисперсии регрессии по третьей подвыборке (суммы квадратов отклонений ).
- По каждой части находим уравнение регрессии (рисунок 3.5)
Рисунок 3.5 – Вывод итогов для подвыборок для фактора х2
5) Для сравнения соответствующих дисперсий строится следующая F-статистика:
При сделанных предположениях относительно случайных отклонений построенная F-статистика имеет распределение Фишера с числами степеней свободы v1=v2=(n-C-2m)/2.
6) Если , то гипотеза об отсутствии гетероскедастичности отклоняется (- выбранный уровень значимости).
По проведенным расчетам мы получили, что следовательно в ряду остатков обнаружена гетероскедастичность.
Аналогично проводится анализ для фактора х3.
5) Для сравнения соответствующих дисперсий строится следующая F-статистика:
При сделанных предположениях относительно случайных отклонений построенная F-статистика имеет распределение Фишера с числами степеней свободы v1=v2=(n-C-2m)/2.
6) Если , то гипотеза об отсутствии гетероскедастичности отклоняется (- выбранный уровень значимости).
По проведенным расчетам мы получили, что следовательно в ряду остатков обнаружена гетероскедастичность.
Тест ранговой корреляции Спирмена
Значения хi и ui ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:
где di - разность между рангами хi и ui, i = 1, 2, ..., n;
n - число наблюдений.
Рассчитаем теоретические значения по уравнению регрессии и найдем остатки. Ранжируем совокупность по возрастанию (рисунок 3.6).
Рисунок 3.6 – Расчетная таблица для проведения теста Спирмена Х2
Рисунок 3.6 – Расчетная таблица для проведения теста Спирмена Х3
Тогда
Для х3:
Если коэффициент корреляции для генеральной совокупности равен нулю, то статистика
имеет распределение Стьюдента с числом степеней свободы v=n-2. Следовательно, если наблюдаемое значение t-статистики превышает табличное, то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляции , а следовательно, и об отсутствии гетероскедастичности.
В нашем примере статистика Стьюдента по х3 равна:
Для х2:
Табличное значение статистики Стьюдента составит t(0,05; 23)=2,0687.
Таким образом, мы получили, что расчетное значение по х3 больше табличного, следовательно, гипотеза об отсутствии гетероскедастичности не принимается, а по х2 меньше, сл-но, гипотеза об отсутствии гетероскедастичности принимается на уровне значимости 5%.
Тест Уайта (White test).
Тест Уайта позволяет оценить количественно зависимость дисперсии ошибок регрессии от значений фактора x, используя квадратичную функцию:
,
где - нормально распределенная ошибка.
Рисунок 3.7 – Вывод итогов вспомогательной регрессии теста Уайта
Проводится этот тест следующим образом:
- Получаем регрессионные остатки ui;
- Оцениваем вспомогательную регрессию;
Гипотеза об отсутствии гетероскедастичности принимается в случае незначимости регрессии в целом.
- В нашем примере вспомогательная регрессия принимает вид:
Уравнение статистически незначимо на уровне значимости . Следовательно, гипотеза об отсутствии гетероскедастичности принимается.
- По всем проведенным тестам можно сделать вывод о гомоскедастичности регрессионных остатков. В противном случае для устранения гетероскедастичности необходимо применить к исходным данным обобщенный метод наименьших квадратов в предположении, что .
Исходное уравнение преобразуем делением правой и левой частей на x2: . К нему применим МНК. Полученное уравнение имеет вид: . Получены новые оценки параметров линейного уравнения, в котором смягчена гетероскедастичность.
Задание 3
Метод рядов
Последовательно определяются знаки остатков .
Ряд определяется как непрерывная последовательность одинаковых знаков. Количество знаков в ряду называется длиной ряда.
Пусть n — объем выборки;
n1 — общее количество знаков «+» при n наблюдениях;
n2 — общее количество знаков «-» при n наблюдениях;
k — количество рядов.
Если при достаточно большом количестве наблюдений (n1>10, n2>10) количество рядов k лежит в пределах от k1 до k2:
то гипотеза об отсутствии автокорреляции не отклоняется.
Рисунок 3.9 – Расчет характеристик метода рядов
Найдя знаки отклонений теоретических уровней от фактических, мы получили, что в анализируемой выборке содержится 15 рядов, т.е. k=15 (рисунок 3.9). Общее количество знаков «+» n1=14, количество знаков «-» n2=11.
Подставим найденные значения в формулу, получим, что k1=7,8, k2=19,22. Следовательно, гипотеза об отсутствии автокорреляции не отклоняется.
Критерий Дарбина – Уотсона
Для проверки автокорреляции первого порядка необходимо рассчитать критерий Дарбина—Уотсона. Он определяется так:
Выдвигается гипотеза Н0 об отсутствии автокорреляции остатков. При сравнении расчетного значения статистики (DW<2) с dl и du возможны следующие варианты.
- Если DW< dl , то гипотеза Н0 отвергается
- Если DW > du, то гипотеза Н0 не отвергается.
- Если dl< DW< du, то нельзя сделать определенного вывода по имеющимся исходным данным (зона неопределенности).
При DW > 2, то с табличными значениями сравнивается величина (4-DW).
Рисунок 3.10 – Расчет критерия Дарбина – Уотсона
В результате проведенных расчетов получено значение критерия Дарбина - Уотсона DW=2,2032 (рисунок 3.10). Так как оно больше 2, то с критическими значением сравниваем величину 4-DW=1,8. Оно больше du следовательно мы не можем отвергнуть гипотезу Н0 – в ряду остатков отсутствует автокорреляция первого порядка.
Q-тест Льюинга – Бокса
Использование данного теста предполагает использование Q- статистики, значение которой определяется по формуле:
где - выборочные значения автокорреляционной функции;
- величина лага;
n – число наблюдений.
Q- статистика имеет - распределение с степенями свободы. Если Q - статистика меньше табличного , то гипотеза об отсутствии автокорреляции принимается.
Рассчитаем для нашей задачи Q- статистику. Для этого необходимо определить коэффициенты автокорреляции. Максимальная величина лага не должна превышать ¼ числа наблюдений, т.е. в рассматриваемом примере . Следовательно нужно определить автокорреляции до шестого порядка. Для этого используем функцию Excel сервис–анализ данных –корреляция (рисунок 3.11).
Рисунок 3.11 – Расчет Q-статистики Льюинга - Бокса
0,4819402 |
-0,3269635 |
Сервис-Анализ-Корреляция |
|
Столбец 1 |
Столбец 2 |
-0,4033333 |
0,4819402 |
|
Столбец 1 |
1 |
|
0,7818014 |
-0,4033333 |
|
Столбец 2 |
-0,11462 |
1 |
0,9497712 |
0,7818014 |
|
|
|
|
0,0952898 |
0,9497712 |
|
|
|
|
-0,767996 |
0,0952898 |
|
|
|
|
0,1083377 |
-0,767996 |
|
|
|
|
0,7419544 |
0,1083377 |
|
|
|
|
-0,1821729 |
0,7419544 |
|
|
|
|
0,4340453 |
-0,1821729 |
|
|
|
|
0,6744907 |
0,4340453 |
|
|
|
|
0,7066734 |
0,6744907 |
|
|
|
|
-0,6149217 |
0,7066734 |
|
|
|
|
-1,0085115 |
-0,6149217 |
|
|
|
|
0,009818 |
-1,0085115 |
|
|
|
|
0,1675191 |
0,009818 |
|
|
|
|
-0,3265588 |
0,1675191 |
|
|
|
|
-0,5732698 |
-0,3265588 |
|
|
|
|
0,7561635 |
-0,5732698 |
|
|
|
|
-2,191819 |
0,7561635 |
|
|
|
|
0,1708126 |
-2,191819 |
|
|
|
|
0,83 |
0,1708126 |
|
|
|
|
-0,0970661 |
0,83 |
|
|
|
|
-0,4160045 |
-0,0970661 |
|
|
|
|
Подставив полученное значение в формулу, получим:
.
Табличное значение .
Фактическое значение статистики меньше критического, следовательно, гипотеза принимается, т.е. в ряду остатков отсутствует автокорреляция.
Скачать: