Гетероскедастичность
Лекция 11. Тема: Гетероскедастичность.
1. Сущность гетероскедастичности.
2. Способы корректировки гетероскедастичности.
Вопрос 1. Сущность гетероскедастичности.
Одной из предпосылок регрессионного анализа является предположение о постоянстве дисперсии случайного члена для всех наблюдений. Это значит, что для каждого значения объясняющей переменной случайные члены имеют одинаковые дисперсии. Если это условие не соблюдается, то имеет место гетероскедастичность.
В ряде случаев, зная характер данных, появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации модели регрессии. Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии.
Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей, так как для знания дисперсий отклонений необходимо знать распределение уi, соответствующее выбранному значению хi. На практике часто для каждого конкретного значения xi определяется единственное значение уi что не позволяет оценить дисперсию σy.
Естественно, не существует какого-либо однозначного метода определения гетероскедастичности. Однако к настоящему времени для такой проверки разработано довольно большое число тестов и критериев для них.
Сегодня предложено большое количество тестов и способов для обнаружения гетероскедастичности, в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющей переменной (или объясняющих переменных). Это, например, тест ранговой корреляции Спирмена, тест Парка и т.д.
Рекомендуемые материалы
Вопрос 2. Способы корректировки гетероскедастичности.
Тест ранговой корреляции Спирмена.
При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений х. Поэтому для регрессии, построенной по МНК, абсолютные величины отклонений ei и значения xi будут коррелированы.
Значения xi и ei ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:
(1)
где di – разность между рангами xi и еi, i = 1,2, ..., n; n – число наблюдений.
Если коэффициент корреляции rх,е для генеральной совокупности равен нулю, то статистика
(2)
имеет распределение Стьюдента с числом степеней свободы v = n - 2.
Далее, если наблюдаемое значение t-статистики превышает табличное, то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляции rх,е, а, следовательно, и об отсутствии гетероскедастичности.
Если в модели регрессии больше чем одна объясняющая переменная, то проверка гипотезы может осуществляться с помощью t-статистики для каждой из них отдельно.
Тест Парка
Парк предложил критерий определения гетероскедастичности, дополняющий графический метод некоторыми формальными зависимостями.
Предполагается, что дисперсия
(3)
является функцией i-o значения xi объясняющей переменной. Парк предложил следующую функциональную зависимость:
(4)
Прологарифмировав, получим:
(5)
Так как дисперсии обычно неизвестны, то их заменяют оценками квадратов отклонений
.
Критерий Парка включает следующие этапы:
1. Строится уравнение регрессии уi =b0 +b1·xi +ei.
2. Для каждого наблюдения определяются .
3. Строится регрессия , где
.
4. Проверяется статистическая значимость коэффициента β уравнения на основе t-статистики.
Если коэффициент β статистически значим, то это означает наличие связи между ln(ei2) и ln(xi), то есть гетероскедастичности в статистических данных.
Методы смягчения гетероскедастичности.
Обратите внимание на лекцию "1 Групповые конфликты".
При установлении гетероскедастичности возникает необходимость преобразования модели. Вид преобразования зависит от того, известны или нет дисперсии отклонений εi.
Будем считать, что модель гетероскедастична, то есть дисперсии отклонений (εi) не коррелированны.
При известных для каждого наблюдения значениях применяют метод взвешенных наименьших квадратов (ВНК).
1. Значения каждой пары наблюдений делятся на известную величину σi. Тем самым, наблюдениям с наименьшими дисперсиями придаются наибольшие веса, а с максимальными дисперсиями – наименьшие.
2. По МНК для преобразованных значений строится уравнение регрессии без свободного члена.
Для применения ВНК необходимо знать фактические значения дисперсий отклонений. На практике такие значения известны крайне редко. Следовательно, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях
. Например, может оказаться целесообразным предположить, что дисперсии
отклонений εi пропорциональны значениям хi или значениям хi2.