С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 33
Текст из файла (страница 33)
Мы придерживаемся варианта, принятого врусском переводе книги Себера [10]. Как сообщил Я.Ю.Никитин (private communication), личновстречавшийся с Дёрбином, именно такое произношение его фамилии является правильным.Написание "Ватсон"соответствует традициям, преобладающим в математической литературе нарусском языке.Анализ регрессионных предположений195— состоятельные оценки теоретического коэффициента корреляции ρ1 , аDW — состоятельная оценка величины 2(1 − ρ1 ).
(Заинтересовавшийсячитатель в качестве упражнения мог бы, предполагая состоятельностьρ̂1 , найти расхождение между DW и 2(1 − ρ̂1 ) и проверить, что оностремится к нулю при T → ∞.)Дёрбин и Ватсон нашли определенные преимущества статистики DW ,оказавшиеся весьма удобными для практических расчетов. Опишемсхематично их результаты для задачи проверки основной гипотезыH0 : ρ1 = 0 против односторонней альтернативы H1 : ρ1 >0 (альтернатива ρ1 < 0 рассматривается совершенно аналогично,"зеркальным"образом). Прежде всего, они установили, что, несмотря нато, что распределение случайной величины DW при основной гипотезеH0 зависит от регрессионной матрицы X, существуют случайныевеличины D− и D+ , имеющие распределения, уже не зависящие отX, ограничивающие DW с двух сторон: D− ≤ DW ≤ D+ .
Этираспределения затабулированы, а процентные точки их традиционнообозначаются dL и dU (L — lower, U — upper). В терминах исходнойстатистики DW , предложенной Дёрбином и Ватсоном, критерий можноописать следующим образом. По уровню значимости ε определяютсякритические значения dL и dU , 0 < dL < dU < 2, такие, чтоH0 отвергается, если DW < dL , и принимается, если DW > dU .Промежуток hdL , dU i иногда называют зоной неопределенности. Вэтом случае Дёрбин и Ватсон предложили приближенные процедуры,которые "как будто весьма хорошо работают на практике"([10], с.165).Одна из этих процедур основана на наблюдении, что статистикаDW/4 хорошо аппроксимируется бета-распределением с теми жематематическим ожиданием и дисперсией (более подробно см.
[10, 18]). При двусторонней альтернативе H1 : ρ1 6= 0 можно использовать"симметризованную"процедуру, выбрав критические значения dL , dU (исимметричные им 4 − dU , 4 − dL ) по уровню значимости ε/2.7.6Неоднородные пространственные данныеКак уже отмечалось в параграфе 4, пространственные данные (мывозвращаемся к обозначению i для номера наблюдения) чаще всегоможно считать некоррелированными. Неоднородность их при этом втеории второго порядка сводится к зависимости дисперсии ошибки отномера наблюдения: E(ε2i ) = σi2 .
Такая неоднородность в учебниках196Глава 7по эконометрике часто называется трудновыговариваемым словом"гетероскедастичность"(heteroscedasticity),впротивоположностьоднородным, "гомоскедастичным"данным. Термин этот восходитк XIX веку, когда "скедастической линией"называли графикусловной дисперсии как функции условия7 . В определенныхотношениях эта терминология является анахронизмом, однако широкораспространенным.В общем случае дисперсий σi2 слишком много, чтобы их можнобыло содержательно оценивать. Поэтому используются модельныепредставления с малым числом параметров. Такие модельныепредставления должны удовлетворять двум естественным требованиям— чтобы они имели содержательное (экономическое) объяснение и чтобысоответствующие параметры можно было удобным образом оценивать.Мы рассмотрим сначала наиболее простую и наиболее известнуюсхему такого рода, позволяющую без больших усилий пользоватьсятехникой наименьших квадратов.
Именно, предположим, что изменениедисперсии σi2 от наблюдения к наблюдению объясняется влиянием на неерегрессоров. Естественная форма такого влиянияσi2 = σ 2 g(Xi· ),(7.11)где σ 2 — единственный параметр этого модельного представления,g — строго положительная функция, не содержащая каких-либодополнительных свободных параметров, а Xi· = (Xi1 , · · · , Xik ) — iя строка регрессионной матрицы X (набор (Xi1 , · · · , Xik ) значенийрегрессоров в i-м наблюдении). В стандартных учебниках (см.,например, [19, 9]) рассматривается частный случай (7.11), отвечающийквадратичной функции g (точнее, g(x) = x2 , в качестве аргументаg подставляется один из регрессоров, например, Xi2 ), однако общеепредставление (7.11) исследовать ничем не сложнее.
Более того,можно даже допустить зависимость g от каких-нибудь дополнительныхобъясняющих величин Zi· , не выражающихся через Xi (впрочем, вомногих случаях проще, видимо, включить эти дополнительные факторыв список регрессоров).Поскольку матрица V ковариаций ошибок предположена известной сточностью до скалярного коэффициента σ 2 (V = σ 2 C, C — диагональнаяматрица), мы можем воспользоваться замечанием, сделанным в конце7Это обстоятельствогетероскедастичность".настолькозабылось,чтодажепоявилсятермин"условнаяАнализ регрессионных предположений197параграфа 4, и сразу написать (эффективные и несмещенные) оценкиобобщенного метода наименьших квадратовβ̂GLS = (X 0 C −1 X)−1 X 0 C −1 Y.В нашем контексте (корреляция ошибок отсутствует) соответствующаяпроцедура из параграфа 4 допускает очень простое толкование.Представление данныхYi = β1 Xi1 + · · · + βk Xik + εiмы преобразуем к видуpYig(Xi· )Xi1= β1 pg(Xi· )+ · · · + βk pНовая ошибкаε∗i = pXikg(Xi· )+pεig(Xi· ).εig(Xi· )имеет теперь постоянную дисперсию σ 2 ,Xij∗ = pXijg(Xi· )рассматриваются как значения новых регрессоров, аYi∗ = pYig(Xi· )— как значения новой объясняемой величины.Чтобы оценить оставшийся параметр σ 2 — дисперсию ошибкипреобразованного регрессионного уравнения, можно использоватьобычную формулу0ε̂∗ ε̂∗2s =.N −kКак и в гл.6, эта оценка — несмещенная.Рассмотрим теперь одну из реализаций более сложной схемы.Предположим, что дисперсии ошибок линейно выражаются черезнекоторые функции от регрессоров (а также, возможно, и еще некоторыхнаблюдаемых величин Zi· ):σi2 = θ1 g1 (Xi· ) + · · · + θr gr (Xi· ).(7.12)198Глава 7Можно предложить следующую последовательность действий.
Напервом этапе основное регрессионное уравнение оценивается обычнымметодом наименьших квадратов (напомним, что OLS-оценки остаютсяинтуитивно приемлемыми, хотя и не обязательно эффективными, и втеперешней "гетероскедастичной"ситуации). Остатки ε̂i этой регрессиииспользуются на втором этапе для оценивания коэффициентов θ1 , · · · , θr .Для этого формируется вспомогательная регрессия видаε̂2i = θ1 g1 (Xi· ) + · · · + θr gr (Xi· ) + νi .(7.13)Мы при этом исходим из ощущения сходства между интересующей насдисперсией σi2 и квадратом остатка — обе эти величины отражают,хотя и по-разному, степень разброса или вариативности в рамках нашейосновной регрессионной модели.Во вспомогательной регрессии g1 (Xi· ), · · · , gr (Xi· ) выступают вкачестве объясняющих величин (вспомогательных регрессоров), а ε̂2i —в качестве вспомогательной объясняемой величины.Оценки θ̂1 , · · · , θ̂r обычного метода наименьших квадратов даютвозможность предложить и оценки дисперсий (прогнозные значения, fitted values, для вспомогательной регрессии):σ̂i2 = θ̂1 g1 (Xi· ) + · · · + θ̂r gr (Xi· ).На третьем этапе мы используем эти оценки для нахождения оценок β̂GLSобобщенного метода наименьших квадратов.
Можно надеяться, что этиоценки будут более эффективными, чем OLS-оценки.При желании мы можем наш процесс продолжить — образовать новыеостатки, с их помощью заново оценить коэффициенты θ1 , · · · , θr и т.д.В некоторых частных случаях (один из них разбирается ниже)изложенная процедура дает состоятельные, хотя и смещенные оценкидисперсий.Иллюстрацией данной процедуры является случай, когда дисперсияошибки принимает только два значения (оба они, разумеется, считаютсянеизвестными).Итак, предположим, что σi2 = A при i = 1, · · · , N1 , σi2 = B приi = N1 + 1, · · · , N1 + N2 = N . Введем две индикаторные величины, I1 иI2 , выделяющие эти значения:I1i = 1,i ≤ N1 ,I1i = 0,i > N1 ,I2 = 1 − I1 .Анализ регрессионных предположений199С их помощью дисперсии σi2 представляются в видеσi2 = AI1i + BI2i .Отметим, что целесообразно ввести эти индикаторы в список регрессоровосновной модели (вместо константы, если она там первоначальноприсутствовала). Из формул параграфа 6.4 легко получаемN11 XÂ =ε̂2i ,N1 i=1N1 X 2B̂ =ε̂i .N2i=N1 +1Мы не будем обсуждать дальнейшие свойства этих оценок.Замечание.
Небольшие размышления подсказывают, что ипредставление (7.12) можно дальше обобщать, не меняя, по существу,рецептуру оценивания. Предположим, чтоσi2 = h(θ1 g1 (Xi· , Zi· ) + · · · + θr gr (Xi· , Zi· ), Xi· , Zi· ),(7.14)где h — строго положительная функция, обратимая по первомуаргументу. Пусть h∗ — обратная (по первому аргументу) к h, так чтоh∗ (σi2 , Xi· , Zi· ) = θ1 g1 (Xi· , Zi· ) + · · · + θr gr (Xi· , Zi· ).Тогда, аналогично вспомогательной регрессии (7.13), можно рассмотретьрегрессию h∗ (ε̂2i , Xi· , Zi· ) на набор регрессоров g1 (Xi· , Zi· ), · · · , gr (Xi· , Zi· )и получить оценки θ̂1 , · · · , θ̂r коэффициентов θ1 , · · · , θr .
После этогодисперсии σi2 оцениваются естественным образомσ̂i2 = h(θ̂1 g1 (Xi· , Zi· ) + · · · + θ̂r gr (Xi· , Zi· ), Xi· , Zi· )и т.д. В литературе (см., например, [25]) обсуждается, в частности,такназываемая"мультипликативнаяформа"неоднородности,укладывающаяся в эту схему:σi2 = exp(θ1 g1 + · · · + θr gr ).Обсудим теперь проблему выбора между двумя регрессионнымимоделями — однородной и неоднородной8 .
Большинство тестов,используемых при этом, проверяют основную гипотезу однородностипротив альтернативы, предполагающей ту или иную конкретную формунеоднородности.8Право же, выражение "модель с гетероскедастичностью", которое можно встретить вучебниках, выглядит менее привлекательным.200Глава 7Один из наиболее известных приемов, тест Голдфельда-Квандта(Goldfeld-Quandt test), используется в случае неоднородности вида(7.11):σi2 = σ 2 g(Xi· , Zi· ).Наблюдения разбиваются на три группы — с "малыми", "средними"и"большими"значениями g(Xi· , Zi· ). Формально средняя группа необязательна — она служит только для того, чтобы более резкоотделить "большие"значения от "малых".