С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 25
Текст из файла (страница 25)
Действительно, попредположению, ранг матрицы X равен k. Из свойств ранга матрицы00следует, что тогда и ранг X X равен k. Поскольку X X — квадратнаяматрица порядка k, заключаем, что она обратима.Окончательно, получаем выражение для оценок метода наименьшихквадратов00β̂ = (X X)−1 X Y.(6.7)Важно подчеркнуть, что вектор оценок β̂ получается линейнымпреобразованием случайного вектора Y .Образованный с помощью этих оценок вектор Ŷ = X β̂ можно назватьвектором прогнозных (предсказываемых моделью) значений величины Y(английский термин — predicted values или fitted values).Обозначим через P оператор ортогонального проектированияна подпространство регрессоров L(X1 , . .
. , Xk ) (и соответствующуюматрицу). Из формулы (6.7) следует, что00P = X(X X)−1 X .(6.8)Эта матрица, а также матрица P ⊥ = 1 − P , соответствующаяпроектированию на подпространство L⊥ (X1 , . . . , Xk ) векторов,ортогональных регрессорам, будут часто использоваться в последующихобсуждениях. Выпишем некоторые их свойства, легко вытекающие какиз геометрического смысла проекций, так и из формального определения(6.8).
Проверка этих свойств оставляется читателю.00P =P ,P ⊥ = (P ⊥ ) ,(симметричность)P = P 2,P ⊥ = (P ⊥ )2 ,(идемпотентность)P P ⊥ = P ⊥ P = 0,P + P ⊥ = 1,150Глава 6P ⊥ Xj = 0,P Xj = Xj ,P ⊥ X = 0.P X = X,Векторε̂ = Y − Ŷ = P ⊥ Yназывается вектором остатков (residuals). Для него можно записатьтакже другое выражениеε̂ = P ⊥ (Xβ + ε) = P ⊥ ε(P ⊥ X = 0, как указано ранее).
Остатки можно интерпретировать как"оцененные ошибки". Очевидно, P ε̂ = 0.Подставляя в формулу (6.7) спецификацию (6.3), получаем еще однуполезную формулу0000β̂ = (X X)−1 X (Xβ + ε) = β + (X X)−1 X ε.(6.9)В то время как формула (6.7) содержит лишь наблюдаемые значенияи потому может использоваться для расчетов, формула (6.9) играетважную теоретическую роль (см. дальше параграф 6.5).6.4Частный случай — парная регрессияПолезно выписать явно два простейших случая формулы (6.7).Случай 1 (k = 1). Очевидно, имеем0XX=NX02Xi1,XY =i=1NXXi1 Yi ,i=1PNβ̂1 = Pi=1NXi1 Yi=X1 Y2X12i=1 Xi1Если дополнительно предположить, что X1константу), получаемβ̂1 = Ȳ ,.= 1→ (регрессия натак что прогнозные значения Ŷi равны Ȳ при всех i, что можно записатьтакже в виде Ŷ = Ȳ → .Случай 2 (k = 2).
Аналогично предыдущему случаю получаемÃ!Ã!2XXXXY1 211 01 01XX=,XY =,2NNXYX1 X2X22Линейная регрессионная модельβ̂1 =β̂2 =151X22 · X1 Y − X1 X2 · X2 YX12·X22− X1 X22X12 · X2 Y − X1 X2 · X1 YX12 · X22 − X1 X22,.При дополнительном предположении X1 = 1→ (модель парнойрегрессии) формулы можно несколько упростить:β̂1 =X22 · Ȳ − X̄2 · X2 YX22 − X̄22β̂2 =X2 Y − X̄2 ȲX22 − X̄22= Ȳ − X̄2 β̂2 ,=x2 yx22.(6.10)Для вектора Ŷ прогнозных значений из формул (6.10) получаемŶ = Ȳ → +x2 yx22(X2 − X̄2→ ) = Ȳ → +x2 yx22x2 .(6.11)Очевидно, x̄2 = 0, поэтому, усредняя (6.11), находимŶ = Ȳ .Перенося теперь в (6.11) вектор Ȳ → в левую часть, находимŷ =x2 yx22x2(6.110 )— прогнозный вектор в отклонениях.Сопоставляя между собой полученные формулы, можно обнаружитьеще и такую двухступенчатую процедуру построения оценкикоэффициента парной регрессии β̂2 (см.
(6.10)): сначала строятсярегрессии величин Y и X2 на константу и находятся векторы остатков0y и x2 . Затем строится регрессия величины y на x2 — формула (6.11 ).Сходная процедура для линейной модели с произвольным числомрегрессоров будет обсуждаться в параграфе 6.9.Упражнение. Показать, что регрессия с двумя произвольнымирегрессорами может быть получена аналогичной двухступенчатойпроцедурой.1526.5Глава 6Свойства оценок наименьших квадратовВ этом параграфе рассматриваются статистические свойства оценокМНК, поэтому предположение о том, что регрессоры неслучайны, будетиграть важную роль (до сих пор оно не использовалось).Первое свойство — несмещенность вектора оценок β̂.
Оно является,как сейчас будет видно, следствием линейности по Y . Действительно, спомощью формулы (6.9) получаем00Eβ̂ = β + E(X X)−1 X ε00= β + (X X)−1 X Eε = β.Здесь мы в чистом виде пользуемся линейностью — постоянныемножители, в том числе и матричные, выносятся за знакматематического ожидания. Сходное вычисление дает нам матрицуковариаций вектора β̂:000000cov(β̂) = E[(β̂ − β)(β̂ − β) ] = E[(X X)−1 X ε · ((X X)−1 X ε) ]00000000= E[(X X)−1 X εε X(X X)−1 ] = (X X)−1 X E(εε )X(X X)−10000= σ 2 (X X)−1 X · X(X X)−1 = σ 2 (X X)−1 .Нелишним будет подчеркнуть, что в матричных вычислениях порядоксомножителей должен выдерживаться (левый множитель — налево,правый — направо).Теорема Гаусса-Маркова.
Оценка β̂ метода наименьших квадратовявляется эффективной в классе линейных несмещенных оценок.Уточним сначала, что понимается под эффективностью векторнойнесмещенной оценки. Пусть β̃ — другая линейная несмещенная оценкавектора β. Тогда эффективность означает, что матрицаcov(β̃) − cov(β̂)неотрицательно определена. Это означает, что для любого вектора γ ∈Rk величина0γ [cov(β̃) − cov(β̂)]γ00(= V(γ β̃) − V(γ β̂))неотрицательна.Доказательство теоремы. Запишем линейную оценку β̃ в видеβ̃ = CY.Линейная регрессионная модель153Тогда условие несмещенности Eβ̃ = β записывается в виде CXβ = β,причем последнее равенство должно выполняться тождественно по β(ведь β — это неизвестный параметр). Таким образом, матрица C должнаудовлетворять условию CX = 1. Представим ее в виде00C = (X X)−1 X + D.Через вспомогательную матрицу D условие несмещенности записываетсякак DX = 0.
Матрица ковариаций cov(β̃) выражается формулой0cov(β̃) = E[(β̃ − β)(β̃ − β) ]0= E[Cε(Cε) ] = σ 2 CC00000000 0= σ 2 [(X X)−1 + DD + (X X)−1 X D + D((X X)−1 X ) ]00= σ 2 [(X X)−1 + DD ].Здесь мы воспользовались условием несмещенности DX = 0. Остается0проверить неотрицательную определенность матрицы DD :0000γ DD0 γ = (D γ) (D γ) ≥ 00как квадрат длины вектора D γ.
Теорема доказана.Из теоремы Гаусса-Маркова вытекает, в частности, что V(β̃j ) ≥V(β̂j ), так что скалярные оценки β̂j эффективны в аналогичном класселинейных несмещенных оценок.Повторяя почти дословно доказательство теоремы Гаусса-Маркова,можно доказать, что для любой матрицы Γ, имеющей k строк,эффективной линейной несмещенной оценкой вектора Γβ являетсяоценка Γβ̂. Это утверждение оставляется читателю для самостоятельнойпроверки.В частности, линейные комбинации оценок МНК эффективнооценивают аналогичные линейные комбинации коэффициентоврегрессии.6.6Оценивание дисперсии ошибокДисперсия σ 2 является квадратичной характеристикой ошибок —моментом второго порядка, поэтому оценивать ее, видимо, следуеттакже квадратичным образом. При этом естественным эмпирическим154Глава 6объектом, ассоциирующимся с ошибками, является вектор остатков ε̂ =P ⊥ ε.
Очевидно, Eε̂ = 0. Найдем матрицу ковариаций00cov(ε̂) = E[P ⊥ ε(P ⊥ ε) ] = P ⊥ E(εε )P ⊥ = σ 2 P ⊥ .Рассмотрим теперь сумму квадратов00ε̂ ε̂ = tr(ε̂ε̂ ).Соответствующее математическое ожидание равно000E(ε̂ ε̂) = Etr(ε̂ε̂ ) = trE(ε̂ε̂ ) = σ 2 trP ⊥ .Остается вспомнить, что P ⊥ — ортогональный проектор наподпространство L⊥ (X1 , .
. . , Xk ), имеющее размерность N − k,дополнительную к размерности подпространства регрессоров, и егослед (как и любого проектора) равен этой размерности.Альтернативное доказательство равенства trP ⊥ = N − k можнопровести прямым вычислением0000trP ⊥ = tr[1N − X(X X)−1 X ] = N − tr[X(X X)−1 X ]00= N − tr[(X X)−1 X X] = N − tr1k = N − k(мы пользуемся тем, что при циклической перестановке сомножителейслед произведения матриц не меняется).Из проведенных вычислений следует, что статистика0ε̂ ε̂s2 =N −k(6.12)является несмещенной оценкой дисперсии σ 2 . Этот результатэвристически объясняется тем, что после оценивания k коэффициентоврегрессии в эмпирических данных остается N − k неиспользованныхстепеней свободы.В модели со слабым белым шумом, оперирующей только с моментамипервого и второго порядка, обсуждать эффективность оценки s2(в каком-либо подходящем классе) невозможно, т. к.
отсутствуютпредположения о старших моментах. Единственное, что остается ещеполучить в рамках этого подхода — это матрицу перекрестныхковариаций векторов β̂ и ε̂:0000cov(β̂, ε̂) = E((β̂ − β)ε̂ ) = (X X)−1 X E(εε )P ⊥20−10⊥= σ (X X) X P = 0(6.13)Линейная регрессионная модель155(опять используем равенство P ⊥ X = 0 из параграфа 6.3).Оценка s2 позволяет оценить и матрицу ковариаций вектора β̂. Ввыражении0cov(β̂) = σ 2 (X X)−1надо лишь заменить σ 2 на s2 :0ˆ β̂) = s2 (X X)−1 .cov(Эта матричная оценка, очевидно, оказывается несмещенной.6.7МодельсошибкаминормальнораспределеннымиПредположение о нормальности распределения вектора ошибокпозволяет уточнить и усилить ряд свойств, выведенных в предыдущихпараграфах.