Хохлов Ю.С. - ПМСА для эконома (1185346), страница 5
Текст из файла (страница 5)
(3.18)В качестве оценки дисперсии σ 2 предлагается следующее выражениеσˆ2 = S 2 =NN1 X1 Xe2j =[Yj − Ŷj ]2 .N − 2 j=1N − 2 j=137(3.19)3.3Свойства оценокВ данном разделе будет показано, что полученные вышеоценки обладают целым рядом хороших свойств.Определение 1 Оценка γ̂ некоторого параметра γ, построенная по наблюдениям {Yj } называется линейной,если она имеет видγ̂ =Xc j · Yj ,(3.20)jгде {cj } — некоторые константы.Предложение 1 Оценки МНК α̂ и β̂ параметров α и βявляются линейными и несмещёнными.Доказательство. Оценки α̂ и β̂ определяются по формулам (17) и (18).
Из их записи видно, что α̂ и β̂ являютсялинейными. ДалееM (β̂) = β +Xwj · M (εj ) = β,jт. е. это несмещённая оценка. Доказательство для α̂ аналогично (задача!).Предложение 2 Случайный вектор (α̂, β̂) имеет следующую матрицу ковариаций:σ2P(Xj − X̄)2ÃX 2 −X̄−X̄1!.(3.21)jДоказательство. Используя формулу (17), получаемD(β̂) =Xwj2 · σ 2 = Pjj38σ2.(Xj − X̄)2Аналогично, в силу (18)D(α̂) =Xµ 1¶2− wj · X̄Nj· σ2 =XX11=σ · −2·· X̄ ·wj + X̄ 2 ·wj2 =NNjj2P2=σ ·j(Xj − X̄)2 + N · X̄ 2N·2Pj(Xj − X̄)2=σ ·Pj1NPjXj2(Xj − X̄)2=X2.= σ2 · P(Xj − X̄)2jДалее,cov(α̂, β̂) =Pjwjh1Ni− wj · X̄ · σ 2 = σ 2 · X̄ ·Pjwj2 == −σ 2 · P(XX̄j −X̄)2 .jЗадача.
Доказать, что матрица ковариаций для вектора (α̂, β̂) вычисляется по следующей формуле:σ 2 · (X T X)−1 .(3.22)Предложение 3 Предположим, что выполнены условияX(Xj − X̄)2 → ∞,(3.23)jXjXj2 /[N ·X(Xj − X̄)2 ] → 0.(3.24)jТогда оценки α̂, β̂ параметров α, β являются состоятельными.39Доказательство. Выше было показано, что M (α̂) = α,M (β̂) = β. Из условий (23), (24) и предложения 2 следует,что D(α̂) → 0, D(β̂) → 0 при N → ∞. Далее, применяянеравенство Чебышева, получаем сходимость по вероятности, т. е. состоятельность оценок α̂, β̂.Определение 2 Оценка γ̂ параметра γ называется оптимальной в среднем квадратическом в некотором классе оценок Γ, если для любой другой оценки γ̃ ∈ Γ имеетместо неравенствоM (γ̂ − γ)2 ≤ M (γ̃ − γ)2 .(3.25)Теорема 1 (Гаусса-Маркова) Пусть выполнены условия1–5 основных ограничений.
Тогда оценки МНК α̂, β̂ являются оптимальными в среднем квадратическом в классевсех линейных несмещённых оценок параметров α, β.Доказательство. Линейность и несмещённость α̂ и β̂доказаны при доказательстве предложения 1. Докажем ихоптимальность. Мы приведём доказательство только дляβ̂. Для α̂ доказательство проводится аналогично (задача!).ПустьXβ̃ =c j · Yjjесть некоторая другая линейная несмещённая оценка дляβ. В силу несмещённостиM (β̃) =Xcj · M (Yj ) = α ·Xjcj + β ·Xjcj · Xj = βjдля любых значений α и β. Отсюда следуетXjcj = 0,Xj40cj · Xj = 1.(3.26)В частности, условия (26) выполнены для весов {wj }оценки β̂.
Далее,β̂ − β =β̃ − β̂ =Pw j · εj ,jPj(cj − wj ) · εj .Отсюда легко следует, чтоM [(β̃ − β̂)(β̂ − β)] = M=Pj2(cj − wj ) · wj · σ ="ÃPj(cj − wj )εj2P σ(Xk −X̄)2k·Pj!µPk¶#wk · εk5)=(26)(cj − wj )(Xj − X̄) = 0.Используя последний результат, мы получаемhiM [(β̃ − β)2 ] = M ((β̃ − β̂) + (β̂ − β))2 == M [(β̃ − β̂)2 ] + M [(β̂ − β)2 ] ≥ M [(β̂ − β)2 ],т.е. β̂ является оптимальной в среднем квадратическом.В заключение приведём следующий результат для оценки σc2 дисперсии σ 2 , доказательство которого будет получено позднее в более общей ситуации множественной линейной регерссии.Предложение 4 Пусть выполнены условия 1)–6) основных предположений. Тогда оценка σc2 для дисперсии σ 2ошибок εj является несмещённой и состоятельной.3.4Доверительные интервалы для параметровДля построения доверительных интервалов и проверки гипотез о параметрах недостаточно знать только первые и41вторые моменты для оценок.
Для вычисления вероятностей (доверительных уровней и уровней значимости) необходимо знать их распределение. Поэтому всюду далее мыпредполагаем, что выполнены не только свойства 1)–5) основных предположений, но и свойство 6).Предложение 5 Вектор оценок (α̂, β̂) параметров (α, β)имеет двумерное нормальное распределение со средним(α, β) и матрицей ковариацийσ2·P(Xj − X̄)2ÃX 2 −X̄−X̄1!.jДоказательство. Вектор наблюдаемых значений Y =(Y1 , . .
. , YN )T имеет многомерное нормальное распределение. Вектор (α̂, β̂) получен из Y линейным преобразованием и, следовательно, также имеет нормальное распределение. Утверждение о векторе средних и матрице ковариаций доказано в предложениях 1 и 2.Предложение 6 Векторы оценок (α̂, β̂) и остатков e некоррелированы (независимы). В частности, (α̂, β̂) и S 2 независимы.Доказательство.
Так как векторы (α̂, β̂) и e имеют нормальное распределение, то для доказательства их независимости достаточно показать, что их компоненты некоррелированы. Покажем это на примере β̂ и ek . Выше было42показано, что β̂ = β +Pjwj · εj . Далее,ek = Yk − Ŷk = α + β · Xk + εk − α̂ − β̂ · Xk == α + β · Xk + εk − Ȳ + β̂ · X̄ − β̂ · Xk == α + β · Xk + εk − α − β · X̄ − ε̄ + β̂ · X̄ − β̂ · Xk == (βµ− β̂)(X¶k − X̄) + (εk − ε̄) =P=−iwi εi (Xk − X̄) + (εk − ε̄).Отсюда следует, что M (ek ) = 0 иcov(β̂, ek ) = −+PPP i jj=−wi wj · cov(εi , εj ) · (Xk − X̄)wj · cov(εj , εk − ε̄) =Pjwj2 · σ 2 · (Xk − X̄) −1N= −wk · σ 2 − 0 + wk · σ 2 = 0.Pjwj · σ 2 =Следующий результат доказывается несколько сложнее.
Так как его доказательство в двумерном случае никакне упрощается, то мы рассмотрим его позднее для случаяобщей многомерной регрессии.Предложение 7 Случайная величина (N − 2)S 2 /σ 2 =P 2 2ej /σ имеет χ2 -распределение с (N − 2) степенями своjбоды.Теперь мы имеем все необходимое для построения доверительных интервалов для параметров α и β. Оценка β̂имеет нормальноераспределениесо средним β и дисперÃ!сией σ 2Pj(Xj − X̄)2−1.
В сочетании с предложениями 5и 6 это даёт нам то, что случайная величинаβ̂ − ββ̂ − β sX·(Xj − X̄)2 /(S/σ) =Tβ =σSβj43имеет распределение Стьюдента с (N − 2) степенями свободы. ЗдесьSβ2 = PjS21 S2=· 2.(Xj − X̄)2N SX(3.27)Аналогично можно показать, что случайная величинаα̂ − α,Sαгде1 S2· 2 · X 2,(3.28)N SXимеет распределение Стьюдента с (N − 2) степенями свободы.Величины Sβ и Sα называются стандартными ошибками (SE) оценки параметров β и α соответственно.Действуя далее стандартным образом, мы получаем следующий результат.Sα2 =Теорема 2 Доверительные интервалы уровня γ для параметров α и β имеют видα̂ − tN −2 (γ) · Sα < α < α̂ + tN −2 (γ) · Sα ,(3.29)β̂ − tN −2 (γ) · Sβ < β < β̂ + tN −2 (γ) · Sβ ,(3.30)где константы tN −2 (γ) находятся из таблиц распределения Стьюдента с (N − 2) степенями свободы.3.5Проверка гипотез о параметрахПолученные выше результаты позволяют нам построитькритерии для проверки гипотез о параметрах α и β. Типичная гипотеза, с которой мы встречаемся, имеет видH0 :β = β044против альтернативыH1 :β 6= β0 .Критерий для проверки такой гипотезы строится на основе статистикиβ̂ − β0Tβ =,Sβкоторая при верной гипотезе H0 имеет распределение Стьюдента с (N − 2) степенями свободы.
Критическая зона соответствующего критерия имеет вид:|Tβ | > tN −2 (α),(3.31)где константа tN −2 (α) находится из таблиц распределенияСтьюдента по заданному уровню значимости α.Критерий для проверки гипотез о параметре α строитсяаналогично.Наиболее часто мы встречаемся с гипотезой H0 : β =0. Это означает, что мы проверяем гипотезу о том, влияетли фактор X на изучаемую величину Y . Поэтому в этомслучае говорят, что мы проверяем значимость влиянияфактора X на величину Y .
Если мы не подтвердили значимого влияния фактора X, то его можно исключить измодели.3.6Проверка адекватности моделиПосле того, как мы построили нашу линейную модель,необходимо убедиться в том, насколько хорошо она описывает поведение изучаемой нами величины Y . В частности,насколько хорошо мы объясняем изменение Y с помощьюлинейного влияния X.45Для этого рассмотрим следующее разложение:X(Yj − Ȳ )2 =jX(Ŷj − Ȳ )2 +jX(Yj − Ŷj )2 .(3.32)jЗадача. Используя факт о том, что вектор Ŷ ортого~нален к пространству L порожденному векторами 1 и X,доказать соотношение (32).Введём следующие обозначения:T SS =X(Yj − Ȳ )2j— полная сумма квадратов (total sum of squares),RSS =X(Ŷj − Ȳ )2j— объяснённая сумма квадратов (regression sum of squares),ESS =X(Yj − Ŷj )2 =jXe2jj— остаточная сумма квадратов (error sum of squares).Интуитивно понятно, что модель следует признать хорошей, если величинаR2 =RSST SS(3.33)близка к 1.Определение 3 Величина R2 называется коэффициентом детерминации.Она показывает долю объяснённой дисперсии величиныY за счёт линейного влияния фактора X.46Задача.
Показать, что R совпадает с выборочным коэффициентом корреляции, т. е.R=SXY.SX · SYЧем ближе R2 к 1, тем лучше модель. Но мы уже знаемиз курса математической статистики, что такие понятиякак близко или далеко, много или мало имеют относительный смысл, только по сравнению с чем-то.
Величина ESSоценивает уровень случайных ошибок. Модель будет хороша, если то, что она объясняет, достаточно велико нафоне случайных ошибок.Рассмотрим вновь гипотезуH0 :β=0H1 :β 6= 0.против альтернативыТеперь эта гипотеза означает, что модель не объясняетповедения Y на фоне влияния других неучтённых факторов.Предложение 8 Если верна гипотеза H0 (и конечно основные предположения 1)–6)), то1. случайные величины RSS и ESS независимы;2.















