В.П. Носко - Эконометрика для начинающих (1160539), страница 13
Текст из файла (страница 13)
Но площадь правойзаштрихованной области равна 1 − (1 − α2 ) = α2 ; следовательно,такова же и площадь левой заштрихованной области. Это, вчастности, означает, что вероятность того, что случайнаявеличина Z примет значение, не превышающее − z1− α , равна2α2, так что− z α = zα .1−22Часть площади под кривой стандартной нормальнойплотности, лежащая в пределах выделенного интервала,меньше единицы на сумму площадей заштрихованныхобластей («хвостов»), т. е.
равна1 − ( α2 + α2 ) = 1 − α .Эта величина равна вероятности того, что случайнаявеличинаZ,имеющаястандартноенормальное6распределение, примет значение в пределах указанногоинтервала2:{}P − z1− α ≤ Z ≤ z1− α = 1 − α .22Но ранее мы установили, что стандартное нормальноераспределение имеет случайная величинаθ$ j − θ j.D θ$ j( )Поэтому для этой случайной величины справедливосоотношениеθ$ j − θ jP − z1− α ≤≤ z1− α = 1 − α ,22D θ$ jтак что с вероятностью, равной 1 − α , выполняетсядвойное неравенствоθ$ j − θ j− z1− α ≤≤ z1− α ,22D θ$ j( )( )т. е.θ$j( ) ≤θ− z1− α D θ$2jИными словами,случайный интервалjс≤ θ$j( ).+ z1− α D θ$2jвероятностью,равной1−α,Заметим, что в этом и других подобных выражениях знак ≤ можносвободно заменять знаком < , а знак ≥ знаком > (и обратно), посколькумы всегда предполагаем существование функции плотности распределенийрассматриваемых случайных величин.27( )( )θ$ − zD θ$ j , θ$ j + z1− α D θ$ j 1− α2 j2накрывает истинное значение коэффициента θ j.
Такойинтервал называется доверительным интервалом для θ j суровнем доверия (доверительной вероятностью) 1−α, или(1−α)-доверительныминтервалом,или100(1−α)процентным доверительным интервалом для θ j.Последний рисунок был получен при значении α = 0.05.Поэтому площади заштрихованных областей («хвосты»)равны α2 = 0.025, сумма этих площадей равна 0.05 , и площадь()области под кривой в пределах интервала − z1− α , z1− α равна221−0.05 = 0.95.
Остается заметить, чтоz 0.95 = 1960.,так что случайный интервалθ$ − 196.D θ$ j , θ$ j + 1.96 D θ$ j jявляется 95%-доверительным интервалом для θ j. Егодлина2 ⋅1.96 D θ$( )( )( )jпропорциональна( )D θ$j— среднеквадратическойошибке (среднеквадратическому отклонению) оценкикоэффициента θ j.Хотелось бы, конечно, прямо сейчас построитьдоверительные интервалы для коэффициентов линейноймодели по каким-нибудь реальным статистическим данным.Однако этому препятствует то обстоятельство, что ввыражения для дисперсий8( ) = [σD θ$j2( X T X ) −1]jj, i = 1,K , n ,входит не известное нам значение σ 2.2.6.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯКОЭФФИЦИЕНТОВ: РЕАЛЬНЫЕСТАТИСТИЧЕСКИЕ ДАННЫЕИтак,практическомупостроениюдоверительныхинтервалов для коэффициентов θ j нормальной моделилинейной множественной регрессииyi = θ 1 xi1 +K+θ p xip + ε i , i = 1,K , n,с εi∼ i. i. d.(N 0, σ 2)препятствует вхождение ввыражения для дисперсийD θ$ j = σ 2 ( X T X ) −1 , i = 1,K , n ,jj( ) []неизвестного значения σ 2.Единственный выход из этого положения — заменитьнеизвестное значение σ 2 какой-нибудь подходящей егооценкой (estimate), которую можно было бы вычислить наосновании имеющихся статистических данных. Такогорода оценки принято называть статистиками (statistics).В данной ситуации такой подходящей оценкой длянеизвестного значения σ 2 является статистикаRSSS2 =.n− pnПосколькусуммаRSS = ∑ ( yi − y$ i )2являетсяi =1квадратичной функцией от случайных величин ε 1 ,K , ε n ,то она является случайной величиной, а следовательно,9случайной величиной является и статистика S2.Математическое ожидание этой случайной величины равноσ 2:E S2 = σ 2 ,( )т.
е. S 2 — несмещенная оценка для σ 2 .Замечание. В частном случае p = 1 модель наблюденийпринимает видyi = θ 1 + ε i , i = 1,K , n,(случайная выборка из распределения N (θ1,σ2)).Несмещенной оценкой для σ 2 служитRSSS2 =.n −1Оценкойнаименьшихквадратовдляпараметраn2θ 1 является θ$ 1 = y , так что RSS = ∑ ( yi − y ) = TSS , иi =1nS2 =∑(yi− y)21= Var ( y ) .n −1Таким образом, выборочная дисперсия Var ( y ) переменнойy , получаемая делением TSS именно на n − 1 (а не на n ),является несмещенной оценкой для σ 2 в модели случайнойвыборки из нормального распределения, имеющего дисперсиюσ 2 .
Этим и объясняется сделанный нами выбор нормировкипри определении выборочных дисперсий и ковариаций.При выполнении стандартных предположений отношение(n − p)S 2 = RSS22σ10σимеетстандартноераспределение,называемоераспределением хи-квадрат с (n-p) степенями свободы.Такое же распределение имеет сумма квадратов n − pслучайных величин, независимых в совокупности иимеющиходинаковоестандартноенормальноераспределение. При n − p = 15 график функции плотностиэтого распределения имеет вид0.08P_CHI150.060.040.020.00010203040ZДля обозначения распределения хи-квадрат с Κ степенямисвободы используют символ χ2(Κ).Итак, мы не знаем истинного значения σ 2 и поэтому впопытке построить доверительный интервал для θ jвынужденызаменитьнеизвестноенамзначение2T−1D θ$ j = σ ( X X )на его несмещенную оценку( ) [2θ$]= S (X X)2sjT−1jjjj.Соответственно, вместо отношенияθ$ j − θ j( )D θ$jприходится использовать отношение11θ$ j − θsθ$j.jОднако последнее отношение как случайная величина ужене имеет стандартного нормального распределения,поскольку в знаменателе теперь стоит не постоянная, аслучайная величина.Тем не менее, распределение последнего отношения такжеотносят к стандартным, и оно известно под названием tраспределения Стьюдента с (n-p) степенями свободы.Для распределения Стьюдента с Κ степенями свободыпринято обозначение t (Κ).
Квантиль уровня р такогораспределения будем обозначать символом tp (K). Графикфункции плотности распределения Стьюдента симметриченотносительно нуля и похож на график функции плотностинормального распределения. Например, при Κ=10 он имеетследующий вид (левый график).0.50.40.4P_STNORM0.5P_T100.30.20.10.30.20.10.00.0-4-20Z24-4-2024ZДля сравнения, справа приведен график функциистандартного нормального распределения.
Отличие графиковстоль невелико, что визуально они почти неразличимы.12Квантили этих двух распределений различаются болееощутимо:z 0.95 = 1645., t 0.95 (10) = 1812.;z 0.975 = 1960., t 0.975 (10) = 2.228;z 0.99 = 2.326, t 0.99 (10) = 2.764;z 0.995 = 2.576, t 0.995 (10) = 3169. .Распределение Стьюдента имеет более тяжелые хвосты. Изприведенных значений квантилей следует, например, чтослучайная величина, имеющая стандартное нормальноераспределение, может превысить значение 1.645 лишь свероятностью 0.05.
В то же самое время, с такой жевероятностью0.05 случайнаявеличина,имеющаяраспределение Стьюдента с 10 степенями свободы, принимаетзначения, большие, чем 1.812.Впрочем, для значений K > 30 квантили распределенияСтьюдента t ( K ) практически совпадают с соответствующимиквантилями cтандартного нормального распределения N (0,1) .Итак,θ$ j − θ j∼ t ( n − p) .sθ$jПоэтому для этой случайной величины выполняетсясоотношениеθ$ j − θ jP − t1− α ( n − p) ≤≤ t 1− α (n − p) = 1 − α ,22sθ$jтак что с вероятностью, равной 1 − α , выполняетсядвойное неравенство13− t1− α ( n − p) ≤θ$ j − θsθ$2т.
е.θ$ − tj1− α2(n − p) sθ$j2j≤θИными словами,случайный интервалθ$ − t α (n − p) s[j1− 2≤ t1− α ( n − p) ,jj≤ θ$с, θ$θ$ jj+ t 1− α (n − p) sθ$ .j2вероятностью,j+ t 1− α ( n − p) sθ$2jравной1−α,]накрывает истинное значение коэффициента θ j, т. е.является 95%- доверительным интервалом для θ j в случае,когда не известно истинное значение σ 2 дисперсиислучайных ошибок ε 1 ,K , ε n .
В среднем, длина такогоинтервала больше, чем длина доверительного интервала с темже уровнем доверия, построенного при известном значенииσ 2.Замечание. Выбор конкретного значения α определяеткомпромисс между желанием получить более короткийдоверительный интервал и желанием обеспечить болеевысокий уровень доверия.Попытка повысить уровень доверия 1 − α , выраженная ввыбоременьшегозначенияα,приводиткαквантили t1− α (n − p) с более высоким значением 1 − 2 , т. е. к2большему значению t1− α (n − p) .
Но длина доверительного2интервалапропорциональнаt1− α (n − p) .Следовательно,2увеличение уровня доверия сопровождается увеличениемширины доверительного интервала (при тех жестатистических данных).14Так, для n − p > 30 можно приближенно считать, чтоt1− α ≅ z1− α ,22где z p — квантиль уровня p стандартного нормальногораспределения. Соответственно, выбирая уровень доверия1−αравным 0.9 , 0.95 или 0.99 , мы получаемдля t1− α (n − p) значения,приблизительноравные2. , z 0.995 = 2.58 . Это означает, что переходz 0.95 = 1.64, z 0.975 = 196от уровня доверия 0.9 к уровню доверия 0.95 сопровождаетсяувеличениемдлиныдоверительногоинтервалаприблизительно в 12.
раза, а дополнительное повышениеуровня доверия до 0.99 увеличивает длину доверительногоинтервала еще примерно в 13. раза.Теперь мы в состоянии перейти к построениюинтервальных оценок параметров моделей линейной регрессиидля различного рода социально-экономических факторов наосновании соответствующих статистических данных.Пример. Вернемся к модели зависимости уровнябезработицы среди белого населения США от уровнябезработицы среди цветного населения.