В.П. Носко - Эконометрика для начинающих (1160539), страница 19
Текст из файла (страница 19)
Другое дело, что сформулироватьтакую гипотезу еще до анализа статистических данных вполне60разумно. Впрочем, последнее вовсе не означает, что θ$ 2 будетвсегда меньше единицы, даже если истинное θ 2 < 1.H 0 : θ 2 = 0.9Проверим теперь гипотезупротиводносторонней альтернативы H A : θ 2 > 0.9 в той же ситуации,но на основании данных за период с 1970 по 1981 г., n = 12лет.В этом случае θ$ 2 = 0.952, sθ$ = 0.0261 , так что t 2статистикаθ$ − 0.9 0.052t= 2== 199. .0.0261sθ$2Если мы используем для проверки гипотезы H 0двусторонний t -критерий с уровнем значимости α = 0.05 , тобудем отвергать H 0 , когдаt > t crit = t 0.975 (10) = 2.228 .Если же использовать односторонний t -критерий суровнем значимости α = 0.05 , то будем отвергать H 0 , когдаt > t crit = t 0.95 (10) = 1812..В обоих случаях вероятность ошибочного отклонениягипотезы H 0 равна 0.05 .Представим теперь, что в действительности θ 2 = 0.95 .Тогда распределение Стьюдента t (10 ) имеет статистикаθ$ 2 − 0.95.sθ$2Какова вероятность того, что гипотезаотвергнута?При использовании двустороннего критерияH0будет61P{ t > 2.228 θ2 θ$ − 0.9= 0.95 } = P 2> 2.228 θsθ$2{= P θ$ 2 − 0.9 > 2.228 ⋅ sθ${= P θ$ 2 − 0.9 < −2.228 ⋅ sθ$ или2θ$ 2 − 0.9 > 2.228 ⋅ sθ${2θ2θ2= 0.952= 0.952= 0.95}}= P θ$ 2 − 0.95 + 0.05 < −2.228 ⋅ sθ$2или θ$ 2 − 0.95 + 0.05 > 2.228 ⋅ sθ$θ 2 = 0.952}θ$ − 0.950.05= P 2< −2.228 −sθ$sθ$22илиθ$ 2 − 0.95sθ$> 2.228−20.05θsθ$22= 0.95 = P{t(10) < −4.14 или t(10) > 0.312}} + P{ t(10) > 0.312}= 0.001006 + (1 − 0.619276) = 0.3817 .= P{ t (10) < −4.14А при использовании одностороннего критерия этавероятность будет равна θ$ − 0.9P{ t > 1812.θ 2 = 0.95 } = P 2> 1812.θ 2 = 0.95sθ$262 θ$ − 0.950.05= P 2> 1812.−θsθ$sθ$222= 0.95 = P{ t (10) > −0104.}= 1 − P{ t (10) ≤ −0104.} = 1 − 0.4596 = 0.5404 .Таким образом, вероятность отвергнуть ошибочнуюгипотезу H 0 : θ 2 = 0.9 в случае, когда в действительностиθ 2 = 0.95 , равна0.3817 — при использовании двухстороннего критерия,0.5404 — при использовании одностороннего критерия;две последние величины представляют собой мощностисоответствующих критериев при частной альтернативеθ 2 = 0.95 .Односторонний критерий имеет более высокую мощность— 0.5404 против 0.3817 у двухстороннего критерия — притой же вероятности ошибочного отклонения нулевойгипотезы, равной 0.05 .
Такое же положение будет, если вдействительности θ 2 = θ 20 и значение θ 20 входит в множествозначений параметра θ 2 , составляющих альтернативнуюгипотезу H A: θ 2 > 0.9 (т. е. θ 20 > 0 ). Это говорит опредпочтительностиодностороннегокритерияпосравнению с двухсторонним при использовании в качествеальтернативной гипотезы H A: θ 2 > 0.9 .2.12.
ИСПОЛЬЗОВАНИЕ ОЦЕНЕННОЙ МОДЕЛИ ДЛЯПРОГНОЗИРОВАНИЯПусть мы имеем модель наблюдений в виде моделипростой линейной регрессииy i = α + β x i + ε i , i = 1,K , n ,63и хотим дать прогноз, каким будет значение объясняемойпеременной y при некотором выбранном (фиксированном)значении x ∗ объясняющей переменной x , если мы будемпродолжать наблюдения.Мы умеем оценивать коэффициенты α и β методомнаименьших квадратов, и естественно использовать для целейпрогнозирования получаемую в результате такого оценивания(подобранную) модель линейной связиy = α$ + β$ x ,что приводит к прогнозируемому значению объясняемойпеременной, равномуy$ ∗ = α$ + β$ x ∗ ,Вопрос только в том, сколь надежным является выбор такогозначения в качестве прогнозного.
И здесь надо иметь в видуследующее.Поскольку мы используем для прогноза оценки, полученные,исходя из модели наблюдений y i = α + β x i + ε i , i = 1,K , n , тодля того, чтобы этот прогноз был осмысленным, нам понеобходимости приходится предполагать, что структура моделинаблюдений и ее параметры не изменятся при переходе к новомунаблюдению, так что соответствующее x ∗ значение y = y ∗должно описываться тем же линейным соотношениемy ∗ = α + β x ∗ + ε ∗ . В таком случае, мы по-существу имеем дело срасширенной линейной моделью с n + 1 наблюдениями, вкоторойдополнительноенаблюдениеудовлетворяетсоотношениюy n +1 = y ∗ , x n +1 = x ∗ .При этом, случайная величина ε ∗ должна иметь то жераспределение, что и случайные величины ε i , i = 1,K , n , и64должна образовывать вместе с ними множество случайныхвеличин, независимых в совокупности.Итак, мы договорились, что в расширенной моделиy∗ = α + β x∗ + ε ∗ .Выбирая в качестве прогноза для y ∗ значениеy$ ∗ = α$ + β$ x ∗ , мы тем самым допускаем ошибку прогноза,равнуюy$ ∗ − y ∗ = α$ + β$ x ∗ − α + β x ∗ + ε ∗ = (α$ − α ) + β$ − β x ∗ − ε ∗ .() (())Поскольку вычисленные оценки α$ , β$ являются (как мы ужевыясниливыше)реализациямислучайныхвеличин,наблюдаемая ошибка прогноза также является реализациейслучайной величины Y$ ∗ − Y ∗ и включает два источниканеопределенности:связаннуюсотклонением• неопределенность,вычисленных значений случайных величин α$ , β$ отистинных значений параметров α , β ;• неопределенность, связанную со случайной ошибкой ε ∗в (n + 1) - м наблюдении.При наших стандартных предположениях о линейноймодели наблюдений ошибка прогноза является случайнойвеличиной Y$ ∗ − Y ∗ , имеющей математическое ожиданиеE Y$ ∗ − Y ∗ = E (α$ − α ) + x ∗ E β$ − β − E ε ∗ = 0 .(()) ( )(Мы использовали здесь справедливые при выполнениистандартныхпредположенийсоотношения∗$E (α$ ) = α , E β = β , E ε = 0 .
)()( )65Точность прогноза характеризуется дисперсией ошибкипрогнозаD Y$ ∗ − Y ∗ = D α$ + β$ x ∗ − α − β x ∗ − ε ∗ = D α$ + β$ x ∗ − ε ∗ .(()) ()Здесь использован тот факт, что сумма α + β x ∗неслучайна (хотя ее точное значение и не известно). Далее, изпредположеннойнезависимостислучайныхошибок∗ε i , i = 1,K , n , и ε вытекает независимость случайныхвеличин Y$ ∗ = α$ + β$ x ∗ (эта величина зависит от случайныхошибок ε i , i = 1,K , n ) и ε ∗ (последняя не зависит отслучайных ошибок ε i , i = 1,K , n ). В силу же независимостиY$ ∗ = α$ + β$ x ∗ и ε ∗ ,() () ( )D α$ + β$ x ∗ − ε ∗ = D α$ + β$ x ∗ + D ε ∗(использовано правило сложения дисперсий).
Остаетсязаметить, что2∗1x−x,σ 2Y$ ∗ = D Y$ ∗ = D α$ + β$ x ∗ = σ 2 + n2 n∑ ( xi − x ) i =1nгде, как обычно, x = ∑ xi n . (Мы не будем выводить i =1 эту формулу.) Таким образом,2∗ 1x −x.σ 2Y$ ∗ −Y ∗ = D Y$ ∗ − Y ∗ = σ 2 1 + + n2 n∑ ( xi − x ) i =1( )(66(())())Еслислучайныеошибкиε i , i = 1,K , n ,имеютнормальное распределение, то тогда случайные величиныY$ ∗ = α$ + β$ x ∗ и Y$ ∗ − Y ∗также имеют нормальные распределения. При этом,ошибка прогноза Y$ ∗ − Y ∗ имеет нормальное распределение снулевым математическим ожиданием и дисперсией,вычисляемой по последней формуле.Разделив разность Y$ ∗ − Y ∗ на квадратный корень из еедисперсии, получаем случайную величинуY$ ∗ − Y ∗,σY$ ∗ − Y ∗имеющую стандартное нормальное распределение N ( 0,1) .Заменяя в правой части выражения для σ 2Y$ ∗ − Y ∗ неизвестноеего несмещенной оценкой S 2 = RSS (n − 2) ,получаем оценку дисперсии D Y$ ∗ − Y ∗ в видезначение σ 2()2∗ 1x−x.s 2Y$ ∗ − Y ∗ = S 2 1 + + n2 n∑ ( xi − x ) i =1Заменяя, наконец, в знаменателе отношения, имеющегостандартное нормальное распределение, неизвестное значениеσ Y$ ∗ −Y ∗ его оценкой sY$ ∗ − Y ∗ , приходим к t -статистике ( t -()отношению)Y$ ∗ − Y ∗t=,s Y$ ∗ − Y ∗67имеющей при выполнении сделанных предположений омодели наблюдений t -распределение Стьюдента t ( n − 2) с(n − 2) степенями свободы.Последний факт дает возможность построения 100(1 − α ) процентногодоверительногоинтерваладля∗∗значения Y$ − Y s Y$ ∗ − Y ∗ ,()а именно,t α ( n − 2) ≤ Y$ ∗ − Y ∗(2)sY$ ∗ − Y ∗≤ t 1− α ( n − 2) ,2на основании которого получаем 100(1 − α ) -процентныйдоверительный интервал для Y ∗ :Y$ ∗ − t 1− α ( n − 2) ⋅ sY$ ∗ −Y ∗ ≤ Y ∗ ≤ Y$ ∗ + t1− α ( n − 2) ⋅ sY$∗ −Y ∗22— здесь мы использовали то, что в силу симметриираспределения Стьюдента, t α ( K ) = − t1− α ( K ) .2Заметим,что( yi , xi ), i = 1,K , n, (по2прикоторымзаданныхстроитсязначенияхпрогноз)доверительный интервал для Y ∗ будет тем длинее, чем большезначение sY$ ∗ − Y ∗ .
Последнее же равно S 2 1 + (1 n) при x ∗ = x ивозрастает с ростом(x∗)[]2− x . Это означает, что длинадоверительного интервала возрастает при удалении значенияx ∗ , при котором строится прогноз, от среднегоарифметического значений x1 ,K , x n .Таким образом, прогнозы для значений x ∗ , далекоотстоящих от x , становятся менее определенными, посколькудлина соответствующих доверительных интервалов длязначений объясняемой переменной возрастает.68Пример. Для данных о размерах совокупногорасполагаемого дохода и совокупных расходах на личноепотребление в США в период с 1970 по 1979 год (в млрд.долларов, в ценах 1972 года), оцененная модель линейнойсвязи имеет вид C = −66.595 + 0.978 ⋅ DPI .Представим себе, что мы находимся в 1979 году и ожидаемувеличения в 1980 году совокупного располагаемого дохода (втех же ценах) до DPI ∗ = 1030 млрд.