Болч К._ Хуань К.Дж. - Многомерные статистические методы для экономики (1185342), страница 21
Текст из файла (страница 21)
Для линейных комбинаций могут быть заданы совместные доверительные области. 1ОО (1 — и)%-ная доверительная область для линейной комбинации параметров регрессии будет ограничена поверхностью ~СР ~ С~Р~ ~~Сс ~ С)-1 ~Сю ~1 С~ ф ф, . (4 Ф'1) Рассмотрим три возможных применения проверки гипотез относительно линейной комбинации, пользуясь нашим примером с установкой заклепок. Во-первых, пусть мы хотели бы проверить следующую совместную гипотезу: В контексте нашего примера эта совместная гипотеза не имеет особого смысла, но необходимость в подобных проверках иногда возникает в экаиометрических применениях, где используются производственные Функции или разностные уравнения. Эта гипотеза эквивалентна гипотезе Н: С'Р =у конкурирующей гипоте=-ой 11 11 Проверка проводится с помощью статистики Т'из (4.50) с заменой С'фо нау и при 0=2.
Второе применение относится к гипотезе Но: ~до + сА + .„+ склок = т- Эта ~и~~~еза эквивалентна ~~~~~езе Но -' с Р = 71 где с' — это вектор-строка с' = 1со с, ... с~~). Так, в примере с уста- новкой заклепок мы, возможна„захотим проверить гипотезу Но: 01 — 1о = О.6* которая, как нетрудно проверить, представляет собой матрицу 8~ без первого столбца и первой строки. Тогда статистика Т' принимает вид Т'= 9* — КГ й'(Р* — И) (4.47а) с критическим значением Та; к, и-к — ) =КО; к, — к — ~ (448а) Очень часто статистику в (4.47а) применяют для проверки гипотезы о том, -что все угловые коэффициенты (но не свободный член) одновременно равны нулю.
Эта проверка, следовательно, является полной проверкой уравнения регрессии, так как если мы не отвергнем нулевую гипотезу, то мы сделаем вывод, что ни одна из независимых переменных не вносит статистического вклада в объяснение зависимой переменной Для нашего примера проверим и.: ~»=ЮО Н1'- Р'Ф Ро, где (Р»)' = 11„498 1,1823 и фо)' = (О 01. Отсюда 0,410 — 0,305 — 0,305 0,551 4,1501 2,2967 2,296? 3,0867 так что 1,498 1,182 4,1501 2,2967 2,2967 3,0867 Т' = ~1,498 1,1821 Критическое значение Т' согласно (4.48а) при и = 0,05 равно: Тве ОБ: а,24 = (2) ~О,О5; а,24 = (2) (Зэ40) = 6,80.
Следовательно, мы отвергаем нулевую гипотезу о равенстве всех угловых коэффициентов нулю. Проверка нулевой гипотезы о равенс1ве всех угловых коэффициентов нулю относительно альтернативной гипотезы, состоящей в том„что не все угловые коэффициенты равны нулю„обычно осуществляется с помощью дисперсионноао анализа и Р-отношения.
Так как дисперсионному анализу будет посвящена ббльшая часть следующей главы„ сейчас мы рассмотрим его всжатом виде. Запишем уравнение регрессии в форме отклонений' (4,52) а Запишите Т = ~а+ Хф» + е и Т ф + (Х»)р', где Т есть л-мерный вектор, все влемеиты которого равны У', Х' есть матрица пХ К, отличающаяся от Х только тем, что первый столбец Х опущен„а Х~ — матрица пХ К, все строки которой' равны Х. После вычитания второго уравнения из первого мы приходим к (4.52). е' е = ~у — х р ~' ~у — хр') = у' у — ф )' (х' х) Р', так как из нормальных уравнений следует (х'х) р =х'у.
Следовательно, (4.53) превращается в е' е = у' у — ф ) (х' у) илн у' у =- (ф ) (х' у) + е' е. (4.54) Выражение (4.54) фундаментальное, так как оно разделяет (или дает в готовой для анализа форме) вариацию у на две составные части. Поскольку у'у определяет вариацию зависимой переменной, левую часть (4.54) часто называют обидней вариацией.
Именно эту вариацию зависимой переменнсй и надлежит «объясниты с помощью уравнения регрессии. Поскольку е измеряет ошибку выборки (или остаток), то е'е часто называют необъясненной вариацией. Оставшийся член ф')' (х'у) называют абьяснгнной еариацией. Следовательно, мы можем записать словами (4.54) как полная вариация = объясненная вариация + необъясненная ва- риация. Если объясненная вариация «великаз по сравнению с необъясненной, то мы полагаем, что некоторые или все угловые коэффициенты существенно отличны от нуля.
Поэтому проверка гипотезы о том, что все угловые коэффициенты Одновременно равны нулю, Относительно альтернативной гипотезы о том, что не все угловые коэффициенты равны нулю, часто выполняется с пОмОщью Отношения Я*)" ( ' ~н~к (4.55) е' еДа =,К вЂ” 1) Это отношение следует Р-распределению с К и а — К вЂ” 1 степенями свободы. Следовательно, если Р превышает Р,„, к, „р~ 1, то нулевая гипотеза отвергается.
Установим теперь соотношение между (4.47а) и (4.55). Из (4.47а) и утверждения пулевой гипотезы (т. е. Я = О) следует Т' = 1ф ) 1а'(х'х)-'~ ф ). Мы можем подставить (х'х)-' вместо (Х'Х)-', так как (х'х)-'представляет собой подматрицу (Х'Х) ', и при данной проверке мы пользуемся только этой частью матрицы (Х Х) '. Более того, согласно (4.39) о~ =- е'е/(и — К вЂ” 1), и Отсюда ф ) ~х'х~(~ ) ' Л вЂ” К вЂ” 1) Далее, вследствие того, что (х'х)ф* = х'у, (р*) Гх' у) е' еаза — К вЂ” 1) Наконец, из (4.48а) Р = Т'/К и, следовательно, Для нашего примера =16506,07 5377,62 ф'~ (х' у)=~1,498 1,1Щ и, как уже было вычислено, отсюда 16506,07/2 8253,0 182О2,0/24 758 „42 что равно ранее вычисленному значению Т', деленному на К = 2 (т.
е. 21,74~2 = 10,9). Более того, найденное значение Р превышает Р, „; ~ ~ = 3,40, поэтому мы отвергаем нулевую гипотезу так же, как мы делали при использоваьии Т'. Весьма полезными оказываются также доверительные области, определяемые согласно (4.49). Вычисление доверительной области для рассматриваемого примера предоставляется читателю в качестве упражнения; вместо этого воспользуемся примером, который приводит Гриличиз в 1461. Гриличиз подобрал уравнение, в котором'два угловых коэффициента в конечном счете приняли значсния ф, = 1,15 и ф, = — 0,33. Исходя из теоретических соображений, которые мы здесь не приводим, сумма этих двух коэффициентов в генеральной совокупности должна быть меньше 1.
Как отмечает Гриличиз, использование одномерных доверительных интервалов для проверки этого предположения неправомерно. Действительно, если бы он предпочел два одномерных доверительных интервала, то в данном случае он пришел бы к ошибочному выводу. На рис. 4.5 проведена прямая, соответствующая условию ~, + Ц =- 1. Любая точка влево от этой прямой означает ~, + Ц:" 1. В центре квадрата на этом рисунке находится точка ~„~„а сам квадрат представляет собой границыдвух одномерных доверительных интервалов, задаваемых при помощи (4.46) и отвечающих 955о-ной доверительной вероятности. Заметим, что часть этого квадрата простирается в область, лежащую справа от прямой, и, следовательно, при использовании двух одномерных интервалов утверждение о том, что Ау'Л Ю А сумма козффнциентов больше 1, было бы принято.
Эллипс ня д рис. 4.5 изображае~ совместнув доверительную область, порожтэ даемую уравнением (4.49). Никсону,у кая часть плоскости, лежащей спрага от прямой, не покрывается Рдд бай У ~той совместной эллиптической осластью, и поэтому при сс = О,О5 делается вывод.
что сумма коэФ- ЯУ фициентсв меньще 1. Следует почеркнуть, что в примере Гриличиза речь идет пе О Рвс. 4.5. срависннв одномерных до- проверке гипотезы, состоящей и всритсльных нрсделов и совместной том что ~1 + й — 1 Эта провер доверительной области Для угловых „„фф,н и„тов Р„р„„, (аанмств,. Ка ПРОВОДйЛаСЬ бЫ ПРП вано иа 146, с, 811) нейных комбинаций. При помощи же совместного доверительного эллипса Гриличиз мог проверить все совместные нулевые гипотезы, которые задавали бы условие Р, + ~, <.
1, т. е. область, лежащую влевоотпрямой~, + ~в = 1. Этотпример призван еще раз подчеркнуть общность совместной доверительной области. фДМЩс7 фт~~р аав птт уах- мФ дн Ырра 4.5. ПРОГНОЗ Одна из основных причин построения уравнения регрессии заключается в возможности использования его для прогноза. Очень часто возникает необходимость предсказать среднее значение генеральной совокупности рин для заданного множества значений Л~.
Вспомним, что р; = У'; и что Следовательно, 1. Если ф имеет нормальное распределение, то т' также имеет нормальное распределение. 2. Т вЂ” неснещеннан оценка р (гце р — вектор условных срсцних); Е Щ = Е (Х ~3) = ХЕ (ф) = Хф = р. 3. Дисперсия т' равна: ~Ф) = Е ~(ХР— ХР) ~ХР— ХРД = ЕХ(Р— Р) ~Р— Р)' Х'):= = ХЕРР— р) 1Р— Р) 1 Х'= О'Х(Х'Х) 'Х'- Если мы хотим получить несмещенный прогноз среднего значения генеральной совокупности р., для множества значений Х,, то такой прогноз может быть получен с помощью т,.=р,.=х,.р, ) (4.56 и вектор Х; может находиться внутри нли вне оолагии выборочных наблюдений.
Например, если требуется предсказать среднюю производительность всех учеников клепальщиков, которые получили оценку !00 баллов в тесте ловкости рук и ! ОО баллов в 1есте ловкости пальцев, то уравнение регрессии из раздела 4.2 дает прогноз, равный — 104,020 1~= [! 100 100! 1,498 =163 98. 1,182 (4.57) что дает оценку ~4.5Щ Дисперсия этого прогноза будет айаг (У;) =чаг ~ р,) = Ф Х, (Х' Х) 1Х~. Но так как о' обычно неизвестна, то ее заменяют на О, дисперсии = а~ Х~ (Х' Х) 1 Х ~ = Х, 3~ Х~'. У~ Для нашего примера 3583,240 — 22,780 — 10,272 8", = [! 100 1001 — 22,780 0,410 — 0,305 — 10,272 — 0,305 0,551 1 100 = 482~84.
100 Проверка гипотезы о равенстве отдельного прогноза заданной постоянной величине..Для проверки гипотезы о том, что про~ ноз есть постоянная величина, т. е. Оо: Рю = Роь применяется статистика И вЂ” Ро~ -(4.59) ~в~ которая подчиняется 1-распределению с а †.К вЂ” 1 степенями свободы. В рассматриваемом нами примере проверим гипотезу о том, что среднее значение совокупности равно 160„относительно конкурирующей двусторонней гипотезы. Статистика 1 принимает значение ф' 482„84 21,97 и па уровне а = 0,05 критическое значение составляет г, „„, „= == 2,064.
Так как выборочное значение не превышает критического значения, нулевая гипотеза не отвергается. 100 (! — а)%-ный доверительный интервал (или интервал прогноза) для р,~ можно определить с помощью ~4.59). Отсюда этот интервал будет ограничен значениями ~г,~(~иуа|а к д)~ ф. ~4.60) Согласно (4.40а) члеп Е (2Х; (Р— р) е;) можно записать в виде 2Х;Е (((Х' Х) ' Х'в) еД. Такии образом, поскольку все л предполагаются нестохастическими, а 8 не зависит от я~, то при Взятии мате" матического ожидания это* член исчезает.