Г.И. Ивченко, Ю.И. Медведев - Математическая статистика (1115270), страница 48
Текст из файла (страница 48)
(5.88) )=) !. ) При гипотезе Нс" статистика (5.88) имеет распределение Снедекора 5 (« — 1, (« — 1) (з — !)), поэтому критическая область уровня значимости а для Н,"' имеет вид ® )а = (х ° ) (х) ~ ~х-а, г-ь !«-з) )х-1) ) (5.89) Аналогично строится критерий проверки гипотезы Н .(),-...=8,=0 (5.90) о несущественности влияния на исходы испытаний второго фактора С. Здесь критическая область уровня значимости а для Нр" имеет вид (хо — х..)' Х)х= Х ° «(«1) ~ й1 — )! «-\ !) и )х-1) ~ (хп — х),— х.;+х.,)' ), ) (5.
91) Наконец, критическая область уровня значимости а для гипотезы Н' )а1=...=а,=й,=...=(),=0 о независимости результатов испытаний от влияния обоих факторов имеет вид 5 ~' (х,, — х..)~+ « ~' (х,! — х")~ . и:..ш:я к: «+х — 2 ~(хп — хь — хп-)-х..)с 'Вс-х, «+з-к )с-1) )и -1) Найдем, наконец, доверительные области для различных групп параметров схемы (5.80). Пусть требуется построить у-доверительную область Й'," дли эффектов а„..., а, первого фактора. В соответствии с общим принципом, чтобы построить )7ти', надо рассмотреть соответствующую гипотезу Н).аз=а;, ..., а„=а,' 208 классификации по месту, где производятся наблюдения.
В этом случае гипотеза Н," соответствует предположению о том, что эта вспомогательная классификация не влияет на результаты эксперимента и, следовательно, мажет не приниматься ва внимание. Следуя общей теории г'-критерия (см. 2 5.4), вычислим сначала 5т — минимальное значение квадратичной формы 5 в (5.82) при гипотезе Н,"'. Из (5.83) н (5.85) имеем Г 5«=51+и ~к~ (Хь — Х..)', )=) ( "- « ,У, сс;=О(.
Критическую область уровня значимости 1 у дая )=1 нее можно получить из (5.88) — (5,89), заменяя хп на хп — а!) оиа имеет вид Г Х(д -'- "- ! (х!. — х.. — а,")! = г'т 1 ),,) ), 1) 1 (ху — х . — хо+ х..)х. «=) Отсюда следует вывод, что г « Ф=() ." .,): Х;-С ° Х ),— )Хи — Х )) ( 1 ъ ~-~в -ь! -1)! 0,(, !) «т (Х!« — Х! — Хц+Х-)" . ! Здесь неравенства определяет внутренность шара в ппостранстве параметров (а„..., а«) с центром (Хь — Х, ..., Х,.
— Х ) в гиперплоскости ~ а;=О. Таким образом, в данном случае доверительная область )сии а состоит из внутренности гиперсферы, получающейся в пересечении «-мерной сферы с гиперплоскостью 2,а)-0. Так, если «=2, та доверительная область †отрез ит биссектрисы ах = — а„являющийся диа- ! метром некоторой окружности с центром иа этой биссектрисе (рис.
5.2). Аналогично строится доверительная область для эффектов ()„ ..., р, второго Рис. 5.2 фактора. В заключение дадим интерпретацию рассмотренной схемы, характерную для дисперсионного анализа. Положим в разложении (5.83) все а, и ()у равными нулю, а р=Х . В результате получаем соотношение У',(Х),— Х )'=з,У', (Х!.— Х )'+ ), г -(- «); (Х,,— Х „)' -1- У', (Хп — Х!. — Х ! + Х )', которое можно ннтер- ! претировать как разложение полной изменчивости 5 — ~~,'(Х,— — Х..)' на три компоненты: 5л= У,'(Х,.— Х..)и, 5ь=. У,'(Х., Х )*, 5 =5,=ч (Хп — Хь — Х-+Х ) (5.92) ) Компонента 5с описывает изменчивость, обусловленную первым факторам )с, компонента 5ь — вторым фактором С.
Компонента же 5.. есть сумма квадратов величин с нулевыми средними: В(Хц -Хь-Хи+ Х..) = р+;+(),-0 +а!) -0 +())+) =О, 2ОЭ поэтому ана не мажет быть связана с факторами )с и С. (Напомним, что величина 1,')=Я..г(г — 1) (з — 1) определяет несмещенную оценку дисперсии о'.) Поэтому Я.. часта называют иошибкай», подчеркивая, чта она связана со случайностью результатов наблюдений, а не с каким-либо расхождением в средних значениях наблюдений Вычислим ЕЯ,о и ЕЯо..
Из (5.84) и (5.86) имеем Е(Х5,— Х )'=1»й5+(Ейс)1 = — а'+а). Отсюда н из (5.92) следует, что 1 ЕЯо=(г — 1) а'+з 'Я и!. (5.93) ! ! Аналогична находим 1 ЕЯо = (з — 1) аи+г,У, Я. (5. 94) 1=! Из (5.93) имеем, что при гипотезе (5.87) величина О! = Я.о[(г — !) может служить несмещенной оценкой для а'. Аналогично, из (5.94) заключаем, что [ев= Яой(з — 1) — несмещенная оценка для а', когда справедлива гипотеза (5.90). Теперь Р-критерий (5.89) для гипотезы (5.87) можно интерпретировать как критерий совместности двух независимых оценок ()1 и [г для а' (статистика (5.88) в этих обозначениях равна отношению 91[О].
Аналогично можно интерпретировать и критерий (5.91) для гипотезы (5.90) (статистикой этого критерия является отношение ()нр []. Мычно составляющие этой двухфакторной модели объединяют в таблицу д сперсионнога анализа (табл.
5.1) Таблица бй Источник Стспснь Сумма Среднее суммы Отношение диспсрсни ~ свободы ~ кввдрвтов ~ квндрнтов ~ Снсдскора Р Строки г — 1 ос Г5=Я.О[(г — 1) Р,0=0110 Столбцы 5 — 1 50. сев=ос !(5 1) Ро =сг110 Ошибки (г — 1) (5 — 1! о., 0 о..![(г — 1) (5 — !)) Первое отношение Снедекара Р,о служит для проверки гипотезы о том, что все оц равны нулю, второе — для проверки гипотезы о равенстве нулю всех 6г. 9 5.6 Элементы теории статистической регрессии и корреляции 1. Задачи статистического прогноза.
Предположим, что слу. чайные величины У и Х =(Х1, ..., Х ) связаны некоторой статистической зависимостью, которую в общем случае можно выра- 210 вить их совместной функпией распределения р„(х, Пусть, далее, случайная величина Х доступна наблюдению, в то время как значение У непосредственно измерить невозможно. Тогда возникает задача предсказания (прогноза, оценки) величины 1' на основании информации, доставляемой измерением величин Х1, ..., Х„, которые в этом случае назь|ваются предсказывающими перегненныии, Функция от предсказывающих переменных 41(Х), которую используют в качестве оценки для У, называют предиктором величины 1' па Х Задачей разработки методов построения оптимальных в том или ином смысле предиктарав занимается теория статистической регрессии.
Прогноз необходим во многих практических ситуациях. Примерами могут быть прогнозирование погоды по результатам соответствующих атмосферных измерений, селекционнрование новых видов растений и животных, определение возможностей индивидуумов в определенных областях с помощью соответствующей системы контрольных тестов и т, д. Во всех этих случаях речь идет о величинах, относящихся к будущему, недоступных наблюдению в данный момент, которые надо оценивать (прогнозировать) с помощью доступных измерению сопутствующих величин. 2.
Оптимальный предиктор и его свойства. Научно обоснованный прогноз использует наличие статистической связи между пере менными У и Х. (Если Х и У независимы, то предсказать У по Х нельзя.) Предположим сначала, что совместное распределение .с (Х, У) известно. Тогда можно определить условное распределение Ж(У' ,Х =х). Так, если исходное распределение абсолютно непрерывно н 7д и (х„у) — его плотность, та соответствующая условная плотность равна =ь. *, 11/1 !-1*, о Для дискретных распределений интеграл в последней формуле заменяют соответствующей суммой.
Это условное распределение имеет среднее й4 (х) = Е (У [ Х = х)," (5.95) которое зависит от х и называется»ункцией регрессии 1' на Х„..., Хр, Например, для абсолютно непрерывного распределения М(х)=]у)у,д(р[х)ду (везде предполагается, что все соответствующие моменты существуют). Пусть тр(Х) — произвольный предиктор У по Х. Назовем среднеквадратической ошибкой этого предиктора величину Е(У вЂ” Ч!(Х)]д. Преднктар 9 и (Х) называют оптимальным (в среднеквадратическом смысле), если б 1ы! Е (У вЂ” Фо (Х)]' = !п1 Е (У вЂ” Ч! (Х)]».
(5.96) с Ответ на вопрос о существовании и виде оптимального предиктора дает следующее утверждение. 211 Теореь«а 5Я, Опп«««л«альный предиктор «р (Х) суи(есп«вуе™ д р*(х)=м(х). С) По определению условного математического ожидания, Е $(У вЂ” М (Х)) (М (Х) — «р (Х))1 = Е (Е ((У вЂ” М (Х)) (М (Х)— — ч«(Х))!Х1) =-Е((М(Х) — ~(Х))Е(У вЂ” М(Х)«Х)) =О, поэтому Е (У вЂ” «р (Х)1~ = Е ((У вЂ” М (Х)) + (М (Х) — «р (Х)))х =Е(У вЂ” М(Х)1 +Е(М(Х) — ч (Х)1 Е!У вЂ” М(Х)Р. Знак равенства здесь имеет место при ч« = М; следовательно, оптимальный предиктор есть определенная равенством (5.95) функция регрессии !' на Х. ° Заметим, чта минимальную ошибку предсказания Ь в (5.96) можно записать в виде Л = Е (Е ~(У вЂ” М (Х))х ) Х1) = Е0 (У! Х) — а3 х, (5.97) т.
е. она представляет собой среднее значение условной дисперсии У при данном Х. Например, для абсолютно непрерывного распределения условная дисперсия 0 (У ', Х =х) Е ((У вЂ” М (Х))з, Х = х~ = $ (у — М (х))'(у ! х (у ! х) ду. Оптимальный предиктор М(Х) обладает следующим важным свойством: он имеет максимальную корреляцию с У среди всех предиклюрое. Для доказательства этого прежде всего заметим, что для произвольного предиктора «р=«р(Х) сач (ср, У) Е((«(« — Е«р) (У вЂ” ЕУ)1= Е((«р — Е«р) Е(У вЂ” ЕУ )) = = Е((Ч« — ЕЧ«) (М вЂ” ЕМ))=соч («р, М).
В дальнейшем используются обозначения р(в«, $ь) («огг($«, $з) а'=05. При р=М из предыдущего равенства получаем сач (М, У)= а1= =ам ~0. Отсюда р(М, У)=ах«((омау) =ам(ау. Используя этот факт и свойства коэффициента корреляции, имеем О'0' а"Ом ву ««у ч причем знак равенства имеет место толька если Ч« — линейная функция М, Таким образам, р(М, У)~!р(ч«, У)! для любой «р. Квадрат максимального значения коэффициента корреляции Р (М, 1) =«гм(оу — т«ул обозначают ц х и называют корреляционным отношением.