4. Математическая статистика. Ивченко_ Медведев (1984) (1186157), страница 49
Текст из файла (страница 49)
Пусть требуется построить у-доверительную область Й'," дли эффектов а„..., а, первого фактора. В соответствии с общим принципом, чтобы построить )7ти', надо рассмотреть соответствующую гипотезу Н).аз=а;, ..., а„=а,' 208 классификации по месту, где производятся наблюдения. В этом случае гипотеза Н," соответствует предположению о том, что эта вспомогательная классификация не влияет на результаты эксперимента и, следовательно, мажет не приниматься ва внимание. Следуя общей теории г'-критерия (см.
2 5.4), вычислим сначала 5т — минимальное значение квадратичной формы 5 в (5.82) при гипотезе Н,"'. Из (5.83) н (5.85) имеем Г 5«=51+и ~к~ (Хь — Х..)', )=) ( "- « ,У, сс;=О(. Критическую область уровня значимости 1 у дая )=1 нее можно получить из (5.88) — (5,89), заменяя хп на хп — а!) оиа имеет вид Г Х(д -'- "- ! (х!. — х.. — а,")! = г'т 1 ),,) ), 1) 1 (ху — х . — хо+ х..)х.
«=) Отсюда следует вывод, что г « Ф=() ." .,): Х;-С ° Х ),— )Хи — Х )) ( 1 ъ ~-~в -ь! -1)! 0,(, !) «т (Х!« — Х! — Хц+Х-)" . ! Здесь неравенства определяет внутренность шара в ппостранстве параметров (а„..., а«) с центром (Хь — Х, ..., Х,. — Х ) в гиперплоскости ~ а;=О. Таким образом, в данном случае доверительная область )сии а состоит из внутренности гиперсферы, получающейся в пересечении «-мерной сферы с гиперплоскостью 2,а)-0.
Так, если «=2, та доверительная область †отрез ит биссектрисы ах = — а„являющийся диа- ! метром некоторой окружности с центром иа этой биссектрисе (рис. 5.2). Аналогично строится доверительная область для эффектов ()„ ..., р, второго Рис. 5.2 фактора. В заключение дадим интерпретацию рассмотренной схемы, характерную для дисперсионного анализа. Положим в разложении (5.83) все а, и ()у равными нулю, а р=Х . В результате получаем соотношение У',(Х),— Х )'=з,У', (Х!.— Х )'+ ), г -(- «); (Х,,— Х „)' -1- У', (Хп — Х!.
— Х ! + Х )', которое можно ннтер- ! претировать как разложение полной изменчивости 5 — ~~,'(Х,— — Х..)' на три компоненты: 5л= У,'(Х,.— Х..)и, 5ь=. У,'(Х., Х )*, 5 =5,=ч (Хп — Хь — Х-+Х ) (5.92) ) Компонента 5с описывает изменчивость, обусловленную первым факторам )с, компонента 5ь — вторым фактором С. Компонента же 5.. есть сумма квадратов величин с нулевыми средними: В(Хц -Хь-Хи+ Х..) = р+;+(),-0 +а!) -0 +())+) =О, 2ОЭ поэтому ана не мажет быть связана с факторами )с и С.
(Напомним, что величина 1,')=Я..г(г — 1) (з — 1) определяет несмещенную оценку дисперсии о'.) Поэтому Я.. часта называют иошибкай», подчеркивая, чта она связана со случайностью результатов наблюдений, а не с каким-либо расхождением в средних значениях наблюдений Вычислим ЕЯ,о и ЕЯо.. Из (5.84) и (5.86) имеем Е(Х5,— Х )'=1»й5+(Ейс)1 = — а'+а). Отсюда н из (5.92) следует, что 1 ЕЯо=(г — 1) а'+з 'Я и!. (5.93) ! ! Аналогична находим 1 ЕЯо = (з — 1) аи+г,У, Я. (5.
94) 1=! Из (5.93) имеем, что при гипотезе (5.87) величина О! = Я.о[(г — !) может служить несмещенной оценкой для а'. Аналогично, из (5.94) заключаем, что [ев= Яой(з — 1) — несмещенная оценка для а', когда справедлива гипотеза (5.90). Теперь Р-критерий (5.89) для гипотезы (5.87) можно интерпретировать как критерий совместности двух независимых оценок ()1 и [г для а' (статистика (5.88) в этих обозначениях равна отношению 91[О]. Аналогично можно интерпретировать и критерий (5.91) для гипотезы (5.90) (статистикой этого критерия является отношение ()нр []. Мычно составляющие этой двухфакторной модели объединяют в таблицу д сперсионнога анализа (табл.
5.1) Таблица бй Источник Стспснь Сумма Среднее суммы Отношение диспсрсни ~ свободы ~ кввдрвтов ~ квндрнтов ~ Снсдскора Р Строки г — 1 ос Г5=Я.О[(г — 1) Р,0=0110 Столбцы 5 — 1 50. сев=ос !(5 1) Ро =сг110 Ошибки (г — 1) (5 — 1! о., 0 о..![(г — 1) (5 — !)) Первое отношение Снедекара Р,о служит для проверки гипотезы о том, что все оц равны нулю, второе — для проверки гипотезы о равенстве нулю всех 6г. 9 5.6 Элементы теории статистической регрессии и корреляции 1.
Задачи статистического прогноза. Предположим, что слу. чайные величины У и Х =(Х1, ..., Х ) связаны некоторой статистической зависимостью, которую в общем случае можно выра- 210 вить их совместной функпией распределения р„(х, Пусть, далее, случайная величина Х доступна наблюдению, в то время как значение У непосредственно измерить невозможно. Тогда возникает задача предсказания (прогноза, оценки) величины 1' на основании информации, доставляемой измерением величин Х1, ..., Х„, которые в этом случае назь|ваются предсказывающими перегненныии, Функция от предсказывающих переменных 41(Х), которую используют в качестве оценки для У, называют предиктором величины 1' па Х Задачей разработки методов построения оптимальных в том или ином смысле предиктарав занимается теория статистической регрессии.
Прогноз необходим во многих практических ситуациях. Примерами могут быть прогнозирование погоды по результатам соответствующих атмосферных измерений, селекционнрование новых видов растений и животных, определение возможностей индивидуумов в определенных областях с помощью соответствующей системы контрольных тестов и т, д. Во всех этих случаях речь идет о величинах, относящихся к будущему, недоступных наблюдению в данный момент, которые надо оценивать (прогнозировать) с помощью доступных измерению сопутствующих величин.
2. Оптимальный предиктор и его свойства. Научно обоснованный прогноз использует наличие статистической связи между пере менными У и Х. (Если Х и У независимы, то предсказать У по Х нельзя.) Предположим сначала, что совместное распределение .с (Х, У) известно. Тогда можно определить условное распределение Ж(У' ,Х =х). Так, если исходное распределение абсолютно непрерывно н 7д и (х„у) — его плотность, та соответствующая условная плотность равна =ь. *, 11/1 !-1*, о Для дискретных распределений интеграл в последней формуле заменяют соответствующей суммой. Это условное распределение имеет среднее й4 (х) = Е (У [ Х = х)," (5.95) которое зависит от х и называется»ункцией регрессии 1' на Х„..., Хр, Например, для абсолютно непрерывного распределения М(х)=]у)у,д(р[х)ду (везде предполагается, что все соответствующие моменты существуют).
Пусть тр(Х) — произвольный предиктор У по Х. Назовем среднеквадратической ошибкой этого предиктора величину Е(У вЂ” Ч!(Х)]д. Преднктар 9 и (Х) называют оптимальным (в среднеквадратическом смысле), если б 1ы! Е (У вЂ” Фо (Х)]' = !п1 Е (У вЂ” Ч! (Х)]». (5.96) с Ответ на вопрос о существовании и виде оптимального предиктора дает следующее утверждение. 211 Теореь«а 5Я, Опп«««л«альный предиктор «р (Х) суи(есп«вуе™ д р*(х)=м(х). С) По определению условного математического ожидания, Е $(У вЂ” М (Х)) (М (Х) — «р (Х))1 = Е (Е ((У вЂ” М (Х)) (М (Х)— — ч«(Х))!Х1) =-Е((М(Х) — ~(Х))Е(У вЂ” М(Х)«Х)) =О, поэтому Е (У вЂ” «р (Х)1~ = Е ((У вЂ” М (Х)) + (М (Х) — «р (Х)))х =Е(У вЂ” М(Х)1 +Е(М(Х) — ч (Х)1 Е!У вЂ” М(Х)Р. Знак равенства здесь имеет место при ч« = М; следовательно, оптимальный предиктор есть определенная равенством (5.95) функция регрессии !' на Х. ° Заметим, чта минимальную ошибку предсказания Ь в (5.96) можно записать в виде Л = Е (Е ~(У вЂ” М (Х))х ) Х1) = Е0 (У! Х) — а3 х, (5.97) т.
е. она представляет собой среднее значение условной дисперсии У при данном Х. Например, для абсолютно непрерывного распределения условная дисперсия 0 (У ', Х =х) Е ((У вЂ” М (Х))з, Х = х~ = $ (у — М (х))'(у ! х (у ! х) ду. Оптимальный предиктор М(Х) обладает следующим важным свойством: он имеет максимальную корреляцию с У среди всех предиклюрое.
Для доказательства этого прежде всего заметим, что для произвольного предиктора «р=«р(Х) сач (ср, У) Е((«(« — Е«р) (У вЂ” ЕУ)1= Е((«р — Е«р) Е(У вЂ” ЕУ )) = = Е((Ч« — ЕЧ«) (М вЂ” ЕМ))=соч («р, М). В дальнейшем используются обозначения р(в«, $ь) («огг($«, $з) а'=05. При р=М из предыдущего равенства получаем сач (М, У)= а1= =ам ~0. Отсюда р(М, У)=ах«((омау) =ам(ау. Используя этот факт и свойства коэффициента корреляции, имеем О'0' а"Ом ву ««у ч причем знак равенства имеет место толька если Ч« — линейная функция М, Таким образам, р(М, У)~!р(ч«, У)! для любой «р. Квадрат максимального значения коэффициента корреляции Р (М, 1) =«гм(оу — т«ул обозначают ц х и называют корреляционным отношением. По апре.
делению, 0(«)(х(1, при этом «)ух=-1 тогда и только тогда, когда У =М(Х), т. е. когда У функциональна связано с Выразим «)ух через ошибку предсказания оух, определенную в (5.97). Для этого запишем разложение дисперсии: ау =Е!У вЂ” ЕУ1' Е[(У вЂ” М)+(М вЂ” ЕМ)1'=пух+ам. З12 Отсюда Ч! х = 1 — а'ух(а)" (5.98) Из этого представления следует, чта т)ух-ь!, если ошибка прогноза а«х-ьО, и г«Фх=О, если, учитывая Х, мы не уменьшаем ошибки прогноза (аух = ау). Таким образом, корреляционное отношение «1'ух ЯвлаетсЯ меРой зависимости междУ У и Х (меРай точности прогноза) и с ее помощью можно сравнивать различные совокупности предсказывающих переменных в конкретных задачах.
Пример 5.9 (нормальное распределение, оптимальное прогнозирование для него). Пусть Х имеет размерность р=! и пара (Х, У) распределена нормально с параметрами ЕХ=рх, ЕУ=««у, ОХ=а)«, 0У оу, («огг(Х, У) =р, !р!(1. Тогда совместная плотность распределения имеет вид (х-их)« (ху (х, у) = ехр ~— 2лохв 1' ! — Р' ( 2 «1 — с«! ха~ — 2р (х — рх) (у — иИ (у ««)« 'хву у и в результате несложных вычислений получаем, чта условная плотность У по Х ! «у — л««х!!" « Ь!х(у!х)==- .ехр« — '1, где Утя (! — а«1 («хв«(! — а'1 «)' ау т(х) ру+ — р (х — ««х).
ах (5. 99) Из (5.99) и (5.100) следует, что в данном случае функция регрессии У на Х является линейной, а оптимальный предиктор для У можно записать з виде М (Х) ЕУ+ ах (Х вЂ” ЕХ). Среднеквадратическая ошибка для этого предиктора равна оЬ 0У ыФ(Х Г). пх Наконец, отсюда и из формулы (5.98) имеем соч«(Х, у) 6УЙ' (5. 102) 21а Таким образом, в данном случае условное распределение Ж (У ! Х =х) = в / (т (х), ау (! — р')) и, следовательно, М(х) Е(У ~ Х х) т(х), 0(У ~ Х =х) =ау (1 — р'), (5.100) Условная дисперсия здесь не зависит от х, поэтому иа основа- нии (5.97) пух = о! (1 — р'). (5. 106) 214 т, е. корреляционное отношение для нормально распределенной пары ( (Х, У) равно квадрату их коэффициента корреляции.