Н.И. Чернова - Математическая статистика (1119916), страница 18
Текст из файла (страница 18)
Даны две независи~ = (X1 , . . . , Xn ) и Y~ = (Y1 , . . . , Ym ) из неизвестныхмые выборки Xраспределений F и G. Проверяется сложная гипотеза H1 = {F = G} приальтернативе H2 = {H1 неверна}.Критерий Вилкоксона, Манна и Уитни (Wilcoxon, Mann, Whitney) используют, если F и G имеют непрерывные функции распределения. Со~ и Y~ общий вариационный ряд и подсчитаем стаставим из выборок Xтистику Вилкоксона W, равную сумме рангов r1 , . .
. , rm (номеров мест)элементов выборки Y~ в общем вариационном ряду. Зададим функцию Uтак (статистика Манна — Уитни):n XmX1I(Xi < Yj ).U = W − m(m + 1) =2i=1 j=1100ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯ1Если H1 верна, то P(X1 < Y1 ) =(для этого требуется непрерыв2ность распределений выборок).
В этом случаеEU =nm,2DU =nm(n + m + 1).12Статистику критерия зададим, центрировав и нормировав статистику U :U − nm/2~ Y~ ) = pρ(X,nm(n + m + 1)/12.Мы не будем доказывать следующее утверждение.Т е о р е м а 26. Если непрерывные распределения F и G таковы, что1~ Y~ ) ⇒ N0, 1 при n, m → ∞.P(X1 < Y1 ) = , то ρ(X,2Построим критерий асимптотического размера ε :(~ < C,H1 , если |ρ(X)|~~δ(X, Y ) =~ > C,H2 , если |ρ(X)|где C — квантиль уровня 1− ε/2 распределения N0, 1 . Пользоваться этимкритерием рекомендуют при min(n, m) > 25.Условие (K2) не выполнено. Если F 6= G, но P(X1 < Y1 ) = 1/2, то по~ Y~ ) ведёт себя так же, как и при основнойтеореме 26 статистика ρ(X,гипотезе, поэтому критерий не будет состоятельным. Он реагирует лишьна то, как часто Xi < Yj , и принимает H1 , если это происходит примернов половине случаев.Например, если F и G — два нормальных распределения с одним и темже средним, но разными дисперсиями, то разность Xi − Yj имеет нормальное распределение с нулевым средним, и условие теоремы 26 выполнено.Итак, на самом деле построенный выше критерий проверяет гипотезу1H10 = распределения выборок таковы, что P(X1 < Y1 ) =.2Используя его для проверки первоначальной гипотезы однородности, следует помнить, какие альтернативы он не отличает от основной гипотезы.Существуют модификации этого критерия (критерий Вилкоксона), которые применяют, если заранее известно, каких альтернатив следует опасаться.
В качестве W вместо суммы рангов r1 , . . . , rm возьмём суммуs(r1 ), . . . , s(rm ), где s : (1, . . . , n+m) 7→ (s(1), . . . , s(n+m)) — заранеевыбранная перестановка всех рангов. Статистика U = W − m(m + 1)/2уже не выражается через индикаторы, но её асимптотическая нормальность при верной гипотезе H1 по-прежнему имеет место.101§ 3. Критерии для проверки однородностиНапример, при альтернативе с дисперсиями DY1 DX1 (см. выше),когда ранги Yj могут оказаться очень большими и очень маленькими,берут перестановку вида(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 7→ (10, 8, 6, 4, 2, 1, 3, 5, 7, 9),присваивающую бо́льшие значения крайним номерам.Критерий Фишера.
Критерий Фишера используют в качестве первого шага в задаче проверки однородности двух независимых нормальныхвыборок. Особенно часто возникает необходимость проверить равенствосредних двух нормальных совокупностей: например, в медицине или биологии для выяснения наличия или отсутствия действия препарата. Этазадача решается с помощью критерия Стьюдента (с ним мы познакомимся на следующей странице), но только в случае, когда неизвестные дисперсии равны. Для проверки же равенства дисперсий пользуются сначалакритерием Фишера. Самое печальное, если гипотеза равенства дисперсийотвергается критерием Фишера.
Задачу о построении критерия точногоразмера ε (что особенно важно при маленьких выборках) для проверкиравенства средних в этих условиях называют проблемой Беренса — Фишера. Её решение возможно лишь в частных случаях.Пусть даны две независимые выборки из нормальных распределений:~ = (X1 , . . . , Xn ) из N~Xa1 , σ21 и Y = (Y1 , .
. . , Ym ) из Na2 , σ22 , средниекоторых, вообще говоря, неизвестны. Критерий Фишера предназначен дляпроверки гипотезы H1 = {σ1 = σ2 }.~ и S 2 (Y~ ) несмещённые выборочные дисперсииОбозначим через S02 (X)0~S02 (X)n1 X(Xi − X)2 ,=n−1S02 (Y~ )i=1m1 X=(Yi − Y )2m−1i=12 ~~ Y~ ) как их отношение ρ(X,~ Y~ ) = S 2 (X)/S~и зададим функцию ρ(X,00 (Y ).~ называют ту из двухУдобно, если ρ > 1. С этой целью выборкой Xвыборок, несмещённая дисперсия которой больше. Поэтому предположим,~ > S 2 (Y~ ).что S02 (X)0~ Y~ ) имеетТ е о р е м а 27. При верной гипотезе H1 величина ρ(X,распределение Фишера Fn−1, m−1 с n − 1 и m − 1 степенями свободы.Д о к а з а т е л ь с т в о. По лемме Фишера, независимые случайные величиныχ2n−1 =~(n−1) S02 (X)σ21и2ψm−1=(m−1) S02 (Y~ )σ22102ГЛАВА VIII.
КРИТЕРИИ СОГЛАСИЯимеют распределения Hm−1 и Hn−1 соответственно. При σ1 = σ2 , поопределению распределения Фишера,2 ~~ Y~ ) = S0 (X) ·ρ(X,2σ1σ22S02 (Y~ )=χ2n−1 / (n − 1)2/(m − 1)ψm−1= Fn−1, m−1 .⊂Возьмём квантиль f1−ε распределения Фишера Fn−1, m−1 .
КритериемФишера называют критерий(~ ~~ Y~ ) = H1 , если ρ(X, Y ) < f1−ε ,δ(X,~ Y~ ) > f1−ε .H2 если ρ(X,У п р а ж н е н и е . Доказать, что для любой альтернативы σ1 6= σ2pσ21~ Y~ ) −→6= 1 при n, m → ∞.ρ(X,2σ2(28)Докажем состоятельность критерия Фишера. Достаточно в качествеальтернативы рассмотреть σ1 > σ2 (иначе при больших объёмах выборок~ > S 2 (Y~ )).будет, согласно (28), нарушаться предположение S02 (X)0Убедимся, что последовательность квантилей fδ = fδ (n, m) распределения Fn, m любого уровня δ ∈ (0, 1) сходится к единице при n, m → ∞.= Fn, m . По определению квантилей, вероятности P(ξn,m <Пусть ξn,m ⊂fδ ) и P(ξn,m > fδ ) не зависят от n, m и равны фиксированным числам δи 1 − δ соответственно.pЗнаем, что ξn,m −→ 1.
Поэтому для любого фиксированного ε > 0 вероятности P(ξ < 1 − ε) и P(ξ > 1 + ε) стремятся к нулю при n, m → ∞,становясь рано или поздно меньше как δ, так и 1 − δ.Следовательно, 1 − ε < fδ < 1 + ε при достаточно больших n, m. Этоозначает, что fδ → 1 при n, m → ∞.Для доказательства состоятельности критерия Фишера осталось предположить, что гипотеза H1 неверна, т.
е. σ1 > σ2 , и использовать сходимости (28) и fδ → 1. Сходимость по вероятности влечёт слабую сходимость2~ Y~ ) − f1−ε ⇒ σ1 − 1 > 0.ρ(X,2σ2Предельная функция распределения P(σ21 / σ22 −1 < x) непрерывна в точкеx = 0 (почему?) и равна нулю в этой точке.
Отсюда 2σ1α2 (δ) = PH2 (ρ < f1−ε ) = PH2 (ρ − f1−ε < 0) → P 2 − 1 < 0 = 0.σ2103§ 3. Критерии для проверки однородностиКритерий Стьюдента. Пусть имеются две независимые выборки: вы~ = (X1 , . . . , Xn ) из N~борка Xa1 , σ2 и выборка Y = (Y1 , .
. . , Ym ) из Na2 , σ2с неизвестными средними и одной и той же неизвестной дисперсией σ2 .Проверяется сложная гипотеза H1 = {a1 = a2 }.Построим критерий Стьюдента точного размера ε.Т е о р е м а 28. Случайная величина tn+m−2 , равнаяrnm· sn+mtn+m−2 =(X − a1 ) − (Y − a2 )~ + (m − 1)S 2 (Y~ )(n − 1)S 2 (X)00n+m−2имеет распределение Стьюдента Tn+m−2 .Д о к а з а т е л ь с т в о. Легко видеть (убедитесь, что легко!), что случайная величина X −a1 имеет распределение N0, σ2/n , а случайная величина Y − a2 имеет распределение N0, σ2/m . Тогда их разность распределенатоже нормально с нулевым средним и дисперсиейσ2σ2n+m+= σ2 ·.D (X − a1 ) − (Y − a2 ) =nmnmНормируем эту разность:rξ0 =1nm= N0, 1(X − a1 ) − (Y − a2 ) ⊂n+mσИз леммы Фишера следует, что независимые случайные величины~ σ2 и (m − 1) S 2 (Y~ )/σ2 имеют распределения Hn−1 и Hm−1(n − 1) S02 (X)/0соответственно, а их сумма1~ + (m − 1)S02 (Y~ )S 2 = 2 (n − 1)S02 (X)σимеет χ2-распределение Hn+m−2 с n+m−2 степенями свободы (почему?)и не зависит от X и от Y (почему?).По определению 19 (с.
69), отношение pξ02S /(n + m − 2)имеет распре-деление Стьюдента Tn+m−2 . Осталось подставить в эту дробь ξ0 и S 2и убедиться, что σ сократится и получится tn+m−2 из теоремы 28.Введём функциюqnmX −Y~~ρ(X, Y ) =· s.n+m~ + (m − 1)S 2 (Y~ )(n − 1)S02 (X)0n+m−2104ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯИз теоремы 28 следует свойство (K1): если H1 верна, т. е. если a1 = a2 ,то величина ρ = tn+m−2 имеет распределение Стьюдента Tn+m−2 .Поэтому остаётся по ε найти C = τ1−ε/2 — квантиль распределенияTn+m−2 . Критерий Стьюдента выглядит как все критерии согласия:(~ ~~ Y~ ) = H1 , если |ρ(X, Y )| < C,δ(X,~ Y~ )| > C.H2 , если |ρ(X,У п р а ж н е н и е . Доказать, что этот критерий имеет размер ε.У п р а ж н е н и е . Доказать свойство (K2): если a1 6= a2 , величина |ρ|неограниченно возрастает по вероятности с ростом n и m.У к а з а н и е.
Воспользовавшись ЗБЧ для числителя и свойством 3(с. 67) распределения χ2 — для знаменателя, доказать, что числительи знаменатель сходятся к постоянным:pX − Y −→ const 6= 0,~ + (m − 1)S 2 (Y~ ) p(n − 1)S02 (X)0−→ const 6= 0,n+m−2тогда как корень перед дробью неограниченно возрастает.Однофакторный дисперсионный анализ.
Предположим, что влияниенекоторого «фактора» на наблюдаемые нормально распределённые величины может сказываться только на значениях их математических ожиданий. Мы наблюдаем несколько выборок при различных «уровнях» фактора. Требуется определить, влияет или нет изменение уровня фактора наматематическое ожидание.Говоря формальным языком, однофакторный дисперсионный анализрешает задачу проверки равенства средних нескольких независимых нормально распределённых выборок с одинаковыми дисперсиями.
Для двухвыборок эту задачу мы решили с помощью критерия Стьюдента.Пусть даны k независимых выборок(1)(1)(k)(k)X (1) = (x1 , . . . , xn1 ), . . . , X (k) = (x1 , . . . , xnk )(j)= Na , σ2 с одной и той же дисперсииз нормальных распределений xi ⊂jей. Верхний индекс у наблюдений отвечает номеру выборки.
Проверяетсяосновная гипотеза H1 = {a1 = . . . = ak }.Для каждой выборки вычислим выборочные среднее и дисперсиюnX(j)j1 X (j)=xi ,nji=1nj(j) 21 X (j)(j)S =xi − X.nji=1105§ 3. Критерии для проверки однородностиПоложим n = n1 + . . . + nk . Определим также общее выборочное среднееи общую выборочную дисперсиюk(j)1 X (j)1 XX=xi =nj X ,nni, jj=1njk21 X X (j)2S =xi − X .nj=1 i=1Критерий для проверки гипотезы H1 основан на сравнении внутригрупповой и межгрупповой дисперсий. Определим эти характеристики.Вычислим так называемую межгрупповую дисперсию, или дисперсию выборочных среднихk2(j)1 X2nj X − X .Sм =nj=1Она показывает, насколько отличны друг от друга выборочные средниепри разных уровнях фактора.