Н.И. Чернова - Математическая статистика (1119916), страница 19
Текст из файла (страница 19)
Именно эта дисперсия отражает влияниефактора. При этом каждое выборочное среднее вносит в дисперсию вклад,пропорциональный объёму соответствующей выборки: выбросы среднихмогут быть вызваны малым числом наблюдений.Вычислим так называемую внутригрупповую дисперсиюnjkk(j) 21 X X (j)1 X(j)2.nj S =Sв =xi − Xnnj=1j=1 i=1Она показывает, насколько велики разбросы внутри выборок относительно выборочных средних. Эти разбросы определяются случайностью внутри выборок.
Вывод о том, что средние существенно различны, т. е. присутствует влияние фактора на среднее, может быть сделан, если межгрупповая дисперсия оказывается существенно больше внутригрупповой. Чтобыпонять, насколько больше, следует рассмотреть распределения этих случайных величин при верной основной гипотезе.По основному следствию из леммы Фишера при любом j = 1, . . . , k(j)величина nj S (j)/σ2 имеет распределение Hnj −1 и не зависит от X . Изнезависимости выборок и устойчивости χ2 -распределения относительносуммирования получаемnSв2σ2=kXnj S (j)j=1σ2= Hn−k ,⊂где n − k = n1 − 1 + .
. . + nk − 1.106ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯ(1)(k)Кроме того, величина Sв2 не зависит от X , . . . , X . Поэтому онане зависит и от их взвешенного среднего X, а также (что уже совсемневероятно) от межгрупповой дисперсии Sм2 , поскольку последняя является функцией только от перечисленных средних. Эти свойства никак несвязаны с проверяемой гипотезой и верны независимо от равенства илинеравенства истинных средних.Пусть гипотеза H1 верна. Тогда выборки можно считать одной выбор= Hn−1 .кой объёма n.
По основному следствию леммы Фишера nS 2 /σ2 ⊂222Величины S , Sм и Sв удовлетворяют легко проверяемому основномудисперсионному соотношениюnS 2σ2=nSм2σ2+nSв2σ2.Величина в левой части имеет распределение Hn−1 , справа — сумма двухнезависимых слагаемых, второе из которых имеет распределение Hn−k .Покажем, что тогда первое распределено по закону Hk−1 .Л е м м а 8.
Пусть случайные величины ξ и η независимы, причём= Hm и ξ + η ⊂= Hs . Тогда η ⊂= Hs−m .ξ⊂Д о к а з а т е л ь с т в о. Используем известную нам характеристическую функцию ϕ(t) = (1 − 2it)−k/2 гамма-распределения Hk = Γ1/2, k/2 :ϕξ (t) · ϕη (t) = (1 − 2it)−m/2 · ϕη (t) = ϕξ+η (t) = (1 − 2it)−s/2 .= Hs−m .Отсюда ϕη (t) = (1 − 2it)−(s−m)/2 и η ⊂Итак, при верной гипотезе H1 мы получили два χ2 -распределения независимых случайных величинχ2 =nSм2σ2= Hk−1⊂иψ2 =nSв2σ2= Hn−k .⊂Построим по ним статистику из распределения Фишера Fk−1, n−kρ=χ2k−1·n−kψ2=n − k Sм2= Fk−1, n−k .⊂·k − 1 Sв2По заданному ε найдём квантиль C уровня 1 − ε распределения ФишераFk−1, n−k и устроим следующий критерий точного размера ε :(H1 , если ρ < C,δ=H2 , если ρ > C.З а м е ч а н и е 24.
Предположение о равенстве дисперсий проверяют,например, с помощью критерия Бартлетта (см. [6]).§ 4. Критерий χ2 для проверки независимости107§ 4. Критерий χ2 для проверки независимостиЕсть выборка (X1 , Y1 ), . . . , (Xn , Yn ) значений двух наблюдаемых совместно случайных величин X и Y в n независимых экспериментах.
Проверяется гипотеза H1 = {X и Y независимы}.Введём k интервалов группировки ∆1 , . . . , ∆k для значений Xи m интервалов группировки ∇1 , . . . , ∇m для значений Y :mPY~ ∇1 ∇2 . . . ∇mj=1~X∆1ν11 ν12 . . . ν1m ν1··......∆kνk1 νk2 . . . νkm νk··kPν· 1 ν· 2 . .
. ν· mni=1Посчитаем эмпирические частоты:νij = число пар (Xl , Yl ), попавших в ∆i ×∇j ,ν· j = число Yl , попавших в ∇j ,νi·· = число Xl , попавших в ∆i .Если гипотеза H1 верна, то теоретические вероятности попадания пары (X, Y ) в любую из областей ∆i × ∇j равны произведению вероятностей: для всех i и jpij = P (X, Y ) ∈ ∆i × ∇j = P X ∈ ∆i · P Y ∈ ∇j = p xi · pjyИменно эту гипотезу (назовём её H10 ) мы в действительности и проверяем. По ЗБЧ при n → ∞νi··np−→ p xi ,ν· jnПоэтому большая разница междуνijp−→ p yi ,νijnиνi··nn×ν· jnp−→ p ij .(или между νij иνi·· ν· jn)служит основанием для отклонения гипотезы независимости. Пусть~ Y~ ) = nρ(X,k XmXi=1 j=1νij − (νi·· ν· j )/nνi·· ν· j2.Т е о р е м а 29.
Если гипотеза H1 верна, то при n → ∞~ Y~ ) ⇒ H(k−1)(m−1) .ρ(X,(29)108ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯКритерий согласия асимптотического размера ε строится как обычно:по заданному ε найдём C, равное квантили уровня 1 − ε распределенияH(k−1)(m−1) . Тогда критерий имеет вид(~ ~~ Y~ ) = H1 , если ρ(X, Y ) < C,δ(X,~ Y~ ) > C.H2 , если ρ(X,У п р а ж н е н и е . Чтобы объяснить вид функции ρ и теорему 29, убедитесь, что гипотеза H10 есть гипотеза о принадлежности распределения выборки параметрическому семейству распределений с вектором неизвестных параметров (p x1 , .
. . , p xk−1 ; p y1 , . . . , p ym−1 ), имеющим размерностьd = k + m − 2. Подставив ОМП νi·· /n для p xi и ν· j /n для pjy в функциюρ=y 2Xνij − np xi pji,jnp xi pjyиз равенства (26), получим (29). Всего есть km интервалов. По теореме 24(с. 98) при верной H10 предельное χ2-распределение имеет число степенейсвободы km − 1 − d = (k − 1)(m − 1).Замечания 20 и 21 по поводу числа km интервалов группировки остаются в силе.§ 5. Проверка простых гипотез о параметрахПроверка гипотезы о среднем нормального распределения с известной~ = (X1 , . . . , Xn ) из нормального распредисперсией.
Имеется выборка Xделения Na, σ2 с известной дисперсией σ2 . Проверяется простая гипотезаH1 = {a = a0 } против сложной альтернативы H2 = {a 6= a0 }.Построим критерий точного размера ε с помощью функции√~ = n X − a0 .ρ(X)σ~ ⊂= N0, 1 .Очевидно свойство (K1): если H1 верна, то ρ(X)По ε выберем C = τ1−ε/2 — квантиль стандартного нормального распределения. Критерий выглядит как все критерии согласия:(~~ = H1 , если |ρ(X)| < C,δ(X)(30)~ > C.H2 , если |ρ(X)|p~ −→У п р а ж н е н и е .
Доказать (K2): если a 6= a0 , то |ρ(X)|∞. Доказать, что критерий 30 имеет точный размер ε и является состоятельным.§ 5. Проверка простых гипотез о параметрах109Проверка гипотезы о среднем нормального распределения с неизвестной дисперсией. Проверяется та же гипотеза, что и в предыдущем разделе, но в случае, когда дисперсия σ2 неизвестна. Критерий, который мыпостроим, называют одновыборочным критерием Стьюдента.Введём функцию отклонения~ =ρ(X)√ X − a0n √ 2 ,S0гдеS02n1 X=(Xi − X)2 .n−1i=1По п. 4 самого полезного следствия леммы Фишера (c. 76) выполненосвойство (K1): если a = a0 , то ρ имеет распределение Стьюдента Tn−1 .Критерий строится в точности как в (30), но в качестве C следуетбрать квантиль распределения Стьюдента, а не стандартного нормальногораспределения (почему?).У п р а ж н е н и е .
Доказать свойство (K2). Записать критерий и доказать, что он имеет точный размер ε и является состоятельным.Критерии, основанные на доверительных интервалах. Имеется выбор~ = (X1 , . . . , Xn ) из семейства распределений Fθ , где θ ∈ Θ. Прока Xверяется простая гипотеза H1 = {θ = θ0 } против сложной альтернативыH2 = {θ 6= θ0 }.Пусть имеется точный доверительный интервал (θ− , θ+ ) для параметра θ уровня доверия 1 − ε. Взяв произвольное θ0 , для выборки из распределения Fθ0 имеемP(θ− < θ0 < θ+ ) = 1 − εТогда критерий(H1 , если θ0 ∈ (θ− , θ+ ),~δ(X) =H2 , если θ0 6∈ (θ− , θ+ )имеет точный размер ε :α1 (δ) = PH1 (δ = H2 ) = PH1 (θ0 6∈ (θ− , θ+ )) = 1 − PH1 (θ− < θ0 < θ+ ) = ε.~ θ), тоЕсли доверительный интервал строится с помощью функции G(X;~ для поэта же функция годится и в качестве «функции отклонения» ρ(X)строения критерия согласия.
Критерий заданного асимптотического размера по асимптотическому доверительному интервалу строится совершенно аналогично.110ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯ§ 6. Вопросы и упражнения1. Построить критерий для проверки равенства дисперсий двух независимых нормальных выборок с известными средними, статистика которого имеет при верной основной гипотезе распределение Фишера с n и mстепенями свободы.2. Построить критерий для проверки гипотезы о равенстве среднихдвух независимых нормальных выборок с произвольными известнымидисперсиями, статистика которого имеет при верной основной гипотезестандартное нормальное распределение.3.
Построить критерий точного размера ε для различения трёх гипотез о среднем нормального распределения с неизвестной дисперсией:H1 = {a = a0 }, H2 = {a < a0 } и H3 = {a > a0 }.4. Какие из приведённых в главе VIII критериев можно сформулировать, используя доверительные интервалы? Сделать это.5. Проверяется простая гипотеза о параметре H1 = {θ = θ0 } противальтернативы H2 = {θ 6= θ0 }. Какими свойствами должен обладать доверительный интервал, чтобы критерий, построенный с его помощью, былсостоятелен?6. Имеется выборка из распределения Бернулли.
Построить критерийдля проверки гипотезы p = 1/2 при альтернативе p 6= 1/2.7. Подбросить игральную кость 300 раз и проверить её правильностьс помощью подходящего критерия.8. Подбросить симметричную монету 200 раз и проверить своё умениеправильно её подбрасывать с помощью критерия χ2 .9. Построить критерий асимптотического размера ε для проверки гипотезы однородности двух независимых выборок с разными объёмами израспределения Бернулли.10. Показать, что при k = 2 критерий для решения задачи однофакторного дисперсионного анализа совпадает с критерием Стьюдента.11. Доказать основное дисперсионное соотношение.Г Л А В А IXИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИЧасто требуется определить, как зависит наблюдаемая случайная величинаот одной или нескольких других величин.
Самый общий случай такой зависимости — зависимость статистическая: например, X = ξ + η и Z = ξ + ϕзависимы, но эта зависимость не функциональная. Для зависимых случайных величин имеет смысл рассмотреть математическое ожидание одной изних при фиксированном значении другой и выяснить, как влияет на среднее значение первой величины изменение значений второй. Так, стоимостьквартиры зависит от площади, этажа, района и других параметров, но неявляется функцией от них.