Н.И. Чернова - Математическая статистика (1115306), страница 15
Текст из файла (страница 15)
Тогда и реальная вероятность P (ρ > C)— точный размер полученного критерия — будет сильно отличаться от ε. Поэтомудля выборки объема n число интервалов разбиения выбирают так, чтобы обеспечитьнужную точность при замене распределения ρ(X) на Hk−1 .Обычно требуют, чтобы np1 = . . . = npk были не менее 5-6.8.3. Критерий χ2 Пирсона для проверки параметрической гипотезыКритерий χ2 часто применяют для проверки гипотезы о виде распределения, т. е.о принадлежности распределения выборки некоторому параметрическому семейству.Имеется выборка X = (X1 , .
. . , Xn ) из неизвестного распределения F. Проверяетсясложная гипотезаH1 = F ∈ {Fθ } ,где θ ∈ Θ ⊆ IRl — неизвестный параметр (скалярный или векторный), l — егоразмерность.Пусть IR разбито на k > l интервалов группировки A1 ∪ · · · ∪ Ak , и νj — числоэлементов выборки, попавших в Aj . Но вероятность pj = PH1 (X1 ∈ Aj ) = pj (θ)теперь зависит от неизвестного параметра θ.Функция отклонения (23) также зависит от неизвестного параметра θ, и использовать ее в критерии Пирсона нельзя — мы не можем вычислить ее значение:ρ(X, θ) =kX(νj − npj (θ))2npj (θ)j=1.(24)^Пусть θ^ = θ(X)— значение параметра θ, доставляющее минимум функции ρ(X, θ)^при данной выборке X.
Подставив вместо истинных вероятностей pj их оценки pj (θ),получим функцию отклонения^ =ρ(X, θ)kX^ 2(νj − npj (θ)).^npj (θ)j=171(25)Условие K1(a) (при выполнении некоторых условий относительно гладкости pj (θ)o )обеспечивается теоремой (R. Fisher, 1924), которую мы доказывать не будем:Теорема 8. Если верна гипотеза H1 , и dim(θ) = l — размерность параметра (вектора)θ, то при фиксированном k и при n → ∞^ =ρ(X, θ)k XkX^ 2(νj − npj (θ))⇒ Hk−1−l ,^npj (θ)j=1 j=1где Hk−1−l есть χ2 -распределение с k − 1 − l степенями свободы.Условие (K1(б)) выполнено, если, скажем, рассматривать альтернативные распределения F2 такие, что ни при каких θ набор вероятностей PF2(X1 ∈A1 ), . .
. , PF2(X1 ∈Ak )не совпадает с p1 (θ), . . . , pk (θ).Построим критерий χ2 .Пусть случайная величина χ2k−1−l имеет распределение Hk−1−l . По заданному εнайдем C такое, что ε = P (χ2k−1−l > C).Критерий согласия χ2 имеет такой же вид, как все критерии согласия:^ < C,H1 , если ρ(X, θ)δ(X) =^ > C.H2 , если ρ(X, θ)oВсе ∂2 pj (θ)/∂θi ∂θl непрерывны по θ; ранг матрицы k∂pj (θ)/∂θi k равен l.Замечания 19, 20 о количестве интервалов разбиения остаются в силе.^ минимизирующую функцию ρ(X, θ), нельзя заменитьЗамечание 21. Оценку θ,на оценку максимального правдоподобия для θ, построенную по выборке X1 , .
. . , Xn .При такой замене предельное распределение величины ρ(X, θ)а) уже не равно Hk−1−l , а совпадает с распределением величиныξ21 + . . . + ξ2k−1−l +a1 (θ)ξ2k−l + . . . + al (θ)ξ2k−1 ,где все ξi независимы и имеют распределение N0,1 , а коэффициенты ai (θ), вообще говоря, отличны от 0 и 1 (H.Chernoff, E.Lehmann, 1954);б) зависит от θ.Почувствуйте разницу:^ минимизирующую функцию ρ(X, θ), можно получитьЗамечание 22. Оценку θ,как оценку максимального правдоподобия для θ, построенную по вектору ν1 , . . . , νkиз полиномиального распределения.
Функция правдоподобия имеет видkkXXν1νkn!νi = n.f(ν; θ) =pi (θ) = 1 иp1 (θ)· . . . · pk (θ) , гдеν 1 ! . . . νk !i=1i=1Вычисление точки максимума по θ такой функции в общем случае возможно лишьчисленно, равно как и вычисление точки минимума функции ρ(X, θ).728.4. Проверка гипотезы однородности: критерий Колмогорова — СмирноваДаны две выборки X = (X1 , . .
. , Xn ) и Y = (Y1 , . . . , Ym ) из неизвестных распределений F и G соответственно. Проверяется сложная гипотеза H1 = {F = G} против(еще более сложной) альтернативы H2 = {H1 неверна}.Критерий Колмогорова — Смирнова используют, если F и G имеют непрерывныефункции распределения.Пусть F∗n (y) и G∗m (y) — эмпирические функции распределения, построенные повыборкам X и Y,rmnsup F∗n (y) − G∗m (y).ρ(X, Y) =m+n yТеорема 9.
Если гипотеза H1 верна, то ρ(X, Y) ⇒ η при n, m → ∞, где η имеетраспределение с функцией распределения Колмогорова.pУпражнение. Доказать, что ρ(X, Y) −→ ∞ при n, m → ∞, если H2 верна.И снова: в таблице распределения Колмогорова по заданному ε найдем C такое,что ε = P (η > C), и построим критерий согласия Колмогорова — Смирнова:H1 , если ρ(X) < C,δ(X) =H2 , если ρ(X) > C.Замечание 23.
Если есть более двух выборок, и требуется проверить гипотезу однородности, часто пользуются одним из вариантов критерия χ2 Пирсона. Этот критерий (и ряд другихкритериев) рекомендую посмотреть в §3.4.2, с. 124 книги Г. И. Ивченко, Ю. И. Медведев. Математическая статистика. Москва, 1984, 248 с.8.5. Проверка гипотезы независимости: критерий χ2 ПирсонаЕсть выборка (X, Y) = (X1 , Y1 ), . . . , (Xn , Yn ) значений двух наблюдаемых совместно случайных величин X и Y в n независимых экспериментах. Проверяется гипотеза H1 = {X и Y независимы}.Введем k интервалов группировки ∆1 , .
. . , ∆k для значений X и m интерваловгруппировки ∇1 , . . . , ∇m для значений Y.YX∆1...∆kkP∇1∇2...∇mmPПосчитаем эмпирические частоты:j=1ν1,1ν1,2...ν1,mν1,·νk,1νk,2......νk,mνk,·ν·,1ν·,2...ν·,mnνi,j = {число пар (Xl , Yl ), попавших в ∆i ×∇j },ν·,j = {число Yl , попавших в ∇j },νi,· = {число Xl , попавших в ∆i }.i=1Если гипотеза H1 верна, то теоретические вероятности попадания пары (X, Y) влюбую из областей ∆i × ∇j равны произведению вероятностей: для всех i и jpi,j = P (X, Y) ∈ ∆i × ∇j = P X ∈ ∆i · P Y ∈ ∇j = pxi · pyj .Именно эту гипотезу (назовем ее H10 ) мы в действительности и проверяем.
По ЗБЧνi,· p x−→ pi ,nν·,j p y−→ pi ,nνi,j p−→ pi,j .onνi,jνi,· ν·,jνi,· ν·,jПоэтому значительная разница междуи(или между νi,j и) может служитьnn nnоснованием для отклонения гипотезы независимости.o73Пусть2k XmXνi,j − (νi,· ν·,j )/n.ρ(X, Y) = nνi,· ν·,j(26)i=1 j=1Теорема 10. Если гипотеза H1 верна, то ρ(X, Y) ⇒ H(k−1)(m−1) при n → ∞.Критерий согласия асимптотического уровня ε строится обычным образом.Чтобы функция ρ и теорема 10 не падали с неба, убедитесь, что гипотеза H10Упражнение.есть гипотеза о принадлежности распределения выборки параметрическому семейству распределений сyвектором неизвестных параметров (px1 , .
. . , pxk−1 , py1 , . . . , pm−1 ) размерности l=k+m−2. ПодставивОМП νi,· /n для pxi и ν·,j /n для pyj в функциюρ=X νi,j − npxi pyji,j2(см. (24)),npxi pyjполучим (26). Всего есть k·m интервалов, и по теореме 8 при верной H10 предельное χ2 -распределениеимеет k·m−1−(k+m−2) = (k−1)(m−1) степеней свободы.Замечания 19 и 20 по поводу числа k · m интервалов группировки остаются в силе.8.6.
Совпадение дисперсий двух нормальных выборокЕсть две независимые выборки из нормальных распределений: X = (X1 , . . . , Xn )из Na1 ,σ2 и Y = (Y1 , . . . , Ym ) из Na2 ,σ2 , средние которых, вообще говоря, неизвестны.12Критерий Фишера предназначен для проверки гипотезы H1 = {σ21 = σ22 }.Обозначим через S20 (X) и S20 (Y) несмещенные выборочные дисперсии:1 X(Xi − X)2 ,n−1nS20 (X) =1 X(Yi − Y)2m−1mS20 (Y) =i=1i=1и зададим функцию отклонения ρ(X, Y) как их отношение ρ(X, Y) =S20 (X).S20 (Y)Теорема 11. Если гипотеза H1 верна, то случайная величина ρ(X, Y) имеет распределение Фишера Fn−1,m−1 с n−1, m−1 степенями свободы.Доказательство.
По лемме Фишера, независимые случайные величиныξ2n−1 =(n−1) S20 (X)σ21иξ2m−1 =(m−1) S20 (Y)σ22имеют распределения Hm−1 и Hn−1 соответственно. При σ21 = σ22 отношениеξ2n−1 /(n−1)ξ2m−1 /(m−1)=S20 (X)6 σ2· 2 2 = ρ(X, Y)26 σ1S0 (Y)имеет распределение Фишера с n−1, m−1 степенями свободы по определению 18 исовпадает с ρ(X, Y).74С условием K1(б) дело обстоит сложнее.Упражнение. Доказать, что для любой альтернативы σ21 6= σ22pρ(X, Y) −→σ216= 1 при n, m → ∞.σ22(27)Построим критерий Фишера и убедимся, что (27) обеспечивает его состоятельность.Возьмем квантили fε/2 и f1−ε/2 распределения Фишера Fn−1,m−1 . Критерием Фишераназывают критерийH1 , если fε/2 6 ρ(X, Y) 6 f1−ε/2 ,δ(X, Y) =H2 иначе.Доказательство состоятельности критерия Фишера.Покажем, что последовательность квантилей fδ = fδ (n, m) любого уровня 0 < δ < 1распределения Fn,m сходится к 1 при n, m → ∞.
Возьмем величину fn,m с этим распределением. По определению, P (fn,m < fδ ) = δ, P (fn,m > fδ ) = 1 − δ при всех n, m.pПо свойству 2 распределения Фишера, fn,m −→ 1. Поэтому для любого > 0 обе вероятности P (fn,m < 1−) и P (fn,m > 1+) стремятся к нулю при n, m → ∞, становясьрано или поздно меньше как δ, так и 1−δ. Следовательно, при достаточно большихn, m выполнено 1 − < fδ < 1 + .Для доказательства состоятельности осталось предположить, что гипотеза H1 неверна, взять равное, например, половине расстояния от 1 до σ21 /σ22 и использоватьсходимость (27). Пусть, скажем, при достаточно больших n и mσ21σ21<+ = 1 − < fε/2 .σ22σ22Тогда вероятность ошибки второго рода удовлетворяет неравенствамα2 (δ) = PH2 (fε/2 6 ρ 6 f1−ε/2 ) 6 PH2 (1 − < ρ) = PH2σ2ρ > 21 + σ2!→ 0.Аналогично рассматривается случай, когда (при достаточно больших n и m)f1−ε/2 < 1 + =σ21σ21+<.σ22σ22Упражнение.