Н.И. Чернова - Математическая статистика (1119916), страница 17
Текст из файла (страница 17)
Поэтому при ε∗ = 0,2 > 0,05 основную гипотезуможно принять.Реально достигнутый уровень ε∗ равен точной верхней грани тех значений ε, при которых критерий (23) размера ε принимает гипотезу H1 .94ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯ§ 2. Критерии для проверки гипотезы о распределении~ = (X1 , . . . , Xn ) из распреКритерий Колмогорова. Имеется выборка Xделения F.
Проверяется простая гипотеза H1 = {F = F1 } против сложной альтернативы H2 = {F 6= F1 }. В том случае, когда распределениеF1 имеет непрерывную функцию распределения F1 , можно пользоватьсякритерием Колмогорова.Пусть√~ = n sup |F ∗ (y) − F1 (y)|.ρ(X)ny~ обладает свойствами (K1), (K2). Если H1 верна,Покажем, что ρ(X)~ ⇒ η , гдето Xi имеют распределение F1 .
По теореме Колмогорова ρ(X)случайная величина η имеет распределение с функцией распределенияКолмогорова K(y) (рис. 11).10,50,5y1Рис. 11. График функции K(y)Если H1 неверна, то Xi имеют распределение F2 , отличное от F1 . Поpтеореме Гливенко — Кантелли Fn∗ (y) −→ F2 (y) для любого y при n → ∞.Но F1 6= F2 , поэтому найдётся y0 такое, что |F2 (y0 ) − F1 (y0 )| > 0. Тогдаpsup |Fn∗ (y) − F1 (y)| > |Fn∗ (y0 ) − F1 (y0 )| −→ |F2 (y0 ) − F1 (y0 )| > 0.y√p~ = √n supy |Fn∗ (y) − F1 (y)| −→Умножив на n, получим, что ρ(X)∞.Пусть случайная величина η имеет распределение с функцией распределения Колмогорова K(y). Это распределение табулировано, т. е. по заданному ε легко найти C такое, что ε = P(η > C).Критерий Колмогорова выглядит так:(~~ = H1 , если ρ(X) < C,δ(X)~ > C.H2 , если ρ(X)§ 2.
Критерии для проверки гипотезы о распределении95Критерий χ2 Пирсона. Критерий χ2 основывается на группированныхданных. Область значений предполагаемого распределения F1 делят нанекоторое число интервалов. После чего строят функцию отклонения ρ поразностям теоретических вероятностей попадания в интервалы группировки и эмпирических частот.~ = (X1 , . . . , Xn ) из распределения F.
ПроверяетсяДана выборка Xпростая гипотеза H1 = {F = F1 } при альтернативе H2 = {F 6= F1 }.Пусть A1 , . . . , Ak — попарно непересекающиеся интервалы группировки, на которые разбита вся область значений случайной величины с распределением F1 . Обозначим для j = 1, . . . , k через νj число элементоввыборки, попавших в интервал Aj :νj = {число Xi ∈ Aj } =nXI(Xi ∈ Aj ),i=1и через pj > 0 — теоретическую вероятность PH1 (X1 ∈ Aj ) попаданияв интервал Aj случайной величины с распределением F1 . По определению, p1 + . . .
+ pk = 1. Как правило, длины интервалов выбирают так,чтобы p1 = . . . = pk = 1/k. Пусть~ =ρ(X)kX(νj − npj )2j=1npj.(25)З а м е ч а н и е 19. Свойство (K2) выполнено далеко не для всех альтернатив. Если распределение выборки F2 6= F1 имеет такие же как у F1вероятности pj попадания в каждый из интервалов Aj , то по даннойфункции ρ эти распределения различить невозможно.Поэтому на самом деле критерий, который мы построим по функции ρиз (25), решает совсем иную задачу. А именно, пусть задан набор «эталонных» вероятностей p1 , .
. . , pk такой, что p1 + . . . + pk = 1. Критерий χ2предназначен для проверки сложной гипотезы о теоретическом распределении F :H10 = F таково, что P(X1 ∈ Aj ) = pj ∀ j = 1, . . . , kпротив сложной альтернативы H20 = {H10 неверна}, т. е.H20 = хотя бы для одного из интервалов P(X1 ∈ Aj ) 6= pj .~ удовлетворяет условию (K1) независимо от того,Покажем, что ρ(X)проверяем ли мы гипотезу H1 или H10 .96ГЛАВА VIII.
КРИТЕРИИ СОГЛАСИЯТ е о р е м а 23 (П и р с о н а). Если верна гипотеза H1 или H10 ,при фиксированном k и при n → ∞~ =ρ(X)kX(νj − npj )2j=1npjто⇒ Hk−1 ,где Hk−1 есть χ2-распределение с k−1 степенью свободы1 .Д о к а з а т е л ь с т в о. Докажем теорему Пирсона при k = 2. В этомслучае ν2 = n − ν1 , p2 = 1 − p1 . Посмотрим на ρ и вспомним ЦПТ:~ =ρ(X)(ν1 − np1 )2(ν − np2 )2(ν − np1 )2(n − ν1 − n(1 − p1 ))2+ 2= 1+=np1np2np1n(1 − p1 )(ν − np1 )2(−ν1 + np1 )2(ν − np1 )2= 1+= 1=np1n(1 − p1 )np1 (1 − p1 )√ν1 − np1np1 (1 − p1 )2.Но величина ν1 есть сумма n независимых случайных величин с распределением Бернулли Bp1 , и по ЦПТ2ν1 − np1ν−np1~ = √ 1= N0, 1 ,= H1 .√⇒ξ⊂⇒ ξ2 ⊂ρ(X)np1 (1 − p1 )np1 (1 − p1 )Доказательство при произвольном k приведено в главе X.~ удовлетворяет условию (K2), если рассматривать гипоФункция ρ(X)тезы H10 и H20 вместо первоначальных.У п р а ж н е н и е .
Вспомнить закон больших чисел и доказать, что если0H1 неверна, то найдётся j ∈ {1, . . . , k} такое, что2νj(νj − npj )2pn=− pj−→ ∞ при n → ∞.npjpjnОсталось построить критерий согласия по определению 30. Пусть случайная величина η имеет распределение Hk−1 . По таблице распределенияHk−1 найдём C, равное квантили уровня 1 − ε этого распределения: ε == P(η > C). Критерий χ2 устроен обычным образом:(0~~ = H1 , если ρ(X) < C,δ(X)~ > C.H20 , если ρ(X)Здесь следует остановиться и задать себе вопрос. Величина ρ есть сумма k слагаемых. Слагаемые, если мы не забыли теорему Муавра — Лапласа, имеют распределения,близкие к квадратам каких-то нормальных.
Куда потерялась одна степень свободы?Причина кроется, конечно, в зависимости слагаемых: νk = n − ν1 − . . . − νk−1 .1§ 2. Критерии для проверки гипотезы о распределении97З а м е ч а н и е 20. На самом деле критерий χ2 применяют и для решения первоначальной задачи о проверке гипотезы H1 = {F = F1 }. Необходимо только помнить, что этот критерий не отличит основную гипотезу отальтернативы, если вероятности попадания в интервалы разбиения у альтернативы такие же как у F1 . Поэтому берут большое число интерваловразбиения — чем больше, тем лучше, чтобы «уменьшить» число альтернатив, неразличимых с предполагаемым распределением.С другой стороны, следующее замечание предостерегает нас от чрезмерно большого числа интервалов.~ ⇒ Hk−1 обеспеЗ а м е ч а н и е 21. Сходимость по распределению ρ(X)чивается ЦПТ, поэтому разница допредельной и предельной вероятностейимеет тот же порядок, что и погрешность нормального приближенияb~ > C) − P(χ2 > C)| 6 max √| PH1 (ρ(X),k−1npj (1 − pj )где b — некоторая постоянная (неравенство Берри — Эссеена).
Маленькие~значения npj в знаменателе приведут к тому, что распределение ρ(X)будет существенно отличаться от Hk−1 . Тогда и реальная вероятностьP(ρ > C) — точный размер полученного критерия — будет сильно отличаться от ε. Поэтому число интервалов разбиения выбирают так, чтобы~ на Hk−1 .обеспечить нужную точность при замене распределения ρ(X)Обычно требуют, чтобы np1 = . . . = npk были не менее 5—6.Критерий χ2 для проверки параметрической гипотезы. Критерий χ2часто применяют для проверки гипотезы о принадлежности распределения выборки некоторому параметрическому семейству.~ = (X1 , . .
. , Xn ) из неизвестного распределеПусть дана выборка Xния F. Проверяется сложная гипотезаH1 = F ∈ {Fθ ; θ ∈ Θ ⊆ Rd } ,где θ — неизвестный параметр, d — его размерность.Разобьём всю числовую ось на k > d + 1 интервалов группировкиA1 , . . . Ak и вычислим νj — число элементов выборки, попавших в интервал Aj . Но теперь вероятность pj = PH1 (X1 ∈ Aj ) = pj (θ) зависит отнеизвестного параметра θ.
Функция отклонения (25) также зависит отнеизвестного параметра θ, и использовать её в критерии Пирсона нельзя:~ θ) =ρ(X;kX(νj − npj (θ))2j=1npj (θ).(26)98ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯ~ — значение параметра θ, доставляющее минимум функПусть θ∗ = θ∗ (X)~ θ) при данной выборке X.~ Подставив вместо истинных вероятции ρ(X;ностей pj их оценки pj (θ∗ ), получим функцию отклонения~ θ∗ ) =ρ(X;kX(νj − npj (θ∗ ))2j=1npj (θ∗ ).(27)Условие (K1) (при выполнении некоторых условий2 относительно гладкости pj (θ)) обеспечивается теоремой, которую мы доказывать не будем.Т е о р е м а 24 (Р. Ф и ш е р).
Если верна гипотеза H1 , d — размерность вектора параметров θ, то при фиксированном k и при n → ∞∗~ θ )=ρ(X;kX(νj − npj (θ∗ ))2j=1npj (θ∗ )⇒ Hk−1−d ,где Hk−1−d есть χ2-распределение с k − 1 − d степенями свободы.Построим критерий χ2 . Пусть случайная величина η имеет распределение Hk−1−d . По заданному ε найдём C такое, что ε = P(η > C).Критерий согласия χ2 устроен обычным образом:(~ θ∗ ) < C,H1 , если ρ(X;~δ(X) =~ θ∗ ) > C.H2 , если ρ(X;Замечания 20, 21 о количестве интервалов разбиения остаются в силе.~ θ) в обЗ а м е ч а н и е 22. Вычисление точки минимума функции ρ(X;щем случае возможно лишь численно.
Поэтому есть соблазн использоватьвместо оценки θ∗ оценку максимального правдоподобия θ̂, построеннуюпо выборке X1 , . . . , Xn . Однако при такой замене предельное распреде~ θ) уже не равно Hk−1−d и зависит от θ.ление величины ρ(X;Попытаемся всё же использовать простую оценку θ̂ вместо сложно вы~ θ∗ ) 6 ρ(X;~ θ̂). И если верно нерачисляемой θ∗ . По определению, ρ(X;~ θ̂) < C, то тем более ρ(X;~ θ∗ ) < C. Таким образом, есливенство ρ(X;~ θ̂) < C, она тем болеегипотеза H1 принимается из-за того, что ρ(X;~ θ∗ ). Но для того чтобы отвергнутьбудет приниматься по функции ρ(X;~ θ∗ ).основную гипотезу, придётся вычислять ρ(X;2Все ∂ 2 pj (θ)/∂ θi ∂ θl непрерывны по θ; ранг матрицы k∂pj (θ)/∂ θi k равен d.§ 3. Критерии для проверки однородности99§ 3.
Критерии для проверки однородностиДвувыборочный критерий Колмогорова — Смирнова. Даны две неза~ = (X1 , . . . , Xn ) и Y~ = (Y1 , . . . , Ym ) из неизвествисимые выборки Xных распределений F и G соответственно. Проверяется сложная гипотезаH1 = {F = G} при альтернативе H2 = {H1 неверна}.Критерий Колмогорова — Смирнова используют, если F и G имеютнепрерывные функции распределения.Пусть Fn∗ (y) и G∗m (y) — эмпирические функции распределения, постро~ и Y~ ,енные по выборкам Xqmn~~ρ(X, Y ) =sup Fn∗ (y) − G∗m (y).m+ny~ Y~ ) ⇒ η приТ е о р е м а 25.
Если гипотеза H1 верна, то ρ(X,n, m → ∞, где η имеет распределение Колмогорова.p~ Y~ ) −→У п р а ж н е н и е . Доказать, что ρ(X,∞ при любом стремлении n, m → ∞, если H2 верна.В таблице распределения Колмогорова по заданному ε найдём C такое, что ε = P(η > C), и построим критерий Колмогорова — Смирнова(~~ = H1 , если ρ(X) < C,δ(X)~ > C.H2 , если ρ(X)З а м е ч а н и е 23. Если есть более двух выборок, и требуется проверить гипотезу однородности, часто пользуются одним из вариантов критерия χ2 Пирсона. Этот критерий можно посмотреть в [3, § 3.4].Ранговый критерий Вилкоксона, Манна и Уитни.