1625915145-5b3debabab98d9e994cc3a1bc8da0f5b (843876), страница 17
Текст из файла (страница 17)
если Xi ⊂где G — полностью известное непрерывное распределение;(K2) если гипотеза H1 неверна, т. е. если Xi имеют какое-то распреp⃗ −→деление F2 ̸= F1 , то |ρ(X)|∞ при n → ∞ для любого такого F2 .= G определим постоянную C из равенДля случайной величины η ⊂ства ε = P(|η | ⩾ C).
Построим критерий{⃗ < C,H1 , если |ρ(X)|⃗δ(X) =(23)⃗ ⩾ C.H2 , если |ρ(X)|Этот критерий называется критерием согласия.92ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯКритерий согласия «работает» по принципу: если для данной выборкифункция отклонения велика по абсолютному значению, то это свидетельствует в пользу альтернативы, и наоборот.
При этом степень «великости»определяется исходя из того, как функция отклонения должна себя вести, если бы основная гипотеза была верна. Действительно, если H1 вер⃗ имеет почти распределение G. Следовательно, онана, статистика ρ(X)должна себя вести подобно типичной случайной величине η из этого распределения. Но для той попадание в область {|η | ⩾ C} маловероятно:вероятность этого события равна малому числу ε. Поэтому попадание⃗ в эту область заставляет подозревать, что гипотеза H1величины ρ(X)⃗ следует ожиневерна.
Тем более, что больших значений величины |ρ(X)|дать именно при альтернативе H2 .Убедимся в том, что этот критерий имеет (асимптотический) размер εи является состоятельным. Повторим определение состоятельности критерия. Поскольку альтернатива H2 всегда является сложной, то, как мыуже отмечали, вероятность ошибки второго рода любого критерия δ будет зависеть от конкретного распределения F2 из числа альтернатив.О п р е д е л е н и е 31. Критерий δ для проверки гипотезы H1 противсложной альтернативы H2 называется состоятельным, если для любогораспределения F2 , отвечающего альтернативе H2 , вероятность ошибкивторого рода стремится к нулю с ростом объёма выборки:()⃗ = H1 → 0 при n → ∞.α2 (δ, F2 ) = PF δ(X)2Т е о р е м а 22.
Критерия согласия δ, заданный в определении 30,имеет асимптотический размер ε и является состоятельным.Д о к а з а т е л ь с т в о. Условие (K1) отвечает за размер критерия:()⃗ ⩾ C → P ( |η | ⩾ C ) = ε.α1 (δ) = PH1 |ρ(X)|Расшифруем условие (K2), отвечающее за состоятельность критерия.pПо определению, запись ξn −→ ∞ означает, что для любого C > 0P(ξn < C) → 0 при n → ∞.Согласно этому определению, для любого распределения F2 из числаальтернатив вероятность ошибки второго рода стремится к нулю:()⃗ < C → 0.α2 (δ, F2 ) = PF2 |ρ(X)|З а м е ч а н и е 18. Если вместо слабой сходимости в (K1) выполняется⃗ ⊂= G, то критерий (23) будет иметь точный размер ε.ρ(X)§ 1.
Общий вид критериев согласия93Проверяя гипотезу, мы задали ε, затем по точному или предельному⃗ ⇒η⊂= G вычислили «барьер» C, с которым сравраспределению ρ(X)⃗нили значение |ρ(X)|.На практике поступаютиначе.Пусть по данной()∗⃗реализации выборки получено число ρ = ρ X(ω0 ) . Числоε∗ = P(|η | > |ρ∗ |)называют реально достигнутым уровнем значимости критерия.
По величине ε∗ можно судить о том, следует принять или отвергнуть основную гипотезу. Именно это число является результатом проверки гипотезыв любом статистическом пакете программ. Каков же смысл величины ε∗ ?Легко проверить, что критерий (23) можно записать так:{H1 , если ε∗ > ε,⃗δ(X) =H2 , если ε∗ ⩽ ε.При больших n вероятность⃗ > |ρ∗ |)PH1 (|ρ(X)|(24)стремится к ε∗ или равна ей — в зависимости от того, является G точ⃗ Поэтому ε∗ есть почтиным или предельным распределением для ρ(X).то же самое, что (24).
Вероятность (24) имеет следующий смысл: это вероятность, взяв выборку из распределения F1 , получить по ней большее⃗ эмпирического от истинного распределения, чем полуотклонение |ρ(X)|чено по проверяемой выборке. Больши́е значения вероятности (24) или ε∗свидетельствуют в пользу основной гипотезы.
Напротив, малые значениявероятности (24) или ε∗ свидетельствуют в пользу альтернативы.Если, например, вероятность (24) равна 0,2, следует ожидать, чтов среднем 20 % «контрольных» выборок, удовлетворяющих основной ги⃗ попотезе (каждая пятая), будут обладать бо́льшим отклонением |ρ(X)|сравнению с тестируемой выборкой, в принадлежности которой распределению F1 мы не уверены. Можно отсюда сделать вывод, что тестируемаявыборка ведёт себя не хуже, чем 20 % «правильных» выборок.Но попадание в область вероятности 0,2 не является редким или «почти невозможным» событием. В статистике редкими обычно считают события с вероятностями ε = 0,01 или ε = 0,05 (это зависит от последствийошибочного решения).
Поэтому при ε∗ = 0,2 > 0,05 основную гипотезуможно принять.Реально достигнутый уровень ε∗ равен точной верхней грани тех значений ε, при которых критерий (23) размера ε принимает гипотезу H1 .94ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯ§ 2. Критерии для проверки гипотезы о распределении⃗ = (X1 , . . . , Xn ) из расКритерий Колмогорова. Имеется выборка Xпределения F. Проверяется простая гипотеза H1 = {F = F1 } противсложной альтернативы H2 = {F ̸= F1 }.
В том случае, когда распределение F1 имеет непрерывную функцию распределения F1 , можно пользоваться критерием Колмогорова.Пусть√⃗ = n sup |Fn∗ (y) − F1 (y)|.ρ(X)y⃗ обладает свойствами (K1), (K2). Если H1 верна,Покажем, что ρ(X)⃗ ⇒ η , гдето Xi имеют распределение F1 .
По теореме Колмогорова ρ(X)случайная величина η имеет распределение с функцией распределенияКолмогорова K(y) (рис. 11).10,50,5y1Рис. 11. График функции K(y)Если H1 неверна, то Xi имеют распределение F2 , отличное от F1 . Поpтеореме Гливенко — Кантелли Fn∗ (y) −→ F2 (y) для любого y при n → ∞.Но F1 ̸= F2 , поэтому найдётся y0 такое, что |F2 (y0 ) − F1 (y0 )| > 0.
Тогдаpsup |Fn∗ (y) − F1 (y)| ⩾ |Fn∗ (y0 ) − F1 (y0 )| −→ |F2 (y0 ) − F1 (y0 )| > 0.y√p⃗ = √n supy |F ∗ (y) − F1 (y)| −→∞.Умножив на n, получим, что ρ(X)nПусть случайная величина η имеет распределение с функцией распределения Колмогорова K(y). Это распределение табулировано, т. е. позаданному ε легко найти C такое, что ε = P(η ⩾ C).Критерий Колмогорова выглядит так:{⃗ < C,H1 , если ρ(X)⃗δ(X) =⃗ ⩾ C.H2 , если ρ(X)§ 2. Критерии для проверки гипотезы о распределении95Критерий χ2 Пирсона. Критерий χ2 основывается на группированныхданных.
Область значений предполагаемого распределения F1 делят нанекоторое число интервалов. После чего строят функцию отклонения ρпо разностям теоретических вероятностей попадания в интервалы группировки и эмпирических частот.⃗ = (X1 , . . . , Xn ) из распределения F. ПроверяетсяДана выборка Xпростая гипотеза H1 = {F = F1 } при альтернативе H2 = {F ̸= F1 }.Пусть A1 , . .
. , Ak — попарно непересекающиеся интервалы группировки, на которые разбита вся область значений случайной величины с распределением F1 . Обозначим для j = 1, . . . , k через νj число элементоввыборки, попавших в интервал Aj :νj = {число Xi ∈ Aj } =n∑I(Xi ∈ Aj ),i=1и через pj > 0 — теоретическую вероятность PH1 (X1 ∈ Aj ) попаданияв интервал Aj случайной величины с распределением F1 . По определению, p1 + . . . + pk = 1. Как правило, длины интервалов выбирают так,чтобы p1 = .
. . = pk = 1/k. Пусть⃗ =ρ(X)k∑(νj − npj )2j=1npj.(25)З а м е ч а н и е 19. Свойство (K2) выполнено далеко не для всех альтернатив. Если распределение выборки F2 ̸= F1 имеет такие же как у F1вероятности pj попадания в каждый из интервалов Aj , то по даннойфункции ρ эти распределения различить невозможно.Поэтому на самом деле критерий, который мы построим по функции ρиз (25), решает совсем иную задачу.
А именно, пусть задан набор «эталонных» вероятностей p1 , . . . , pk такой, что p1 + . . . + pk = 1. Критерий χ2предназначен для проверки сложной гипотезы о теоретическом распределении F :{}H1′ = F таково, что P(X1 ∈ Aj ) = pj ∀ j = 1, . . . , kпротив сложной альтернативы H2′ = {H1′ неверна}, т. е.{}H2′ = хотя бы для одного из интервалов P(X1 ∈ Aj ) ̸= pj .⃗ удовлетворяет условию (K1) независимо от того,Покажем, что ρ(X)проверяем ли мы гипотезу H1 или H1′ .96ГЛАВА VIII.
КРИТЕРИИ СОГЛАСИЯТ е о р е м а 23 (П и р с о н а). Если верна гипотеза H1 или H1′ , топри фиксированном k и при n → ∞⃗ =ρ(X)k∑(νj − npj )2j=1npj⇒ Hk−1 ,где Hk−1 есть χ2-распределение с k−1 степенью свободы1 .Д о к а з а т е л ь с т в о. Докажем теорему Пирсона при k = 2. В этомслучае ν2 = n − ν1 , p2 = 1 − p1 .
Посмотрим на ρ и вспомним ЦПТ:⃗ =ρ(X)(ν1 − np1 )2(ν − np2 )2(ν − np1 )2(n − ν1 − n(1 − p1 ))2+ 2= 1+=np1np2np1n(1 − p1 )(ν − np1 )2(−ν1 + np1 )2(ν − np1 )2= 1+= 1=np1n(1 − p1 )np1 (1 − p1 )(√ν1 − np1np1 (1 − p1 ))2.Но величина ν1 есть сумма n независимых случайных величин с распределением Бернулли Bp1 , и по ЦПТ()2ν−npν1 − np11⃗ = √ 1= N0, 1 ,= H1 .√⇒ξ⊂ρ(X)⇒ ξ2 ⊂np1 (1 − p1 )np1 (1 − p1 )Доказательство при произвольном k приведено в главе X.⃗ удовлетворяет условию (K2), если рассматривать гипоФункция ρ(X)тезы H1′ и H2′ вместо первоначальных.У п р а ж н е н и е . Вспомнить закон больших чисел и доказать, что если H1′ неверна, то найдётся j ∈ {1, .