Аркашов Н.С. - Высшая математика. Теория вероятностей и математическая статистика (1275646), страница 23
Текст из файла (страница 23)
Альтернативной дляH0 является сложная гипотеза H1 : F 6= F0 .Критерий Колмогорова применяется в случае, когда функцияраспределения F0 (t) непрерывна. Рассматривается следующее расстояниемежду эмпирической и теоретической функциями распределения:Dn = D(Fn∗ , F0 ) =sup−∞<t<∞|Fn∗ (t) − F0 (t)| =max−∞<t<∞|Fn∗ (t) − F0 (t)|.В качестве статистики√ критерия Колмогорова выбирается эторасстояние, умноженное на n, где n — объем выборки:√√Tn = nDn = n max |Fn∗ (t) − F0 (t)|.−∞<t<∞А.
Н. Колмогоров доказал следующие свойства статистики Tn :1) если гипотеза H0 верна, то Tn с ростом n сходится кслучайной величине J с функцией распределения, называемой функциейраспределения Колмогорова:∞X2 2FJ (t) = 1 − 2(−1)k+1 e−2k t ;k=12) если гипотеза H0 неверна, то Tn сходится почти наверное к +∞ приn → ∞.Таким образом, достигаемый уровень значимости критерияКолмогорова равен∞∞XX22∗k+1 −2k2 Tn2α = 1 − FJ (Tn ) = 2(−1)e=2(−1)k+1 e−2k nDn .
(15.3)k=1k=1155Отметим, что для расчетов по этой формуле нужно брать невсю бесконечную сумму, а только несколько слагаемых, при этомошибка вычислений не превосходит последнего отброшенного слагаемого.Критерий Колмогорова отвергает гипотезу H0 на уровне α, если α∗ ≤ α.~Для практического вычисления статистики Dn = Dn (X)можноиспользовать следующую формулу: ~ = max max F (X(i) ) − i , F (X(i) ) − i − 1 .(15.4)Dn (X)1≤i≤nnn Здесь X(i) — это элементы вариационного ряда, то есть дляэтих вычислений выборку следует предварительно упорядочить повозрастанию.Если гипотетическая функция распределения F0 (x) не являетсянепрерывной, то критерий Колмогорова неприменим.
В этом случае можновоспользоваться χ2 -критерием Пирсона. Статистика критерия Пирсонастроится после предварительного «группирования» выборочных данных.Для этого все множество S возможных значений случайных величин Xiразбивается на конечное число непересекающихся частей:S = S1 ∪ S2 ∪ · · · ∪ Sr ,Si ∩ Sj = ∅, i 6= j.~ попавших в множествоОбозначим νj — число элементов выборки X,Sj , а pj — вероятность попадания случайной величины Xi в множествоSj , вычисленная с помощью гипотетической функции распределения F =F0 .
Тогда в качестве статистики критерия χ2 рассматривают следующуюпредложенную Пирсоном меру отклонения эмпирического распределенияот предполагаемого теоретического:~ =χ2 (X)rX(νj − npj )2.npjj=1(15.5)Справедливаследующаятеорема,позволяющаянаходитьраспределение статистики χ2при больших значениях n, а сталобыть, и строить статистический критерий.Теорема15.1. Если гипотезаH0 однозначно фиксируетвероятности p1 , p2 , . .
. , pr , где pj = P(Xi ∈ Sj ), то при выполнении этой~ слабо сходится к распределению χ2r−1 :гипотезы статистика χ2 (X)χ2 =⇒ χ2r−1 , n → ∞.При невыполнении нулевой гипотезы статистикапочти наверное к +∞.156~χ2 (X)сходитсяДля построения критерия, основанного на статистике χ2 , используем~ отыскиваемраспределение χ2r−1 , и по найденному значению χ2 (X)достигаемый уровень значимости~α∗ = 1 − Fχ2r−1 (χ2 (X))по таблице 5 распределения хи-квадрат или с помощью математическихпакетов. В пакете Microsoft Excel достигаемый уровень значимостивычисляется формулой(15.6)=ХИ2РАСП(ячейка;r-1)(в качестве ячейки надо подставить адрес ячейки, в которой вычисленастатистика хи-квадрат, а r − 1 — число степеней свободы).Тогда критерий Пирсона имеет следующий вид:H0 ⇔ α∗ > α.(15.7)Заметим, что для практического применения рекомендуется разбиениепроизводить таким образом, чтобы выполнялось условие npj ≥ 10.При нарушении этого условия нужно объединить соседние множества Sj .Вероятности pj надо выбирать по возможности равными.Критерий хи-квадрат часто используют для проверки сложныхгипотез о принадлежности распределения к некоторому параметрическомусемейству (например, к нормальному).
При этом вместо известныхвероятностей pj подставляют их оценки p∗j , полученные путем оцениваниянеизвестных парметров распределения. Важно понимать, что в этом~ уже не будетслучае предельное распределение статистики χ2 (X)2распределением χr−1 , а будет близко к распределению χ2r−1−s , где s — числооцениваемых параметров (s = 2 для нормального распределения).
Болееточно, предельная функция распределения заключена между функциямираспределения χ2r−1−s и χ2r−1 .~Достигаемый уровень значимости α∗ заключен между 1 − Fχ2 (χ2 (X))r−1~и 1 − Fχ2r−1−s (χ2 (X)),где s — число оцениваемых параметров.Для того, чтобы получить в точности распределение хи-квадрат сr − 1 − s степенями свободы, следует оценивать неизвестные параметрыметодом максимального правдоподобия по группированной выборке, но этоприводит, как правило, к сложным вычислительным процедурам.157§ 15.6.Решение типовых примеровПример15.4.
Вариационный ряд выборки имеет вид(1; 2; 3; 4; 5; 6; 7; 8; 9; 10). Проверить гипотезу о равномерностираспределения элементов выборки на отрезке от 0 до 10 с помощьюкритерия Колмогорова: найти реализацию достигаемого уровнязначимости и сделать вывод о принятии гипотезы на уровнях 0,1и 0,01.Решение. Построим на одном графике эмпирическую Fn∗ (t) итеоретическую F0 (t) функции распределения.Эмпирическая функция распределения — это ступенчатая функция,высота ступеньки равна 1/10 в точках 1; . . . ; 10.Теоретическая функция распределения равномерного закона наотрезке от 0 до 10 равнаесли t ≤ 0, 0,t/10, если 0 < t ≤ 10,F0 (t) =(15.8)1,если t > 10.Так как функция распределения F0 (t)непрерывна, то можноприменять критерий Колмогорова.
Найдем по графику значениеDn — наибольшую по модулю разность между эмпирической итеоретической функциями распределения. Эта разность достигается вточках разрыва эмпирической функции распределения и равна 1/10.Вычислим реализацию достигаемого уровня значимости, вспоминая, чтоn = 10: согласно (15.3),α∗ = 2∞X(−1)k+1 e−2kk=122nDn≈≈ 2e−0,2 −2e−4·0,2+2e−9·0,2 −2e−16·0,2+2e−25·0,2 −2e−36·0,2 +2e−49·0,2 ≈ 0, 99997.Достигаемый уровень значимости оказался близким к 1; это означает,что нет оснований отвергать гипотезу о равномерности выборочныхзначений. Эту гипотезу следовало бы отвергнуть только в случае, когдадостигаемый уровень значимости оказался бы близким к нулю.В частности, в нашем случае выполнено неравенство α∗ > 0, 1.Следовательно, гипотеза о равномерности принимается на уровне 0,1. Темболее она будет приниматься на уровне 0,01.158Пример15.5.
Решить пример 15.4 для реализации выборки(10; 0; 0; 10; 10; 10; 0; 0; 0; 10).Решение. Упорядочив реализацию выборки по неубыванию, получимреализацию вариационого ряда: (0; 0; 0; 0; 0; 10; 10; 10; 10; 10). Как и впредыдущем примере, построим на одном графике эмпирическую Fn∗ (t) итеоретическую F0 (t) функции распределения. В отличие от предыдущегопримера, эмпирическая функция распределения здесь имеет всего двеступеньки в точках 0 и 10, высотой по 5/10 = 0, 5.
Теоретическаяфункция распределения остается той же самой и определяется формулой(15.8). Значение Dn достигается в точках разрыва эмпирической функциираспределения и равняется 0, 5. Вычислим реализацию достигаемогоуровня значимости:α∗ = 2∞X(−1)k+1 e−2kk=122nDn2≈ 2e−2·10·0,5 = 2e−5 ≈ 0, 0135.Здесь мы взяли только одно слагаемое суммы, так как остальныеслагаемые гораздо меньше.В этом примере достигаемый уровень значимости оказался близким к0, что говорит против гипотезы H0 . В частности, α∗ < 0, 1, то есть гипотезаоднородности отвергается на уровне 0,1. Однако она принимается на болеенизком уровне 0,01, так как α∗ > 0, 01.Пример 15.6.
Проверить гипотезу о равномерности на отрезкеот 0 до 10 для выборок из двух предыдущих примеров с помощьюкритерия хи-квадрат Пирсона: найти реализации достигаемых уровнейзначимости и сделать выводы о принятии гипотезы на уровнях 0,1 и0,01. Число промежутков группирования выбрать по формуле Стеджеса.Решение.Согласно формуле Стеджеса (11.3), вычисляем целую часть логарифмапо основанию 2 от объема выборки и прибавляем единицу:r = [log2 n] + 1 = [log2 10] + 1 = 3 + 1 = 4,так как 23 = 8 < 10 < 24 = 16.Итак, множество допустимых выборочных значений — отрезок [0; 10]— следует разбить на 4 промежутка равной длины:S1 = [0; 2, 5), S2 = [2, 5; 5), S3 = [5; 7, 5), S4 = [7, 5; 10].159Согласно нулевой гипотезе, распределение равномерное на отрезке от0 до 10.
Следовательно, равны вероятности попадания элемента выборкив отрезки равной длины:p1 = p2 = p3 = p4 = 1/4 = 0, 25.Значения статистики хи-квадрат Пирсона различны для примеров 15.4и 15.5:1) В примере 15.4 количества элементов, попавших в каждый изпромежутков, равны соответственноν1 = 2, ν2 = 2, ν3 = 3, ν4 = 3.Вычислим статистику хи-квадрат согласно формуле (15.5):~ =χ2 (X)=rX(νj − npj )2=npjj=1(2 − 10 · 0, 25)2 (2 − 10 · 0, 25)2 (3 − 10 · 0, 25)2 (3 − 10 · 0, 25)2+++= 0, 4.10 · 0, 2510 · 0, 2510 · 0, 2510 · 0, 25Найдем достигнутый уровень значимости по формуле (15.6), используяфункцию ХИ2РАСП и подставляя значение 0,4 и число степеней свободы,равное r − 1 = 4 − 1 = 3:ХИ2РАСП(0,4;3) ≈ 0, 94.Итак, здесь достигнут уровень значимости 0,94, что не дает основанийотвергать гипотезу о равномерности ни на уровне 0, 1 < 0, 94, ни тем болеена уровне 0,01.2) В примере 15.5 количества элементов, попавших в каждый изпромежутков, принимают значенияν1 = 5, ν2 = 0, ν3 = 0, ν4 = 5.Как и в пункте (1), вычислим статистику хи-квадрат и найдемдостигнутый уровень значимости:~ =χ2 (X)=rX(νj − npj )2=npjj=1(5 − 10 · 0, 25)2 (0 − 10 · 0, 25)2 (5 − 10 · 0, 25)2 (0 − 10 · 0, 25)2+++= 10;10 · 0, 2510 · 0, 2510 · 0, 2510 · 0, 25160ХИ2РАСП(10;3) ≈ 0, 0186.В этом примере достигнут низкий уровень значимости 0,0186, что даетоснования отвергать гипотезу о равномерности на уровне 0, 1 > 0, 0186, ноне на уровне 0,01.Отметим, что для рассмотренных примеров критерии Колмогороваи хи-квадрат Пирсона дают похожие результаты — достигнутые уровнизначимости для обоих критериев оказались довольно близкими.
Вслучае, когда основная гипотеза предполагает дискретное распределение,критерий Колмогорова неприменим, и мы будем пользоваться толькокритерием хи-квадрат Пирсона.Пример 15.7. При 4040 бросаниях монеты Бюффон получил ν1 =2048 выпадений герба и ν2 = n − ν1 = 1992 выпадений решетки.Согласуется ли это с гипотезой о том, что монета правильная, приуровне значимости α = 0, 1? С каким предельным уровнем значимостиможет быть принята эта гипотеза?Решение.
Можно считать, что мы имеем дело со статистической~ ⊂моделью X= Bp , где неизвестен параметр p - вероятность выпадениягерба. Проверяемая гипотеза H0 : p = 0, 5. Поскольку выборочные данныеуже сгруппированы ( ν1 = 2048 — число значений Xi = 1 , ν2 — числозначений Xi = 0 ), то можем вычислить наблюдаемое значение статистикиχ2 :p1 = PH0 (Xi = 1) = 0, 5; p2 = PH0 (Xi = 0) = 0, 5;(ν1 − np1 )2(2048 − 2020)2== 0, 285;np12020(1992 − 2020)2(ν2 − np2 )2== 0, 388;np22020Число множеств разбиения rзначимости=χ2 = 0, 285 + 0, 388 = 0, 673.2, поэтому достигнутый уровеньХИ2РАСП(0,673;1) ≈ 0, 412.Достигнутый уровень значимости довольно высок. В частности,0, 412 > 0, 1, то есть гипотеза о симметричности монеты принимается науровне 0,1.161§ 15.7.Задачи для самостоятельного решения15.1При n=4000 независимых испытаний события A1, A2, A3,составляющие полную группу, осуществились соответственно 1905, 1015 и1080 раз.