korolev_matematicheskie_osnovy_teorii_ri ska (811435), страница 81
Текст из файла (страница 81)
. . , Xn из генеральной совокупности с неизвестным распределением F (x) = P(X1 <x). Предположим, что для описания вида распределения F (x) сформулирована модель F0 (x). Проверка адекватности этой модели по выборкеX1 , . . . , Xn эквивалентна проверке гипотезы о том, что F (x) ≡ F0 (x).Критерий согласия хи-квадрат как раз и предназначен для проверкиэтой гипотезы.
Заключение о справедливости указанной выше гипотезы делается на основе сравнения статистики хи-квадрат с соответствующим пороговым значением. Опишем эту процедуру подробнее.Пусть a и b – числа, удовлетворяющие неравенствам a < X(1) ,b > X(n) (напомним, что X(1) – наименьший элемент выборки, а X(n) –11.1.6. Критерий согласия хи-квадрат489наибольший). Зададим целое положительное число k и разобьем интервал [a, b] на k равных непересекающихся частей.
Обозначим полученные подынтервалы символами ∆j , j = 1, . . . , k (в формальной записи∆j = [a+(j −1)δ, a+jδ), j = 1, . . . , k, где δ = (b−a)/k). Пусть νj – числотех элементов выборки X1 , X2 , . . . , Xn , которые попали в интервал ∆j .С помощью модельной (гипотетической) функции распределения F0 (x)(0)(0)определим числа pj , положив pj = F0 (jδ) − F0 ((j − 1)δ), j = 1, .
. . , k(0)(другими словами, pj – это вероятность того, что случайно взятый элемент генеральной совокупности попадает в интервал ∆j , вычисленнаяв предположении о том, что F (x) ≡ F0 (x)). Статистикой хи-квадратназывается величина2X =(0)kX(νj − npj )2j=1(0)npj.В терминах выборочных частот pej = νj /n статистика хи-квадрат можетбыть записана в виде2X =n(0)kX(pej − pj )2j=1(0)pj.Статистика хи-квадрат характеризует суммарное отклонение выборочных (наблюдаемых) частот от теоретических (гипотетических).
По тому, насколько велика эта статистика, можно сделать вывод о неадекватности или адекватности (согласии) теоретического распределения сэкспериментальными данными. Чем эта статистика больше, тем менееадекватна теоретическая модель. А именно, справедлива так называемая теорема Пирсона, устанавливающая, что, если гипотеза F (x) ≡F0 (x) верна, то при неограниченно увеличивающемся объеме выборки (n → ∞) распределение случайной величины X 2 , введенной выше,все больше и больше сближается с распределением хи-квадрат с k − 1степенями свободы.Зафиксируем малое положительное число α (на практике традиционно выбирается α = 0.01 или α = 0.05). Пусть, как и ранее, χ2k−1 (1−α)– (1 − α)-квантиль распределения хи-квадрат с k − 1 степенями свободы.
Процедура проверки указанной гипотезы с помощью критерия хиквадрат заключается в следующем. Значение статистики хи-квадратX 2 сравнивается с порогом χ2k−1 (1 − α). Если X 2 > χ2k−1 (1 − α), то гипотеза о том, что F (x) ≡ F0 (x) отвергается. Если же X 2 ≤ χ2k−1 (1 − α), тоделается вывод о том, что экспериментальные данные не противоречатвыдвинутой гипотезе, то есть согласуются с ней.
При этом вероятность49011. Статистика страховой деятельностиошибочного отклонения гипотезы F (x) ≡ F0 (x), если она на самом делеверна, равна α.На практике критерий согласия хи-квадрат можно применять, если(0)(0)наименьшая из величин np1 , . . . , npk не меньше пяти.Критерий согласия хи-квадрат можно применять и тогда, когдасформулированная гипотеза описывает распределение генеральной совокупности не однозначно, а с точностью до некоторых неизвестныхпараметров: F (x) ≡ F0 (x; θ1 , . . . , θr ). В этом случае необходимо пред(0)варительно оценить неизвестные параметры и вычислить значения pj(0)как pj = F0 (jδ; θ̂1 , .
. . , θ̂r ) − F0 ((j − 1)δ; θ̂1 , . . . , θ̂r ), j = 1, . . . , k. Приэтом, однако, предельным распределением случайной величины X 2 будет распределение хи-квадрат с k − r − 1 степенями свободы, и сталобыть, величину X 2 надо сравнивать с (1 − α)-квантилью именно этогораспределения.При использовании критерия согласия хи-квадрат надо, однако,принимать во внимание следующие обстоятельства.a). Критерий хи-квадрат имеет асимптотический характер: толькопри “бесконечно большом"объеме выборки распределение статистикиX 2 совпадает с распределением хи-квадрат. Точность же приближенияистинного (допредельного) распределения этой статистики предельным распределением хи-квадрат, вообще говоря, неизвестна.
Поэтомуистинная вероятность ошибки, совершаемой при отказе от верной гипотезы, не совпадает с α.b). Более того, если если проверяемая гипотеза неоднозначно задает распределение генеральной совокупности, то предельное распределение статистики X 2 будет совпадать с распределением хи-квадрат (ссоответствующим числом степеней свободы), только если неизвестныепараметры оцениваются с помощью так называемого полиномиального метода максимального правдоподобия. По крайней мере, сходимостьраспределения статистики X 2 к распределению хи-квадрат доказанатолько для такого случая.c).
Поскольку базой для вычисления статистики критерия согласия хи-квадрат являются сгруппированные данные типа гистограммы,конкретное значение этой статистики существенно зависит от того, каксгруппированы данные, то есть от числа k интервалов и выбора точекa и b.d). Критерий согласия хи-квадрат позволяет сделать вывод о том,что данные не согласуются с той или иной гипотезой. Однако с егопомощью нельзя сделать вывода о том, что данные согласуются с конкретной гипотезой. Можно лишь сделать вывод о том, что данные ейне противоречат.11.1.7. Критерий согласия Колмогороваe).
Чрезмерно малые (близкие к нулю) значения статистики X 2 (наосновании которых формально надо делать вывод о том, что данныене противоречат проверяемой гипотезе, свидетельствуют о нарушенииусловий независимости или однородности наблюдений, как если бы примногократном воспроизведении серий, скажем, по четыре испытанияБернулли с вероятностью успеха в одном испытании, скажем, равной1, каждый раз наблюдался бы ровно один успех.411.1.7Критерий согласия Колмогорова.Если теоретическая (гипотетическая) функция распределения генеральной совокупности непрерывна, то адекватность выбранной модели можно проверять с помощью критерия согласия Колмогорова.
Оноснован на сравнении статистики Колмогорова с соответствующимпороговым значением. Опишем эту процедуру подробнее.Пусть Fn (x) – эмпирическая функция распределения, построеннаяпо выборке X1 , . . . , Xn так, как это было описано в разделе 11.1.1. Пустьв отношении (неизвестного) распределения генеральной совокупностиF (x) выдвинута гипотеза F (x) ≡ F0 (x). Определим статистику Колмогорова Dn(0) какDn(0) = max |Fn (x) − F0 (x)|.xЗначение этой статистики, как несложно видеть, можно вычислить поформулеDn(0) = max |Fn (X(j) ) − F0 (X(j) )|.j=1,...,nСтатистика Колмогорова характеризует отклонение выборочной (эмпирической) функции распределения от теоретической (гипотетической).
По тому, насколько велика эта статистика, можно сделать выводо неадекватности или адекватности теоретического распределения (егосогласии с экспериментальными данными). Чем эта статистика больше,тем менее адекватна теоретическая модель. А именно, можно показать,что, если верна гипотеза F (x) ≡ F0 (x), то при неограниченном√ увеличении объема выборки (n → ∞) распределение величины nDn(0) всебольше и больше сближается с функцией распределения КолмогороваK(x).Поэтому, если мы зафиксируем произвольное малое положительноечисло α и, как и ранее, (1 − α)-квантиль распределения Колмогоровачерез k(1 − α),√ то указанная гипотеза отклоняется, если√ обозначимnDn(0) > k(1−α).
Если же nDn(0) ≤ k(1−α), то делается вывод о том,что экспериментальные данные не противоречат выдвинутой гипотезе,49149211. Статистика страховой деятельностито есть согласуются с ней. При этом вероятность ошибочного отклонения гипотезы F (x) ≡ F0 (x), если она на самом деле верна, равнаα.Критерий согласия Колмогорова можно применять только тогда,когда выдвинутая гипотеза однозначно описывает непрерывное распределение генеральной совокупности, то есть не содержит никаких неизвестных параметров.
Например, с его помощью нельзя проверять гипотезу “распределение генеральной совокупности нормально", посколькунормальных распределений бесконечно много и каждое из них определяется парой параметров, но можно проверить гипотезу “распределение генеральной совокупности нормально с параметрами 0 и 1".
Приподстановке оценок параметров, построенных по выборке, вместо неизвестных параметров гипотетической функции распределения в статистику Колмогорова Dn(0) изменяется ее предельное распределение, которое становится зависящим от конкретного вида гипотетической функции распределения и способа получения оценок. А это означает, чтоистинная вероятность ошибки будет отличаться от требуемого значения (оставаясь, вообще говоря, неизвестной).11.1.8Выбор наилучшей моделиПоскольку, как правило, на практике значения параметров, фигурирующих в тех или иных аналитических моделях распределений, неизвестны, а критерий согласия Колмогорова ориентирован на проверкупростых гипотез согласия (то есть таких, в которых все параметрысчитаются известными), то на практике проверку согласия моделей иэкспериментальных данных целесообразно проводить с использованием критерия хи-квадрат.
Кратко опишем методику выбора наилучшеймодели с помощью такого подхода.Для каждой из моделей, упомянутых выше, с учетом оценок параметров, полученных на этапе подгонки, вычисляется значение статистики хи-квадрат, определяемое какTk = Tk (x1 , . . . , xn ) =(k)mXnj − npj )2j=1(k)npj.Здесь числа k – номер модельного распределения, m и nj определяют(k)ся так же, как при построении гистограммы (см. пункт 11.1.1), а pj –вероятность того, что случайная величина с k-м модельным распределением попадет в j-й интервал (см.