В.Ю. Королев - Теория вероятностей и математическая статистика (1115266), страница 26
Текст из файла (страница 26)
2.4.2. Метод моментов Как и в предыдущем разделе, предположим, что в распоряжении исследователя имеется независимая однородная выборка Хп..., Х„. Предположим, что распределение генеральной совокупности Р(Х1 ( х) зависит от некоторых неизвестных параметров дп..., О,: Р(Х1 < х) = Г(х; дп..., 0,). Если случайная величина Х1 дискретна и принимает значения х1, хз,..., то от неизвестных параметров Оп..., д, зависят вероятности Р(Х1 = х;) = р;(01,..., 0,),1 = 1 2,... Если случайная величина Х1 непрерывна, то от неизвестных параметров Оп..., О, зависит ее плотность р(х) = р(х; д1,..., 0,).
Ясно„что в обеих ситуациях числовые характеристики случайной величины Х1 также зависят от неизвестных параметров 01,..., д,. Идея метода моментов заключается в приравнивании теорепзческих числовых характеристик случайной величины Х1 их эмпирическим (выборочным) аналогам и решении получаемых при этом (сисгем) уравнений относительно параметров дп... „д,. Чаще всего в качестве числовых характеристик генеральной совокупности (то есть распределения случайной величины Х1) рассматриваются ее моменты ЕХ~ =,пь(01,..., 0„), где хор;(01,..., 0,), если распределение случайной величины Х1 дискретно, пе(01,...,0,) = если распределение случайной величины Х1 непрерывно.
2.4. Меновы оценивании неизвестных нораиетров 152 В таком случае уравнения метода моментов принимают вид дь(В1,...,В,) =-~'Х) 1 1 1 При этом, как правило, берутся первые г уравнений такого вида: я 1,..., г. Однако такой выбор необязателен. Выбор уравнений диктуется вычислительной эффективностью. Пгими' 4.2.1. Пусть выборка Х1,..., Хн взята из нормальной генеральной совокупности, Р(Х! ( х) = Ф((х — а)/а).
Параметры а и аг неизвестны. Тогда ЕХг! — — аз+ ог, ЕХ! =а, и система уравнений метода моментов принимает вид 1 а=-ЕХ)=Х., л н а +аг = — ~~! Хг. л !=1 Решение этой системы имеет вид а — Хн ;2=-У (Ху-Х„)г=у 1 —. л, 1=1 1 р(х) = л(1+ (х — а)г) ' В тех случаях, когда моменты генеральной совокупности не определены (не существуют), в методе моментов можно брать другие числовые характеристики, что иллюстрирует следующнй пример.
Пгимнг 4.2.2. Пусп выборка Х1,..., Хн взята из генеральной совокупности, распределенной по заюну Коши с плотностью 153 2.5. Проверка согласия Параметр а неизвестен. Как мы видели, у такого распределения математическое ожидание (первый момент) не определено, а стало быть, нет и моментов старших порядков.
Однако легко видеть, что шеаХ1 = а. Поэтому соотношение а = Ия, гДе лня — выбоРочнаЯ меДиана, можно РассматРивать как РеализаЦию ме- тода моментов, сводящуюся к оценке а = Бя. 2.5. Проверка согласия экспериментальных данных с теоретической моделью распределения генеральной совокупности Степень адекватности математической модели, описывающей ту или иную стохастическую ситуацию, можно проверить с помощью так называемых критериев согласия. В данном разделе мы рассмотрим два таких критерия — критерий согласия хи-квадрат и критерий ебгласия Колмогорова. 2.5.1. Критерий согласии ки-квадрат Критерий согласия хи-квадрат использует сгруппированные данные подобно тому, как это было сделано при рассмотрении гистограммы в разделе 2.2.3. Пусп имеется независимая однородная выборка Хп..., Х„из генеральной совокупности с неизвестным распределением г" (х) = Р(Х1 < х).
Предположим, что для описания вида распределения г"(х) сформулирована модель Го(х). Проверка адекватности этой модели по выборке Х1,..., Х„эквивалентна проверке гипотезы о том, что г(х) Ро(х). Критерий согласия хи-квадрат как раз и предназначен для проверки этой гипотезы. Заключение о справедливости указанной выше гипотезы делается на основе сравнения слгависвгики хи-квадрат с соответствующим пороговым значением. Опишеьг эту процедуру подробнее. Пусть а и Ь вЂ” числа, удовлетворяющие неравенствам а ~ Х<п, Ь ~ Х<„> (напомним, что ХП) — наименьший элемент выборки, а Хгы 154 2.5.
Проверка согласия — наибольший). Зададим целое положительное число Ь и разобьем интервал [а, Ь] на Ь равных непересекающихся частей. Обозначим полученные подынтервалы символами А), / = 1,..., й (в формальной записи А) = (а+(/ — 1)д, а+/8), / = 1,..., /с, где Ю = (Ь вЂ” а)/А). Пусп и - число тех элементов выборки Х1, Хз,..., Х„, юторые попали в интервал А .
С помощью модельной (гипотетической) функции распределения Ро(х) определим числа р1 ), положив р( ) = Рс(/Ю) — Ро((/ — 1)Ь), / = 1,..., Ь (другими словами, р — это вероятность того, что случайно взатый эле<с) мент генеральной совокупности попадает в интервал А, вычисленная в предположении о том, что г(х) ва Го(х)).
Статистикой хи-квлг)рат называется величина (и) — лр )з „1о) !=1 нР/ В терминах выборочных частот р = и)/л, введенных в разделе 11.3, статистика хи-квадрат может быть записана в виде Хз =в~ (о))з 1о) Р/ Стлтиспша хи-квадрат характеризует суммарное отклонение выборочных (наблюдаемых) частот от теоретических (гипотетических). По тому, насколько велика эта статистика, можно сделать вывод о неадекватности или адекватности (согласии) теоретического распределения с экспериментальными данными. Чем эта статистика больше, тем менее адекватна теоретическая модель. А именно, можно показать, что верна так называемая теорема Пирсона, устанавливающая, что, если гипотеза г (х) ю Ро(х) верна, то лри неограниченно увеличивающемся объеме выборки (л -~ оо) распределение случайной величины Х~, введенной вьппе, все больше и больше сближается с распределением хи-квадрат с Ь вЂ” 1 степенями свободы (см.
раздел 2.3.1). Зафиксируем малое положительное число а (на пракппи традиционно выбирается а = 0,01 или а = 0,05). Пусть, как и ранее, Хьз 1(1 — а) — (1 — а)-квантиль распределения хи-квадрат с к — 1 степенями свободы. 2.5.1. Критерий согласия зи-квадрат 155 Процедура проверки указанной гипотезы с помощью критерия хн-квадрат заключается в следующем. Значение статистики хи-квадрат Х сравнивается с порогом Хьз,(1 — а). Если Хз ~ )(ьз (1 — а), то гипотеза о том, что Г(х) ю Ро(х) отвеРгаетсЯ.
Если же Хз с Хьз (1 — а), то делаетсл вывод о том, что экспериментальные данные не противоречат выдвинутой гипотезе, то есть согласуются с ней. Прн этом вероятность ошибочного отклонения гипотезы В(х) ю Ре(х), если она на самом деле верна, равна а. На практике критерий согласия хн-квадрат можно примеюпь, если наименьшая вз величин лр~ ~,...; лрь не меньше пяти. Критерий согласия хн-квадрат можно применять и тогда, когда сформулированная гипотеза описывает распределение генеральной совокупности не однозначно, а с точностью до некоторых неизвестных параметров: Г(х) аа Го(х; Вп..., В,).
В этом случае необходимо предварительно оценить неизвестные параметры и вычислить значения р как (о> ) р~ ~~ = Ро(/6'Вь" ~В,) — РЬ((,у — 1)6;Вп" ..Вг), у = 1,,А При этом, однако, предельным распределением случайной величины Хз будет распределение хн-квадрат с я — г — 1'степенами свободы, и стало быль, величину Хз надо сравнивать с (1 — а)-кваатилью именно этого распределения.
При использовании критерии согласия хи-квадрат надо, однако, принимать во внимание следующие обстоятельства. а) Критерий хн-квадрат имеет аснмптотический харахтер: только при "бесконечно болыпом" объеме выборки распределение статистики Хз совпадает с распределением хи-квадрат. Точность же приближения истинного (допредельного) распределения этой статистики предельным распределением хи-квадрат, вообще говоря, неизвестна. Поэтому истинная вероятность ошибки, совершаемой при отказе от верной гипотезы, не совпадает с а. Ь) Более того, если проверяемая пшотеза неоднозначно задает распределение генеральной совокупности, то предельное распределение статистики ХЗ будет совпадать с распределением хи-квадрат (с соответствующим числом степеней свободы), толыю если неизвестные параметры оцениваются с помощью так называемого по- 25.
Проверка еоелаеак 156 линомиального метода максимального правдоподобия. По крайней мере, сходимость распределения статистики Х~ к распределению хи-квалрат доказана только для такого случая. с) Поскольку базой для вычисления статистики критерия согласия хнквадрат являются сгруппированные данные типа гистограммы, конкретное значение этой статистики существенно зависит от того, как сгруппированы данные, то есп от числа А интервалов' и выбора точек а и Ь. б) Критерий согласия хи-квадрат позволяет сделать вывод о том, что данные ие согласуются с той или иной гипотезой.
Однако с его помощью нельзя сделать вывода о том, что данные согласуютсл с конкретной гипотезой. Можно лишь сделать вывод о том, что данные ей ие лротиеоречат. е) Чрезмерно малые (близкие к нулю) значения статистики Хз, на основанви жпорых формально надо делать вывод о том, что данные не противоречат проверяемой гипотезе, свидетельствуют о нарушении условий независимости или однородности наблнщений, квк если бы при многократном воспроизведении серий, скажтг, по четыре испытания Бернулли с вероатноспю успеха в одном испытании, скажем, равной „-', калщый рю наблюдался бы ровно один успех. 2.5.2. Критерий согласии Колмогорова Ясли теоретическая (гипотетическая) функция распределения генеральной совокушюсти непрерывна, то адекватносп выбранной модели можно проверать с помощью критерия согласна Колмогорова.
Он основан на сравнении статистики Колмогорова, аналогвчной случайной величине В„, изторая была введена в разделе 2.2.4 (Задача 2.4.2), с соответствующим пороговым значением. Опишем зту процедуру подробнее. Пусть Р„(х) — эмпирическая функция распределения, построенная по выборке Хп..., Х„так, как это было описано в разделе 2.2.3. Пусть в отношении (нензвестного) распределения генеральной совокупности Г(х) выдвинута гипотеза Е(х) т Ро(х). Определим статистику Колмогороаа 2, 5. Д Критерий согласия Кияиогороеа 157 (о) Значение этой статистики, как несложно видеп, можно вычислить по формуле П(0) = шах !Г„(хи)) — Го(ХО)) !. 1=1,...,я Статистика Колмогорова характеризует отклонение выборочной (эмпиричесюй) функции распределения от теоретической (гипотетнчесюй).