Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 62
Текст из файла (страница 62)
, xn .Для этого можно использовать разные методы оценивания (см. главу4), но наиболее ясные и в определенном смысле наилучшие результатыполучаются, если использовать метод наибольшего правдоподобия.308Статистики. Итак, пусть θ̂n — оценка наибольшего правдоподо"бия по выборке x1 , . . . , xn для неизвестного параметра θ распределе"ния F (x, θ). Теперь для вычисления статистики Колмогорова вместоF (x, θ o ) мы можем использовать F (x, θ̂n ) и ввести модифицированнуюстатистику Колмогорова:D̂n = sup | F (x) − F (x, θ̂n ) | .(M.Stephens) заметил, что зависимость результатов от объема выборкирезко уменьшается, если вместо D̂n , ω-n2 использовать их несколькопреобразованные варианты.
Стефенс утверждает, что для этих формзависимость от n практически перестает сказываться, начиная с n = 5.Ниже приводятся некоторые таблицы Стефенса.Таблица 10.1Модифицированные критерии для проверки нормальности,оба параметра неизвестны.(10.7)xАналогично, модифицированная статистика омегаквадрат есть: +∞ω-n2 =[Fn (x) − F (x, θ̂n )]2 dF (x, θ̂n ) .(10.8)−∞Свойства. Свойства статистик D̂n и ω-n2 во многом повторяют√отмеченные ранее свойства статистик Dn и ωn2 . В частности, nD̂n2и nωn неограниченно возрастают, если проверяемая гипотеза неверна.Поэтомуэту гипотезу следует отвергнуть, если наблюденное значение√nD̂n (или nωn2 , если применяется модифицированный критерий омега"квадрат) неправдоподобно велико, например, превосходит критическоезначение, о котором будет сказано ниже.Важно отметить, что статистика D̂n распределена иначе, чем Dn(10.1), а статистика ω-n2 — иначе, чем ωn2 (10.4).
Причина в том, чтоиз"за подбора θ̂n по выборке функции Fn (x) и F (x, θ̂n ) (в случае, еслигипотеза о типе распределения верна) оказываются ближе друг к другу,чем Fn (x) и F (x, θ o ). Поэтому при справедливости гипотезы статистикаD̂n , как правило, будет принимать существенно меньшие значения, чемDn . Аналогично соотносятся ω-n2 и ωn2 .Таблицы.
Поскольку статистики (10.7), (10.8) при справедливостигипотезы имеют иные распределения, чем статистики Dn и ωn2 , дляих применения необходимы новые таблицы распределений или хотябы таблицы критических значений. К сожалению, модифицированныестатистики (10.7), (10.8) не обладают столь привлекательным свой"ством «свободы от распределения выборки», как их прототипы, поэтомудля каждого параметрического семейства распределений нужны своитаблицы. Более того, распределения (10.7), (10.8) могут зависеть и отистинного значения неизвестного параметра (параметров).
К счастью,для так называемых «масштабно"сдвиговых» семейств, к которым отно"сятся нормальное, показательное и многие другие практически важныераспределения, этого последнего осложнения не возникает.Таблицы распределений статистик (10.7), (10.8) к настоящемумоменту составлены для многих семейств (смотри, например, [49]).Большинство из них рассчитаны методом случайных испытаний (ме"тодом Монте"Карло). Автор большинства этих расчетов М.Стефенс309Статис"тикаD̂n :ω-n2 :Модифицированная'√ форма(√D̂nn − 0.01 + 0.85nω-n2 1 + 0.5nВерхние процентные точки0.15 0.10 0.05 0.025 0.010.775 0.819 0.895 0.955 1.0350.091 0.104 0.126 0.148 0.178Таблица 10.2Модифицированные критерии для проверки экспоненциальности,параметр неизвестен.Статис"тикаD̂n :ω-n2 :Модифицированная' форма (D̂n − 0.2·n'√(0.5√n + 0.26 + nω-n2 1 + 0.16nВерхние процентные точки0.15 0.10 0.05 0.025 0.010.926 0.990 1.094 1.190 1.3080.149 0.177 0.224 0.273 0.337Приближенные формулы.
Предельное (при n → ∞) распреде"ление nωn2 известно,√ но вычисляется довольно сложно. Предельноераспределение для n D̂n найти не удалось, есть лишь приближенныеформулы для критических значений, основанные на асимптотическихразложениях. Сравнение расчетов по этим формулам с упомянутымиранее таблицами показало их хорошее согласие. Как уже говорилось,для каждого параметрического семейства критические значения надорассчитывать особо. Например, для нормального закона, оба параметракоторого оцениваются по выборке,lim Pn→∞,√x − x 2π2π 2>z2n sup Fn (x) − Φexp−zsπ−2π−2для больших z > 0 (т.е.
для z → ∞).Если же математическое ожидание известно и равно, скажем, a,то по выборке приходится оценивать только дисперсию. В этом случаедля больших z > 0√√x − a 2 6 −2z2lim Pn sup Fn (x) − Φ.>z 3 en→∞s310Эти приближенные формулы дают хорошие результаты для малыхвероятностей и больших объемов выборок, то есть для вероятностей,начиная примерно с 0.20 (и меньше) и для объемов n, начиная примернос 100 (и больше).10.6. -; ›… ƒТеорема Фишера. Пусть n — число независимых повторенийопыта, который может заканчиваться одним из r (r — произвольноенатуральное число) элементарных исходов, скажем, A1 , . .
. , Ar . Пустьвероятности этих элементарных исходов известны с точностью до неко"торого неопределенного, скажем, k"мерного параметра θ = (θ1 , . . . , θk ).Тогда эти вероятности являются функциями от θ: P (Ai ) = pi (θ). Мыбудем предполагать,что функции p1 (θ), . . .
, pr (θ) заданы, дифферен"rцируемы,p(θ)= 1 для всякого θ, а параметр θ изменяется вii=1ограниченной области пространства. Тогда при n → ∞ статистика:X = minθr[mi − npi (θ)]2i=1npi (θ)(10.9)асимптотически распределена по закону χ2 с r − k − 1 степенями сво"боды.Существует много вариантов этой теоремы. Например, такое же,как выше, предельное распределение имеет статистикаX2 =r[mi − npi (θ̂n )]2i=1npi (θ̂n ),Гипотеза и ее проверка. Статистику (10.9) (и ее варианты)можно использовать для проверки описанной выше сложной гипотезы опараметрическом виде вероятностей в схеме БернуллиH : P (A1 ) = p1 (θ), .
. . , P (Ar ) = pr (θ),Для проверки сложных гипотез может быть использована и соот"ветствующая модификация критерия хи"квадрат К.Пирсона. Главныезаслуги здесь принадлежат Р.Фишеру. Приведем одну из его теорем(сохраняя обозначения из теоремы К.Пирсона). Близкая к этой теоремаупоминалась в 9.2.2Определение. Статистика X 2 из (10.9) (и ее варианты) называется статистикой хиквадрат Фишера для сложной гипотезы.(10.10)где θ̂n — оценка наибольшего правдоподобия для параметра θ, найден"ная по частотам m1 , .
. . , mr . Поэтому значение (10.10) в дальнейшемможно использовать вместо (10.9). Далее, знаменатели npi в (10.9) и(10.10) можно заменить на mi , i = 1, . . . , r, и это не отразится на асим"птотическом распределении X 2 . Есть и другие возможности. Многоинтересного об этом можно узнать в книге С.Рао [82].311где p1 (·), .
. . , pr (·) — заданы, а параметр θ изменяется в заданной огра"ниченной области. Это можно делать так же, как мы делали с помощьюстатистики X 2 в случае простой гипотезы. А именно, по наблюденнымчастотам m1 , . . . , mr надо вычислить значение X 2 (10.9) либо (10.10)и затем сравнить его с критическими значениями распределения χ2 счислом степеней свободы (r − k − 1), либо вычислить P (χ2 X 2 ). Од"нако для использования аппроксимации хи"квадрат для распределенияX 2 необходимо, чтобы число наблюдений было достаточно велико, итем самым ожидаемые частоты npi (θ̂) не были малыми (см. предосте"режение п. 10.4).Другие применения. Как следует из формулировки теоремы, объ"ект ее применения — испытания с конечным числом исходов.
Чтобыиспользовать ее в условиях другого эксперимента — например, дляпроверки гипотезы о типе непрерывного или дискретного распределе"ния с бесконечным (или конечным, но большим) числом исходов —этот эксперимент надо предварительно превратить в схему Бернулли.Раньше уже говорилось, как это делается обычно — путем разбиениявыборочного пространства на непересекающиеся области.
Параметри"ческий (зависящий от параметра θ) закон распределения вероятностейво всем пространстве, соответствие которого нашей выборке мы хотимпроверить, превращается при этом в параметрическое распределениевероятностей между выбранными r областями.Понятно, что результат последующего применения критерия хи"квадрат (принять гипотезу, отвергнуть гипотезу) сильно зависит от опи"санного перехода. К этому следует добавить условие применимости рас"пределения χ2 как аппроксимации для распределения X 2 , которое тре"бует, чтобы ожидаемые частоты были достаточно большими. (Условиена ожидаемые частоты часто приходиться заменять требованием, чтобыне были малы наблюдаемые частоты m1 , . . . , mr .) Становится ясно, чтоподготовка к применению критерия хи"квадрат в несвойственных емуусловиях составляет деликатную и не всегда простую проблему.
Воз"никает даже опасность невольной подгонки выбираемого разбиения кжелательному результату. Поэтому, строго говоря, разбиение простран"312ства на области должно идти вне зависимости от результатов случайно"го эксперимента, т.е. вне влияния подлежащей обработке выборки.Проверка нормальности. Как же после всех этих предостереже"ний можно применить теорему Фишера к проверке гипотезы о типевыборки? Обсудим это на примере нормального распределения, пара"метры которого (a, σ 2 ) неизвестны.Итак, есть выборка x1 , . .
. , xn большого объема, проверить нормаль"ность которой мы хотим с помощью (10.9) или (10.10) или их модифи"каций. Прежде всего мы должны разбить числовую прямую на r непе"ресекающихся областей, а еще прежде — выбрать само число r. Сейчассуществует убеждение (подкрепленное асимптотическими исследовани"ями), что против гладкой альтернативы лучше брать r небольшим —несколько единиц. Если же конкурируют с нормальным распределениемвсе другие возможности, число r стоит взять таким большим, какоепозволяет последующее использование аппроксимации хи"квадрат.Допустим, что r уже выбрано, и можно переходить к разбиениюпространства на области.
При этом надо позаботиться о том, чтобыожидаемые частоты этих областей были достаточно велики для того,чтобы для X 2 действовала аппроксимация χ2 . Поскольку истинное рас"пределение вероятностей неизвестно, приходится опираться x−x на какую"либо его оценку. В данномпримере—наоценкуΦистиннойs xa функции распределения Φ σ .Чтобы не ломать бесплодно голову над вопросом, какими должныбыть вероятности этих областей, а точнее в данном случае — ихприближенные значения, возьмем их одинаковыми. Иными словами, вкачестве границ интервалов используем решения уравненийkx−x=Φ,k = 1, .