Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 60
Текст из файла (страница 60)
"…Критериями согласия называют статистические критерии, предна"значенные для проверки согласия опытных данных и теоретическоймодели. Лучше всего этот вопрос разработан, если наблюдения пред"ставляют случайную выборку. Теоретическая модель в этом случаеописывает закон распределения. В дальнейшем мы будем обсуждать299Теоретическое распределение. Мы будем называть теоретиче"ским то распределение вероятностей, которое управляет случайным вы"бором. Представления о нем может дать не только теория. Источникамизнаний здесь могут быть и традиция, и прошлый опыт, и предыдущиенаблюдения.
Надо лишь подчеркнуть, что это распределение должнобыть выбрано независимо от тех данных, по которым мы собираемся егопроверять. Иначе говоря, недопустимо сначала «подогнать» по выборкенекоторый закон распределения, а потом пытаться проверить согласиес полученным законом по этой же выборке1 .Простые и сложные гипотезы. Говоря о теоретическом законераспределения, которому гипотетически должны бы следовать элементыданной выборки, надо различать простые и сложные (т.е. составные)гипотезы об этом законе:••простая гипотеза прямо указывает некий определенный законвероятностей (распределение вероятностей), по которому воз"никли выборочные значения;сложная гипотеза указывает не единственное распределение, акакое"то их множество (например, параметрическое семейство).Например, для ошибок округления при измерении расстояний с по"мощью линейки со шкалой 1 см мы можем предположить, что их распре"деление — равномерное на отрезке от −0.5 см до 0.5 см. Эта гипотезаявляется простой, так как она указывает единственное теоретическоераспределение.
А при исследовании мощности выпущенных с заводаэлектрических лампочек мы можем предположить, что эта мощностьописывается нормальным распределением с неизвестными средним идисперсией. Эта гипотеза — сложная, она представляет собой двухпа"раметрическое семейство распределений.Естественно, что методы проверки согласия с простыми и сложны"ми гипотезами должны быть различны. Мы начнем с простых гипотез(пп. 10.2–10.4), хотя на практике они встречаются реже, чем сложные:ведь в большинстве случаев теоретические соображения или традицияне идут далее указания типа распределения (нормальный, показатель"ный, пуассоновский и т.п.), параметры которого остаются неопределен"ными. В пп. 10.5–10.6 мы рассмотрим случай сложных гипотез.1 Однако можно случайным образом разбить выборку на две части, по одной «подо"гнать» закон распределения, а по другой — проверить его.30010.2. - ƒПростая гипотеза.
Мы будем рассматривать ситуацию, когда из"меряемые данные являются числами, иначе говоря, одномерными слу"чайными величинами. Как говорилось в главе 1, распределение одно"мерных случайных величин может быть полностью описано указаниемих функции распределения. И многие критерии согласия основаны напроверке близости теоретической и эмпирической (выборочной) функ"ций распределения.Пусть мы имеем выборку размера n. Обозначим истинную функ"цию распределения, которой подчиняются наблюдения, G(x), эмпириче"скую (выборочную) функцию распределения — Fn (x), а гипотетическуюфункцию распределения — F (x). Тогда гипотеза H о том, что истиннаяфункция распределения есть F (x), записывается в видеH : G(·) = F (·).Как проверить гипотезу H? Если H верна, то Fn и F должны про"являть определенное сходство, и различие между ними должно убыватьс увеличением n.
Действительно, как говорилось в п. 1.8, вследствиетеоремы Бернулли Fn (x) → F (x) при n → ∞. Для количественноговыражения сходства функций Fn и F используют различные способы,о которых будет говориться ниже.Статистика Колмогорова. Для выражения сходства функций мож"но использовать то или иное расстояние между этими функциями. На"пример, можно сравнить Fn и F в равномерной метрике, т.е. рассмо"треть величину:Dn =sup−∞<x<∞| Fn (x) − F (x) | .(10.1)Определение. Статистику Dn называют статистикой Колмогорова.Очевидно, что Dn — случайная величина, поскольку ее значениезависит от случайного объекта Fn . Если гипотеза H справедлива иn → ∞, то Fn (x) → F (x) при всяком x. Поэтому естественно, чтопри этих условиях Dn → 0.
Если же гипотеза H неверна, то Fn → Gи G = F , а потому sup−∞<x<∞ | Fn (x) − F (x) | → supx | G(x) − F (x) |.Эта последняя величина положительна, так как G не совпадает с F .Такое различие в поведении Dn в зависимости от того, верна H илинет, позволяет использовать Dn как статистику для проверки H.Как всегда при проверке гипотезы, следует рассуждать так, какесли бы гипотеза была верна. Ясно, что H должна быть отвергнута,301если полученное в эксперименте значение статистики Dn кажется не"правдоподобно большим.
Но для этого надо знать, как распределенастатистика Dn при гипотезе H : F = G при данных n и G.Замечательное свойство Dn состоит в том, что если G = F , т.е. еслигипотетическое распределение указано правильно, то закон распределе"ния статистики Dn оказывается одним и тем же для всех непрерывныхфункций G. Он зависит только от объема выборки n.Доказательство этого факта основано на том, что статистика (10.1) не изме"няет своего значения при монотонных преобразованиях оси x.
Таким преобразо"ванием любое непрерывное распределение G можно превратить в равномерноена отрезке [0, 1]. При этом Fn (·) перейдет в функцию распределения выборкииз этого равномерного распределения.Таблицы. При малых n для статистики Dn при гипотезе H со"ставлены таблицы процентных точек. Например, в [19], табл. 6.2, онидоведены до n = 100. При больших n распределение Dn (при гипотезеH) указывает найденная в 1933√ г.
А.Н.Колмогоровым предельная теоре"ма. Она говорит о статистике n Dn (поскольку сама величина Dn → 0при H, приходится умножать ее на неограниченно растущую величину,чтобы распределение стабилизировалось).Асимптотическое приближение. Теорема Колмогорова утвер"ждает,что при справедливости H (и если G непрерывна) величина√P ( n Dn < z) при n → ∞ имеет предел, и дает его выражение:∞√2 2(−1)k e −2k z .lim P ( n Dn < z) = 1 + 2n→∞(10.2)k=1В сборниках таблиц можно найти значения функции (10.2) (cм.,например, [19], табл.
6.1).Алгоритм проверки гипотезы. Как же использовать статистикуКолмогорова (10.1) для проверки простой гипотезы H : G = F ? Поисходной выборке надо вычислить значение статистики Dn . Для этогогодится простая формулаkk−1Dn = max− F (x(k) ), F (x(k) ) −.(10.3)1kn nnЗдесь через x(1) , x(2) , . . . , x(n) обозначены элементы вариационного ря"да, построенного по исходной выборке. Полученную величину Dn затемнадо сравнить с извлеченными из таблиц критическими значениями.Гипотезу H приходится отвергать (на выбранном уровне значимости),если полученное в опыте значение Dn превосходит выбранное критиче"ское значение, соответствующее этому уровню значимости.302Критерий омега?квадрат. Другой популярный критерий согласияполучим, измеряя расстояние между Fn и F в интегральной метрике.Он основан на так называемой статистике омегаквадрат: ∞2ωn =[Fn (x) − F (x)]2 dF (x) .(10.4)−∞Для вычислениямулу:nωn2ωn2имеет характер математической модели, т.е.
является в какой"то мере прибли"женным. Поэтому точность статистических проверок должна быть сопоставимас точностью, которую мы ожидаем от математической модели в целом и в де"талях. (Скажем, представление о том, что наблюдения независимы и имеютнеизменный закон распределения, является частью математической модели.)Тем не менее, свойство состоятельности статистического критерия (как и ста"тистической оценки параметра) всегда является ценным и желательным.по реальной выборке можно использовать фор"2n 12i − 1=+F (x(i) ) −.12n i=12n10.3. (ƒ… $…)(10.5)При справедливости гипотезы H : F = G и непрерывности функцииG распределение статистики ωn2 , так же, как распределение статистикиDn , зависит только от n и не зависит от G.Таблицы.
Так же, как для Dn , для ωn2 при малых n имеютсятаблицы процентных точек, а для больших значений n следует исполь"зовать предельное (при n → ∞) распределение статистики nωn2 . (Здесьснова приходится умножать на неограниченно растущий множитель:в данном случае — на n.) Предельное распределение было найденоН.В.Смирновым в 1939 г. Приводить его здесь нет необходимости.Достаточно сказать, что для него составлены подробные таблицы ивычислительные программы (см., например, [19], табл. 6.4а).Состоятельность.
Отметим важное с теоретической точки зрениясвойство критериев, основанных на Dn и ωn2 : они состоятельны противлюбой альтернативы G = F .Определение. Статистический критерий для проверки гипотезы H называют состоятельным против альтернативы H , есливероятность с его помощью отвергнуть H, когда на самом делеверна H , стремится к 1 при неограниченном увеличении объеманаблюдений.Состоятельный против всех альтернатив критерий, в принципе, прибольшом числе наблюдений, способен обнаружить любое отступлениеот гипотезы. Таким образом, состоятельность критериев Колмогороваи омега"квадрат означает, что любое отличие распределения выборкиот теоретического будет с их помощью обнаружено, если наблюдениябудут продолжаться достаточно долго.Замечание. Практическую значимость свойства состоятельности не сле"дует преувеличивать.