Г.И. Ивченко, Ю.И. Медведев - Математическая статистика (1115270), страница 27
Текст из файла (страница 27)
Метод уе можно применять для псстроения критериев согласия и в задачах другого типа. Рассмотрим задачу проверки описанной в примере 3.1 гипотезы Нв о том, что неизвесгное распределение л (с) имеет некоторое количество заданных квантилей. Пусть выборка Х = (Ха, ..., Х,) извлечена из непрерывного на )<а распределения Ж ($), о котором выдвинута гипотеза Н,: Рь(ею) =- Р,, 1=-1, ..., Л' — 1, где — сс(~,(...(~н,(оо и 0(р!(... = Рн,(1 — заданные числа. Гипотеза Н, сложная и включает все непрерывные распределения с указанными квантилями. Построим критерий проверки этой гипотезы.
Положим б> =- (с -ь с/1, ) = 1,, Л', Ьз =- — о, Ьд =- оэ, и пУсть т/ — числ<> вйборочныххн точек Хь принадлежащих интервалу Рц/. Таким образозл, имеем схему группировки данных с естественньп!и (т. е. порождаемь!ми самой проверяемой гипотезой) интереаламн. Тогда Ж(е=-(е!, ", тн);Не)=М(/!; р'--(Р( " рн)), где Р";=. Рт — р; „) == 1, ..., Л', Р,=О, Рк=-1, и гипотеза Нч эквивалентна утверждению, что кероятности исходов в настроенно '( полгномиальной схеме Равны заданным числам Р",, ..., Рн. Следовательно, для проверки э!ой гипотезы можно применить описаннып в и.
2 критерий согласия Хт, который основан па статистике(3.5). Этст критерий в данном случае называют крин/ериед< квантилвй. При Л/=2 н р,=0,5 соответствующий критерий называют критерпсл! знаков. В этом случае гипотеза Нв — это гипотеза о том, что выборка Х извлечена из распределения ХЯ) с медианой ",, а статистика (3.5) сводится к статистике (4(п) (е! — и/2)з.
где е,— число компонент вектора Х, значения которых лежат в интервале ( — сю, с!), или, что то !ке самое, число отрицательных разностей 117 На практике критерий знаков чаще всего применяют в следующей' ситуации. Пусть ((Х„)г,), ..., (Х„„)г„)) — выборка из двумерного распределения о ($= ($1, 5з)). Требуется проверять гипотезу На о том, что компоненты й! и $з независимы н одинаково распределены, т. е. что гй(х, у) =г (х)г" (у), гдето(х) — некоторая одномерная функция распределения. Для проверки этой гипотезы поступают следующим образом: составляют разности Л! = Хг — )'г, г = (, ..., п. Тогда если гипотеза Н, верна, то Р(4«(0) = = Р(Л!.п.0) =!/2 н исходная гипотеза сводится к утверждению, что выборка (2„..., л„) извлечена из распределения, медиана которого равна О. В этом случае статистика и! есть число отрицательных величин среди 7„..., 2, и по теореме 3.) при а-«оэ :ь (4(п! — п/2)'/п(НО)-«Х' (1), что позволяет рассчитать соответствующую критическую границу в критерии согласия Х'.
5 3.3. Симметрические критерии в схеме группировки с растущим числом интервалов. Критерий пустых ящиков 1. Критерий согласяя Х'для непрерывных распределений, вопросы его состоятельности. Вернемся к задаче проверки простой гипотезы Йз! р4(х)=р(х) о виде распределения н условимся считать, что функция распределения г" (х) непрерывна. В случае применения описанного в п.
2 4 3.2 критерии согласия Ха обычно рекомеидуетси интервалы группировки Ж, ..., Жк выбирать раэнозервил«испи при нулевой гяпотезе, т. е. чтобы все р»,=!/Л'. В этом случае Ж/=(ь«/ т «ьг), /=1, ", Н, «ьз= — со, ьк=со, (з.!з) где г" (Ь/)=//Ф, / 1, ..., У вЂ” 1, и критерий согласия уз является, по существу, критерием квантилей (см. п. 4 4 3.2). Но этот критерий учитывает лишь вероятности попадания в интервалы группировки и не фиксирует локального поведения функции распределения, поэтому по критерию т' все непрерывные распределения с указанными кваитилями не различаются. Ганям образом, при прнменеияи критерия Ха задачу проверки исходной простой гипотезы заменяют задачей проверки некоторой сложной гипотезы, в которую помимо р (х) входит множество отличных от р(х) функиийраспределепия с теми же квант что и г' (», ...,Ьк и что и (х).
Можно сказать, что в случае применения методики критерия Хз в задаче проверки гипотезы Нк г! (х) =г" (х) получают критерий согласия, не чувствительный к любым таким отклонениям от Н», при которых распределение Х(О) сохраняет заданные квавтили й„..., ьк — г, т, е~™для любого распределения Гр удовлетворяющего условиям г" (О ) =//Н, '=1, ..., Н вЂ” 1. выполняется предельное при»-«со соотношение /= » /= ° ". »,ыу« ~ / ь/! х!-а„к — ! (Ей -«а, г=-! В частности, критерий Хз оказывается несостоятельным против ялшернатив г(, имеющих данные квантили (в этой связи отметин, что рассмотренный в п. 1 4 3.2 критерий согласия Колмогорова является состоятельным против любых альтернатив Г(ФР), Например, яа рис, 3.1 изображены графики трех функций распределения, у которых точка х=о является медианой.
Если для проверки гипотезы Нэ: рд(х)=г(х) применить методииу тз с двумя (у=2) равноверозтвыми интервалами, то по соответствующему критерию все трн 118 фушгцни яе б)дут отличимы. Этот педос.а ток критерия уз чожно попытаться «умень. шить», увеличивая вместе с ростом числа наблюдений число интервалов группировки Н, сужая тем саыым класс неотличимых от Г (х) (по критерию у») функций распределения.
Однако ттда критерий /' становится трудоемким, так как подсчет и обработка большого (при больших Ф) числа частот г„..., тк — сложная вычислительная Рнс. 3.1 задача. Следует также иметь е виду и то обстоятельство, что теорема 3.1, определяющая предельное распределение статистики Х,', при гипотезе Н, справедлива только при фиксированных значениях параметров Н и рп ..., р»к и ее уже нельзя использовать для расчста критической границы критерия, если Н -«со. Выход из этой противоречивой ситуации можно найти, скоиструнровав более простые, чем Х', статистики критерия и доказав предельные теоремы ю для распределений этих статистик, которые учитывают одновременное неограниченное возрастание параметров» н Н.
Изложенные ниже результаты позволяют получить ответ иа некоторые возникающие здесь вопросы. 2. Симметрические статистики в схеме групвировни. Итак, пусть Жг, ... ..., Ж вЂ” определенная в (3.13) система равновероятиых (при гипотезе Н») к н!первалов й ч=(тг, ..., ек) — соответствующий выборке Х=(Хт, ..., Хя) вектор частот попадааия в эти интервалы.
Рассмотрим класс статистик вида к Я„к (я) = Х я (е/). (3.14) /=! где я(х) — заданная фуякция, определенная во всех пелых неотрицательных точках л=0„1, 2, .... В выражение для Я„к (я) асе частоты ем ..., чк входят симметрично, поэтому будем называть такие статистики симлеп«рическими.. Если ( 1 при х=г, в (3.14) в качестве я(х) взять функцию д (х) =! для некоторого 4! О при х~г целого г еа (О, 1, .... и), то З„к (я), очевидно, равно числу интервалов среди Ж, ..., Ж, каждый из которых содержат ровно г выборочных точек (элемеи- 1 " № тов выборки Х); такую статистику обозначают символом рт=р, (л, Н).
Таким образом, с любой схемой группировки связав набор симметрических статистик рз, р,, ..., Рю Эти статистики удовлетвориют двум очевидным -линейным соотношениям: ,,(„, Н)=Н, ~ гр,(п, Н)=». (3.15) »=О г=е В терминах статистик р, формулу (3.!4) можно переписать в виде » Я„к(я)= 2', д(г) р. г=о откуда следует, что любая симметрическая статистика является линейной комбинацией статистик ре, рп ..., рю Верно н обратное: любая линейная комбинация этих ста;гистик — симметрическая статистика. Действительно„ ~ ', С«1«г ~.', К (Ч/Ь ГдЕ я (Г) =Сг, Г= О, 1, ..., ».
ТаКИМ ОбраЗОМ, КЛаСС СИМ. метрических статистик совпадает с классом всех линейных комбинаций вели- Отметим, в частности, что статистика Х,*, (см. (3.5)) в случае равноеарояиых интервалов †симметрическ статистика. для яоторой й«(х) Ах«/и — х. М Ере= Х (1 р<)", 01<в=-2 ~ (1 — р< — р<)"-1-Ерч — (Енч)з /=- \ г < (3.16) С помощью метода неопределенных множителей Лагранжа легко праиерить. что среднее Ер„как функция параметраз р, .... р, достигает миннму»а прн р =...= р =-1/М, т. е. при Тй —— Г.
В этом случае формулы (3.[б) прнничают соответственна внд Е!< М [1 1/М)ч, Р < М (М !) (! 2 М)н !„М (! 1/М)ч Ме (1 1/М)зн (3.1?) т нг, г ~ ч чт *ч < и, вероящостц попадания в ннтерйддьсхйуппировки не все равны 1,'М, статистик ц Цьэ<меет тенденцию Еайдцзиватьсню т. 'П:"ттпптПГом большие 'Я«с<я!пил Рч ювидетельствуютэ псютйв гипорзы Нй Отсюда с?йдует, что нрптическую область критерия следует задавать в ниде ..18) (И =ж(»[и. М)).
Для нахождения критической границы /а(п, М) надо знать распределение статистики рс при гипотезе Нь Точное ее распределение имеет сложный вил и иеудабчо для практических расчетов. Олиана если и н М одновременно велики, та случайная величина рч имеет простое предельное распределение три любо» абсолютна непрерывном распределении наблю<еиий Р[ (а не только для Тй/ Е). Эта предетьнае распределение дается в приводимой ниже теореме 3.4 (аоказательстио теоремы можно найти. например, в [8)). Без ограничения общности все распределении можно рассматривать заданными на отрезке [О, 1[, а н качестве распределения при нулевой гипотезе использовать равномерное распредетение /[(О, 3). Действительна, если эта ие гак, то всегда можно перейти от исходной случайной величины $ к случайной величине т)=Р(Е), пРинимаюшей значениЯ Уже из [О, 1[. Тогда Х(т) < Нч) =/с (О, 1) и для любага альтернатнвнога распределения Ей Р(т[ х, 'Я=Р(Т(я) ~к< ей)=Р<С~Г т(х)[ г[) =Т,(г-<(х)), х <м [О, 1[.
120 3. Критерий пустых ящиноа. Простейшей сил<метрическо<1< статистикой является величина рм которая определяет число интервалов, ие содержащих ни однои выборачоаи точки. Критерий, основанный на атон стаю<стоке, назы- вают критерием пустых лн<июв Вычисли» первые дна»агента этой с<атистики лля пранзво.оного распре- делении наглжодсний! -. Введет< для этого случайные вслн <ины <1, ..., <1, Г "° лч пало кна, на определению, / 1, если пптергал он/ пуст, и [ 0 в остальных случаях.
Очевидна, что ро=. ц +...+ О ., откуда М' И М Ерв = ~ ЕО/= ~~ Р (')< = 1) <=1 <=< м 01<в= ~ Р<( -;-2 ~ сот(<1н <1<)= «= < т< <в =- ~ Р(П/=1)(1 — Р(<1;=' — 2 Х [Р(на=О<=1) — Р(0=1)Р(<1<=1)[ /=< ! 11спытання неэаввспмы, поэтому Р (т)/= 1) = (1 — р,), Р (т), = О/ =- 1) =- = (1 — р< — р,)". Следовательно, Таким образо», если сфор»улирована некогорач яулсвая гипотеза Нч. ТЬ=Г, то с помощью указанного преобразования случайной величины Е задачу можно <вести к проверке нулевой гипотезы о равномерном распределении на о<резле [О, 1]. В это» случае система ни<ераалов (3.13) принимает вид е;=-(/ 1, Я, =1, ..., М.