Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 60
Текст из файла (страница 60)
Задача двух выборок В частности, из (7) следует (1). Таким образом, для проверки симметрии распределения можно воспользоваться критерием знаков. Другие критерии симметрии изложены в работе: Не)пе1гу1г Т., А гаш!!у оГ рагаше1егГгее 1ев1з Гог зушше1гу, Ргос. Коп, Мед. А)гад. (Еес(!оп от" вс1епсез), 53, 945, 1186. Г. ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ ДЛЯ МЕДИАНЫ Если рассматривать лишь непрерывные функции распределения г'(и), то (!) будет эквивалентно равенству Р(г с 0) = Р(г > О) = ~-, (9) В силу условия (9), (истинная) медиана равна нулю Я 17). Поэтому критерий знаков можно использовать для проверки гипотезы о том, что распределение имеет нулевую медиану.
Если нужно проверить гипотезу, согласно которой медиана равна ь, то можно в качестве новых случайных величин ввести г, — ь и затсм всспользоваться кри~ерием знаков. В силу одностороннего критерия, предположительное значение медианы следует отвергнуть, если выборка (г„..., г„) содержит более. чем т, положительных разностей г, — ь". Это же правило можно сформулировать еще и по-другому.
Пусть г„..., гл расположены в порядке их возрастания: г®ла ~... ~ г<л). Случайные величины го) представляют собой порядковые статистики (5 17). Рассмотрим порядковую статистику с номером п — т (т. е. рассмотрим гм )). Если ь < гы- >, то количество положительных разностей гш — 1, будет больше т, следовательно, все предполагаемые значения медианы ь, удовлетворяющие неравенству ь ( г<"-ы), должны быть отвсргнуты. Согласно двустороннему критерию, следует также отвергнуть все предполагаемые значения медианы ~ > г< +'), Таким образом, г<" ) и г< +т) являются двусторонними доверительными граница- ми для медианы Т. Соответствующий доверительный интервал имеет нид (л — лч) - ~ - г(лчч.1) (! О) Заключение (1О) справедливо с вероятностью ы 1 — 26. Как легко убедиться, полученный результат сохраняет силу также и для распределений, не являю)цихся непрерывными.
з 62. Задача двух выборок А. пост»ноак» з»д»чи Пусть результатами наблюдений являются п = д+ Ь независимых случайных величин: х„...,х; уо...,ую и пусть все х,- наблюдаются в одинаковых экспериментальных условиях, т. е. Можно предположить, что все они имеют одинако- 326 Г ь Х11. Лорядкоеые критерии вые функции распределения. Такое же предположение мы будем делать и относительно у. Допусзим, что наблюдается некоторое различие эмпирических распределений х и у; например, все х могут оказаться больше, чем у, или область рассеяния х может быть шире области рассеяния у. Спрашивается, является лн различие эмпирических распределений следствием различия истинных распределений или же оно чис о случайное? Нулевая гипотеза Н, подлежащая проверке, утверждает, что всех и у имеют одинаковые функции распределения и, значит, наблюдаемое различие эмпирических распределений является чисто случайным.
Однако прн этом мы нс должны делать никаких специальных предположений о функции распределения х и у. Два критерия, о которых мы уже говорили раныпе, а именно критерий Стьюдента и критерий отношения дисперсий, основаны на предположении нормальности распределений х и у; поэтому указанные критерии с самого начала нужно исключить из рассмотрения.
И хотя оба критерия, с определешюй степенью приближения, применимы к распределениям, отличным от нормального„однако в данном случае они оказываются непригодными, так как наша задача заключается в отыскании точных критериев, использующих лишь порядковые соотношения л ( у и х ) У. Будет показано, что при некоторых условиях эти порядковые критерии являются даже более мощными, чем критерий Стьюдента, т.
е. что существуют случаи, когда указанные критерии приводят к правильному решению, а критерий Стьюдента — нет (иными словами, критерий Стьюдента в этих случаях ложную гипотезу Н, не о гвергает). Согласно гипотезе Но, все ле ну» распределены одинаково. Предположим, что их функция распределения Р(1) является непрерывной. О~сюда следует, что такие события, как х, = х1 илн л, = у„, все имеют вероятность, равную нулю.
На практике это предположение непрерывности„строго говоря, никогда не выполняется, так как все результаты измерений являются округленными числами. В приложениях довольно часто оказывается, например, что некоторые х, н у„равны друг другу. Наличие таких »связей» влечет за собой небольшие затртднсния в применении порядковых критериев. Способы преодоления этих затруднений мы изложим позднее.
Преобразование 1' = У(1) переводит х, и у, в новые случайные величины х,' н у„', подчиняющиеся »прямоугольному» распределению с функцией распределения Р'(1') =-!' (О ~ Е' =- 1). д 62. Задача двух выборок 327 Упорядоченность величин х' и у' остается той же самой, что и для величин х и у. Следовательно, для порядковых критериев совершенно безразлично, оперируем ли мы с х и у или с х' и у'.
Поэтому во всех тех случаях, когда это облегчает вычисление вероятностей, мы можем предположить, что х и у подчиняются прямоугольному распределению. При желании мы можем взять за основу и любое другое непрерывное распределение„например нормальное распределение с нулевым средним значением и единичной дисперсией. Согласно гипотезе П,, все перестановки и = д + Ь случайных величин х„ ...,хв, у„ ..., у„ равновероятны. Таких перестановок имеется п1, следовательно, каждой из них соответствует вероятность 1/п1.
Построение критерия для проверки гипотезы Нз эквивалентно указанию критической области У, включаюшей в себя некоторые из п1 перестановок. Если наблюденное расположение принадлежит области Р', то гипотезУ Нз слеДУет отвеРгнУть. Дли того чтобы уровень значимости этого критерия не превосходил б, нужно, чтобы область у содержала не более чем Рп( перестановок. Б.
КРИТЕРИЙ Н. В. СМИРНОВА Критерий Смирнова аналогичен критерию Колмогорова (2 16). В критерии Колмогорова сравнивались эмпирическая и предполагаемая теоретическая функции распределения, В критерии Смирнова сравниваются две эмпирические функции распределения. Пусть лв(2) — эмпирическая функция распределения, построенная по выборке х„..., хв. Если к(1) — количество тех хь которые удовлетворяют неравенству хе ( й то Точно так же пусть ба(1) — эмпирическая функция распределения, построенная по выборке у„...,у„, и пусть Х) — верхняя грань разности ! Рв — На ~.
Согласно критерию Смирнова, гипотезу Нз следует отвергнуть, если Х> > Х>д. При этом Х>д определяется так, чтобы вероятность события Д > Х2д, когда гипотеза Н„ верна, не превосходила >9. Смирнов доказал', что вероятность события х)> 2Д+„' ' С м и р н о з Н.
В., Оценка расхождения между змпирнческимн кривыми распределения а двух независимых выборках, Вюлл. МГУ, 2, нып. 2 (19391, Ц зев Га ХГХ. Порядковые криглерии при больших я асимптотическн равна сумме бесконечного ряда 2е-Я" — 2е е ак + 2е-Я ек —... (1) Следовательно, если А определить таким образом, чтобы сумма этого ряда равнялась 2Р, то при больших и можно будет положить (2) Ряд (1) сходится очень быстро, и для практических целей его сумму можно заменить первым членом: это лишь увеличит надежность критерия. В результате получаем очень полезное приближение — — 1п р. 1 (3) Для того чтобы найти хорошее приближение для Эе, нужно лишь (3) подставить в (2). Особым преимуществом критерия Смирнова является то, что этот критерий со сколь угодно большсй вероятностью позволяет обнаружить любое отклонение между функциями распределения х и у, если только и достаточно велико.
Таким образом, критерий Смирнова следует применять тогда, когда нужно проверить полное согласие функций распределения Р(1) и 0(8) случайных величин х и у во всем интервале изменения 1 и когда для этой проверки в нашем распоряжении имеется очень обширный материал наблюдений. Но если речь идет лишь о том, чтобы установить, не будет ли х в среднем больше, чем у, то следует применять более мошные критерии, которые даже при небольших я могут привести к решению поставленного вопроса. Такого рода критериями являются критерий Вилкоксона и критерий Х, к изложению которых мы теперь и переходим.
Э 63. Критерий Вилкоксона А,ФОРМУЛИРОВКА КРИТЕРИЯ Пусть наблюденные х, и уя расположены в порядке возрастания их величины. Если отбросить индексы, то получим последовательность, состоящую нз букв х и у, например, яу ху хуу х х. Если в этой последовательности х появляется позднее некоторого у, то говорят, что имеется одна инверсия. Например, последовательность (1) содержит 15 инверсий, так как первый х образует д 6З. Критерий Вилкоксона с двумя предшествующими у две инверсии, второй хобразует три инверсии и оба последних х — по пять инверсий.
Согласно критерию Вилкоксона, нулевая гипотеза отвергается, коль скоро количество инверсий У превосходит границу Г7„. Граница Г7г выбирается таким образом, чтобы, в случае еслй нулевая гипотеза верна, количество перестановок с числсм инверсий гг > г7 не превышало р в(. Указанное правило представляет собой односторонний критерий. При малых д и Ь граница Г7е определяется непосредственным подсчетом последовательностей с наибольшими количествами инверсий. Для облегчения этого подсчета можно у х и у так же, как в (1), отбросить все индексы.
В этом случае количество всех возможных последовательностей будет равно не я!, а !о) и! Подсчет начинают с последовательности уу...уухх... хх, (2) которая имеет дЬ инверсий. Затем записывают последовательность уу...ухух... хх (3) с дЬ вЂ” 1 инверсиями и т. д. — до тех пор, пока не наберется больше чем р! 1 последовательностей. Количество инверсий в последней !в! нз полученных последовательностей и принимают в качестве С„,. Проиллюстрируем этот метод следующим примером: д= Ь=5, ф =0025 1. уууууххххх 2. уууухухххх 3. ууухуухххх 4.