Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 61
Текст из файла (страница 61)
ууууххутхх 5. уухууухххх 6. ууухухуххх 7. уууухххухх Последняя из выписанных последовательностей имеет 22 инверсии, следовательно, Г7ь ьм = 22. В данном случае существуют лишь 4 последовательности с большим чем 22 количеством инверсий, а именно последовательности с 1 по 4. Таким образом, уровень значимости соответствую- Ги Х11. Георядкоееее критерии 330 щего критерия равен 4/252 = 0,016, т.
е. он значительно ниже допустимого уровня 0,025. Это же обстоятельство имеет место и в других примерах. В большинстве случаев существует целый ряд последовательностей с одинаковым числом инверсий. В нашем примере последовательности 5, 6 и 7 имекет по 22 инверсии. Если бы все эти три последовательности были включены в критическую область, то уровень значимости соответствующего критерия превышал бы 13.
Однако если ни одну из этих трех последовательностей не включать в критическую область, то критерий окажется излишне слабым. При больших д и Ь вычисление точной границы Уе очень утомительно. Но мы увидим, что в этом случае распределение случайной величины 5г можно аппроксимировать нормальным распределением. При двустороннем варианте критерия Вилкоксона нулевая гипотеза отвергается не только тогда, когда количество инверсий превосходит границу Уе, но также и тогда, когда эту же границу превосходит количество дЬ вЂ” У обратных инверсий.
В этом случае уровень значимости критерия удваивается. Вместо подсчета инверсий можно х, и у» перенумеровать в порядке возрастания их величины. Если при этом наименьший из всех хе имеет порядковый номер г,, то количество предшествующих у„равно г,— 1, и поэтому наименьшему хсоответствуют точно г, — 1 инверсий. Если следующий за наименьшим х имеет порядковый номер г„то ему соответствуют ге — 2 инверсий и т.
д, Таким образом, в итоге получаем У = (г, — 1) + (г, — 2) +... + (г — д) = 2 д(д+ 1 (4) инверсий. Следовательно, для построения критерия Вилкоксона вместо У можно воспользоваться статистиксй~ гь представляющей собой сумму порядковых номеров случайных величин хе Мы постараемся теперь исследовать распределение 7У несколько точнее. При этом мы сначала будем предполагать, что нулевая гипотеза верна. Напомним, что, согласно этой гигютезе, все х, и у» независимы и имеют одинаковые (непрерывные) функции распределения, Б. СРЕДНЕЕ ЗНАЧЕНИЕ И ДИСПЕРСИЯ У Для каждой пары наблюдений хь у„определим функцию хаен принимающую лишь значения 0 или 1, а именно 1 ,если х>у„, зм = О, если хе ~ у». д 63.
Критерий Вилкскгсна 331 Тогда, очевидно, (5) Если нулевая гипотеза верна, то значения 0 и 1 для всех случайных величин гм являются равновероятными. Следовательно, среднее значение ем равпо '/,. Из (5) тотчас же получаем среднее значение для 5Г: 57=3 дй (6) Вместо (5) мы можем теперь зависаю И вЂ” бг= ~ ~,„— — 31-). (7) Для того чтобы вычислить дисперсию г ' случайной величины 47, мы возведем (7) в квадрат и найдем среднее значение: ~(~в Е) (~Д 3) ' (8) Слагаемые сдам 1'и Ьф1равны нулю, так как вдапном случае ед и гд независимы и их средние значения равны '/,. Слагаемые с э' = 1' и Ь =1 все равны '!4.
Произведения (г,„— 'гг) (г1 — '/,) ПРи 4 = 1' и Ь ф 1 Равны — ",4, если х, Расположен межДУ Уг и Уо и равны + '/4 — в противном случае. Таким образом, среднее значение такого произведения равно 3 — — ' — -1-— 4 3 4 3 13 То же самое справедливо и при Ь = 1 и 4 =и 1'. Окончательна, в силу (8), получаем = — дЬ + — дЬ(Ь вЂ” 1) + — дЬ(д — 1) == ~. (д + Ь + 1).
(9) В. АсимптОтическОе РАспРеделении и пги д . и Ь ' 31апп Н. В. впй % Ь1Спе у 11. 1Ь, Оп в Гев$ ъьеЬЬег опе ог ьио гапйош гапвшее в еьосЪееысв11у 1агиег ЕЬап ФЬе о1Ъсг, Аппа1е от ЬГаЕЬ. Зева., 13 (1947), 30. Манн и Уитни' вычислили не только среднее значение и дисперсию У, но также и нашли для больших д и Ь асимптотические формулы центральных моментов высших порядков. Моменты псчетного порядка равны нулю, так как распределение У сим- Гя. ХИ. Порядковые критерии 332 метрично относительно среднего значения д Ьу'2. Для моментов четного порядка имеет место формула Ямы) = 1 3 5... (2г — 1) (дЬ)' (д + Ь -1- 1) — -1- Л, (10) 1 где и= У вЂ” дЬ/2 и Л стремится к бесконечности (при д- оо и Ь-+ о) медленнее, чем главный член формулы (!О). Если пв' разделить на — (~.- ) — (дй) (д + " + 1) (12)е затем вычислить математическое ожидание и устремить д и Ь к бесконечности, то, в силу (10), получим 11шЯ( — ) = 1 ° 3 "5...
(2т — 1). (11) Согласно «второй предельной теореме» (3 24 Е), отсюда следует, что случайная величина и/т при д- о и Ь- распределена асимптотически нормалыю с нулевым средним значением и единичной дисперсией, или Если д и Ь стремятся к бесконечности, то У распределена асимптотически нормально со средним значением дЬ/2 и дисперсией с '. Метод моментов, примененный здесь для доказательства асимптотической нормальности, можно использовать и ео многих других случаях; например, с псмсщью этого метода можно доказать асимптотическую нормальность случайной величины У даже тогда, когда распределения х и у различны'. г. АсимптОтическОе РАспРеделение и при Ь- Если к бесконечности стремится только Ь, а достается постоянным, то для отыскания асимптотического распределения У нужно применить другой метод. Основная идея этого метода станет особенно ясной, если мы сначала предположим, что д = 2.
Пусть х„х, и дп..., д„— независимые случайные величины и пусть л'(») == 1 (0 ~1; !) — их общая функция распределения, т. е. все х, и дв распределены одинаково равномерно в интервале (0,1). Далее, пусть и, и пв — количества инверсий для х, и хв соответственно.
Общее количество инверсий равно У = в, +ив ' Си. 1 еьшвпп Е. 1., Сопя!»»епсу впд поЬ1введпевв оГ попрввв. ше»пе»ев»в, Апп. от Мв»Ь. 8»в». 22, 167, Тьеовеш 3.2 !здесь же укввввв литература), в также 11о е Его»пк %'., А еошЬ1пв»опв! сеп»тв1 Ыппв »Ьеошш, Апп. от Мв»Ь. 8«в»., 22, 333. й 83. Критерий Виекокеока 333 Сначала мы зафиксируем х, и х,.
Если х, — постоянная величина, то вероятность события у < х, равна !г(х,) = х,. Частота этого события задается отношением (12) так как из Ь величин уп .. „у„ровно и, оказались меньше х,. Если Ь велико, то частота события, с большой вероятностью, близка к вероятности этого события, следовательно, частота е, приближенно равна хь Рис.
ЗО. Рнс. 31. По той же самой причине частота е, близка к х,. Следовательно, отношение ее+ ее — — — — — —— и, + ие сГ Ь Ь (13) с большой вероятностью близко к х, + х,. Задача заключается в вычислении функции распределения случайной величины У, т. е. в вычислении вероятности события У < и. Вместо неравенства У < м можно также записать У и ог+ еа — — -Ь вЂ” < — = й Ь (14) Таким образом, мы должны вычислить вероятность события е, -~- ее < й Так как случайная величина е, + е„с большой вероятностью, близка к х, + х„то мы сначала вычислим вероятность события х, -1- х, < й Случайные величины х, и х, независимы и распределены одинаково равномерно в интервале (0,1), поэтому совместная плотность вероятности для пары (х„х,) внутри квадрата 0 < х, < 1, 0 < х, < 1 равна единице. Таким образом, вероятность события х, + х, < ! равна площади области бе, определяемой неравенствами 0<х,<1, 0<хе<1, х,+хе<1, Гл.
ХН. Прридковмс крижсрии 334 О бласть 6, изображена на рис. 30. Она представляет собой часть единичного квадрата, лежащую под прямой с уравнением х, -1- т, = б !!лощадь области С, равна О, если 1- О, 1 12 если 0~! — 1, П(1] = 1 ! 1 — —,(2 — 1)"-, если ! — 1~ 2, 2 (1, если 1 =-- 2. График функции Н(1) изображен на рнс. 31. В интервале от 0 Рис.
32. Р «. 33. до 2 этот график состоит из двух дуг квадратных парабол. График соответствующей плотности вероятности указан в 3 25, рис. 15. Точно так же в случае д = 3 вероятность события х, + х, + + х, ~ 1 оказывается равной объему той части пространства, которая возникает в результате пересечения единичного куба плоскостью с уравнением х, + х, + х, = 1 (рис.
32). Вычисления показывают, что !о, Н(С) = если гкО, 1з 1 6 если О «1-«1, 1 1 6 2 — 1с — — (1 — 1)з если ! ~ ! ~ 2 (1б) 1 — —. (3 — 1)', если 2 ~ 1 ~ 3, 1 6 если 1~ 3. График функции Н(1) изображен на рис, 33, а график соответствующей плотности вероятности указан в 3 25, рис. 17. Уже в случае д = 2 и 3 графики функций (15) и (15) похожи па кривыс норляльного распределения. При д = 4 график функции д 63. Критерии Вилкакеана Н(1) почти совпадает с нормальной кривой; с увеличением д согласие станет еще лучшим.
Для перехода от х, + х, к е, + е, нам потребуется следующая лемма: При любом целом положительном д и при любом е > 0 функция Н(1) удовлетворяет условию Н (е + е) — Н(г) ~ е. (17) До к а за те л ь с т во. Левая часть (17) представляет собой д-кратный ни геграл (18) где интегрирование производится по области, определяемой неравенствами 1 ~ Х + Ха + ...
+ ХЕ ( 1 1 е 0 < х,. < 1 (г = 1, 2, ..., д). (19) (20) Р(Е~ + Еа ( 1) а Г(Х1 + ХЬ ( Г + Е) + Е = Н(1 -к е) + е ж П(Г) + 2е. Точно так же находим Р(е,+е,(1)а Р(х,+х,(г — е) — е= = П(1 — е) — е ~ Н(1) — 2е. Если сперва зафиксировать х,,..., х, и произвести интегрирование по хе, то длина интервала интегрирования не будет превышать е, так как неравенства (19) определяют интервал длины е и, вследствие условия (20), этот интервал может лишь уменьшиться.
Интегрированием по х„..., х, в единичном кубе, прш:адлежащем (д — 1)-мерному пространству, убеждаемся, что интеграл (18) не превосходит е. Лемма доказана. Так как функция распределения Н(1) случайной величины х, + х, известна, то с помощью этой леммы мы можем оценить функцию распределения е, + е, сверху и снизу. Пусть задано е > О. Покажем, что для достаточно больших Ь вероятность события е, -1- е, (1 отличается от Н(1) не более чем на 2е, Как мы уже знаем, разность (х, + х,) — (е, -,'- е,) при Ь вЂ” о по вероятности стремится к нулю. Отсюда следует, что для всех достаточно больших Ь вероятность события (х, + х,) — (е, + е,) > > е будет меньше, чем е.