Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 24
Текст из файла (страница 24)
В обсуждаемом методе проверкиприближение исчезает: мы получаем точное значение вероятности, если обра"щаемся к достаточно подробным таблицам распределений U .Совпадения. Выше отмечалось, что из условия непрерывностираспределений F и G следует отсутствие повторений в выборках. Напрактике же такие повторения встречаются часто. Во многих случаяхпричиной этого является не нарушение исходных предположений, аограниченная точность при записи наблюдений.Допустим, что некоторые элементы выборки икс совпали с неко"торыми элементами из выборки игрек, т.е.
xi = yj для некоторыхi, j(i = 1, . . . , m; j = 1, . . . , n). В этом случае статистику U вычисляюттак: к числу успехов прибавляют уменьшенное вдвое число событийвида (xi = yj ). Таким образом, каждое совпадение икса и игрека счи"тается за половину успеха. Далее с так подсчитанным числом успеховпоступают так, как описано выше.При наличии совпадающих наблюдений получаемые при использова"нии описанных критериев выводы имеют приближенный характер, и этиприближения тем хуже (и выводы тем сомнительнее), чем больше срединаблюдений совпадающих, т.е. чем сильнее отступление от исходныхматематических предположений.
В тех случаях, когда результаты (X иY ) могут принимать лишь ограниченное число значений (что влечет засобой большое количество совпадений), этот метод применять не следу"ет. К сожалению, четкого разграничения в этом вопросе сделать нельзя.3.5.2. 0…Область применения. Критерий Уилкоксона применяется в той жеситуации, что и критерий Манна–Уитни. В отличие от этого критерияи критерия знаков, он имеет дело не со знаками некоторых случайныхвеличин, а с их рангами.
Исторически критерий Уилкоксона был однимиз первых критериев, основанных на рангах (см. п. 1.8).Рассмотрим ранги элементов объединения двух выборок x1 , . . . , xmи y1 , . . . , yn . Для получения рангов совокупность всех наблюденийследует упорядочить в порядке возрастания. (Напомним, что еслифункции распределения F и G выборок x и y непрерывны, то в ихсовокупности нет совпадающих значений и, следовательно, результатупорядочивания однозначен. Как поступать в противном случае, будетсказано ниже, в разделе «совпадения».117Пусть, например, первая выборка состоит из чисел 6, 17 и 14, вторая — изчисел 5 и 12. Тогда ранги величин первой группы есть 2, 5, 4, второй — 1, 3.Нетрудно понять, что последовательность рангов совокупности объ"ема m + n является некоторой перестановкой чисел 1, .
. . , m + n. Вернои обратное: любая перестановка чисел 1, . . . , m + n может оказатьсяранговой последовательностью. Так что множество возможных ран"говых последовательностей — это совокупность перестановок чисел1, 2, . . . , m + n. Их общее число равно (m + n)!.Зная распределения случайных величин X1 , . . . , Xm и Y1 , . . . , Yn , мыможем (по крайней мере, теоретически) вычислить вероятность того,что результат их ранжирования будет заданной перестановкой. Поэтомукаждое распределение случайных величин X1 , .
. . , Xm и Y1 , . . . , Yn поро"ждает некоторое распределение вероятностей на указанном множествеперестановок. Ясно, что если исходные данные однородны (X1 , . . . , Xmи Y1 , . . . , Yn в совокупности являются независимыми и одинаково рас"пределенными случайными величинами), то в качестве последователь"ности рангов с равными шансами может появиться любая перестановкачисел от 1 до m + n. Число таких перестановок равно (m + n)!, поэтомувероятность каждой равна 1/(m + n)!. Заметим, что этот результатникак не зависит от распределения самих наблюдений.Посмотрим, как изменяется распределение вероятностей среди ран"говых последовательностей (т.е.
среди перестановок) при отступленияхот однородности выборок. В качестве нарушений однородности мыбудем рассматривать те же ситуации, что и при обсуждении крите"рия Манна–Уитни в предыдущем пункте: левосторонние альтернативыF G и правосторонние альтернативы F G. Для правостороннихальтернатив P (xi < yj ) > 0.5, то есть наблюдения из второй группыимеют тенденцию превосходить наблюдения из первой.
Поэтому рангнаблюдений из второй группы чаще будет принимать значения из пра"вой части ряда чисел 1, 2, . . . , m + n. Если же отступление таково, чтоP (xi < yj ) < 0.5, то ранги игреков чаще будут принимать значения излевой части ряда чисел 1, 2, .
. . , m + n. Переход от рангов игреков к ихсумме позволяет резче отметить эти закономерности.Таким образом, ранги в какой"то мере способны характеризовать,например, положение одной выборки по отношению к другой и в тоже время они не зависят от неизвестных нам распределений выборокx и y. Это обстоятельство и легло в основу ранговых методов, широкоприменяемых в настоящее время в различных задачах.Вернемся к непосредственному обсуждению критерия Уилкоксона.Назначение. Критерий Уилкоксона используется для проверки ги"потезы об однородности двух выборок. Нередко одна из выборок пред"118ставляет характеристики объектов, подвергшихся перед тем какому"товоздействию (обработке).
В этом случае гипотезу однородности можноназвать гипотезой об отсутствии эффекта обработки.7. Более гибкое правило проверки H связано с вычислением наи"меньшего уровня значимости, на котором гипотеза H может быть отверг"нута. Для разных альтернатив речь идет о вычислении вероятностей:Данные. Рассматриваются две выборки x1 , . . .
, xm и y1 , . . . , yn ,объемов m и n. Обозначим закон распределения первой выборки черезF , а второй — через G.P (W Wнабл. ),Допущения. 1. Выборки x1 , . . . , xm и y1 , . . . , yn независимы ме"жду собой.2. Законы распределения выборок F и G непрерывны.Гипотеза. В введенных выше обозначениях гипотезу об однородно"сти выборок можно записать в виде H : F = G.Метод. 1. Рассмотрим ранги игреков в общей совокупности выборокx и y. Обозначим их через S1 , . .
. , Sn .2. Вычислим величинуWнабл. = S1 + · · · + Sn ,называемую статистикой Уилкоксона. Таблицы распределения ста"тистики W (при гипотезе однородности) можно найти в [19], [77],[115] и др.3. Зададим уровень значимости α или выберем метод, связанный сопределением наименьшего уровня значимости, приведенный ниже.4. Для проверки H на уровне значимости α против правостороннихальтернатив P (xi < yj ) > 0.5 найдем по таблице верхнее критическоезначение W (α, m, n), т.е. такое значение, для которогоP (W Wнабл. ),P (| W − n(m + n + 1)/2 | | Wнабл. − n(m + n + 1)/2 |) .Гипотеза отвергается, если соответствующая вероятность оказывает"ся малой.Приближение для больших выборок.
На практике часто прихо"дится сталкиваться с ситуацией, когда объемы выборок m и n выходят запределы, приведенные в таблицах. В этом случае используют аппрокси"мацию распределения W предельным распределением статистики √W приm → ∞ и n → ∞. Перейдем от величины W к W ∗ = (W − M W )/ DW .Ниже будет показано, что M W = n(m + n + 1)/2. Так же можно пока"зать, что DW = mn(m + n + 1)/12. Доказано, что в условиях H, придопущениях 1 и 2 и при больших m, n случайная величина W ∗ распре"делена приблизительно по нормальному закону с параметрами (0, 1).Обозначим через zα верхнее критическое значение стандартногонормального распределения. Его можно найти с помощью таблицыквантилей нормального распределения для любого 0 < α < 0.5. Бла"годаря симметрии распределения нижнее критическое значение равно−zα .
Правило проверки H перефразируем так:•P (W W (α, m, n)) = α.Гипотезу следует отвергнуть против правосторонней альтернативы приуровне значимости α, если Wнабл. W (α, m, n).5. Для проверки H на уровне значимости α против левостороннихальтернатив P (xi < yj ) < 0.5, необходимо вычислить нижнее критиче"ское значение статистики W .
В силу симметричности распределения Wнижнее критическое значение есть n(m+n+1)−W (α, m, n). Гипотеза Hдолжна быть отвергнута на уровне значимости α против левостороннейальтернативы, если Wнабл. n(m + n + 1) − W (α, m, n).6. Гипотеза H отвергается на уровне 2α против двусторонней аль"тернативы P (xi < yj ) = 0.5, еслиWнабл. W (α, m, n) или Wнабл. n(m + n + 1) − W (α, m, n).Напомним, что альтернативы должны выбираться из содержатель"ных соображений, связанных с условиями получения эксперименталь"ных данных.119••отвергнуть H на уровне α против альтернативы P (xi < yj ) > 0.5,∗если Wнабл.
zα ;отвергнуть H на уровне α против альтернативы P (xi < yj ) < 0.5,∗если Wнабл. −zα ;отвергнуть H на уровне 2α против альтернативы P (xi < yj ) =∗0.5, если |Wнабл.| zα .Правило, связанное с вычислением наименьшего уровня значимо"сти, при использовании нормального приближения выглядит так: от"вергнуть H (против соответствующих альтернатив), если оказывается∗малой вероятность 1 − Φ(Wнабл.) для альтернативы P (xi < yj ) > 0.5,∗∗Φ(Wнабл.) для альтернативы P (xi < yj ) < 0.5, и 2Φ(|Wнабл.|) − 1 дляальтернативы P (xi < yj ) = 0.5, где Φ(u) — функция нормального рас"u21e −x /2 dx.пределения (функция Лапласа), равная Φ(u) = √2π−∞Функция нормального распределения и ей обратная, которая назы"вается функцией квантилей стандартного нормального распределения,подробно табулированы. Упомянутое ранее верхнее критическое значе"120ние zα с помощью функции Φ можно определить как решение уравнения1 − Φ(zα ) = α.Замечание. Указанное выше нормальное приближение для вычислениякритических значений статистики W хорошо действует даже для небольшихзначений m и n, если только α не слишком мало.
(Так, для m = n = 8приближенные квантили практически не отличаются от точных.)Обсуждение. Рассмотрим подробнее свойства статистики W исоображения положенные в основу критерия Уилкоксона.Îáëàñòü îïðåäåëåíèÿ. Случайная величина W может принимать вседо максимального mn +целые значения от минимального значения n(n+1)2n(n+1).МинимальноезначениеWмыполучаем,когдарангами игреков служат2(в той или иной последовательности) числа 1, 2, .
. . , n. Максимальное значениеW возникает, когда этими рангами служат m + 1, m + 2, . . . , m + n.Заметим, что W не изменится, если произвольно переменить порядок сле"дования чисел, служащих рангами игреков (как не изменится и при перенуме"рации самих игреков). Чтобы упростить обсуждение, можно поэтому говоритьдалее о рангах игреков, упорядоченных по возрастанию. Пусть S1 , S2 , . . . , Snобозначают именно упорядоченные ранги, так что S1 < S2 < · · · < SnÐàñïðåäåëåíèå âåðîÿòíîñòåé. Статистика Уилкоксона была определенанами как сумма (упорядоченного) набора рангов игреков S1 , . .
. , Sn . Вероят"ность каждого такого упорядоченного набора при выдвинутой гипотезе H —nm! n!)−1 = (m+n)!. Таким образом, при гипотезе Hодна и та же и равна (Cm+nраспределение W не зависит от закона распределения выборок x и y, таккак от них не зависит распределение упорядоченной последовательности ран"гов.
Для каждой пары (m, n) распределение W можно рассчитать. Покажемна примере, как это делается.Пусть m = 3 и n = 2. Вычислим число всех возможных пар рангов игреков.2= 10. Следовательно, вероятность каждого упорядоченногоОно равно C3+2набора рангов равна 0.1. Выпишем все возможные наборы рангов S1 , S2 исоответствующую им сумму:S1 , S21.21.31.41.52.32.42.53.43, 54.5W34565677893456789P (W )0.10.10.20.20.20.10.1Ðàñïðåäåëåíèå ñòàòèñòèêè W ïðè íàðóøåíèè ãèïîòåçû. Чтобыоправдать сделанный выше выбор критических событий (критериев) для про"верки H против рассмотренных альтернатив, надо изучить распределение стати"стик U и W при этих альтернативах. Когда F и G не одинаковы, распределенияU и W уже не свободны от их влияния.