Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 23
Текст из файла (страница 23)
Ниже мы расскажем, как проверить однородность двухвыборок с помощью критерия Манна–Уитни или критерия Уилкоксона. Методы анализа двух выборок, имеющих нормальный закон рас"пределения, будут рассмотрены отдельно в главе 5.3.5.1. $……/0…Область применения критерия Манна–Уитни — анализ двух не"зависимых выборок. Размеры этих выборок могут различаться.Назначение критерия — проверка гипотезы о статистической од"нородности двух выборок. Иногда эту гипотезу называют гипотезой оботсутствии эффекта обработки (имея в виду, что одна из выборок со"держит характеристики объектов, подвергшихся некоему воздействию,а другая — характеристики контрольных объектов).ностей вправо) или альтернативы F G (левосторонняя альтернатива,т.е.
уход вероятностей влево). Можно рассматривать и объединениеобеих возможностей (двусторонняя альтернатива).Метод. Критерий Манна–Уитни повторяет основные идеи критериязнаков и в определенном смысле является его продолжением. Он осно"ван на попарном сравнении результатов из первой и второй выборок.Условимся, что всякое событие xi < yj обозначает «успех», а всякоесобытие xi > yj — «неудачу». Смысл такой терминологии может бытьсвязан с тем, что мы предполагаем, что вторая группа лучше первой,и рады подтверждению наших представлений. Изменяя i от 1 до m иj от 1 до n, получаем mn парных сравнений элементов выборок x и y.Обозначим число успехов в этих парных сравнениях через U . Ясно, чтоU может принимать любое целое значение от 0 до mn.Определение.
Введенная выше случайная величина U называется статистикой Манна–УитниВычислив значение Uнабл. , мы можем приступить к проверке гипо"тезы H:1. Зададим уровень значимости α или выберем метод, связанный сопределением наименьшего уровня значимости статистики U , которыйописан ниже.2. Для правосторонних альтернатив найдем по таблицам такоекритическое значение Uп.
(α, m, n), чтоP {U Uп. (α, m, n)} = α.Данные. Рассматриваются две выборки x1 , . . . , xm (выборка x) иy1 , . . . , yn (выборка y) объемов m и n. Обозначим закон распределенияпервой выборки через F , а второй — через G.При этом критическая область для гипотезы H против правостороннихальтернатив будет иметь вид:Допущения.
1. Выборки x1 , . . . , xm и y1 , . . . , yn должны быть не"зависимы.2. Законы распределений F и G непрерывны. Отсюда следует, что свероятностью 1 среди чисел x1 , . . . , xm и y1 , . . . , yn нет совпадающих.При проверке H против левосторонних альтернатив надо найтикритическое значение Uл. (α, m, n), такое, чтоГипотеза. Утверждение об однородности выборок x1 , .
. . , xm иy1 , . . . , yn , в введенных выше обозначениях можно записать в видеH : F = G.Альтернативы. В качестве альтернатив к H могут выступать всевозможности F = G. Однако критерий Манна–Уитни способен обна"руживать отнюдь не все возможные отступления от H : F = G. Этоткритерий предназначен, в первую очередь, для проверки H против аль"тернативы F G (правосторонняя альтернатива, "перетекание" вероят"113{U Uп. (α, m, n)}.P {U Uл. (α, m, n)} = α.Здесь критическая область примет вид{U Uл. (α, m, n)}.В таблицах (см. [77], [83], [115]) обычно приводятся критическиезначения, соответствующие числам α из ряда 0.05, 0.025, 0.01, 0.005,0.001. Ввиду дискретного характера распределения вероятностей ме"жду возможными значениями случайной величины U , приведенные вы"ше уравнения не всегда имеют точное решение, и в таблицах они приво"114дятся приближенно.
Для вычисления по таблицам значений Uл. (α, m, n)можно воспользоваться соотношениемпри H количества успехов и неудач должны быть приблизительно равны, т.е. Uне должно значительно отклоняться от mn/2.Uл. (α, m, n) + Uп. (α, m, n) = mn ,Ðàñïðåäåëåíèå ñòàòèñòèêè U ïðè íàðóøåíèè ãèïîòåçû. Рассмо"трим, как может вести себя U при различных альтернативах. В отличие отповедения U при гипотезе, здесь распределение U зависит от F и G, поэтомумы можем описать его свойства лишь для отдельных типов альтернатив. Прощевсего указать свойства U для односторонних альтернатив: правосторонних (еслиF G), или левосторонних (если F G). Легко видеть, что для правосторон"них альтернатив выполняется P (xi < yj ) > 0.5, поэтому значение U , т.е. общеечисло успехов xi < yj , скорее всего, должно превосходить mn/2 и тем зна"чительнее, чем больше P (xi < yj ).
Для левосторонних альтернатив (F G)соотношение обратное: P (xi < yi ) < 0.5, поэтому общее число успехов, какправило, должно быть меньше mn/2, и тем меньше, чем меньше P (xi < yj ).Итак, для односторонних альтернатив статистика Манна–Уитни имеет яс"ные свойства, поэтому на ее основе можно построить критерий для проверкигипотезы H против таких альтернатив.вытекающим из симметрии распределения статистики U относительносвоего центра mn/2.3. Отвергнем гипотезу H против правосторонних (левосторон"них) альтернатив при попадании Uнабл. в соответствующую критиче"скую область.4.
При проверке H против двусторонних альтернатив в качествекритического множества можно взять объединение{U Uл. (α, m, n)} ∪ {U Uп. (α, m, n)} ,т.е. отвергнуть H, если происходит одно из двух ранее упомянутых кри"тических событий. Ввиду уже отмеченной симметрии этому критериюможно дать видmn mn U − Uп. (α, m, n) −.22При таком выборе критического множества уровень значимостиудваивается. Теперь он равен 2α (с теми же оговорками насчет дис"кретности распределения U , что были сделаны выше). Если мы же"лаем сохранить и здесь уровень значимости α, надо взять Uл. ( α2 , m, n)и Uп. ( α2 , m, n)Приближение для больших выборок. Смотри п. 3.5.2 и связь ме"жду статистикой Манна–Уитни и статистикой Уилкоксона, указаннуютам же в разделе «обсуждение».Обсуждение.
Укажем некоторые свойства статистики U и сообра"жения, приводящие к описанному выше методу проверки гипотезы.Ðàñïðåäåëåíèå âåðîÿòíîñòåé U ïðè ãèïîòåçå H. Хотя статистикаМанна–Уитни является суммой одинаково распределенных случайных величин,принимающих значения 0 и 1, она не имеет биномиального распределения,так как эти величины являются зависимыми (например, зависимы результатысравнения x1 с y1 и x1 с y2 ). Поэтому распределение статистики U при"ходится рассчитывать, используя специальные таблицы или асимптотическиеприближения.Однако расчет распределения статистики U значительно упрощается тем,что при выполнении гипотезы H это распределение не зависит от законараспределения выборок (если эти распределения непрерывны).
РаспределениеU при гипотезе H зависит только от объемов выборок — m и n. В справочниках[77], [83], [115] приводятся таблицы, по которым можно найти вероятностьP (U k) для различных k при небольших значениях m и n.Заметим, что при справедливости гипотезы H (т.е. при совпадении законовраспределения F и G) выполняется P (xi < yj ) = P (xi > yj ) = 0.5. Поэтому115Ìåòîä ïðîâåðêè ãèïîòåçû. В связи с таким поведением статистикиU для проверки гипотезы H против указанных выше возможных альтернативразумно предложить следующее правило: отвергнуть H, если наблюденное U (вдальнейшем Uнабл. ) значительно отклоняется от mn/2 — значения, ожидаемогоот U при гипотезе H (от математического ожидания U при гипотезе H).Чем больше отклоняется от mn/2 наблюденное значение U , т.е. Uнабл.
, темсильнее мы сомневаемся в том, что H верна. Разумеется, U может значительноотклоняться от M (U | H) и за счет действия случая, когда H выполняется,но чем больше отклонение, тем оно при H менее вероятно, и тем труднееобъяснить это отклонение случайностью. Скорее всего, если отклонение велико,оно вызвано не случаем, а закономерной причиной — тем, что распределенияG и F не совпадают.Силу таких доводов против H : F = G в пользу, например, право"сторонней альтернативы F G можно выразить количественно, вычисливP (U Uнабл.
| H). Это вероятность того, что при независимом повторении экс"перимента мы получим такое же или еще более сильное свидетельство против H(в пользу правосторонней альтернативы), как уже имеющееся Uнабл. . Если Uнабл.велико, то вышеназванная вероятность мала, и наоборот. Если эта вероятностьстоль мала, что подобное событие кажется практически невозможным при H,гипотезу H следует отвергнуть (по имеющемуся наблюдению Uнабл. ), в пользуправосторонней альтернативы.Рекомендация изменяется очевидным образом, если с H конкурируют ле"восторонние альтернативы.
Наконец, в случае двусторонних альтернатив надовычислить вероятность mn mn P U − Uнабл. −22и в зависимости от того, насколько она мала, отвергнуть гипотезу.Описанный способ действий имеет определенные преимущества перед стан"дартной процедурой проверки статистических гипотез, как она описана в пунк"те 3.2. Главное то, что здесь не приходится заранее выбирать уровень зна"чимости, что всегда выглядит несколько произвольно. Описанный подход ав"томатически доставляет нам тот наименьший уровень значимости, на котором116(по имеющимся наблюдениям) можно отвергнуть гипотезу H в пользу соот"ветствующей альтернативы. В данном случае есть и еще одно дополнительноепреимущество: как мы уже отмечали выше, из"за дискретности распределенияU традиционные номинальные уровни значимости типа 0.05, 0.025, 0.001 и т.д.могут быть достигнуты лишь приближенно.