Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 25
Текст из файла (страница 25)
Поэтому точно вычислить и указатьраспределения U и W можно (в принципе) только для каждой конкретной парыF и G. Тем не менее, характер изменения распределений статистик U и W припереходе от гипотезы к альтернативам — не всем, но некоторым, — установитьможно. Это легко сделать для односторонних альтернатив. Например, когдаP (xi < yi ) > 0.5 (правосторонняя альтернатива), распределение вероятностейW «перетекает» от середины к правому концу того множества значений, котороеможет принимать W . Для левосторонних альтернатив аналогичное «перетека"ние» вероятности происходит влево — тем сильнее, чем больше P (xi < yi )отличается от 0.5.На рис. 3.1 мы попытались наглядно представить это положение, условнопредставляя распределение статистики W при гипотезе и при альтернативах спомощью плотностей — хотя искомые распределения дискретны и плотностейне имеют. Но так получается выразительнее.
(При желании можно считать,что нарисованные непрерывные кривые изображают что"то вроде огибающихграфиков дискретных вероятностей.)Рис. 3.1. Схематическое изображение распределений WИз рис. 3.1 ясно, что гипотеза H должна отвергаться при слишком большихили при слишком малых значениях W в зависимости от того, какие альтернати"вы мы рассматриваем. При том выборе критериев, который был описан выше,их мощность возрастает при удалении P (xi < yj ) от 0.5.
Это правило и лежитв основе описанного выше метода.Таким образом, получаем следующее распределение W :Wчто она примет значение −k. Согласно определению математического ожи"nm/2дания, M (W − n(m + n + 1)/2 | H) =Учитывая, чтоk=−nm/2 kpk = 0.математическое ожидание разности равно разности математических ожида"ний, а математическое ожидание константы равно самой константе, получаем:M W = n(m + n + 1)/2.Отметим, что распределение W симметрично относительно точки n(m +n + 1)/2 — середины отрезка [n(n + 1)/2, nm + n(n + 1)/2]. Из этого свойствалегко вывести, что M (W | H) = n(m + n + 1)/2.Рассмотрим случайную величину W − n(m + n + 1)/2. Согласно симме"трии закона распределения относительно точки n(m + n + 1)/2, вероятностьpk , что эта величина примет некоторое значение k, равна вероятности p−k ,121Ñâÿçü ñî ñòàòèñòèêîé Ìàííà–Óèòíè.
Нетрудно проверить, что длявсех m, n: W = U + n(n + 1)/2. Это соотношение показывает эквивалентностьстатистик U и W . Поэтому их применения приводят к одинаковым результатам.Совпадения. Мы описали критерий Уилкоксона для проверки гипотезы ободнородности двух выборок в условиях, когда функции распределений данныхнепрерывны и, тем самым, в выборках не должно быть совпадающих наблю"122дений. Однако на практике совпадающие наблюдения — не редкость. Чащевсего это происходит не потому, что нарушается условие непрерывности, а из"заограниченной точности записи результатов измерений (например, рост человекаобычно измеряется с точностью до 1 см). Применение критерия Уилкоксона ктаким данным приводит к приближенным выводам, точность которых тем ниже,чем больше совпадающих значений.Когда среди наблюдений встречаются одинаковые, им приписываются средние ранги.
По определению, средний ранг числа zi в совокупности чиселz1 , z2 , . . . , zn есть среднее арифметическое из тех рангов, которые были быназначены zi и всем остальным значениям, совпадающим с zi , если бы они ока"зались различными. После такого назначения рангов применяются описанныеранее процедуры.Упомянутые группы одинаковых наблюдений называют связками. Коли"чество элементов в связке называют ее размером.
Наличие связей влияетна асимптотические распределения статистики Уилкоксона. Так, при исполь"зовании нормальной аппроксимации следует в формуле для вычисления W ∗заменить DW наg2mnk=1 tk (tk − 1)(m + n + 1) −,12(m + n)(m + n − 1)где t1 , t2 , . . . , tg — размеры наблюденных связок среди игреков, g — общеечисло связок среди игреков. Наблюдение, не совпавшее с каким"либо другимнаблюдением, рассматривается как связка размера 1, и в формуле, заменяющейDW , не учитывается.При больших по размеру связках и (или) большом их числе применениекритерия Уилкоксона сомнительно.3.6.
… …'…Рассмотренное в предыдущем параграфе сравнение двух совокуп"ностей наблюдений (двух выборок) часто проводится для обнаружениярезультата какого"либо воздействия (выявления эффекта обработки),либо, напротив, для подтверждения его отсутствия. Чем более одно"родными окажутся выбранные для эксперимента объекты (для контро"ля и воздействия), чем меньше их случайные различия, тем точнее(и по меньшему числу наблюдений) можно будет дать ответ на вопрос.Кстати, формирование однородной группы экспериментальных объектовсоставляет важную и не всегда простую задачу.Ясно, что различие между объектами, выбранными для воздействияи для контроля (или для двух разных воздействий, если интерес пред"ставляет их сопоставление) будет наименьшим, если в обоих качествахвыступает один и тот же объект. Если это возможно, то далее обыч"ным порядком мы составляем группу экспериментальных объектов (по"прежнему стремясь к тому, чтобы они были однородны — значениеэтого выяснится в п.
3.6.2). Далее для каждого объекта мы измеряем123два значения интересующей нас характеристики (например, до воздей"ствия и после или при двух разных воздействиях). Так возникают парынаблюдений и парные данные. Но, конечно, парные данные могут воз"никать и иначе (скажем, при наблюдениях над близнецами, которые вомногих отношениях считаются идентичными).3.6.1. ƒ… …ƒ… … …'…Назначение. Критерий знаков используется для проверки гипотезыоб однородности наблюдений внутри каждой пары (иногда говорят —для проверки гипотезы об отсутствии эффекта обработки).Данные.
Рассмотрим совокупность случайных пар (x1 , y1 ), . . . ,(xn , yn ) объема n. Введем величины zi = yi − xi , i = 1, . . . , n.Допущения. 1. Все zi предполагаются взаимно независимыми.Заметим, что мы не требуем независимости между элементами xi иyi c одинаковым номером i. Это весьма важно на практике, когданаблюдения делаются для одного объекта и тем самым могут бытьзависимы.2. Все zi имеют равные нулю медианы, т.е. P (zi < 0) = P (zi >0) = 1/2.
Подчеркнем, что законы распределения разных zi могут несовпадать.Гипотеза. Утверждение об отсутствии эффекта обработки для по"вторных парных наблюдений (x1 , y1 ), . . . , (xn , yn ) можно записать ввидеH : P (xi < yi ) = P (xi > yi ) = 0.5для всех i = 1, . .
. , n.Метод. 1. Перейдем от повторных парных наблюдений (x1 , y1 ), . . . ,(xn , yn ) к величинам zi , i = 1, . . . , n, введенным выше.2. К совокупности zi , i = 1, . . . , n применим критерий знаков дляпроверки гипотезы о равенстве нулю медиан распределений величин zi ,i = 1, . . . , n (см. п. 3.4.2).Приближение для больших совокупностей. Следует восполь"зоваться нормальной аппроксимацией биномиального распределения.Смотри пункт 2 раздела «Связь с другими распределениями» параграфа2.1 главы 2.Связанные данные.
Если среди значений zi есть нулевые, то ихследует отбросить и соответственно уменьшить n до числа ненулевыхзначений zi .124Таблица 3.5Оценка эффекта обработки. Нередко для zi рассматривают мо"дель zi = θ + ei , i = 1, . . . , n, где ei — ненаблюдаемые случайныевеличины, θ — некоторая константа, характеризующая положение од"ного распределения относительно другого (скажем, до воздействия ипосле). Эту константу часто именуют эффектом обработки. Принятыевыше допущения 1 и 2 переносятся на величины e1 , . . . , en . Гипоте"за однородности формулируется в виде гипотезы о нулевом эффектеобработки H : θ = 0.Введенные величины θ и представления zi = θ + ei оказываютсяполезными, если в ходе проверки гипотезы выясняется, что θ = 0 и чтопоэтому надо оценить количественно то различие, которое привноситобработка (воздействие).Пример.
Покажем как использовать критерий знаков для анализа данныхо времени реакции на звук и на свет. В этом примере рассматривается группаиспытуемых, а целью исследования служит проверка гипотезы о равенстве вре"мени реакций на звук и на свет. Порядок организации эксперимента позволяетпредположить, что полученные данные на одном испытуемом независимы отаналогичных данных для остальных.Осуществим переход от пар (x1 , y1 ), . . . , (xn , yn ) к величинам zi , i =1, . . .
, n и запишем последние в виде: zi = θ + ei , i = 1, . . . , n.Выполняются ли для сформулированной задачи допущения, используемыев критерии знаков? Независимость ei обеспечивается условиями организацииэксперимента. Априорно предполагаемая непрерывность распределений рассма"триваемых выборок обеспечивает непрерывность распределения ei . В случаесовпадения распределений времени реакции на звук и на свет справедливо сле"дующее соотношение P (xi − yi > 0) = P (xi − yi < 0) = 1/2. Следовательно,P (zi > 0) = P (zi < 0) = 1/2, то есть медиана распределения zi равна нулю.Таким образом, предположение θ = 0 обеспечивает выполнение допущения 2.Одной из разумных альтернатив нулевой гипотезе в данном случае являетсяпредположение о том, что θ < 0.