Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 39
Текст из файла (страница 39)
При наличии совпадений (и использованиисредних рангов) теоретическая схема действует как приближенная, анадежность ее выводов снижается тем больше, чем больше совпадений.Ниже мы укажем, какие поправки делаются при наличии совпадений.Упорядочим величины xij (все равно как — от большего к меньшему,либо от меньшего к большему). Обозначим через rij ранг числа xijво всей совокупности. Тогда табл. 6.1 преобразуется в табл.
6.2.Важно отметить, что при выполнении гипотезы H0 любые возможныерасположения рангов по местам в табл. 6.2 равновероятны.Таблица 6.2ОбработкиРанги результатовизмерений1r11r21...rn1 12r12r22...rn2 2............kr1kr2k...rnk kСогласно сформулированной стратегии анализа возникает вопрос:нельзя ли объяснить наблюденное в опыте расположение рангов втабл. 6.2 действием чистой случайности? Этот вопрос можно перефор"мулировать в виде статистической гипотезы о том, что все k предста"вленных выборок (столбцы табл. 6.1) однородны, т.е.
являются выбор"ками из одного и того же закона распределения. Наша задача — указатьстатистический критерий, с помощью которого можно было бы судитьо справедливости выдвинутой гипотезы.Общая методика проверки статистических гипотез (см. п. 3.2) ре"комендует нам сконструировать некоторую статистику, т.е. в данномслучае функцию от рангов rij , которая бы легла в основу критерияпроверки гипотезы. Основное требование к этой статистике следую"щее: ее распределение при гипотезе H0 должно заметно отличаться отее распределения при альтернативах.
Последние слова подчеркивают,что статистический критерий для проверки H0 должен быть направленпротив определенной совокупности альтернатив.Как уже отмечалось, все реализации табл. 6.2 равновероятны приH0 . Это дает возможность рассчитать закон распределения при H0любой ранговой статистики (насколько это позволяют компьютерныесредства).Ниже будут разобраны два ранговых критерия проверки однород"ности, направленные против различных совокупностей альтернатив(пп 6.2.1 и 6.2.2). Построение непараметрических оценок эффектовобработки изложено в пункте 6.4. Параметрические методы (дисперси"онный однофакторный анализ) описаны в пп.
6.5 и 6.6.1936.2. ! ……6.2.1. /0(ƒ… …)Если мы не можем сказать что"либо определенное об альтернативахк H0 , можно воспользоваться для ее проверки свободным от распреде"ления критерием Краскела–Уоллиса. Для этого заменим наблюденияxij их рангами rij , упорядочивая всю совокупность ||xij || в порядке воз"растания (для определенности). Затем для каждой обработки j (т.е. длякаждого столбца исходной таблицы) надо вычислитьnjnj1 rij и R·j =rij ,Rj =n j i=1i=1где R·j — это средний ранг, рассчитанный по столбцу. Если ме"жду столбцами нет систематических различий, средние ранги R·j ,j = 1, .
. . , k не должны значительно отличаться от среднего ранга,рассчитанного по всей совокупности ||rij ||. Ясно, что последний равен(N + 1)/2. Поэтому величины22N +1N +1R·1 −, . . . , R·k −22при H0 в совокупности должны быть небольшими. Составляя общую ха"рактеристику, разумно учесть различия в числе наблюдений для разныхобработок и взять в качестве меры отступления от чистой случайностивеличину2k12N +1H=nj R·k −.(6.1)N (N + 1) j=12Эта величина называется статистикой Краскела–Уоллеса. Мно"житель 12/[N (N + 1)] нужен для стабилизации ее распределения прибольшом числе наблюдений (см. ниже).
Другая форма для вычи"сления H:kRj212H=− 3(N + 1).(6.2)N (N + 1) j=1 njТаблицы и асимптотика. Небольшие таблицы распределения ста"тистики H при гипотезе H0 можно найти в сборниках статистическихтаблиц. При больших объемах n1 , . . . , nk , которые находятся за пре"делами таблиц, случайная величина H (при гипотезе H0 ) приближенно194распределена как хи"квадрат с (k − 1) степенями свободы (сведения оболее точной аппроксимации можно найти в [65]). Так что при исполь"зовании этого приближения мы отвергаем H0 (на уровне значимости α),если Hнабл.
> χ21−α , где χ21−α — квантиль уровня (1 − α) распределенияхи"квадрат с (k − 1) степенями свободы.Совпадающие значения. Если в табл. 6.1 есть совпадающиезначения, надо при ранжировании и переходе к табл. 6.2 использоватьсредние ранги. Если совпадений много, рекомендуют использоватьмодифицированную форму статистики H :H =1−'gH(,3j=1 Tj /[N − N ]Статистикой Манна–Уитни называют величинуU=ϕ(x, y).i=1,... , mj=1,... , nОбратившись теперь к общему случаю, когда сравниваются k спо"собов обработки, поступим следующим образом.
Для каждой парынатуральных чисел u и v, где 1 u < v k, составляем по выборкамс номерами u, v статистику Манна–Уитни.ϕ(xiu , yjv ).Uu,v =i=1,... , muj=1,... , nv(6.3)где g — число групп совпадающих наблюдений, Tj = (t3j − tj ), tj —число совпадающих наблюдений в группе с номером j. Более подробныесведения по этому поводу можно найти, например, в [115].Замечание. При k = 2 статистика Краскела–Уоллиса H по своему дей"ствию эквивалентна статистике Уилкоксона W .6.2.2. &›…(… …)Нередко исследователю заранее известно, что имеющиеся группырезультатов упорядочены по возрастанию влияния фактора.
Пусть, дляопределенности, первый столбец табл. 6.1 отвечает наименьшему уров"ню фактора, последний — наибольшему, а промежуточные столбцыполучили номера, соответствующие их положению. В таких случаяхможно использовать критерий Джонкхиера, более чувствительный (бо"лее мощный) против альтернатив об упорядоченном влиянии фактора.Разумеется, против других альтернатив свойства этого критерия могутоказаться хуже свойств критерия Краскела–Уоллиса.Статистика Джонкхиера.
Разберем сначала, как устроена стати"стика этого критерия в случае, когда сравниваются только два способаобработки. Табл. 6.1 в этом случае имеет два столбца. Фактически здесьречь идет о проверке однородности двух выборок. Напомним, что в главе3 для решения этой задачи была предложена статистика Манна–Уитни.А именно: пусть x1 , . .
. , xm и y1 , . . . , yn — две выборки. Положим:если xi < yj ; 1,ϕ(xi , yj ) = 1/2,если xi = yj ;0,если xi > yj .195Определим статистику Джонкхиера J какJ=Uu,v .1u<vkСвидетельством в пользу альтернативы упорядоченности эффектов(против гипотезы однородности) служат большие значения статистикиJ, полученные в эксперименте.Таблицы и аппроксимация. При небольших объемах выборок инебольшим k распределение статистики J табулировано (см., например,[115]).
Для больших выборок в отношении J действует нормальнаяасаппроксимация: J ∼ N (M J, DJ), где M J и DJ равны:kk1 2 21 2M J = (N −nj ), DJ =N (2N + 3) −n2j (2nj + 3) .472j=1j=1Свидетельством против гипотезы однородности служат большие(сравнительно с процентными точками стандартногонормального рас"√пределения) значения статистики (J − M J)/ DJ, полученные в экспе"рименте (сведения о более точной аппроксимации можно найти в [65]).6.3. Проиллюстрируем применение описанных выше критериев на следу"ющем примере.
Для выяснения влияния денежного стимулирования напроизводительность труда шести однородным группам из пяти человеккаждая были предложены задачи одинаковой трудности. Задачи пред"лагались каждому испытуемому независимо от всех остальных. Группыотличаются между собой величиной денежного вознаграждения за ре"шаемую задачу. В следующей таблице приведено число решенных задаччленами каждой группы. Данные приведены из [33].196Таблица 6.3Величина вознаграждения (от меньшей к большей)группа 110119137группа 2810161312группа 3121714916группа 41215161619группа 52416221820группа 61918272524Проверим гипотезу об отсутствии влияния денежного вознагражде"ния на число решенных задач.
Отметим, что величины, приведенные втаблице, имеют смысл и сами по себе, а не только в сравнении с дру"гими величинами. Это широко распространенная ситуация, в которойтакже часто целесообразно применять ранговые критерии Краскела–Уоллиса или Джонкхиера, хотя при переходе от величины xij к ихрангам уже происходит определенная потеря информации. Однако ча"сто подобная потеря информации, во"первых, не столь значительна, аво"вторых, компенсируется тем, что от обычно неизвестного закона рас"пределения величин xij мы переходим к величинам rij , распределениекоторых при гипотезе H0 известно.
Если же мы можем полагать, чтовеличины xij имеют нормальный (гауссовский) закон распределения,для их исследования можно применить методы дисперсионного анализа,рассматриваемые ниже в пп. 6.5 и 6.6.Применение критерия Краскела–Уоллеса. В связи с наличиемв табл. 6.3 совпадений мы будем вынуждены воспользоваться среднимирангами.
Так, значение xij = 10 встречается в табл. 6.3 дважды, и приупорядочении xij оно «делит пятое и шестое места». Поэтому среднийранг xij = 10 равен 5.5. В результате ранжирования получим табл. 6.4.В двух нижних строках приведены суммы рангов Rj и средние рангиR·j = Rj /nj по столбцам.Для вычисления статистики Краскела–Уоллиса H удобнее вос"пользоваться формулой (6.2). В нашем случае общее число на"блюдений N = 30, число наблюдений при заданном значении фак"тора nj = 5, j = 1, . .
. , 6. Подставляя эти значения, получаем:H = 17682/155 − 93 = 21.077.Как было указано, величина H асимптотически имеет распределениеχ2 с числом степеней свободы, равным в данном случае 5. По таблицераспределения χ2 находим, что минимальный уровень значимости αчуть больше 0.001. Заметим, что этот вывод является приближеннымв связи с тем, что в табл. 6.3 было определенное число совпаденийнаблюдений xij . Для учета влияния связей можно воспользоватьсястатистикой H (6.3). В нашем случае имеем следующие восемь группсовпадающих наблюдений:9, 9; 10, 10; 12, 12; 13, 13; 16, 16, 16, 16, 16; 18, 18; 19, 19; 24, 24.Соответственно: T1 = (23 − 2) = 6, T2 = (23 − 2) = 6, T3 = (33 − 3) =24, T4 = 6, T5 = (53 − 5) = 120, T6 = 6, T7 = 6, T8 = 6. Знаменатель8дроби в выражении для H равен: 1 − j=1 Tj /(303 − 30) = 1 − 6/899, асамо значение H приблизительно равно 21.2186.Так как скорректированное значение H статистики Краскела–Уоллиса несущественно отличается от значения H, мы можем отверг"нуть гипотезу на минимальном уровне значимости около 0.001.Применение критерия Джонкхиера.