Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 40
Текст из файла (страница 40)
Заметим, что в данном при"мере можно предположить монотонное влияние материального стиму"лирования на результаты, а поэтому оправдано применение критерияДжонкхиера. Итак, выберем в качестве альтернативы к нулевой гипо"тезе предположение, что чем выше уровень стимулирования, тем вышепроизводительность. Для вычисления статистики Джонкхиера J найдемзначения статистики Манна –Уитни U для всех комбинаций индексовu и v, где u и v меняются от 1 до 6, причем u < v. Простой расчет дает:Таблица 6.4U12U13U14U15U16Таблица рангов наблюденийгруппа 1 группа 2 группа 3группа 4группа 5группа 65.529927.523,575.520141721.53,5171317263011.511.53,51721.529191723,52527.5R1 = 28.5 R2 = 45 R3 = 62.5 R4 = 80.5 R5 = 117 R6 = 131.5R·1 = 5.7 R·2 = 9 R·3 = 12.5 R·4 = 16.1 R·5 = 23.4 R·6 = 26.3= 17= 18.5= 24= 25= 25U23U24U25U26ОтсюдаJ== 17 U34 = 16.5 U45 = 22= 20.5 U35 = 23, 5 U46 = 23, 5= 24.5 U36 = 25U56 = 18= 25u=1,... , 6v=1,...
, 6u<v197198Uu,v = 325.Для нахождения минимального уровня значимости критерия вос"пользуемсянормальной аппроксимацией.Величина J ∗ = (J −√M J)/ DJ асимптотически имеет стандартное нормальное распреде"ление, где выражения для M J и DJ были указаны выше. В ре"зультате расчетов получаем M J = 187.5, DJ = 27.5. Следовательно,J ∗ (325 − 187.5)/27.5 5. С помощью таблиц стандартного нормаль"ного распределения находим, что вычисленное значение соответствуетминимальному уровню значимости α 3 · 10−7 .
Заметим, что мы полу"чили более сильный результат по сравнению с применением критерияКраскела–Уоллиса. Если в первом случае мы отвергали гипотезу об од"нородности на уровне значимости не менее 1 · 10−3 , то во втором случаеминимальный уровень значимости понизился почти на 4 порядка.Замечание. Оба критерия достаточно определенно отвергают гипотезу ободнородности выборок.
Однако для исследователя гораздо больший интереспредставляет не сам факт существования влияния, а вопрос о количественномвлиянии способа обработки на результаты. Ниже будет разобрана довольнораспространенная модель аддитивного влияния фактора на отклик и построеныоценки эффектов обработки.6.4. …… << (… )Для описания данных табл. 6.1 в большинстве случаев оказываетсяприемлемой аддитивная модель. Она предполагает, что значениеотклика xij можно представить в виде суммы вклада (воздействия)фактора и независимой от вкладов факторов случайной величины. Иначеговоря, каждое наблюдение xij является суммой вида:xij = aj + eij ,j = 1, .
. . , k,i = 1, . . . , n ,(6.4)где a1 , a2 , . . . , ak — неслучайные неизвестные величины, являющиесярезультатом действия соответствующих обработок, eij — независимыеодинаково распределенные случайные величины, отражающие внутрен"не присущую наблюдениям изменчивость. Случайные величины eijнепосредственно не наблюдаемы, нам известны лишь значения xij .Теоретически ясная картина получается в том случае, когда общийдля всех eij закон распределения оказывается непрерывным (еще болееточные выводы можно сделать, когда указанный закон распределениянормален — эту возможность мы рассмотрим отдельно в п. 6.5). Напрактике эти предпосылки не всегда соблюдаются.
В таком случае ивыводы становятся приближенными.Для дальнейших рассуждений удобнее вместо aj — влияния об"работки j на результаты, — рассматривать влияние обработки на от"199клонения xij от среднего уровня. Введем величину среднего уровня µследующим образом:µ=k1ai .k i=1Будем называть величину τj = aj − µ отклонением от среднегоуровня при j"й обработке. Ясно, что τ1 + τ2 + · · · + τk = 0. Тогдаxij = aj + eij можно записать в виде:xij = µ + τj + eij ,j = 1, . . . , k,i = 1, . .
. , n .Хотя в полученной модели имеется k + 1 параметров, общее коли"чество независимых параметров не изменилось, так как ki=1 τi = 0.Теперь вопрос о различии обработок сводится к выяснению различиймежду τ1 , . . . , τk . Гипотеза об однородности данных означает равенстваa1 = a2 = · · · = ak , то есть τ1 = τ2 = · · · = τk = 0. Альтернатива обупорядоченности эффектов обработки превращается в τ1 τ2 · · · τk , а различие между эффектами i"ой и j"ой обработок, естественно,характеризуется величиной ai − aj = τi − τj .Оценки сдвига. Рассмотрим сначала на примере построение про"стейших оценок различия между эффектами обработки двух выборок.Заметим, речь в этом случае идет о сдвиге одной выборки относи"тельно другой.
В качестве оценки этого сдвига можно взять медиануХоджеса–Лемана, т.е. величину zij :zij = med(xui − xvj , u = 1, . . . , ni , v = 1, . . . , nj ).Отметим, что zij = −zij . Статистика zij может служить оценкойвеличины τi − τj , однако у нее есть существенный недостаток. Про"иллюстрируем его на описанном выше примере о влиянии материаль"ного стимулирования на производительность. Вычислим величины z14 ,z46 , z16 . Так, z14 является медианой 25 разностей значений 1"го и4"го столбцов табл. 6.3. После простых подсчетов получим z14 = −6,z46 = −8 и z16 = −13.
Заметим, что сдвиг первой выборки относитель"но шестой можно представить в виде суммы сдвигов первой выборкиотносительно четвертой и четвертой относительно шестой. Действи"тельно, τ1 − τ6 = (τ1 − τ4 ) + (τ4 − τ6 ). Поэтому естественно было быожидать, что аналогичное равенство будет выполняться и для оценоксдвига. Однако оценки zij этому разумному требованию не удовлетво"ряют.
Так, z14 + z46 = z16 . Поэтому оценки zij часто используют вскорректированном варианте.200Скорректированные оценки сдвига. Введем величинуknu ziu∆i = u=1,i = 1, . . . , k,Nгде zii = 0, i = 1, . . . , k. ∆i отражает сдвиг выборки i относительновсех остальных выборок, усредненный с весами n1 , . . . , nk .Будем называть взвешенной скорректированной оценкой величиныτi − τj величину Wij = ∆i − ∆j . Ее также называют оценкой Спетволля.Исходную оценку zij при этом называют нескорректированной оценкойτi − τj . Отметим, что оценки Wij удовлетворяют соотношениюWij + Wjh = Wihдля всех i, j, h от 1 до k.
Однако у оценок Спетволля есть свойнедостаток: оценка сдвига одной выборки относительно другой зависитот всех остальных выборок.Вычислим, например, оценку W14 величины τ1 − τ4 в рассмотренной вышезадаче. Для этого нам необходимо прежде всего знать значения оценок z1u иz4v при всех u и v, изменяющихся от 1 до k. Для нашего примера имеем:z11 = 0, z12 = −2, z13 = −4, z14 = −6, z15 = −10, z16 = −13,z41 = 6, z42 = 4, z43 = 2, z44 = 0, z45 = −4, z46 = −8.Таким образом,∆1 =∆4 =55− (z11 + z12 + z13 + z14 + z15 + z16 ) = −5 ,3065− (z41 + z42 + z43 + z44 + z45 + z46 ) = 0,305W14 = ∆1 − ∆4 = −5 .6Контрасты. Довольно часто в задачах однофакторного анализапредставляют интерес не сами оценки величин τi , а некоторые их ли"нейные комбинации. Для их определения вводится понятие контраста.
Контрастом параметров τ в модели аддитивного влияния факторана отклик называется величина θ:kcj τj ,θ=kj=1где j=1 cj = 0 и c1 , . . . , ck — заданные константы. Ясно, что разностьτi − τj является простейшим примером контраста, когда ci = 1, cj = −1,cu = 0 при всех u, не равных i и j.Чаще бывает удобно задавать θ в другой, эквивалентной форме,а именноkk θ=dij (τi − τj ),i=1 j=1201где dij = ci /k при j = 1, .
. . , k, i = 1, . . . , k. Учитывая построенныевыше взвешенные скорректированные оценки Wij для разностей τi − τj ,естественно определить оценку контраста θ какθ∗ =kk dij Wij .i=1 j=1Сведения о свойствах оценок θ∗ и Wij можно найти в [115].6.5. &…… …ƒДо сих пор, рассматривая аддитивную модель однофакторного ана"лиза (6.4): xij = aj + eij , мы предполагали только непрерывность законараспределения величин eij , при том, что eij — независимы и одинаковораспределены. Часто о распределении eij можно сказать больше, аименно, величины eij ∼ N (0, σ 2 ), то есть имеют нормальное распре"деление с нулевым средним и общей для всех дисперсией σ 2 , котораянам неизвестна. Дополнительная информация о законе распределенияслучайных величин eij позволяет использовать более сильные методыв модели однофакторного анализа как для проверки гипотез, так и дляоценки параметров. Совокупность этих методов носит название однофакторного дисперсионного анализа.Это название связано с тем, что анализ модели (6.4) основан насопоставлении двух оценок дисперсии σ 2 .
Одна из них действует внезависимости от того, верна или нет гипотеза H0 : a1 = · · · = ak .Другая оценка существенно использует это предположение. Она даетблизкий к σ 2 результат только в том случае, если гипотеза верна.Сопоставляя друг с другом эти две оценки, мы можем заключить, что H0следует отвергнуть, если они оказываются заметно (значимо) различны.Реализация и уточнение этой идеи и будут осуществлены далее.Построение оценок дисперсии. Вспомнив известное нам о ста"тистической обработке одной нормальной выборки, мы можем сказать,что каждая однородная группа табл. 6.1 (каждый ее столбец) дает оцен"ку σ 2 .
Для этого надо по каждому столбцу найти выборочную суммуквадратов отклонений от среднего арифметического. Положимnj1 x·j =xij ,j = 1, . . . , k ,nj i=1njи далее вычислим i=1(xij − x·j )2 . Анализируя одну нормальную вы"борку, мы нашли, что такую сумму квадратов можно представить в видепроизведения σ 2 χ2 , где случайная величина χ2 имеет распределение χ2202с nj − 1 степенями свободы. Поскольку данные в разных столбцах полу"k njчены независимо, объединенная сумма квадратов j=1 i=1(xij − x·j )2имеет распределение σ 2 χ2 с N − k степенями свободы.