Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 41
Текст из файла (страница 41)
Отсюда полу"чаем первую (основную) оценку σ 2 :σ2∗k nj1 =(xij − x·j )2 .N − k j=1 i=1(6.5)При выводе не было упоминания о гипотезе H0 , следовательно,σ 2∗ ≈ σ 2 независимо от того, верна гипотеза H0 или нет.Чтобы получить другую оценку σ 2 , обратимся вновь к столбцамтабл. 6.1, точнее — к их средним значениям x·j . Согласно свойствамнормального распределения,njx·j ∼ N (aj , σ 2 /nj ).(6.6)Кроме того, x·j и i=1 (xij − x·j ) статистически независимы.
Най"дем центр совокупности (6.6) с учетом «весов» средних значений nj ,т.е. найдем, при каком z достигается минимум выражения2k(x·k − z)2 nj → min .zj=1(6.7)С помощью стандартных средств математического анализа легковидеть, что минимум (6.7) достигается при z = x, гдеx=k nj1 xij .N j=1 i=1(6.8)Замечание.
Нецентральное распределение хи"квадрат с k степенями сво"боды имеет сумма квадратов k независимых нормальных величин с единичнойдисперсией и не обязательно нулевым средним. Параметр нецентральности вэтом случае — сумма квадратов средних этих нормальных величин.F?отношение. Поскольку мы имеем для оценки σ 2 две независимыеоценки, имеющие при гипотезе H0 распределение хи"квадрат, их частноеF = σ 2∗∗ /σ 2∗ , или, подробнее,k12j=1 nj (x·j − x)k−1,(6.10)F = 1 k nj2i=1 (xij − x·j )j=1N−kдолжно иметь F "распределение с (k − 1, N − k) степенями свободы.Заметим, что статистика (6.10) уже не зависит от σ 2 .
Как следует изобсуждения свойств σ 2∗∗ , дробь (6.10) получает тем большую тенден"цию к возрастанию, чем сильнее нарушается гипотеза H0 . Поэтомупротив H0 говорят большие (неправдоподобно большие) значения F ,рассчитанные по наблюдениям, далее — Fнабл. . Следовательно, дляпроверки H0 надо было бы вычислить P (F Fнабл. ), т.е.
вероятностьполучить за счет действия случайности значение статистики F большееили равное Fнабл. . Гипотезу H0 следует отвергнуть, если вероятностьP (F Fнабл. ) – мала. К сожалению, мы не располагаем столь подробны"ми таблицами F "распределения, в них приводятся только процентныеточки. Поэтому вместо вычисления P (F Fнабл. ) приходится сравни"вать Fнабл. с соответствующими α процентными точками.6.6. …… << …… Заметим, что при выполнении гипотезы H0 значение выражения(6.7) при z = x имеет распределение σ 2 χ2 (k − 1), где χ2 (k − 1) —распределение хи"квадрат с (k − 1) степенями свободы.
Отсюда находимвторую оценку для σ 2 :1 nj (x·j − x)2 .k − 1 j=16.6.1. &… …kσ 2∗∗ =(6.9)Поскольку, как было отмечено, случайные величины x·j независимыот (6.5), то же верно и для их комбинаций. Поэтому оценка (6.9)является независимой от (6.5).При нарушении H0 оценка σ 2∗∗ имеет тенденцию к возрастанию,тем большему, чем больше отклонение от H0 .
Можно показать, чтораспределение оценки (6.9) — это так называемое нецентральное рас"пределение хи"квадрат с k − 1 степенями свободы и параметром нецен"k12тральности k−1j=1 nj (aj − a) .203Если гипотеза H0 оказалась несовместимой с наблюдениями, естьоснования для обсуждения значений параметров a1 , . . . , ak . Ранее мыуже видели, что их оценками могут служить внутригрупповые средниеx·j , которые имеют распределения N (aj , σ 2 /nj ) и статистически неза"висимы от оценки дисперсии σ 2∗ (6.5). Поэтому отношениеx·j − ajt=nj(6.11)σ∗подчиняется распределению Стьюдента с N − k степенями свободы.С помощью (6.11) можно указать доверительный интервал для aj с204произвольным коэффициентом доверия 1 − 2α: x·j − aj P nj< t1−α = 1 − 2α.σ∗ Здесь t1−α — квантиль уровня (1 − α) соответствующего распре"делению Стьюдента. Отсюда получаем доверительный вывод об aj (скоэффициентом доверия 1 − 2α):σ∗| x·j − aj | < t1−α .nj(6.12)Доверительные интервалы для контрастов.
Можно указатьдоверительный интервал также и для любой линейной комбинации θ =kj=1 cj aj , где c1 , . . . , ck — произвольные коэффициенты. В частности,нередко приходится обращаться к сравнениям групп попарно, т.е. кразностям aj − al , (j, l = 1, .
. . , k). В любом случае стьюдентовоотношение (с N − k степенями свободы) имеет видθ∗ − θt = ,(6.13)k2 /nσ∗cjj=1 jkгде θ∗ =j=1 cj x·j . С помощью (6.13) доверительные суждения оразличных θ получаем аналогично сказанному ранее:! k!c2j /nj t1−α .|θ∗ − θ| < σ ∗ "имеет F "распределение (с k и N − k степенями свободы).Выбирая коэффициент доверия 1 − α и соответствующую ему кван"тиль F "распределений F1−α , получимknj (aj − x·j )2 < kσ 2∗ F1−α = 1 − α.(6.15)Pj=1Множество точек a = (a1 , .
. . , ak ) k"мерного пространства, удо"влетворяющих (6.15), образует эллипсоид с центром a∗ = (x·1 , . . . , x·k ).Проведем к нему необходимое нам число пар параллельных касательныхплоскостей. Уравнение каждой пары таких плоскостей имеет вид:kkj=1j=1Метод п. 6.6.1 не позволяет указать вероятность, с которой одно"временно выполняются несколько неравенств типа (6.14). А задачи, вкоторых требуется нахождение такой вероятности, возникают достаточ"но часто.
Например, это необходимо, когда требуется сравнить попарновсе выборки, чтобы выделить все заведомо различные. Ниже мы рас"скажем об одном из методов (методе Шеффе), позволяющем получатьсовместные доверительные интервалы для контрастов.Из отмеченных свойств групповых средних x·j следует, что случай"ная величина kj=1 nj (x·j − aj )2 имеет вид σ 2 χ2 (k), при этом она независит от σ 2∗ . Поэтому величинаk12j=1 nj (x·j − aj )kF =σ 2∗205(6.16)Эти пары плоскостей, пересекаясь, выделяют в пространстве мно"гогранное множество R, описанное вокруг эллипсоида. Как эллипсоид,так и R — случайные множества. Их размеры и центры зависят отстатистик (x·1 , . .
. , x·k ) и σ 2∗ . Истинное значение a = (a1 , . . . , ak ), со"гласно определению, попадает в эллипсоид с вероятностью 1 − α. Ясно,что вероятность накрытия a многогранником R не ниже 1 − α.Точка a находится внутри R в том и только в том случае, если дляее координат выполняются все соотношения(6.14)6.6.2. $ =<< …›…… ……cj (aj − x·j ) = ±d.j=1cj x·j − d <kj=1cj aj <kcj x·j + dj=1из выделенного выбора плоскостей (6.16). Если мы рассмотрим вообщевсе плоскости, многогранник превратится в эллипсоид. Остается для ка"ждого c = (c1 , .
. . , ck ) определить соответствующее d (6.16). Такое d > 0есть максимальное значение выражение kj=1 cj (aj − x·j ) при условии,что точка a = (a1 , . . . , ak )лежит на поверхности эллипсоида, т.е. удо"nвлетворяет соотношению j j (aj − x·j )2 = kσ 2∗ F1−α . Расчет даетd(c1 , . . . , ck ) = kσ 2∗ F1−αkc2j /nj .j=1Âûâîä.
Для любой совокупности векторов (c1 , . . . , ck ) вероятностьодновременного выполнения всех неравенств! k! k "2∗ Fc(a−x)<kσc2j /nj(6.17)j j·j 1−α j=1j=1206не меньше, чем 1 − α.Правило (6.17) позволяет сделать вывод о всех интересующих насконтрастах одновременно. В частности, мы можем выделить среди раз"ностей aj − al те, которые значимо отличаются от нуля (на выбранномуровне значимости). Тем самым мы получаем возможность не толь"ко быть уверенными в существовании различия между группами (чтобывает, если мы отвергли H0 ), но и указать значимо различающиесявыборки (методы обработки).6.7. …<… …ƒ STADIA SPSS6.7.1. STADIAВ пакете представлены следующие методы однофакторного анализа:непараметрические критерии Краскела–Уоллиса и Джонкхиера, а такжеметоды дисперсионного анализа.
Обращение к ним осуществляется израздела Дисперсионный анализ меню Статистические методы. Проиллюстрируемиспользование этих методов на примерах.находились в отдельных переменных. При этом в файле данных недопустимоналичие посторонних переменных. Отсюда следует, что если мы хотим прове"сти факторный анализ только для части способов обработки или объединитьнесколько способов обработки в один, следует завести новый файл данных иосуществить в нем требуемые преобразования.Âûáîð ïðîöåäóðû. В меню Статистические методы (рис. 1.17) выберитепункт B = Однофакторный. В появившемся на экране запросе нажмитекнопку 2=Крускал'Уоллиса (можно также нажать клавишу «2»).Ðåçóëüòàòû.
Программа выдаст в окно результатов значениястатистики Краскела–Уоллиса, минимального уровня значимости и чи"сла степеней свободы распределения хи"квадрат, которое используетсяв качестве асимптотического приближения распределения статистикиКраскела–Уоллиса. Сравнение минимального уровня значимости ста"тистики с фиксированным уровнем значимости 0.05 позволяет системесделать заключение «Есть влияние фактора на отклик» (рис. 6.2).Для выполнения критерия Джонкхиера на появившийся запрос си"стемы Значения 1'го фактора упорядочены? следует нажать кнопку Äà (илиYes).
На экране появятся значения статистики Джонкхиера, ее ми"нимальный уровень значимости и заключение системы «Есть влияниефактора на отклик».1;ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.Пример 6.1к. Проверим гипотезу об отсутствии эффектов обра"ботки с помощью критерия Краскела–Уоллиса для данных о влияниистимулирования на производительность труда (таблица 6.3).Ïîäãîòîâêà äàííûõ. В электронной таблице пакета введем дан"ные первого столбца таблицы 6.3 в переменную x1, второго — в пере"менную x2 и так далее, как это показано на рис.
6.1.Файл: stimulКраскал;Уоллис=21.219, Значимость=0.0007, степ.своб = 5Гипотеза 1: <Есть влияние фактора на отклик>Джонкхиер=327, Значимость=0, степ.своб = 6, 30Гипотеза 1: <Есть влияние фактора на отклик>Рис. 6.2. Результаты однофакторного непараметрического анализаÊîììåíòàðèè. 1. Процедуры непараметрического однофакторного анали"за в пакете допускают также ввод в виде таблицы рангов данных (при ранжи"ровании по всей совокупности). То есть можно было использовать для вводаи данные таблицы 6.4.2.
В пакете STADIA отсутствует процедура оценки эффектов обработкинепараметрическими методами.Пример 6.2к. Проведем однофакторный дисперсионный анализдля данных примера 6.1к: проверим нулевую гипотезу об отсутствииэффектов обработки и построим 95% доверительные интервалы дляэффектов обработки.Ïîäãîòîâêà äàííûõ. См. пример 6.1к.Рис. 6.1.