Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 45
Текст из файла (страница 45)
Согласно таблицам распреде"224ления χ2 (4), минимальный уровень значимости, при котором гипотезаотвергается в пользу альтернативы, равен α = 0.00016.Теперь применим к данным таблицы 7.2 критерий Пейджа, посколь"ку есть априорные основания считать, что частота тремора уменьша"ется при увеличении веса браслета. Чтобы непосредственно приме"нить формулу (7.5), построенную для возрастающего влияния уров"ня фактора, мы должны произвести перенумерацию столбцов табли"цы 7.3 в обратном порядке. То есть номер j = 1 будет соот"ветствовать пятому столбцу таблицы 7.3, номер j = 2 — четвер"тому столбцу и т.д.
Соответственно статистика Пейджа L равна:kL = j=1 jrj = 7 + 2 · 12 + 3 · 17 + 4 · 24 + 5 · 30 = 328.Из таблицы критических значений статистики Пейджа в [115]находим, что для α = 0.01 l(0.01, 5, 6) = 299, а при α = 0.001l(0.001, 5, 6) = 307. Так как L l(0.001, 5, 6) то, следовательно, гипотезаH0 должна быть отвергнута в пользу альтернативы τ1 τ2 · · · τkна уровне значимости α = 0.001.Для нахождения приближенного значения минимального уровнязначимости критерия Пейджа воспользуемся нормальной аппроксима"цией распределения статистики L∗ . В нашем примере значения n и k ввыражении (7.6) равны соответственно 6 и 5.
Следовательно:L∗ =анализа в пункте 6.5 главы 6. В связи с этим здесь мы дадим только ихкраткое описание, достаточное для решения прикладных задач.Получение оценок дисперсии. Так же, как и в задаче однофак"торного дисперсионного анализа, проверка гипотезы H0 основываетсяна сравнении двух независимых оценок σ 2 . При этом одна из оценок σ 2∗действует вне зависимости от того, верна ли гипотеза H0 , а другая —σ 2∗∗ — только в случае справедливости гипотезы.Оптимальная в классе несмещенных оценок оценка σ 2∗ может бытьполучена с помощью метода наименьших квадратов. Для этого сначалаоценим неизвестные значения параметров µ, βi и τj в модели (7.2).А именно, найдем значения µ̂, β̂i и τ̂j такие, что при них достигаетминимума выражение:(xij − µ − βi − τj )2(7.7)nkпри условии, чтоМинимальная величинаi=1 βi =j=1 τj = 0.2(7.7), равнаяi,j (xij − µ̂ − β̂i − τ̂j ) , выражает разброс наблюденийотносительно подобранных ожидаемых значений.Решение задачи (7.7) осуществляется стандартными методами ма"тематического анализа и приводит к следующим оценкам µ̂, β̂i и τ̂j :328 − 6 · 5 · (5 + 1)2 /4 4.75 .[6 · (125 − 5)2 /(144 · 4)]1/2Согласно таблицам стандартного нормального распределения, ми"нимальный уровень значимости, на котором может быть отвергнутагипотеза с помощью критерия Пейджа, равен α = 0.000001, что надва порядка меньше, чем для критерия Фридмана.
Это иллюстрируетположение, что в случае упорядоченных альтернатив критерий Пейджаобладает большей мощностью, чем критерий Фридмана.i,jkn1 µ̂ = x·· =xijnk i=1 j=1k1β̂i = xi· − x·· =xij − x··k j=1(7.8)1xij − x··n i=1nτ̂j = x·j − x·· =Полученные оценки параметров модели имеют следующие распре"деления:σ 2 (n − 1)σ 2 (k − 1)σ2); β̂i ∼ N (βi ,); τ̂j ∼ N (τj ,).nknknkДля получения оценки σ 2∗ можно использовать величину:µ̂ ∼ N (µ,7.6. &<……… …ƒЕсли есть основания предполагать, что случайные величины eij вмодели двухфакторного анализа (7.1) имеют нормальное распределениес нулевым средним и неизвестной одинаковой при всех i и j дисперсиейσ 2 , можно предложить более мощный критерий для проверки гипотезыH0 : τ1 = τ2 = · · · = τk и построить более эффективные оценки параме"тров µ, τj и βi .
Используемые для этого методы аналогичны тем, которыебыли рассмотрены при решении задач однофакторного дисперсионного225kkn n (xij − µ̂ − β̂i − τ̂j )2 =(xij − xi· − x·j + x·· )2 ,i=1 j=1i=1 j=1которая имеет распределение σ χ с числом степеней свободы nk − (n −1) − (k − 1) − 1 = (n − 1)(k − 1). Сама оценка σ 2∗ равна:2 21(xij − xi· − x·j + x·· )2(n − 1)(k − 1) i=1 j=1nσ 2∗ =226k(7.9)Выражение (7.9) дает несмещенную оценку σ 2∗ , которая справедли"ва как при выполнении гипотезы H0 , так и при ее нарушении.Для получения второй оценки величины σ 2 , независимой от оценки2∗σ , воспользуемся тем, что случайные величины x·1 , . . . , x·k , являю"щиеся средними значениями по соответствующим столбцам таблицыдвухфакторного анализа, при нулевой гипотезе независимы и одинаковораспределены по нормальному закону N (µ, σ 2 /n).
На их основе мыстандартным образом (см. гл. 5 и 6) можем сконструировать статисти"kку для оценки σ 2 : n j=1 (x·j − x·· )2 , имеющую распределение σ 2 χ2 с(k − 1) степенями свободы. При этом сама оценка σ 2∗∗ есть:n (x·j − x·· )2 .k − 1 j=1kσ 2∗∗ =(7.10)При H0 выражение (7.10) тоже дает несмещенную оценку σ 2 .
Принарушении же H0 статистика (7.10) приобретает тенденцию к увели"чению — тем большую, чем больше различие между эффектами обра"ботки τ1 , τ2 , . . . , τk .Критерий для проверки гипотезы H0 : τ1 = τ2 = · · · = τk .Составляя, так же как в гл. 6, F "отношение двух оценок дисперсий,получаем:kn2j=1 (x·j − x·· )k−1F =.n k12i=1j=1 (xij − xi· − x·j + x·· )(n−1)(k−1)При гипотезе величина F имеет F "распределение с числом степенейсвободы (k − 1) и (n − 1)(k − 1). Критерий для проверки гипотезы H0имеет при этом следующий вид:••отвергнуть гипотезу H0 на уровне значимости α, если F F1−α ;не отвергать гипотезу H0 на уровне значимости α, если F <F1−α .n knk(xij − xi· − x·j + x·· )2 + k(xi· − x·· )2 + n(x·j − x·· )2 .i=1 j=1i=1j=1Отсюда и идет название «дисперсионный анализ», то есть анализ разложе"ния дисперсии (вариации, изменчивости) на части, обусловленные влияниемфакторов, и часть, обусловленную случайной изменчивостью самих данных.Выше в (7.8) были получены оценки параметров нормальной (гаус"совской) модели линейного дисперсионного анализа и указано их рас"пределение.
Последнее позволяет легко построить индивидуальные до"верительные интервалы. При этом в качестве оценки дисперсии следуетиспользовать величину σ 2∗ .Следует отметить, что выводы дисперсионного анализа о равенствеили неравенстве эффектов τ1 , . . . , τn довольно устойчивы даже принарушении основных предположений о нормальном распределении и оравенстве дисперсий.7.7. &<… …ƒ STADIA SPSS7.7.1. STADIAПример 7.1к. С помощью критерия Фридмана проверим нулевуюгипотезу об отсутствии эффектов обработки для данных о зависимостичастоты самопроизвольного дрожания мышц рук (тремора) от тяжестиспециального браслета, одеваемого на запястье (табл.
7.2).Ïîäãîòîâêà äàííûõ. В электронной таблице пакета введем дан"ные первого столбца таблицы 7.2 в переменную x1, второго — в пере"менную x2 и т.д., как это показано на рис. 7.1.Здесь F1−α обозначает квантиль уровня 1 − α F "распределения счислом степеней свободы ((k − 1) и (n − 1)(k − 1)).Замечание. Обратим внимание на то, что полная сумма квадратов откло"нений величин xij от их общего среднего x·· представима в виде:Рис. 7.1.
Электронная таблица с данными для двухфакторного анализаn kn k(xij − x·· )2 =(xij − xi· − x·j + x·· )2 +i=1 j=1Процедуры непараметрического двухфакторного анализа пакетаSTADIA однозначно требуют, чтобы данные, отвечающие различнымспособам обработки (уровням фактора), находились в отдельных пере"менных. Число наблюдений в каждой переменной должно быть одина"i=1 j=1n kn k(xi· − x·· )2 +(x·j − x·· )2 =i=1 j=1i=1 j=1227228ковым, наблюдения, соответствующие одному блоку, должны стоять водной строке. Как и в процедурах однофакторного анализа, наличиепосторонних переменных в файле данных недопустимо.Âûáîð ïðîöåäóðû. В меню Статистические методы (рис. 1.17) щелкнеммышью кнопку C = 2'факторный (можно также нажать клавишу «C»).Программа выведет запрос (рис.
7.2), в котором надо выбрать нужныйметод двухфакторного анализа. Следует щелкнуть мышью кнопку 6 =Фридмана или нажать клавишу «6».Âûáîð ïðîöåäóðû. В меню Статистические методы выберем пунктС = 2'факторный (клавиша «Ñ»). В появившемся запросе выбора методадвухфакторного анализа (рис. 7.2) следует щелкнуть мышью кнопку 1 =неповторяемый (можно также нажать клавишу «1»).Под повторяемым планом эксперимента в программе подразумева"ется план, содержащий повторные измерения при каждом сочетаниизначений двух исследуемых факторов. А неповторяемым планом про"грамма называет план эксперимента, не содержащий таких повторныхизмерений. В нашем случае мы имеем только одно числовое значениедля каждой комбинации факторов, поэтому должны выбрать неповто"ряемый план эксперимента.Ðåçóëüòàòû.
Экран вывода результатов этой процедуры содержитбазовую таблицу дисперсионного анализа (рис. 7.4) (ее описание смотрив примере 6.2к для пакетов STADIA и SPSS, рис. 6.3, 6.12). В нашемпримере значения F "статистик для каждого из факторов F(фактор1) иF(фактор2) и их уровни значимости показывают, что имеется влияниекаждого из факторов на отклик.2;ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.
Файл: tremor.stdФакторный план: неповторяемыйРис. 7.2. Пакет STADIA. Запрос выбора метода двухфакторного анализаÐåçóëüòàòû. Программа выведет в окно результатов (рис. 7.3)значение статистики Фридмана, ее уровень значимости, вычисленныйс помощью асимптотического распределения хи"квадрат, и число сте"пеней свободы этого распределения. Сравнивая полученный уровеньзначимости с фиксированным (равным 0.05) система выдает сообщениео наличии или отсутствии влияния фактора на отклик.Далее следует запрос системы «Значения 1'го фактора упорядочены?».
Приположительном ответе на этот вопрос (кнопка Äà или Yes) программавыдает значение статистики Пейджа и нормальную аппроксимацию ееуровня значимости.2;ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.Файл:tremorФридман=22.533, Значимость=0.0001, степ.своб = 4Гипотеза 1: <Есть влияние фактора на отклик>Пейдж=212, Значимость=0, степ.своб = 5,6Гипотеза 1: <Есть влияние фактора на отклик>ИсточникФакт.1Факт.2Остат.Общая.Ст.своб Ср.квадр Сила влияния40.450440.983550.181450.936420 0.008224729 0.099086F(фактор1)=54.767, Значимость=0, степ.своб = 4,20Гипотеза 1: <Есть влияние фактора на отклик>F(фактор2)=22.062, Значимость=0, степ.своб = 5, 20Гипотеза 1: <Есть влияние фактора на отклик>Рис. 7.4.