Шеффе Г. - Дисперсионный анализ (1185347), страница 81
Текст из файла (страница 81)
Однако обычно в двухфакторном или многофакторном анализе во всех случаях используют равные числа или «пропорциональные частоты» (см. конец $4.4) из-за трудностей вычисления в других случаях. й 10.5. Дальнейшее исследование влияния статистической зависимости В гл. 9 мы изучали вопрос о том, н какой мере выводы, сделанные при (4-предполоткениях в гл. 2, остаются справедливыми в рандомизированных моделях с неполными блоками и с латинскими квадратами; в этом случае источником зависимости «ошибок объекта» является рандомизация.
Помимо этих результатов гл. 9 и элементарного примера с серийной корреляцией иа $10.2, мы можем предложить еще только один пример, который касается влияния серийной корреляции определенного типа на двухфакторный анализ с одним наблюдением в каждой ячейке, Предположим, что в двухфакторном анализе, в котором строки соответствуют фактору А, а столбцы — фактору В, наблюдения в каждом столбце серийно коррелированы, а наблюдения в разных столбцах не зависят друг от друга.
Такая ситуация может встретиться, когда уровни фактора А соответствуют равноотстоящим интервалам времени или пространства; так будет, например е«), если строки являются 24 часами дня, столбцы — 12 месяцами года, а число в ячейках показывает частоту дождей в определенном месте за десятилетний период. Числа, стоящие в соседних строках одного столбца, должны *) Хорснелл 1~огвпе11, 1959). ") Пример дан Фишером (Г)внег, 1995); его выводы о влиянии корреляпии на два критерия для проверки главных зффекгов были сформулированы без доказатетьства; теоретическое обоснование дал Бокс (Вох, 1954б).
405 ГЛ. 19. ВЛИЯ1П)Е 1)ЛРУШЕНИЯ ОСПОИ!)ЫХ ПРГДПОЛОЖГП))н быть положительно коррелированы, так как вероятность того, что идет дождь в каком-либо часовом интервале времени, будет больше нли меньше в зависимости от того, шел илн нет дождь в предыдущем часовом интервале времени; аналогичная зависимость между столбцами гораздо слабее и ею можно пренебречь. Для исследования влияния серийной корреляции *) в столоцах с определенным в $ !О.! коэффициентом корреляции р на критерии можно применить полученные выше общие результаты, касающиеся квадратичных форм от нормальных случайных величин.
Говоря более точно, мы рассматриваем модель, в которой ошибки имеют совместное нормальное распределение с нулевыми средними, равными дисперсиями и нулевыми коэффициентами корреляций, кроме коэффициентов корреляции рядом стоящих наблюдений в одном и том же столбце, равных р. Табл и ца 10.5.1') Влияние коэффициента серийной корреляции р по столбцам в 5 Х 5 класснфикацнн с однмм наблюдением в ячейке на вероятность ошибкм первого рода Р-критерии для проверки равенства средних в строках и в столбцах с бсь номинальным уровнем 0,2 -9,4 -0,2 о,ч 0,053 «') 0,050 "*) 0,010 0,050 0,054**) 0,13 0,059 **) 0 0003 0,064 0,25 Критерий дла строк Критерий для столбцов *) Зиимстиоиано из Зопгс!Ьсогстз оп Чиздгацс !оган прр))са )п )Ьа з)пду о1 ипа)уз1з о! чзг)апач ргоыспм,!! Епсс!з а))псппзи1у а! чзггипсс ипд з соггс1ииоп Ьс)нччп сггогз )п 1Ьс 1иогчгиу с!аш1нсапоп О.
Е. Р Ваз. Лпп. Мз1Ь Б)и1, т. 22 119216), стр. 197. '«) Приближенно! см, текст. ") Предыдущему примеру с дождем лучше соответствует кррсоппя кор. реляции внутри столбцов, при которой первое и последнее наблюдения !для наших часовых периодов времени — период 24.го часа и период 1.го часа) имеют тот же самый коиффицнеит корреляции, что н соседние наблюдепия. Далее, вряд ли можно предполагать, что коэффициент корреляции иа расстоянии 2, 3 и т. д.
точно равны нулю. В таблице !0.5.! даны вероятности ошибок первого рода в этой модели при классификации 5Х5 и номинальном бог)9 уровне значимости. Для расчета критерия для строк применялась аппроксимация того же вида, что н в таблице !0.4.3. Выводы очевидны: серийная корреляция в столбцах оказывает малое влияние на критерий для строк и сильно влияет на критерий для столбцов; положительная серийная корреляция (она встречается более часто; см. 3 !О.!) увеличивает вероятность ошибки первого рода.
$ юа. Выводы ч 10.6. Выводы 407 ") Бокс (Вох, 1953). (В оригинале *гоЬвзм) (Прим. перев.). '*) Если я подозреваю, что ошибка первого рода стаидартиого критеоия при иенормальиости претерпевает изменение порядка, указанного в таблипе 10.2 1, то меия мало утешит известие о том, что установлена опгималь. вость ззого критерия (БсЬепе, 1942). Проверим еше раз те предварительные выводы о влиянии нарушений предположений, которые мы сделали в $10.2.
Среди основных предположений, при которых выводятся статистические методы, обычно имеются такие, которые в приложениях, как правило, ие выполняются и введены только для облегчения математических выводов; к таким предположениям относится, например, нормальность. Статистические методы назовем корректными в), если выводы, сделанные по нпм, не очень сильно изменяются при нарушении таких предположений. Оптимальность статистических методов обычно доказывается при этих предположениях. Поэтому корректность методов представляет большой практический интерес**). Оптимальность критериев гарантирует наилучшую возможную в некотором смысле мощность прн допустимых в предположениях й конкурирующих гипотезах. Если оптимальный критерий некорректен и существует корректный критерий, то мы второй безусловно предпочтем первому, если его мощность прп й не намного меньше мощности оптимального критерия.
Ясно, как понятие корректности применяется к вероятностям ошибок первого рода и доверительным вероятностям; более трудно, по-виднмому, распространить его на вероятности ошибок второго рода. Например, чтобы сделать заключение о том, что мощность Р-критерия для проверки равенства средних в однофакторном анализе не сильно зависит от неравенства дисперсий, нам надо было найти способ определения параметра нецентральности в случае неравных дисперсий. Во всяком случае, корректность ошибок первого рода еще недостаточна для того, чтобы рекомендовать критерий; надо также рассматривать его мощность при некоторых представляющих интерес конкурирующих гипотезах.
Корректность, связанная с ошибками первого рода Р-критериев для проверки средних, распространяется на соответствующие о-методы множественного сравнения. Как мы видели в 9 3.5, каждому такому критерию соответствует 5-метод; в замечании о доверительных интервалах в конце гл. 9 указываются те распределения, при которых 5-ьгетод остается тем же, что и прн нулевой гипотезе соответствующего критерия.
Остановимся на этом результате более подробно. Мы проиллюстрнруем его на примере сравнения средних в однофакторном 4ОЗ ГЛ. !О. ВЛИЯНИЕ ИЛРУШЕНИЯ ОСНОВНЫХ ПРЕДПОЛОЖЕН!3П анализе с четырьмя разными группами со средними 1)4) и дисперсиями (ОД. 5-метод, так же как и г-критерий, корректен по отношению к ненормальности и неравенству дисперсий; это не очевидно относительно Т-метода множественного сравнения.
Корректность по отношению к ненормальности имеет место также для основанных на 1-распределении интервальных оценок индивидуальных сравнений. Однако основанные на 1 индивидуальные интервальные оценки мало пригодны при неравных дисперсиях. Рассмотрим, например, интервальные оценки )41 — ре и ра — )Ги полученные обычным способом; пусть О-',=О',; меньше, а Охи=-атт больше среднего значения (ОД, Тогда Р))4, — р ) будет верхней, а 01)еа — )44) — нижней оценками; поэтому вероятность того, что соответствующий интервал не покрывает истинное значение, будет меньше номинальной вероятности в первом случае и больше — во втором; это расхождение, очевидно, будет тем больше, чем сильнее различаются дисперсии. Мы можем представить себе, что 5-метод дает для всех сравнений некоторую среднюю вероятность, получающуюся из вероятностей, связанных с индивидуальнымп сравнениями.
Возвратимся к изучению мощности критериев, корректных Относительно ошибок первого рода: по-видимому, существуют критерии, корректные так же, как и г'-критерии относительно ошибок первого рода, мощность которых немного меньше при нормальных конкурирующих гипотезах, но намного больше при «большинстве» ненормальных конкурирующих гипотез *). В настоящее время такие критерии пе получены для обычно рассматриваемых в дисперсионном анализе относительно сложных гипотез. В тех же случаях, когда такие критерии имеются и по иим гипотеза отвергается, возможное в принципе дальнейшее исследование )аналогично 5-методу после г-крГГтерия) кажется безнадежно сложным, кроме самых простейших случаев, таких, например, как сравнение средних двух популяций, отличающихся друг от друга только сдвигом. Корректность относительно нормальности стандартных методов выводов о средних и отсутствие корректности при выводах о дисперсиях имеют следующие практические последствия**).