Шеффе Г. - Дисперсионный анализ (1185347), страница 82
Текст из файла (страница 82)
Поскольку методы исследования средних в дисперсионном анализе выводятся в предположениях, содержащих условие равенства дисперсий, иногда рекомендуется проверять это условие с помощью какого-нибудь статистического крите- ') См., например, Ходжес и Леман ГНВГ)яеа, Бейшапп, 1956). Такова природа критерия Уилконсона, когда он применим. **) Эти рассуждения принадлежат Боксу (Вох, 1953). %!Оа. Выводы рия. Стандартный критерий *) проверки равенства дисперсий в случае ут( О несколько затушевывает разницу дисперсий, когда она существует, а в случае у, ) О находит эту разницу, когда ее нет.
Чувствительность этого критерия к ненормальности некоторых популяций с уа ) О сравнима с чувствительностью стандартных критериев ненормальности. Если дисперсии равны, а данные ненормальны и уа ) О, то этот предварительный критерий скорее всего отвергнет гипотезу равенства дисперсионнога анализа к средним, хотя на самом деле его можно была применять.
Если можно выбрать план с равными числами наблюдений в ячейках, то не надо проявлять большого беспокойства о возможном неравенстве дисперсий, если только оно не чрезмерно. Корректность дисперсионного анализа средних относительно неравенства дисперсий, которую мы установили в случае плана с равными числами наблюдений в ячейках, приводит к простому приближенному анализу, заменяющему громоздкие точные вычисления в случае неравных чисел в ячейках; его можно использовать так же, как предварительный анализ, после которого мы можем обходиться без точного анализа, если полученные результаты будут достаточно убедительными, Образуем обычный средний квадрат 55 ошибок, складывая 55 ячеек относительно своих средних; обозначим его 55,', а его число ст, св.
Представим себе план, будем называть его Е, с одним «наблюдением» в ячейке; за эти «наблюдения» мы будем принимать наблюденные средние в ячейках. Анализируем теперь план т'. так, как будто «наблюдеиия» имеют одинаковые дисперсии, например о'-; во всех случаях, когда и' надо оценивать с помощью 55, мы будем применять с55; с числом ст.
св, т,' и с с, равным среднему обратных чисел наблюдений в ячейках нашей первоначальной модели. Если какое-нибудь из этих чисел наблюдений в ячейках равно нулю, метод неприменим. Чтобы обосновать этот приближенный анализ, предположим, что первоначальные наблюдения независимы и нормальны, что число наблюдений в р-й ячейке равно и, выборочные средние и дисперсии равны у и з', а дисперсии популяций ае 1р = 1, „ А)). Тогда дисперсия «наблюдения» у„ в р-й » ячейке Л равна о'/и . Мы уже видели, что в случае неравных дисперсий в ячейках и равных чисел наблюдений в ячейках Р-критерий и 5-метод множественного сравнения приближенно ведут себя так же, как если бы дисперсии были равны сред- ») Крптерпп Бартлетта (Вагпе!1, 1937). 4!О Гл.
!о. Влняпне ПАРушения ОснОВных пРедположе!1ий нему из дисперсий ячеек; в нашем случае мы имеем и 1т! ~„пр ор. р ! (10.6.1) ') В случае классификации по одному признаку с двумя группами он идентичен точному анализу; в любом случае этот анализ использует доста. точные статистики (ур) и (з ).
Мы можем оценить (10.6.1) с помощью д! ' ~ ар е,; (1 0.6.2) Р если же мы предположим все (о') равными о', (как мы это обычно делаем в точном методе с неравными числами набл1о. деиий в ячейках), то (!0.6,1) превратится в ое1тг '~ и '. ИсР пользуя объединенную оценку 55', дисперсии о', мы получаем оценку (10.6.1) в виде с55', с с= 1!! '~п,, ', как и утвержда- Р лось выше. Очевидно, что (р ) и (зз) полностью независимы, поэтому любая оценка (10.6.!) не зависит от «наблюдений» в Е, а следовательно, и от любых оценок 55, вычисленных в 7..
Указанный выше анализ соответствует точному анализу в предположениях, что все (оз) равны; однако, вообще говоря, он несколько менее эффективен *). Оценку (10.6.2) нужно употреблять только в том случае, когда имеется основание предполагать значительные различия среди (а-'); для вычисления числа ст. св.
(!0.6.2) мы можем использовать метод, предложенный в конце $7.6. Теперь кратко рассмотрим вопрос, как можно уменьшить влияние нарушения основных предположений в тех случаях, когда оно серьезно. Способ, позволяющий избежать нежелательных эффектов ненормальности при выводах о дисперсиях, был предложен в й 3.8 при сравнении нескольких дисперсий.
В этом случае мы применяли дисперсиониый анализ к выборочным дисперсиям. Этот способ неприменим для оценки компонент дисперсии, отличных от компоненты дисперсии ошибки оз. Если мы имели бы представление о величине эксцесса уэ эффектов, измеряемых данной компонентой дисперсии, то мы могли бы воспользоваться этим для оценки ошибки точечной оценки; однако обычно нам ничего не известно об этой величине. Ситуация не очень обнадеживает, и выводы о компонентах дисперсии в нормальной теории надо считать гораздо менее заслуживающими доверия, чем выводы о средних.
Это заключение подкрепляется 4 10.6 выводы 411 также тем обстоятельством, что рассматриваемые модели с компонентами дисперсий обычно довольно плохо отражают те применения, в которых не обеспечивается тот случайный выбор эффектов, который предполагается в этих моделях. Обычно при анализе средних мы не пытаемся преобразовывать данные, чтобы устранить ненормальность. Исключением являются данные ранжировки, например в экспериментах, в которых эксперименты ат объектам приписывают числа 1, 2, ..., и, упорядочивая их согласно своей оценке некоторой качественной характеристики.
Используя таблицы ') математических ожиданий упорядоченных элементов случайной выборки объема лг из ((г(0,1), мы можем преобразовать эти данные так, чтобы уменьшить ненормальность. Мы уже видели, что, используя в полном анализе равные числа наблюдений в ячейках, проще всего можно оградить себя от нежелательных влияний неравенства дисперсий. Если отношения дисперсий известны, то мы можем использовать указанный в 9 1.5 анализ с весами; там же имеется замечание о влиянии неправильных весов. В () 3.8 разобран пример (после формулы (3.8.3)).
Если имеется подозрение в сильном различии дисперсий и имеется по нескольку наблюдений в каждой ячейке некоторого плана (или пря каждой абсциссе некоторой подбираемой кривой), то мы можем применить анализ с весами, обратно пропорциональными оценкам дисперсии '*). В многофакторном анализе этот прием приводит к вычислительным трудностям, так как даже при равных числах наблюдений в ячейках при анализе с весами теряется артогональность, а следовательно и простота вычислений. Далее, мы очень мало знаем, какое влияние оказывает замена неизвестных постоянных весов случайными величинами "").
Преобразования, устраняющие неравенства дисперсий, будут рассмотрены в 9 10.7. Если подозревается наличие корреляции типа серийной корреляции с единственным коэффициентом р, то мы можем попытаться оценить р с поиощью данных и устроить приближение ""э'), заменяя р на его оценку. Некоторые типы корреляции можно получить, привлекая многомерные распределения, как, например, мы получили ') Фишер и Иэйтс (Р!зйег и Уа!еа, !943, таблица ХХ1). *') Имеетсн и виду стаидартиаи процедура подбора крниых и пробит- методе.
См. Фцшер и Иэйтс (с(айег и Уа1са, 1943, введение н таблицам Х н Х1). '**) В однофакториом анализе с 1 группамн Сюй (Нац, 193за) устаноиил тонный результат при ! = 2, а Джсймс (Загпеа, !951) и Вслч (гЧе!сь, 1951) — приближенный результат прн ! ) 2. Дальнейшие ссьшхп си. у укаэанных аптороа. * **) Точный результат Бокса (Вох, !945б) спранедлне дли днух фак. торного анализа. 419 ГЛ. 10, ВЛИЯНИЕ НАРУШЕ1Н!и ОСНОВНЫХ ПРЕДПОЛОЖЕННП корреляцию в столбцах смешанной модели двухфакторного анализа в $8.!.
Вообще говоря, нз трех видов нарушения наших предположений, которые мы рассмотрели, труднее всего преодолеть влияние нарушения независимости. й 10.7. Преобразования наблюдений Преобразования наблюдений применяются иногда для устранения взаимодействий (см. конец $ 4.!) или для устранения ненормальности (см. вь!ше), но наиболее часто для устранения неравенства дисперсии *). В большинстве случаев используются преобразования, являюшиеся частными случаями пли видоизменениями '*) следующего общего преобразования.
Обозначим среднее, вообще говоря, неизвестное, случайное величины у через р; пусть стандартное отклонение и является функцией О„= «р()А) от )а либо полностью известной, либо известной с точностью до постоянного множителя. Это так, вообше говоря, в том случае, когда распределение у зависит от единственного параметра (который, однако, может быть функцией других интересующих нас параметров).
Например, биномиальное распределение числа успехов у в и испытаниях с постоянной вероятностью р имеет М(у) = пр, ан — — (пр(1 — р)], поэтому у обладает требуемым свойством с Ф()а) =()к (1 — и ')а)] Попытаемся определить преобразование г = ((р) так, чтобы стандартное отклонение г было равно, хотя бы приблизительно, заданной константе ою Из приближенной формулы О, = ак1'((!), которую можно вывести, приближая г линейной функцией у в окрестности у = р, мы получаем !'()!) = а 11р(р); интегрируя н меняя обозначение независимого переменного, получаем (10.7.1) ) (У) = О, ' ~ ф (9) ' Таким образом, в нашем примере )(И) Оз ~ Ь (1 — " 'У)] ' с(н =2л' О,агсз!и ( — „") +С, полагая С= 0 и выбирая п,=(4п) ~~, мы приходим к кпреобразованпю аркснпуса» г=агсз!п !к — ~н, где у/и есть наблю/у Ч112 н *) Любопытно отметить, что преобразование (10.7.1), выведенное для того, чтобы стабилизовать дисперсию, в слтчае выборочного козффнниента корреляции т (в »том случае оно называется преобразованием Фппгсра) дает распределение, очень похозкее па нормальное (см.
Крамер (С!ап1ес, !916, Е 29.7)). ««) Фримен и Тычки (ггееп1ап, Тнхеу, 1950). % ю.х ПРаовРАзоВАния нАВлюденип 4!3 денная доля успехов, а арксинус измеряется в радианах. Если арксинус измерять в градусах, то о, = 28,6 п-нз. Самым обычным преобразованием является логарифмическое. Логарифмирование наблюдений пригодно для выравнивания дисперсий в том случае, когда коэффициент вариации постоянен; если в (10.7.1) положить о,=ср, то мы получаем логарифмическое преобразование.