Шеффе Г. - Дисперсионный анализ (1185347), страница 46
Текст из файла (страница 46)
Во всех приведенных выше примерах аддитивная постоянная р не является генеральным средним. Если генеральное среднее определено как среднее математических ожиданий средних по наблюдениям в каждой ячейке и если мы допустим, как обычно, что главные эффекты удовлетворяют равенствам ~ а4 — — О и ~ (4! — — О, то генеральное среднее равно 4 ! р + уг для (6.1 1) и и + уг + бг' для (6.1.2), где й=У ХУ! гм, г =У У,У4 ~г4Р 4 ! Лля (6.1.3) и (6.1.4) оно равно !4+уг и 4»+ уг„, +бш„соответственно. Если желательно сохранить символ 14 для генерального среднего, то вместо (6,1,1) мы должны использовать уп — — м+ ав+ у(гу — г)+ еп и аналогичные равенства в других примерах.
Ковариационный анализ был введен ') в более узком смысле (по сравнению с определенным выше), как план для совместного учета факторов, которые невозможно нли нелегко контролировать в эксперименте. Так, например, оценки урожаев разновидностей зерна в сравнительном сельскохозяйственном опыте можно «привести» по числу всходов на участках или по урожаям участков за предыдущие годы (еслн все участки представляют собой одну и ту же «совокупность условий»).
«Приведенные» оценки, с точностью до выборочных ошибок, будут такими же, как оценки, которые должны были бы получиться, '! См. Р. А. Фишер (Г!»зег, !932, $49И), Гл. а кОВАРилционныи лнАлиз узо если бы все участки имели одинаковое число всходов или одинаковые урожаи. Это обеспечивается регрессионной моделью. Используемые здесь методы статистических выводов делаются, конечно, с учетом того, что ковариациоиная матрица «приведенных» урожаев н оценок ошибок отличается от матрицы, используемой в соответствующем дисперсионном анализе без «приведения». Для согласования обозначений с общей теорией гл. 1 и 2 мы будем считать, что символами (г;Д и (гоп) в приведенных выше моделях обозначены постоянные величины, а символами (пну и (р~Д вЂ” случайные.
Может оказаться, что в некоторых приложениях более реалистично рассматривать наблюдения независимых переменных как значения, принятые случайными величинами, а не как постоянные значения, выбранные экспериментатором е). Тогда, если мы изменим наши основные предположения так, что по ним распределения, зависящие от значений независимых переменных, будут условными прн условии заданных значений независимых переменных, то построенная теория распределений тоже будет условной; условными будут уровни значимости, мощности и доверительные коэффициенты. Если эти условные основные предположения выполняются при всех возможных значениях наблюдений независимых переменных, то условные уровни значимости и условные доверительные коэффициенты будут одними и теми же постоянными при любых совместных распределениях наблюдений независимых переменных, а следовательно, безусловные уровни значимости и доверительные коэффициенты будут теми же постоянными. Такое простое утверждение нельзя сделать для мощности, которая должна быть математическим ожиданием условной мощности, вычисленным по совместному распределению наблюдений независимых переменных.
При сделанных выше предположениях справедливость статистических выводов может быть распространена на случай, где независимые переменные являются случайными величинами; однако такие приложения ковариационного анализа требуют осторожности по той причине, что выводы могут быть правильными ответами на неправильные вопросы. Примером этого может служить приведенный выше пример о крахмальных пленках, если мы будем считать, что прочность является решающим свойством в выборе крахмала, а производственный процесс таков, что толщина не может быть контролируема е) Случай, когда постоянные значения, выбранные и полученные в результате наблюдений экспериментатором, отличаются нз-за ошибок измерений от «истинных значении», входяпгнх в уравнение модели, рассматривается а з 6.5, Ч в ь введение 231 и различна для различных видов крахмала.
Если мы допустим, что проверяемые образцы являются случайной выборкой прочности от каждого вида крахмала, то можно будет использовать обычный дисперсионный анализ без учета характера зависимости прочности от толщины. Возможно, что в этом случае равенство для (и,) в (6.1.1) будет иметь в значительной степени чисто теоретический интерес. Развивая эти соображении дальше, мы отметим, что данные, которые формально подчиняются ковариационному анализу с Ь независимыми переменными, могут быть также формально подчинены т-мерному днсперсионному анализу с т = й+ 1; базисные элементы, необходимые для двух схем вычислений, будут такими же (т.
е. элементами, обозначенными в $ 6.2 через (тико) и (ты, )). Итак, т-мерный диснерсионный анализ является обобщением одномерного дисперсионного анализа, изучаемого в этой книге, на случай, где наблюдения являются не независимыми одномерными случайными величинами, а независимыми т-мерными случайными векторами. Наше предположение о равенстве дисперсий наблюдений должно быть заменено на предположение о равенстве ковариационных матриц; векторы уы"и и ~ы"и в 11-предположении М(у) = Х'() должны быть заменены соответственно на (н,'к', т)- и (рр',т)-матрицы. Хотя мы не будем развивать в этой книге теорию т-мерного дисперснонного анализа, мы кратко обсудим отношение ее основных предположений к основным предположениям ковариационного анализа.
Теория т-мерного дпсперсионного анализа изложена в работах Андерсона (Апдегзоп, 1958) и Рао (Рао, 1952), а двумерный случай — в работе Тычки (Тцкеу, 19496). Простейшим случаем является тот, в котором наблюдения получены парами ((уи,гч)) по плану с одним фактором. Чтобы можно было применять двумерный дисперсионный анализ, пары ((уп, гц)) при каждом 1 (1= 1,...,!) должны быть случайной выборкой из двумерной популяции (популяции при различных 1 обычно различны); таким образом, модель, в которой значения независимых переменных контролируются экспериментатором, здесь неуместна. Кроме того, нужно предположить, что ковариационные матрицы ) двумерных популяций одинаковы. Для упрощения рассмотрения мы будем также предполагать, что двумерные популяции являются нормальными. Обозначим среднее Рй двумерной популяции через (и„ь р,).
По аналогии с одномерным анализом по данным только (уи) или только (гп) можно получить критерий для проверки гипотез Н„: ию = ° ~Ф иез = ... = Ры или НЫ 1лм 1лы = ... = Ры. Для пРО верки гипотезы Н„П Н„т. е. Н, и Н, обе верны, требуется при. менить двумерный дисперсионный анализ. 232 Гл.
к коВАРихционнып лнхлиз Как отмечалось выше в более общем контексте, можно прн помощи условно-вероятностного подхода получить математи. чески правильные статистические выводы из ковариационного анализа (уи), рассматриваюшего (ги) как значения, принятые независимой переменной.
Основные предположения для такого анализа запишем в виде уп —— й~+ уги+ еи, (6.1.5) где условное распределение (еи), при заданных (гч), является распределением независимых случайных величин, имеющих распределение Ф(О,о~). Основной гипотезой, проверяемой в ковариационном анализе, является В~=Рз= ". =Рь Что соответствует этому в случае двумерного анализа? Если д и г имеют двумерное нормальное распределение со средними м„, М„дисперсиями о'„-, а', и ковариацией ро,о„то условное распределение у при заданном г является нормальным со средним р„+ у(з — р,) и дисперсией (1 — р)'о'„, где у ро„/а,. Прямая у ц„+у(г — р ) является прямой регрессии у на г, а величина (! — р') о' может быть названа дисперсией у относительно прямой регрессии. Таким образом, в рассматриваемом двумерном случае прямая регрессии у на г в (-й популяции задается уравнением у = !пи+ у(г — р,~), з дисперсия у относительно этой прямой равна (1 — р')о-"„.
Таким образом, оказывается, что (5;) в (6.1.5) определяется соотношением 6~ — — рм — ур,ь оз — формулой о'=(1 — р') о'„, а гипотеза Н заключается в том, что для! популяций прямые регрессии у на а по основным предположениям параллельны, а по гипотезе Н совпадают. Ковариационный анализ дает правильный критерий для Н, ио Н в одних приложениях может представлять интерес, а в других может не представлять никакого интереса. Пусть (уп) являются оценками математической подготовки студентов старших курсов в 1 различных колледжах по результатам одинаковых экзаменов, а (ги) — отметками по математике тех же студентов на других экзаменах, например на вступительных.
В этом случае может представлять интерес рассмотрение гипотезы Н. Вследствие линейности регрессии, вытекающей из основных предположений, в каждом колледже ожидаемая отметка студента может быть представлена в виде суммы двух членов: первый член пропорционален его вступительной отметке, а второй член характеризует колледж. Предположение параллельности прямых регрессии имеет тот смысл, что угловой коэффициент одинаков для всех школ (это предположение должно быть тщательно изучено, если мы имеем дело с дей- з ад.
ВВЕДение ззз ствительностью, а не с гипотетическим примером). Гипотеза Н заключается в том, что члены, характеризуюшие школы, одииаковы, т. е. что различная подготовка студентов в различных школах может быть полностью отнесена к их различных способностям, оцененным нх отметкам на вступительных экзаменах, и что после учета этого влияние школ будет одинаково. С другой стороны, если (ум) являются отметками студентов по математике, а (гн) отметками тех же студентов по английскому языку, то трудно увидеть какой-либо смысл в проверке Н. Иногда говорят, что ковариационный анализ верен только в том случае, когда «совокупности условий» не влияют на значения независимых переменных.
В общем двумерном случае, описанном выше, различными «совокупностями условий» являются ! уровней, соответствуюшие / популяциям. Отсутствие влияния «совокупности условий» на значения независимых переменных может описываться тем, что при любом / распределения (гн) одинаковы, или, в других случаях, что /хзз = ц«з = ... ы»ь При этом дополнительном предположении гипотеза Н, проверяемая методами ковариационного анализа, сводится тогда к идентичности ! двумеряых распределений. Формальное утверждение, что ковариационный анализ может быть использован только в этом случае, сильно ограничивает возможности его применения.