Шеффе Г. - Дисперсионный анализ (1185347), страница 15
Текст из файла (страница 15)
Х', — (н» Х р)-метрика. Доказать, чениая по полному множеству измерений %~»11 Р = Ч~~ В'~»1))», где р»является )— » / » множества наблюдений, а что любая мнк-оценка )), полу(, а ), удовлетворяет равенству мнк-оценкой, построенной для й-го Глава 3 ОДНОФАКТОРНЫЙ АНАЛИЗ. МНОЖЕСТВЕННОЕ СРАВНЕНИЕ $3.1. Однофакторный анализ Простейшим случаем дисперсионного анализа является однофакторный анализ. В этой главе мы дадим его определение и будем использовать этот случай для иллюстрации некоторых положений общей теории оценок и критериев, изложенной в гл. ! и 2.
Кроме того, будут введены также некоторые новые понятия и методы, относящиеся к задачам множественного сравнения (построение некоторых видов совместных доверительных интервалов и соответствующих им критериев). Сначала эти понятия и методы вводятся в связи с классификацией по одному признаку, а затем будут перенесены на общий случай. После этого мы сможем рассматривать эти методы как дополнение общего г"-критерия гл. 2 в следующем смысле. Мы видели, что нулевая гипотеза Н (см.
гл. 2) равносильна утверждению, что все параметрические функции некоторого класса имеют нулевые значения. Каждый раз, когда по г-критерию Н отвергается, мы можем одним из методов множественного сравнения решить, какая параметрическая функция рассматриваемого класса отличается от нуля и как велико это отличие. Мы увидим также, что 1) г"-критерий можно рассматривать как предварительный метод решения вопроса о целесообразности продолжения обработки наблюдений другими более сложными методами, или 2) г-критерий можно применить к исследованию оценки функции из рассматриваемого класса, которая в некотором смысле сильно отличается от нуля, и решить, значимо ли отличается от нуля эта оценка. Термин однофакторный анализ (или классификация ло одному признаку) относится к сравнению средних нескольких (одномерных) популяций.
Обозначим их средние через йь рь ... Допустим, что популяции нормально распределены та % ЗЗ. ОДИОФАКТОРНЫП АНАЛИЗ с равными дисперсиями и'. Пусть мы имеем независимые выборки обьемов 1ь 1ь ..., А нз соответствуюших популяций. Обозначим выборку нз (-й популяции через (у НУ в ..., рн,). Тогда наши основные предположения (влияние нарушения этих предположений рассматривается в гл.
(О) равносильны следующим: й: и, =();+ен (!= (, ..., 1; (= (, ..., 1,), (сц) независимы и распределены М(0, пз). Используя общую теорию $2.5 для проверки гипотезы Н: Р!=02= ... =Рь мы постронм г".крнтернй в предположениях И. Обозначение вектора наблюдений у = (уь уь..., р,)', используемое в обшей теории гл. ! и 2, нужно заменить обозначением с двойными индексами координат, а именно р = (ун, уд,..., ры, рм.
..., ун,..., ун,..., у,б). Из равенств М(рн) = (), заключаем, что (ИХ!)-матрица Х' теперь имеет следующий вид: каждая нз первых 1~ строк равна рн каждая нз следуюшнх 1з строк равна р',, ..., каждая нз последний 1, строк равна нн где р', =(бн баь ..., Ьн) является (-й строкой единичной матрицы, Таким образом, ранг г (число линейно независимых строк) матрицы Х' равен 1 (числу столбцов Х', обозначенному в общей теории гл. ! через р), Отсюда следует, что любая параметрическая функция допускает оценку (различные параметризации, для которых это неверно, рассматриваются в й 3.2).
Сумма квадратов У(у,р), котору!о мы должны мнннмнзнровать прн й и гз = !) () Н, вычисляется по формуле у 0 Ы(р, й)=Е Х(рн — й)'. (3.!.!) Нормальные уравнения в предположениях й можно получить, дУ приравнивая к нулю пронзводные — „= — 2 ~Ч (у„! — р,) прн ! 1 1 !...,, 1. Уравнения дают мнн-оценки!(, ~ у,г/1,.
В даль- С нейшем мы будем часто использовать следуюшее удобное обозначение. Так мнк-оценки б, можно записать в виде (), = д„. (т = (, ..., 1). Замена индекса звездочкой показывает, что вычислена арифметическое среднее величин, в которых заменяется инденс, по всем возможным значениям этого индекса. т4 Гл. 3. ОДИОФАКТОРныи АИАлиз. множествпнное ОРАВнение В предположениях ы формулу (3.1.1) можно записать как у'= Е Х (В» — 0)з. !-! /-! где через р обозначено обшее (неизвестное) значение величин б!, рз, ..., р/. В этом случае имеется только одно нормальное / ! уравнение — = — 2 ~~! ~~! (у!! — й) = О.
Из этого уравнения дУ' др / ! /=! находим (крышка над р указывает, что это оценка неизвестного ()) / !/ / Е ЕР» Е!!Рм / ! / ! ! ! Обозначим правую часть через е) у. Тогда (),,е=у (в=1,...,/), где р,,м = () является л/нк-оценкой р„ при ш. Для вычисления 55 удобно использовать Ч-обозначения гл. 2. Снова будем через Ч обозначать М (у), а через Ч и т)— л/нк-оценки Ч при 14 и ш, равные проекциям у на пространства 1/, и 1', «, которым Ч принадлежит соответственно при условиях 0 и оз, Координаты векторов Ч, Ч и Ч можно теперь занумеровать двойными индексами по аналогии с координатами р.
Тогда «(1,!)-координата» (координата с индексом !!) вектора Ч рав. на т)!/, следовательно, Ч» = М(р»/) и Ч!/ = р! при Й. (3.1.2) Из (3.1.2) можно получить (й !) -координату т), заменив (()!, .... (Ц на нх мнк-опенки при ь); эта замена дает т)» = р/„. Произведя аналогичную замену при ы, найдем, что (1,!)-координата вектора Ч„равна ЧА/.е = //. Суммы квадратов в числителе и знаменателе статистики У мы получаем из обших тождеств $2.9 55Л=)!Ч вЂ” Ч Р, 55.=(!У вЂ” ЧР которые преобразуются в 55н= Х Е(Ч// — Ч/, !..)'= с'. с'.
(д!* — р)'= Е У/(р/ — р)', // ' ''" ! 55«Е Е Ь!! Ч!/) Х Х (У// з!зи) с ! ! / «) Мы не пишем у.. (как можно было бы сделать в случае равных У!), так как такая записи истолковывается как среднее арнфметнческое нлн не. взвешенное среднее, а не взвешенное среднее р. э кь односхкториыи лнхлиз Зги формулы подсказывают простое наглядное объяснение: 55н представляет собой взвешенную меру разброса выборочного среднего в / популяциях, а 55, является составной мерой разброса наблюдений в пределах каждой из / выборок. По этим соображениям ББн можно назвать 55 между группами, а 55, можно назвать 55 внутри групп, Для численного вычисления этих 55 используются формулы, которые также следуют из общих тождеств $2.9, однако они отличаются от приведенных выше.
Тождество ББг = (! ц!1Р— ~! Ч„~Р (третье в (2.9.2) ) в нашем случае имеет вид 55и — — Х Х т!'„— ~ Х т1', „или ! 55„= ~/ у'. — лу' ( (3.1.3) Общее тождество У = У'я+55ю или Ц у — /! П = 55, +ББн запишется в виде Х (у!! — у)'=55. +55 . (3.1.4) Сумму квадратов в левой части можно назвать паиным 55 относительно общего среднего. Обозначать эту сумму будем через 55„(в отличие от 55„„„= Я ~, уР!1. В этих обозначениях ! ! (3.1.4) можно записать так: 55р = 55вн. гр + 55м. рр. (3.1.5) Окончательно общее тождество У = 1) уР— 11 !1 ~~Р принимает вид 55 =~: Ку', — пу'.
(3.1.6) ! 1! ! Гипотезу Н можно задать, приравнивая к нулю / — 1 раз- личных линейно независимых функциИ; например, Н: йр — Р~=О, бг — 6~=0 . ()! — 6~=0 Отсюда число ст. св. 55„равно д = / — 1. Мы уже видели, что г =/, так что число ст. св. 55, равно и — ! = и — /. Таким образом, статистикой У является отношение ББн/ББ„где — х~н — %, 55 н По Р-критерию гипотеза Н ($2.5) отвергается с заданным уровнем значимости и тогда и только тогда, когда У = -ьР;! ь, !.
При И статистика У имеет нецеитральное Р-рас- пределение, а именно У является величиной Р! ь, !,м где па- раметр нецентральности б определяется по правилу ! (Э 2.6).. та Гл 2. ОДИОФАктор1!ый АИАлиз. лиюжестпенпОе сРАВ!!ение ! ! Некоторые из этих результатов собраны в таблицу 3.1 1.
Т а б л и п и 3.13, Однофпкторныа пнвлнп Степень сво- боды Источник дпспсрспв м !5я ~~э с!2+1/ !!-! ~ / (р р)2 оон= Х /! (!У!, У) ~~с Е ~в~ (у!/-у!,) ! l — ! Между группами ~ое л — / л — / Внутри групп 55 ~ ~~~, (у,! У) л — 1 «Полкан» сумма квадратов В ы чи с лени я.
Обычно неполная сумма ~,у";, не требуется ! для г'-критерия (нужна только полная); однако в случае, когда мы хотим рассматривать Х У!/ /!У! 52 ! !! — ! полезно добавить к таблице столбец для неполных сумм. Величина 5', является оценкой дисперсии в !'-й популяции; мы должны будем ее использовать, если не будем предполагать равенство дисперсий. (В связи с этим см. также Я 3.8 и 10.6.) Величина 55, вычисляется по формуле (3.1.6), 55л по (3.1,3) и 55 = 55вп „по (3.1.5) путем переноса 55л в левую часть равенства. Одновременно с таблицей дисперсионного анализа, подобной таблице 3.1.1, следует настойчиво рекомендовать заготовить таблицу для 7 выборочных средних (рэ) объемов выборок (Ц и, может быть, для р выборочных дисперсий(52) Методы вычислений, предложенные в этой книге, облегчаются применением вычислительных машин.
Весьма часто требуется сохранять большое число верных знаков до конца вычислений из-за возможной потери их при вычислении 55 вычитанием из другого 55, Понятно, что в промежуточных вычислениях лучше з хк Функции, допускхюшие оценку иметь больше знаков, так как если после вычитания их останется слишком мало, то придется повторить полностью все вычисления. С другой стороны, окончательный результат должен содержать разумное число знаков, обычно такое, чтобы единица последнего сохраненного знака имела порядок пяти оценок стандартного отклонения результата. Статистик, работающий с химиками или инженерами, может дискредитировать себя необдуманным предложением даверительнога интервала такого вида 7,32179 ~ 0,05248 вместо 7,32-ь 0,05 или использованием углового коэффициента прямой с семью знаками, когда сама прямая была подобрана па данным с тремя знаками.