Шеффе Г. - Дисперсионный анализ (1185347), страница 2
Текст из файла (страница 2)
По тем же причинам только слегка затронуто планирование экспериментов, а теория смешивания, дробные повторения и другие более сложные планы совсем не затронуты. Методы теории решений здесь не затронуты главным образом по другим соображениям. Мне кажется, что эти методы, за исключением, по-видимому, одной задачи (эксперименты, позволяющие выбирать наилучшие множества «совокупностей условий», см. 8 3.7), не дают ничего существенно нового и важного для дисперснонного анализа.
Теория решений применяется наиболее широко, по-видимому, там, где типичным является наличие более обширного множества возможных решений для рассматриваемого множества да нных ") . Я очень надеюсь, что эта книга пригодна для самостоятельного изучения и что она сможет дать путь, по которому могут следовать все, кому необходимы статистические методы (дисперсионный анализ не входит во многие программы университетов и колледжей, предназначенные для подготовки научных и инженерных профессий). Для читателя, желающего самостоятельно изучить дисперсионный анализ, особенно полезно сделанное выше замечание о важности числовых упражнений, и я настаиваю на решении большинства из этих 38 задач, содержащих числовые данные.
Если читатель не имеет возможности воспользоваться машиной, то он должен вычислять различные суммы квадратов непосредственно по определению, а не по специальным формулам, которые приведены в книге и предназначены для вычислений на машине, так как прп использовании последних возможна большая потеря верных *) Однако новая работа Кифера и Вольфовича (К!е!ег о %о!!очг!!з, !958) открывает возможность того, что теоретико-игровой подход к задаче оптимального зкспериментал ного плана может дать новые полезные реше. иия, допускающие численные расчеты.
предисловие знаков. Что касается остальных задач, то читатель ие должен быть обескуражен, если ои ие сможет решить их все; оии имеют различную степень трудности и легкими могут быть только для профессиональных математиков. Если доказательства носят геометрический характер или допускают геометрическую интерпретацию, то полезно делать чертеж, подобный рис. 2.9,1, который подскажет а-мериме геометрические соотношения.
Я также надеюсь, что многочисленные сноски ие будут рас. сматриваться как регулярные помехи, так как их можно использовать вполне эффективно, учитывая, что оии делятся в основном иа две группы: в одних даются ссылки иа литера. туру и приводятся указаиия об истории предмета, в других— уточнения теории. Читатель либо прочитает их все, либо легко выберет те, которые его интересуют. Несколько сносок имеет другой характер; их специальное назначение указаио в тексте. Пряястон, Ньв-Джерси Ноябрь, 1953 Генри Шеффе ЧАСТЬ ПЕРВАЯ ДИСПЕРСИОННЫЙ АНАЛИЗ МОДЕЛЕЙ С ПОСТОЯННЫМИ ФАКТОРАМИ В СЛУЧАЕ НЕЗАВИСИМЫХ НАБЛЮДЕНИЙ С РАВНЫМИ ДИСПЕРСИЯМИ Глава 1 ТОЧЕЧНЫЕ ОЦЕНКИ й 1.1.
Введение Вначале мы предложим следующее, не очень точное, онре. деление изучаемого предмета: диснерсионный анализ ') — зто статистический метод анализа результатов наблюдений, зависящих от различных одновременно действующих факторов, вы. бор наиболее важных факторов и оценка их влияния. Измере. ння или наблюдения могут проводиться как в экспериментальных науках (например, в генетике), так ив незкспериментальных науках (например, в астрономии). Теория анализа результатов измерений подсказывает, как планировать проведение опыта или наблюдения, т.
е. приводит к планированию эксперимента. Исторически современный метод дисперсионного анализа развивался главным образом в связи с приложениями к задачам сельского хозяйства. Рассмотрим довольно простой сельскохозяйственный зкспе. рнмеит, к которому применим дисперсионный анализ. На каждом из трех участков выращивается четыре сорта томатов г. ре. зервуарах, содержащих химический раствор.
Используется два химических раствора (мы будем называть их «смесями») с различным составом минеральных удобрений. Для каждой смеси на каждом участке имеется общий резервуар, из которого е) Днсяерснонный анализ, в том смысле как он обычно понимается и повседневно используется, был развит в значительной мере Р. А. Фишером (Р(а«ЫП 19!8. 1925, 1935), который ввел в статистику сами термины дисиерсия н дисяерсионяый ииилиз, Последний термин оказался, яо-видимому, нан. более подходящим для моделей со случайнымн факторами (гл. 7) н, возможно, зто может подсназать, каким путем Фишер подошел к изучаемому вЕгдмету.
О некоторых историчесинх сведениях см. Шеффе (зсйеПА 19565]. (йвты, стоящие после фамилий, являются ссылкой на авторский указатель и библиографию в конце атой книги). гл, с точгчпыв оцгыки 14 жидкость выкачивается во все резервуары с такой же смесью, соединенные «параллельно»; при последовательном соединении, когда выход одного резервуара является входом другого, мы не смогли бы различить влияние сорта томатов и влияние (если оно есть) порядка соединения резервуаров. Резервуары располагают на открытом воздухе в одинаковых условиях так, чтобы от растений в одном резервуаре не падала заметная тень иа растения в других резервуарах и т. д. На каждом из трех участков химические удобрения, входящие в смеси, возобновляются одинаковым образом. Каждый сорт томатов выращивается в отдельном резервуаре с одинаковым количеством растений в каждом.
Урожаем каждого резервуара считается вес спелых томатов (ниже мы будем говорить о полученном урожае и об «истинном», или среднем, урожае). Урожай может зависеть от сорта томатов, состава смеси и от участка. В частности, возможна зависимость от взаимодействия этих факторов. Более подробно это полезное понятие дисперсионного анализа будет развито позднее (2 4.1). Наша теория дает ответы на такие, например, вопросы; зависит ли урожай, усредненный по двум смесям и трем участкам, от сорта томатов? Доказывают ли урожаи различное влияние сортов на различных участках? Как количественно оценить эти различия с заданным уровнем доверия? И так далее. Содержание глав 1 и 2 может немного разочаровать читателя, надеющегося найти полезные для практических применений результаты; заметим для такого читателя, что, начиная с главы 3, будут излагаться результаты, полезность которых более очевидна.
Общая теория, развитая в главах 1 и 2, служит не только основой для получения таких результатов; она может также помочь применить дисперсионный анализ в тех случаях, которые не укладываются в специальные схемы, разобранные в остальных главах этой книги. 5 1.2. Математические модели Предположим, что мы имеем и наблюдений или измерений.
В математических моделях этой книги наблюдения рассматриваются как а случайных величин«) уь ух, ..., у„, которые являются линейными комбинациями с р неизвестными постоян- *) В этой книге мы будем обычно испольэовать одинаковые обоэиаче. нин длн случайных величин н длв их наблюденных значений (нсключения вствсчяютгя в аа я 1О в О Ю $ !.Х.МАТЕМАТИЧЕСКИЕ МОДЕЛИ ными рг, рз,, рл плюс ошибки ег, е„..., е,: у! = хир! + хх,рх+ .. + ксир, + е!») (1.2.1) (! = 1,2,...,л), где (хн) — известные постоянные коэффициенты *). Величины (р!) являются более или менее идеализированным отражением некоторых сторон наблюдаемого явления, пред- ставляющих интерес для исследователя.
Целью дисперсионного 'анализа является получение выводов относительно (е!) и не- которых (р(), выводов, остающихся справедливыми независимо от значений других (р!), «исключить», которые было бы более желательно чем «оценивать». Наименьшие предположения о случайных величинах (е!) состоят в том, что их математические ожидания равны нулю, т. е. М (е!) = О (! = 1, 2, ..., и) . ( !.2.2) Кроме того, будем обычно предполагать, что М (еге!) = озбгь (1.2.3) где о' — неизвестная постоянная, бн равно 0 или 1 при соответственно ! Ф ! и ! = !'. Эти условия эквивалентны тому, что случайные величины некоррелированы (т.
е. их коэффициенты корреляции равны 0) и имеют одинаковые дисперсии, равные пх Мы можем теперь немного уточнить определение, приведенное в $ !.1; диснерсионный анализ — это система статистических методов обработки наблюдений, допускающих представление (1.2.1), где коэфффициенты (х!!) являются целыми числами, равными обычно 0 и !. Для того чтобы внести ясность в это определение *'), нужно не только указать возможные числовые значения (х;!), а нужно понять, какое место они занимают в описании задач, встречающихся в исследованиях. Эти величины (х„) имеют смысл «переменных-счетчиков», или «переменных-указателей», которые указывают присутствие или отсутствие влияний различных факторов (р!) в условиях проводящихся наблюдений; хц обычно '»*) равно 0 или 1. Если (хи) ') Может показаться более естественным переставить индексы у к в (1.2.1), но примененное обозначение является общепринятыч.
Такой порядок кажется более подходящим в тех случаях, когда хи является значением, принимаемым «независимым» переменным х, в г-м наблюдении; см. $6.1. Фигурными скобками обозначается множество величин, указанных в скобках: тяк (хгд обо»начнет множество, которое состоит из пр величин хи с 1 = 1, 2, ..., р; ! = 1, 2, ..., и. »') Это определение и определение в 6 6.! возникли в результате по. лезных обсуждений с проф.
У. Крвскзл и д-ром М. Мзллер. '**) Пример, в котором хп — — — 1, см. у Шеффе (зсЬеИе, 1952), в в х,! = 2 см. у Кемпторна (Кегпр!Ьогпе, 1952, 6 6.6). гл, ь точнчнын опенки не являются «переменными-указателями», а пробегают непрерывные множества значений, как, например, время (, температура Т, (з, е-'„(Т (такие переменные называются независимыми, и тогда говорят, что (йэ) являются наблюдениями зависимой переменной у; см. 5 б.!), то мы получим регрессионный анализ. В случае, когда среди (хи) есть переменные двух видов, мы получаем ковариационный анализ. Более естественное определение этих трех видов анализа, каждый из которых подчиняется общей теории гл.
1 и 2, будет приведено в гл. 6 после того, как читатель привыкнет формулировать различные задачи в терминах факторов, изменяющихся в наблюдениях или в сериях испытаний. Мы пока не уточняли природу неизвестных параметров (рг). Они могут быть или неизвестными постоянными, или случайными величинами, закон распределения которых может зависеть от других неизвестных параметров, Модель, в которой все (Р() являются неизвестными постоянными, назовем моделью с постоянными факторами ').