Гмурман - Теория вероятностей и математическая статистика (969547), страница 61
Текст из файла (страница 61)
= =М (Х ) о равенстве всех математических ожиданий. Другими словами, требуется установить, значимо или. незначимо различаются выборочные средние. Казалось бы, для сравнения нескольких средних (р) 2) можно сравнить их попарно. Однако с возрастанием числа средних возрастает и наибольшее различие между ними: среднее новой выборки может оказаться больше наибольшего нли меньше наименьшего из средних, полученных до нового опыта. По этой причине для сравнения нескольких средних пользуются другим методом, который основан на сравнении дисперсий и поэтому назван дисперсионным амализохе (в основном развит английским статистиком Р. Фишером).
На практике дисперсионный анализ применяют, чтобы установить, оказывает ли существенное влияние некоторый качественный фактор г", который имеетруровней г„г"„..., Е,. на изучаемую величину Х. Например, если требуется вйяснить, какой вид удобрений наиболее эффективен для получения наибольшего урожая, то фактор г" — удобрение, а его уровни — виды удобрений.
Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной днсперсиир, обусловленной случайными причинами. Если различие между этими дис- 349 персиями значимо, то фактор оказывает существенное влияние на Х; в этом случае средние наблюдаемых значений на каждом уровне (групповые средние) различаются также значимо. Если уже установлено, что фактор существенно влияет на Х, а требуется выяснить, какой из уровней оказывает наибольшее воздействие, то дополнительно производят попарное сравнение средних., Иногда дисперсиоиный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы.
В более сложных случаях исследуют воздействие нескольких факторов на нескольких постоянных или случайных уровнях и выясняют влияние отдельных уровней и их комбинаций (многофакторньа2 анализ). о1ы ограничимся простейшим случаем однофакторного анализа, когда на Х воздействует только один фактор, который имеет р постоянных уровней. 5 2. Общая факториая и остаточная суммы квадратов отклонений Пусть на количественный нормально распределенный признак Х воздействует фактор Р, который имеет р постоянных уровней. Будем предполагать, что число Таблица 30 350 3 а ме чан не. Для упрощения вычислений вычитают из каждого наблюдаемого значения одно и то же число С, примерно равное общей средней.
Если уменьшенные значения у!у=л!у — С. то [Х ))» ] -! — [[хт~!)»»], » ! Р ~обш = ~~~~ !су )= ! Г.п овакт —— ч., 'Т*,/Ю != ! е где 1',!у= ~>~~ у!! — сумма квадратов уменьшенных значений признака с=! иа уровне Ру, Ту — — ~~»а у!у — сумма уменьшенных значений признака с=! на уровне РТ Для вывода формул (»»») и (»»»») достаточно подставить х!у = у!у+ С е е ч в соотношение (») и Р~= ~~~ лгу= ~з (уу+С)= чч у!у+!)С=Ту+ЧС (=1 1=1 !м! в соотношение (»»). Пояс пенн я. 1. Убедимся, что Зь,„, характеризует воздействие фактора Р. Допустим, что фактор оказывает существенное влияние на Х. Тогда группа наблюдаемых значений признака на одном определенном уровне, вообще говоря, отличается от групп наблюдений на других уровнях.
Следовательно, различаются н групповые средние, причем онн тем больше рассеяны вокруг общей средней, чем большим окажется воздействие фактора. Отсюда следует, что для оценки воздействия фактора целесообразно составить сумму квадратов отклонений групповых средних от общей средней (отклоненне возводят в квадрат, чтобы исключить погашение положительных н отрнца.тельных отклонений). Умножив эту сумму на д, получим Яе,„,. Итак, Вь,„, характеризует воздействие фактора. 2. Убедимся, что 5„, отражает влияние случайных причин. Казалось бы, наблюдения одной группы не должны различаться. Однако, поскольку на Х, кроме фактора Р, воздействуют н случайные причины наблюдення одной н той же группы, вообще говоря, различны н, значит, рассеяны вокруг своей групповой средней.
Отсюда следует, что для оценки влияния случайных причин целесообразно составить сумму квадратов отклонений наблюдаемых значений каждой группы от своей групповой средней, т. е. 3„,. Итак, З„т характеризует воздействие случайных причин. 3. Убедимся, что З,е отражает влияние и фактора и случайных причин, Будем рассматривать все наблюдения как единую совокупность. Наблюдаемые значения при- знака различны вследствие воздействия фактора и случай- ных причин. Для оценки этого воздействия целесообразно составить сумму квадратов отклонений наблюдаемых зна- чений от общей средней, т.
е. Я„ьг Итак, Я,з,„характеризует влияние фактора и случай- ных причин. Приведем пример, который наглядно показывает, что факторная сумма отражает влияние фактора, а остаточ- ная — влияние случайных причин. Пример. Двумя приборамн произведены по два измерения физи- ческой величины, истинный размер которой равен х. Рассматривая в качестве фактора систематическую ошибку С, а в качестве его уровней — систематические ошибки С, и С соответственно первого н второго прибора.
показать, что офаат определяется снстематиче- скик1н, а 5а,г — случайными ошибками измерений. Р е ш е н й е. Введем обозначения: аь аа — случайные ошибки первого и второго измерений первым прибором; [)д, [)а — случайные ошибки первого и второго измерений вторым прибором. Тогда наблюдаемые значения результатов измерений соответст- венно равны (первый индекс при х указывает номер измерения, а второй — номер прибора); х, =«+С -[-ад, х,=х+Сд-[-а,; х,, =х+Са+рд, ха =«+С«+[) . Средине значения измерений первым и вторым приборами соот- ветственно равны: тгр, = х+Сд+ [(ад+ад)/2) = х+С, + а, х,р, — — х+Са+ [(Рд+ [)а)/2[ = х+Са+ [).
Общая средняя х = (х, р, + хар а) /2 = х+. [(С, + С,)/2 [+ [(а + р)/2 [, факторная сумма сфааа=(хард х) +(хгра «) ° Подставив величины, заключенные в скобках, после злементарных преобразований получим ааааа = [(С, — С,)а/2[+ (С, — Са) (а — [)) + [(а — [[)а/2[. Мы видим, что Явдат определяется главным образом, первым слагаемым (поскольку случайные ошибки намерений малы) и, следо- вательно, действительно отражает влияние фактора С.
Остаточная сумма часа=(хдд хгрд) +(дад хгрд) +(хда хгра) +(хаа хгра) ° Подставив величины, заключенные в скобках, получим 3„, = [(и, — а)а -[- (аа — а)') -[- [([)д — [))а + ([)а — [))а[. зэ 7770 Мы видим, что Зос определяется случайиыми ошибками измерений и, следовательио, действительно отражает влияние случайных причин. 3 а ме ч а я и е.
То, что 5ост порождается случайными причииами„ следует также из равенства (см. 3 3, следствие) 3ост ~общ ~факт Действительио, Я ащ является результатом воздействия фактора и случайных причин; вйчитая Яв,кг, мы исключаем влияиие фактора. Следовательно, аоставшаяся часть» отражает влияние случайных причин. $ 3. Связь между общей, факторной и остаточной суммами Покажем, что 'аобщ 'аеакт+аост Для упрощения вывода ограничимся двумя уровнями (р=2) и двумя испытаниями на каждом уровне (д=2).
Результаты испытаний представим в виде табл. 31, Таблица 3! Тогда Яозщ = (х„— х)'+ (х„— х)' + (х„— х)'+ (х„— х)'. Вычтем и прибавим к каждому наблюдаемому значению на первом уровне групповую среднюю х, „а на втором — х,р,. Выполнив возведение в квадрат и учитывая, что сумма всех удвоенных произведений равна нулю (рекомендуем читателю убедиться в атом самостоятельно), получим 5,ащ = 2 ((х„з а — х) '+ (хг„— х)'1+ [(хаа — хг,)'+ + (Хза Хгра) + (хаа хгра) + (хаа хгра) ] 'Чеакг + ~оса' 364 Итак, ~общ = ~факт+ ~ест Сл едс та и е. Из полученного, равенства вытекает важное следствие: ~оса ~общ ~факт Отсюда видно, что нет надобности непосредственно вычислять остаточную сумму: достаточно найти общую и факторную суммы, а затем их разность.
$4. Общая, факторная и остаточная дисперсии Разделив суммы квадратов отклонений на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии: баабщ а офсет а ласт Вобщ а бфакт ° аост т ° Рб — 1' ' Р— 1 ' РИ вЂ” 1!' где р — число уровней фактора; д — число наблюдений на каждом уровне; ро†1 †чис степеней свободы общей дисперсии; Р— 1 †чис степеней свободы факторной дисперсии; р(д — 1) †чис степеней свободы остаточной дисперсии.
Если нулевая гипотеза о равенстве средних справедлива, то все эти дисперсии являются несмещенными опенками генеральной дисперсии. Например, учитывая, что объем выборки и = Рс), заключаем, что асбщ = а ообщ ооб — исправленная выборочная дисперсия, которая, как известно, является несмещенной оценкой генеральной дисперсии.
3 а и е ч а и и е. Число степеней свободы р(о — 1) остаточной дисперсии равно равности между числами степеней свободы общей н факторной дисперсий. Действительно, (Рб 1) (Р 1) Рб — Р = РЫ 1) й 5. Сравнение нескольких средних методом дисперсиоииого анализа Вернемся к задаче, поставленной в й 1: проверить при заданном уровне значимости нулевую гипотезу о равенстве нескольких (р > 2) средних нормальных совокупностей с неизвестными, но одинаковыми дисперси- Збй ямн. Покажем, что решение этой задачи сводится к сравнению факторной н остаточной дисперсий по критерию фишера — Снедекора (см.