Шеффе Г. - Дисперсионный анализ (1185347), страница 75
Текст из файла (страница 75)
Ф ю!. введиниз 377 /1/ независимых случайных величин (х/) с теми же коэффициентами отдельных (х/). Пусть х/ имеет дисперсию оп асимметрию уь; и эксцесс уз,/. Обозначим Л/ долю дисперсии с;х/ в общей сумме 2 з л= „'// / м так что ~„Л/=!. Тогда у! и уз величины о равны / 1 (!0.1.2) где знак ~ совпадает со знаком с/, и ут = )г», Л/уз, /. (10,1.3) Заметим, что разность двух независимых случайных величин с одинаковыми у, и одинаковыми дисперсиями имеет у! = О. Это вытекает из (10.1.2); если положить там /т' = 2, с! —— — сз = 1, о! =оъ у!,! = у!,ь то у! = О.
Заметим также, что в случае, когда распределение линейной комбинации (10.1.1) приближается к нормальному при больших /т/, ') Иначе говоря, мы можем назвать ~ (х — р)з!/Р(к) «весом» «хвоста» ц распределения (здесь Р(х) обозначает функцию распределения х); при агом мы используем +оо для правого «хвоста» и †— для левого «хвоста». распределений, очевидно, у! = О. Положительные значения у! указывают на то, что распределения «скошены вправо», т.
е. правый хвост распределения в некотором смысле*) более «весбм», чем левый. Для каждого распределения уз ) — 2, а для нормального — уз — — О. Пусть распределение симметрично, унимодально и имеет плотность; если его «хвосты» более «весбмы» по сравнению с нормальной плотностью, а центральная часть более заострена, то у,'- О, если «хвосты» менее «весомы», а центральная часть более плоская (похожа на плечи), то уз ( 0 Методом математической индукции нетрудно показать связь у! и уз линейной комбинации о = ~ с/х/ / ! зуз гл.
1в, влиянии нарушения основных пиидположвгтии формулы (10.1.2) и (10.1.3) дают некоторое указание на скорость сходимости, т. е. показывают, как быстро у~ и уа величины (10.1.1) приближаются к нулевым значениям, имеющим место при нормальном распределении. Например, если все (ст(ол) равны и все (сД положительны, то )( = У-', поэтому у,= — М ьуг, и у,= А( 'у, (Здесь у,, обозначают среднее из (7 с ~У,я,...,У,У).) Для того чтобы иметь некоторое представление о том, какие значения (умуа) встречаются в приложениях, упомянем о девяти эмпирических распределениях *), связанных с техническими данными; каждое из ннх основано на нескольких сотнях измерений, проведенных в Ве!! Те!ер)1опе !.аЬога!ог!ез. Полученные в ннх оценки у~ изменяются от — 0,7 до +0,9, а уа — от — 0,4 до 1,8. Стьюдент (8!пдеп(, 1927) нашел, что ошибки химических анализов обычно имеют положительное уа, он приводит также пример одного распределения из 100 измерений с оценкой уа, равной 7.
Положительное уа распределения ошибок можно объяснить наличием случайных грубых ошибок. Заметим, что при равномерном распределении, которое обычно принимается для ошибок округления в численных расчетах, уя — — — 1, 2. Выпишем некоторые другие значения'*) (уьуа), полученные при обработке очень большого числа индивидуумов (10000 и выше): (2,0; 6,3) для распределения возраста невест, выходивших замуж в Австралии в период !907 — !914 гг.; (2,0; 5,3) — то же самое для женихов; (0,3; — 0,6) — распределение возраста матерей при рождении детей в Австралии в !922— 1926 гг.; (0,7; 0,6) — то же самое для отцов; (0„5; 0,4) — для барометрического давления в Гринвиче за 1848 — 1926 гг.; ( — 0,9; 1,8) — для длины бобов (семян, а не стручков) некоторой чистой линии; ( — 0,4; 0,6) — то же самое для ширины.
Первые четыре момента популяции не определяют, конечно (даже приближенно), выборочные распределения всех статистик, представляющих практический интерес (например, выбо. рочных квантнлей, выборочных третьего и четвертого моментов). Однако мы увидим, что значение уя и, в меньшей степени, значение у~ для ошибок (и для случайных факторов, если они присутствуют) являются при настоящем состоянии наших знаний наиболее важными показателямп, с помощью которых определяется влияние ненормальности на обычные выводы дисперсионного анализа.
При обсуждении нарушений предположения независимости удобно рассматривать простую модель серийной корреляции ') Эти распределения собраны Шухартом; аначения опубликованы Пирсоном (Е. Реагаоп, 1931). "*) Преториус (Рге1ог(пв, 1930).
й 1о.я. ннкотоныи элемннтлнныи подсчнты 379 случайных величин х!, хя, ..., хг) эта модель подходит к тем случаям, когда измерения располагаются последовательно во времени или пространстве. Мы будем говорить, что (хг) имеет коэффициент серийной корреляции*) р, если коэффициент корреляции между хг и хеи! равен р при ! = 1, 2, ..., / — 1, а все остальные коэффициенты корреляции равны нулю. Не все значения — 1(р~ 1 теоретически возможны, так как (/'и',I)- матрица коэффициентов корреляции, так же как ковариациоиная матрица, должна быть положительно определенной '*); не- ! 1 трудно показать, что все значения из интервала — — ( р (— 2 2 возможны. Построим следующий искусственный пример.
Пусть х; = г;+ сгье!, где г!, ..., ггт! — независимые случайные величины с одинаковыми дисперсиями, а с — константа. В этом случае р = с/(1+ с'); легко видеть, что при изменении с от — 1 1 1 до 1 Р принимает все значения от — — до + —, 2 2 ' В сериях нз !00 анализов для каждого из пяти различных химических свойств, производимых ежедневно (в течение последовательных пятидневок) с выборками из одной партии хорошо перемешанного материала, Стьюдент (1927) вычислил следующие коэффициенты корреляции между последовательными анализами: 0,27; 0,31; 0,19; 0,09; 0,09.
Он отметил также, что он никогда не видел такие коэффициенты отрицательными. В случае последовательных измерений выхода некоторого продукта производственного процесса, измеряемого после очередного освобождения сосуда, появляется отрицательная серийная корреляция; причиной этого является флуктуация количества продукта, остающегося в сосуде после его освобождения. 9 10.2. Некоторые элементарные подсчеты влияния нарушения предположений Все расчеты этого параграфа сделаны для того случая, когда число ст.
св, ошибок очень велико. Это позволит нам получить элементарным путем все те выводы, которые позднее мы установим в общем случае, когда число ст. св. ошибок не обязательно велико, Если мы найдем, что в нашем частном случае некоторое нарушение предположений приводит к серьез- *) Это коэффициент серийной корреляции на расстоянии 1; коэффициент корреляции между х~ н х,эь называется ноэффициентом серийной корреляции иа расстоянии Ь; таким образом, мы полагаем эти коэффициенты равными нулю при й ) 1.
") Необходимым и достаточным условием положительной определенности этой матрицы является (р)( (2 сов(я/(/+ 1)1)-', это неравенство можно получить нз результата Гренандера и Розенблатта (0гепапбег, Козепб!а(1, 1956, стр. 101 — 102), 33) ГЛ. Ю. ВЛИЯНИЕ НАРУШЕНИЯ ОСНОВНЫХ ПРЕДПОЛОЖЕНИИ ному влиянию на выводы, то эти выводы будут несправедливы и в общем случае. Однако если нарушение не имеет серьезного влияния на выводы в нашем частном случае, то необходимо еще исследовать его в общем случае, Мы начнем со случая единственной выборки.
Пусть (рь ув...,уа) — случайная выборка из популяции со средним р, дисперсией а' и эксцессом уз (см. 5 10.1), Если популяция нормальна, то мы имеем простейший случай общей теории гл, 2. Исследуем теперь влияние нарушения нормальности на выводы относительно среднего р. В нормальной теории этн выводы обычно основываются (в случае доверительных интервалов) на центральном (-распределении случайной величины пь (р ) (10.2.1) где у» и яз = 55, равны выборочным средней и дисперсии, или же (в случае проверки гипотезы Н: р = р,) на нецеитральном (-распределении (1 0.2.2) (напомним, что в приложении 1Ч определение иецеитрального распределения включает и центральное распределение).
В случае, когда мы используем равные «хвосты» (-распределения, наши методы эквивалентны методу доверительного «эллипсоида» (в нашем случае интервала с центром у) для )г, основанного на Р, которое в нормальной теории имеет центральное Р-распределение, и Р-критерию, основанному на ('2, которое в нормальной теории имеет нецентральное Р-распределение. Если число п — 1 ст. св.
ошибок велико, то з можно в (10.2.1) и (10.2.2) заменить е) на а. Далее, по центральной предельной *) Так как з сходятся по вероятностн к о, то пределькое распределение (!02.!) нлн (!О 2 2) остается тем же прн замене з на о (см. Крамер (Сгагпег, !946, 6 20.6)). Сходнмость з' по вероятности к о', а следовательно н з к а, вытекает нз задачи 1Ч.За. Аналогичным образом можно строго дока. зать возможность замены 35, на о,. Заметим, что выражению «х распреде.
2 лене У(ал, йз) прн больших л» можно дать следующее точное математн2ъ ческое определенне. В сущности мы рассматриваем случайную величину к = л„, распределение которой зависит от и = У, У + 1, У + 2,, , прн некотором данном У. Предыдущее утверждение означает, что для последо. вательностей констант (а,) н (Ь„) г Р ( " " «(Г~ -з. (2я) 2 ~ ехр ( — — 22) г)г при п-~ со для каждого фиксированного д 4 ю.г. нпкоторып элнмгнтлрныи подсчпты З81 теоремеа) пь(у.— )г)/а при больших и распределено )у(0,1). Учитывая эти два результата, мы получаем, что при больших и отношение (10.2.1) распределено гт((0, 1), а отношение (10.2.2) распределено й((6, 1), где 6 равно параметру нецентральности 'ь и (р — Ио) и При больших п распределения ( и (' не зависят, таким образом, от популяции, Поэтому выводы о среднем р, справедливые в нормальном случае, должны быть правильными для больших и при любых видах популяции а*).