Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 56
Текст из файла (страница 56)
Наилучшая оценка для среднего значения распределения Пуассона в данном случае принимает значение й = 63,5. Дисперсия распределения Пуассона равна среднему значению, 304 )л. ХД Провгркп гипотез с комоиячт гглптигтичеокик критериев Правая часть (27) представляет собой квадрат статистики 1, используемой в критерии Стьюдсцта. Это означает, что при двух классах критерий л совпадает с двусгпоронним критерием й Следовательно, если ят и яе пе слишком малы (Например, оба х 4), то двусторонний критерий 1 можно применять даже в том случае, когда х и д имеют распределение, отличное от нормального. Д. КОРРЕЛЯЦИЯ ВНУТРИ КЛАССОВ Если каждый класс содержит лишь два наблюдения, то воз- пикает ряд, состоящий из т пар (х, х').
Для вычисления (Ет и Яв образуем из каждой пары среднее и разность — х+ х' х= — — и д=х — х', 2 Если М вЂ” общее среднее всех х, то, согласно (18), сЕт = 2 л,' (х — М)з (28) н, согласно (7), К вЂ” — 2.С. (29) Для контроля служит формула (), лк ()е = Я =.~,[(х М)з 1 (х М)в). (30) Далее, согласно (21), д 1 т — 1' (31) и, пакоиец, как всегда, 0 0т+ Ое Ж вЂ” 1 2г — 1 (32) тч == 2,~, (х — М) (х' — М) (33) 2;" 1(х — М)в+ (х — М)в) ' Выражение (33) устроепо аналогично выборочному коэффицпситу корреляции' (3 66 Б). После небольших вычислений Находим, что .в 0г 0в Ог+ (34) Выборочный козффпциеит корреляции цслесообрвэио вычислять ио формуле (33) в том спч те.
~ оглв неизвестные дисперсии величии х и х' рпвиы лрчг кругу. — Прим. перев. Выборочный коэг)эгргсциенпг корреляции внутри классов определяется формулой б 58. Дисдерсионнмб анализ 306 Если выборочная дисперсия внутри классов равна нулю, то коэффициент та равен +1. Если же выборочная дисперсия между классами равна нулю, то г' = — 1, однако практически этого никогда не наблюдается.
Если обе выборочные дисперсии приближенно равны друг другу, то величина г* близка к нулю. Пример 41. Хедори, Вертаии и Галлера' разрезали иа две симметричиыс части имагицальиыс диски, из которых развиваются мужские половые железы мухи-дрозофилы (ГэговорГВ1ь шс!ьпойавсог), и получеииые половиики пересаживали представителю того же вида. В результате из обеих частей зозиикзли ссмеииики приблизительно нормальных размеров. Однако от случая к случаю их размеры колебались в очень широких пределах. Нужно проверить, ие вызывались ли зги колебания тем, что величииы обеих пересаженных половин зачастую были неравными? Если зто так, то нужно ожидать, что наряду с особенно большими ссмеииикзми столь же часто должны встречаться и крайис малые, т. с.
дисперсия внутри пар должна быть больше дисперсии между парами. Однако вычисления показывают, что, напротив, дисперсия внутри пар меньше, чем между парами. В таблице иа стр. 30о указаиы длины половых клеток х, .г', причем каибольшая из обеих длин всегда прсдшсствует наименьшей. !!входим 1 36 — х =- 3!3,5, 2 ~', (х — М)а = 63 222, ! 2 — хм с(а == 23 006. !3а = !с а Выборочный козффициеит корреляции внутри пар ранен !3а — а, 40 2ГБ ге = — = - — .
— = 0,47. !4а + 0а 86 228 Выборочные дисперсии указаны в таблице: Число степе- Оценка кеа свободы ! дисосрсик Сумма каадратоа ! !3а = 63 222 ! ()а = 23 ООБ ат = !80Б а3 = Б39 Между парами Внутри пар ух=35 (,=36 == 7! ( ва = 1214 (Я =86228 Накоисц, 1806 г' = — =-. 2,83. 639 ' 11ьс) огп Е., Вегеьп1 О. ппб Оь11егь Оо Кейп!в!!опвгьЬ!8- )сс!! цпб Гго18огньпшаь!оп с)сг шзша1(снеп Сепць1 — 1шай!пь)зсЬо!Ье топ )эгозоркнем Ъу!1Ьс1ш Воцх' Агс)цси Гпг Кптьчсй)пашвшесньп!Ь с(ег Огньтпвшеп, 21!4 (1949), 31. 20 В. л. аак дер Варден - 1озт 5 59. Общие принципы. Наиболее нощные критерии 307 Следовательно, различие между классами значительно больше, чем внутри классов.
!ело-ная граница для Р равна 221. Таким образом, нет оснований утверждать, что колебания длин вызываются резличием размеров обеих пересаженных половин. Е, ДАЛЮ!ЕПШИЕ ПРИЛОЖЕНИЯ Метод дисперсионного анализа применим и к более сложным случаям.
Например, может оказаться, что пг наблюденных величин хм разбиваются на классы не только по строкам, но и по столбцам, и при этом требуется узнать, сколь существенно различие не только между строками, но также и между столбцами, Однако для того, чтобы в подобных случаях можно было применить критерий У, нужно сделать дополнительные предположения о распределении х,„, Так, например, в нашем случае нужно предположить, что случайные величины хм представимы в виде сумм х,к = ае + Ьа + г,а, где гм — независимые, нормально распределенные случайные величины с нулевым средним значением и одинаковыми дисперсиями. Дальнейшее изложение намеченных здесь основных идей можно найти в соответствующей литературе, например, В13Ьег В. Л., ТЬО Т1ев(йп ог" Вхрегнпеп1в (011уег апт1 Воус(, 1935) или КепзрЕЬогпе О,, ТЬе Юеяцп апс1 Лпа1уяз ОГ Ехрег(шеп1з ()ОЬП 1т'11еу апс( Вопя, 1952), ьч 59.
Общие принципы. Наиболее мощные критерии А. Основные пОнятия С общей точки зрения вопросы проверки статистических гипотез были рассмотрены Нейманом и Е. Пирсоном'. В этом параграфе мы постараемся изложить основные идеи их исследования. Возможные результаты эксперимента можно изобразить в виде точек Х некоторого пространства В. При этом безразлично, заполняют ли возможные точки все пространство или они могут попадать лишь в отдельные точки, принадлежащие В (например, в целочисленные точки). Эксперимент используется для проверки некоторой гипотезы Н.
Пусть РВ = Р(В~Н) — вероятность, соответствующая произвольной измеримой области В из пространства .Е, вычисленная в предположении, что пшотеза Н верна. Эту вероятность можно ' В первую очсрель см. 'Ч е угони д. апд Р с ах в оп Е. 9., РЫ1. Тгшш. Ноу. Вос. Т ош1оп, А 231 11932), 332. 20» 308 Гл. ХЕ. Лровврка гипотез с аомощою сталшстичвскик критериев получить суммированием вероятностей, соответствующих отдельным точкам из В или интегрированием плотности вероятности по области В.
Основой всех критериев является принцип, согласно которому гипотезу П отвергают тогда, когда наблюденная точка принадлежит некоторой определенной критической области Г. Область У выбирается таким образом, чтобы вероятность Р()г~Н) была мала. Иными словами, долмсно выполняться неравенство РР'! Н) Ф. где ф — заданная допустимая вероятность ошибки (например, 0,05 или 0,0!). Спрашивается, чем же нужно руководствоваться при выборе области Р? Ведь по задашюй вероятности р область Р определяется неоднозначно! Для ответа на этот вопрос введем понятия ошибок первого и второго рода.
Ошибка первого рода возникает тогда, когда отвергается правильнал гипотеза. Как уже сказано, вероятность ошибки первого рода не превышает )3. Если бы принималась во внимание лишь ошибка первого рода, то выбор Р был бы в значительной степени произвольным. Может даже возникнуть мысль, что в качестве Р удобно выбрать пустое множество: ведь в этом случае вероятность ошибки первого рода была бы равна нулю! Почему же так не поступают? Да потому, что имеется возможность совершить ошибку второго рода. Оишбка второго рода возникает тогда, когда не отвергается ложная гипотеза. Если гипотеза Н является ложной, то, вообще говоря, легко может случиться, что наблюденная точка не попадет в область Р и, следовательно, гипотеза П не будет отвергнута.
Однако этого нужно, по возможности, избегать. Целью эксперимента является решение вопроса, правильна илн ложна гипотеза Н, поэтому критерий должен быть устроен так, чтобы гипотеза Н, но возможности, не отвергалась в том случае, когда она правильна, и чтобы она отвергалась, когда она ложна. Таким образом, следует стремиться к тому, чтобы вероятность ошибки второго рода бьыа возмозсно меньше Но возникает новая трудность, связанная с тем, что вероятность ошибки второго рода нельзя указать заранее.
Эта вероятность зависит от того, какая гипотеза Н' является правильной, вместо ложной гипотезы П. Сначала мы предположим, что имеется лишь одна альтернативная гипотеза Н'. Мощностью Ем некоторого определенного критерия относительно гипотезы Н' называют вероятность отвергнуть гипотезу Н, когда верна гипотеза Н'. Р' = Р'Р = Р(Р!11') д 59. Общие арикциаи. Наиболее мощкие критерии 309 Если гипотеза Н' является правильной, то вероятность не отвергнуть Х (т.
е. вероятность сшибки второго рода) будет равна ! — Р', Эта вероятность должна быть возможно меньшей, следовательно, мощность Р' нужно сделать возможно большей. Если среди всех критериев, удовлетворяющих условию РР-:Р, данный критерий имеет наибольшую мощность Р', то он называется наиболее мощным критерием относительно, альтернативной гипотезы Н', Возникает следукнцая задача. Пусть заданы две функции множеств РВ = Р(В~ Н) и Р'В = Р(В~ Н'), удовлетворяющие аксиомам теории вероятностей и определенные па всех измеримых множествах из пространства Ж Требуется найти такую область 1', для которой Р'Р' будет наибольшей при условии, что РР м:ф, (1) Решения этой задачи в непрерывном и дискретном случаях требуют отдельного изложения.
Б. СЛУЧАЙ НЕПРЕРЫВНОГО РАСПРЕДЕЛЕНИЯ Пусть .Š— пространство непрерывно меняющихся переменных х„..., х„или часть этого пространства. Предположим, что обе функции множеств Р н Р' определяются непрерывными плотностями г(Х) = Дхь..., т„) и д(Х) = д(х,...,, х„). Если в некоторой части Т пространства Ж функция ~ равна нулю, то мы можем, не нарушая условия (1), обьединить Т с е'. От такого увеличения области Р мощность Р'Р может лишь увеличиться. Следовательно, мы можем рассматривать лишь дополнение множества Т, равное разности  — Т, На множестве Ж вЂ” Т функция 1 не равна нулю, поэтому Н = Н(Х) = ' (2) является непрерывной функцией от Х. Прн любом положительном г событию Н( о в поле Р соответствует определенная вероятность ~(Р) = Р(Н с Р) = Р(д ( Р 1).
(3) Мы предположим сначала, что 1 — Р принадлежит множеству значений функции распределения б(Р), т. е. найдется такое положительное Р, что Р(д < Р 1) = 1 — )у, следовательно, (4) Р(д Ру) = 1у. 310 Гт Хд Проверка гикотег с иоиогиью статистические критериев В таком случае область Г, определяемая неравенством д о1 клн — *о.
д ! является решением нашей экстремальной задачи. Действительно, эта область, в силу (4), удовлетворяет условию (1). Если ед — любая другая область, также удовлетворяющая условию (1), то можно показать. что Р' )У т Р' У. Рис. 29. Пусть Ю вЂ” пересечение областей Г и )У (рнс. 29) и пусть У=.0+ А, И' =В+В. РУ =Рй+РА=ф н Р)У =РО+РВтф, то РА'= РВ или, что то же самое, ~У,(Хт ~У (Х, (5) Но А принадлежит У, поэтому для всех точек Х множества 4 справедливо неравенство ди. о/. Следовательно, Р' У = Р' В + Р" А = Р'В + ~ д ЫХ Р'В + ~ 4 гХ. Таким образом, А представляет собой ту часть области У, которая не пересекается с )У, а  — часть области )Г, которая не пересе- кается с У.