Учебник_Бочаров_Печинкин (846435), страница 59
Текст из файла (страница 59)
4. Некогаорь(е задачи, связанные с нормальнь(ми еыборками функции от одной переменной д!. Уравнение (4) для определения значения д',*, доставляющего минимум Я, имеет вид 1 пд'! = 2'Х„д'*, = — ~ Х, = т*, =! =! а значение яе задается формулой Нз=~ (Х,— га). Поэтому а* .51 — (и — 2)зо* з(* = 2 — 1 и, значит, мы должны принять гипотезу Но, если м = а,"((зоь' ( р(, где зо о-квантиль Г-распределения с параметрами 1 и и — 2. 2'. Обратимся к решению задачи 3.
Оценка м" (1) регрессии к(1) имеет вид а*(Ь) = д! д дой Далее, коэффициент са(1) определяется формулой ь ь ь са(Ь) =~ (с! Я-се 1) = ~ с! +21~ с! сз ч-Ь 2 с =Ьо4.Ь(Ь-~-Ьзо . з.= ! г= ! где с(, и са найдены в примере 8. Таким образом, границы симметричного доверительного интервала доверительной вероятности о для линейной регрессии задаются выражениями. ''(~! - !! ~ К~ -Ь~ ((Л (Ь ! !, Ь05! „ 2 м (1) = д! + дог+ Г ! (и /а~~*(Ьо+ Ь(1 Ч- Ьгьг), 2 где Ь вЂ” а-квантиль 1-распределения с и — 2 степенями свободы Отметим еще один факт, который нетрудно установить простейшими вычислениями: минимальная ширина доверительного интервала (т.е.
наиболее точная оценка регрессии м(ь)) получается при ь, равном среднему арифметическому 2 ь,((г! всех моментов наблюдений 3'. Применим полученные результаты к анализу регрессии веса Хо на рост Х! мужчины (см. пример 3). Как следует из примера 9, в силу совместной нормальности Х! и Хз в данном случае можно использовать линейную регрессионную л(адель. В качестве независимой переменной выберем рост. Начнем с задачи оценки неизвестных параметров д! и да линейной регрессии и построения для них доверительных интервалов. Используя результаты примера 8, находим д! = -31,48, дз = 0,6138.
Доверительные интервалы для д! и д! будем строить при доверительной вероятности о = 0,9. В (1) на с. 178 находим значение Ьоэз = 1,6772 0,95-квантили Ь-распределения с 48 степенями свободы. Вычисления значений статистики зо* а* и коэффициентов с; и сз) (см. пример 8) дают: зо* = 23,69, с! = 12,97, сз ~= 0,0004412. Поэтому доверительные границы для д! и да имеют вид д! = -60,88, д!' = -2,08, д! = 0,4423, д!' = 0,7853. б. Регрессионный анализ 277 Язз =- 1991,0, з~* =- 853,9 и вычисляем отношение а* н = —,' = 36,0. з* зо* Сравнивая полученное значение зг с 0,95-квантнлью рою = 4,05 ((1, с. 208); поскольку значения !соэз для пз = 48 в таблице нет, воспользуемся линейной интерполяцией) Н-распределения с параметрами 1 и 48, убеждаемся, что гипотеза Но должна быть отвергнута. Наконец, найдем оценку т*(!) весах(Г) прн известном росте ! и построим симметричный доверительный интервал для л(!) доверительной вероятности а = 0,9.
Оценка л'(!) имеет внд л*(!) = — 31,48 4 0,6138 !. Вычисления дают следующие значения коэффициентов: бз = 12,9606, 51 = -0,1511, бг = 0,01045. В (1) на с !78 находим 0,95-квантнль гола = 1,6772 г-распределения с 48 степенями свободы. Поэтому доверительные границы задаются формулами: л'(!) = — 31.48 + 0,6! 38 ! — 1,6772 307,04 — 3,5?96 г + 0,01045 гз, хн(!) = — 3! 48 Ч-06138!+ 1 6772 30704 — 3 5796! д 001045гз . Графики кривых х*(т), х'(Г) и хн(т) приведены на рис. !.
, В "!нн) зо — ' — — — — — — — '. — --- — ' — — — '- пм "!м зо ! сзо кю ( гч о 1сн! мо ззэ гзО рис ! 4'. Интересно сравнить результаты корреляционного (см. пример 3) и регрессионного анализа. Оба метода отвергают гипотезу Но о независимости веса от роста. Однако в споре, какой нз двух критериев лучше: критерий, основанный на выборочном коэффициенте корреляции, нли критерий, основанный на регрессионной модели, — пальму первенства нужно отдать первому, как равномерно наиболее мощному; это естественно, поскольку он использует дополнительную информацию о нормальности независимой переменной Х~— роста индивидуума.
Далее, воспользовавшись результатом примера 9 о функциональной зависимости дз = рт(оз,гозз коэффициента дг линейной регрессии от коэффициента корреляции р и дисперсий оз, н оге и подставляя вместо р, Проверим гипотезу Но о независимости веса от роста, которую в рамках регрессионной модели сформулируем как гипотезу о равенстве нулю параметра д . Уровень значимости (размер) критерия о положим равным 0,05. Используя известное нз примера 3 значение среднего веса та* = 73,66, находим значения статистик 278 Гл. 4.
Некоторые задачи, связанные с нормальными еыборками о~ и о.", их оценки р' = 0,655, е1* =- 40,63 н е.,'* = 46,26 (см. пример 3), получаем оценку д.,* = 0,614 параметра дз, которая, как мы видим, совпадает с оценкой д."„ полученной в регрессионной модели (это можно установить и прямыми вычислениями). Однако с доверительными границами для дэ и р такая манипуляция не проходит, этому опять-таки мешает дополнительная информация о нормальности независимой переменной в регрессионной модели П В заключение этого параграфа вкратце остановимся на проолеме выбора функций г;(г).
Разумеется, нх выбор целиком лежит на совести исследователя и определяется физическим анализом изучаемого явления. Обьшно хороший результат дает линейная регрессия л(ь) = д| + деь, рассматривавшаяся в примерах. Реже используется квадратичная регрессия х(() = д ~ + дз( 4- дз$, еще реже полиномиальная регрессия более высоких степеней.
В ряде явлений, таких, как рост популяций, радиоактивный распад веществ и т. и., имеет смысл применять экспоненциальную регрессию вида а(() = д~ +дает. Часто в этом случае считают, что и дисперсия ошибок измерения е(() зависит от времени: Ое(() = аз6(6), где 6(() — известная функция, и применяют модифицированный метод наименьших квадратов, в котором сумма квадратов берется с весовыми коэффициентами.
Наконец, при исследовании закономерностей, носящих ярко выраженный периодический характер (изменчивость в течение суток, недели, года), естественно обратиться к периодической регрессии, в которой используются разложения в ряд Фурье. Впрочем, как уже знает читатель, решение задачи проверки статистических гипотез (задачи 2) в регрессионном анализе позволяет подобрать адекватную модель и избавиться от «лишних» факторов.
7. Дисперсионный анализ Задачи, которые рассматриваются в этом и следующем параграфах, дают некоторое представление о разделе матеь~атической статистики, называемом дисперсионным анализом и основанном на сравнении выборочных дисперсий. Начнем с простейшей задачи. Пусть имеется ( независимых выборок хн,..., х1„,; Хп,...,Хыы 279 7. Дислерсионный анализ произведенных из нормальных генеральных совокупностей с неизвестными средними т!,, т! и также неизвестными, но одинаковыми дисперсиями п~.
Проверяются две сложные параметрические гипотезы: основная Но. т! = ... = тт, состоящая в том, что все теоретические средние т, равны между собой, и конкурирующая Н!! некоторые теоретические средние т, могут быть различными. Построение критерия для проверки гипотез Но и Н, начнем с рассмотрения отдельных внутригрупповых вьюорочных дисперсий ти е~1,,'~ — — ~ (Хм — т,*), з=! где ! ти, .= — ~ Хгз ' з=! — выборочное среднее выборки Х,!,...,Хи, Как известно (см. параграф 4 гл. 1), случайная величина (и, — 1)зфпа имеет Хз-распределение с и, — 1 степенями свободы.
Определим статистику (т — !)зт,,! а* зо ~(тт, — 1) *=! называемую (общей) внутригрупповой или остаточной (выборочной) дисперсией. Поскольку выборки независимы, случайная величина з~а" ~ (и, — 1)т'пз также распределена по закону уз, но с числом стет=! пеней свободы ~ '(и, — !), а статистика воз* представляет собой несмет=! щенную оценку неизвестной дисперсии ттз. Обозначая через т,п, ~ ттт а=! общее выборочное среднее обобщенной выборки, образуем новую статистику з,' = ~ (т,* — т") и„ которая представляет собой межгрупповую выборочную дисперсию и не зависит от з~*.
Кроме того, при условии справедливости гипотезы Но случайная величина вз! (1 — 1)/оз имеет з~з-распределение с 1 — 1 280 Гл. 4. Некоторые задачи, связанные с нормальными выборками степенями свободы, а статистика вз!' является еще одной несмещенной оценкой дисперсии аз. Однако если гипотеза Но не верна, то в!' будет иметь положительное смещение б = Мв!' — аз гт, е, иметь нецентральное Хз-распределение), тем большее, чем больше расхождение между теоретическими средними т!,, т!, Поэтому естественно применить для проверки гипотезы Но односторонний критерий Фишера, предписывающий принять гипотезу Но, если зс =,вз!'/в~~' < С. Статистика яс при условии справедливости гипотезы Но, как уже не раз говорилось, имеет Е-распределение, а значит, при заданном уровне значимости о критическое значение С совпадает с 11 — о)-квантилью ьа! й-рас! пределения с параметрами 1 — 1 и ~ '1п! — 1) [1, табл.
3.5). !.=! Можно показать, что критерий Фишера является равномерно наиболее мощным несмещенным критерием для проверки гипотез Нс н Н!. Практическая реализация критерия происходит следующим образом. Сначала вычисляют внутригрупповые выборочные средние т,' и общее выборочное среднее т . Затем находят внутригрупповую и межгрупповую выборочные дисперсии в~о* и в!*. Наконец, определяют значение статистики зс и сравнивают его с соответствующей квантилью Е-распределения; в зависимости от результатов сравнения либо принимают гипотезу Но, либо отвергают ее.
Иногда полезно бывает ввести еще одну статистику ~ ~(Մ— т )е =! з=! в ! являющуюся выборочной дисперсией объединенной выборки. Тогда справедливо соотношение в *(~ и, — 1) = во х~ ьп, — 1) -1- в!'11 — 1). ч=! !=! П р и и е р 11 Для определения процентного содержания вредных примесей в минерале были взяты образцы одинаковой массы нз трех различных месторождений 3 образца из первого месторождения, 2 из второго и 4 из третьего. Результаты химического анализа 1процент содержания вредных примесей) приведены в табл. 4-6. Считая процентное содержание примесей в каждом образце распределенным по нормальному закону с одинаковой дисперсией, проверим прн уровне значимости о = 0,05 гипотезу На о том, что среднее содержание примесей во всех трех месторождениях одинаково.
281 7. Дисперсионный анализ Таблица 5 Таблица 4 Таблица 6 ~ Хп Хы Х„ 8,35 5,40 7,16 с Хд| Хз 4,52 6,24 Воспользуемся критерием Фишера. Вычислим внутригрупповые выбороч- ные средние т1 = — (8,35+ 5,40 4- 7,16) = 6,97, 3 тд =- — (4,52;-6,24) = 5,38, ! 2 тз = — (8,9! Ч-7,47 Ч-9,08+ 9,94) = 8,85 4 и обшее выборочное среднее т' = — (8,35 Ч- 5,40 Ч- ... Ч-9,94) = 7,45. 9 Найдем внутригрупповую выборочную дисперсию ео* = (((8,35 — 6,97) + (5,40 — 6,97)д+ (7,16 — 6,97)д) + -~- ((4 52 — 5 38) -~- (6 24 — 5 38) ) -~- + ((8хП вЂ” 8,85)д+ (7,47 — 8,85)д+ (9,08 — 8,85)д+ (9,94 — 8,85)д)) = 1,50 и межгрупповую выборочную дисперсию з1* —— [3(6,97 — 7,45) -1- 2(5,38 — 7,45)д + 4(8,85 — 7,45)д) = 8,54.















