4. Математическая статистика. Ивченко_ Медведев (1984) (1186157), страница 25
Текст из файла (страница 25)
е. А=Х-'(У вЂ” 1). Таким образом, Х„' совпадает с квадратичной формой ()„в соотношении (3.6). И На практике предельное распределение т» (У вЂ” 1) можно использовать с хорошим приближением уже лри и--50 и ~~~5. Прн выполнении этих условий в соответствии с теоремой 3 ! кри- тическую границу /„ выбирают равной )(! «, м-1, т. е. (1 — !х) квантили распределения )(»(У-1).
Действительно, в этом случае Р(Х„'~«У ь„)!Н»)/ Р(Х„'~71 „, к !! Н») 1 /»к !(х)Ах=с! «! .М вЂ” 1 (здесь йм,(х) — плотность распределения т»(У вЂ” 1)). Таким образам, критерий согласия т» имеет следующий вид: пусть заданы уровеиь ачачимости а и обеем выборки и и наблюдавшиеся значения Ь=(/1„..., /»к) вектора частот ч=(ч», ..., чм) удовлгтеорюат условиям п=-50, Ь/~5, /= 1, ..., У; пиеда если наблюдавшееся значение 1= Х„' (Ь) статистики (3.5) удовлетворяет неравенству 1= х1 —, и-1, то гипса»езу Но отвергают; в противном случае гипотеза Н, не противоречит результатам иепьапапий. Сделаем несколько общих замечаний. Критерий согласия т» применяется в тех случаях, когда в каждом опыте наблюдается одно из У несовместных событий А„..., Ам и заданы частоты появлений этих событий в п испытаниях (говорят также, что наблюдается дискретная случайная величина, принимающая У различных значений).
Если же выборка имеет непрерывный закон распределения, то, применяя предварительно метод группировки данных, приходят к рассмотрению дискретной схемы, в которой в качестве событий Ат рассматриваются события (с ен 81), где о1, ..., Жм — интервалы группировки. Недостатком метода является то, что группировка данных по классам (интервалам) приводит к некоторой потере информации. Кроме того, остаегся еще вопрос о выборе числа интервалов У и длине самих интервалов Жм (Более подробно эти вопросы освещены в [1О, гл.
30].) Однако критерий х' имеет и некоторые достоинства: лри его применении нет необходимости учитывать точные значения наблюдений (бывают случаи, когда исходные статистические данные носят не числовой характер; см. пример 3.7). Несомненным преимуществом этого критерия является ега универсальность. Приведем несколько примеров применения критерия х". Пример 3.5.
При и= 4040 бросаниях монеты Бюффон получил й1 =2048 выпадения «герба» и й,=п — /»1=1992 выпадений решетки. Проверим, используя критерий т», совместимы ли этя данные с гипотезой Н, о том, чта монета была симметричной, т. е. что вероятность выпадения «герба» р=1/2. Здесь У 2, р," = р= 1/2, р1= 1 — р = д= 1/2 н из (3.5) имеем 1 = Х,*(Ь) = = (/!! — пр)'/(пр) )-(й, — пд)»/(пд) =(/1! — пр)'/(прд) = 0,776. Пусть уровень значимости и был задан равным 0,05. По таблицам распределения т» находим т1,»»; ! = 3,841. Сравниваем полученное значение 1 с табличной величиной твл»; !. Так как 1()11,»», 1„то делаем вывод, что данные не противоречат гипотезе.
Рассмотрим пример 113, с. 459], когда гипотетическое распределение является непрерывным. Пример 3.6. Наблюдались показания 500 наугад выбраниых часов, выставленных в витринах часовщиков. Пусть ! — номер промежутка от !'-го чася да (!'+1)-го, 1=0, 1, ..., 11, а /11 —.
число часов„показания которых принадлежали 1-зчу промежутку. Результаты наблюдений оказались следующими; 0 ! 2 3 4 5 6 7 8 9 10 1! Всего Ь! 41 31 54 39 49 45 4! 33 37 41 47 39 и=500 Согласуются ли эти данные с гипотезой Н, о том, что показания часов равномерна распределены на интервале (О, 12)7 Здесь ЛУ=-!2 и, согласно гппотезе Но, ру=" =рта=)П2. Отсюда значение статистики Х„' (!1) = ~' (йу — пру)*,'(пР,") =10,000. /=.
! По таблицам распределении у' находим )у!,зз, !! = 19,675, поэтому следует признать, что согласие предположения с опьппыми данными хорошее. Пример 3.7 !10, с. 563!. В эксперьгментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглычи желтыми семенами и растений с морщинистыми зелеными семенамн. Эти данные и значения теоретических вероятностей, определяемые в соответствии с теорией наследственности Менделя, приведены в следующей таблице: Частота Вероятность "у Сенана 3!5 9/!6 1О! 3/!6 108 3/16 33 1/15 Кругтые н желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые 112 Следует проверить гипотезу Н, осогласовании частотных данных с теоретичсскими вероятностями.
Здесь Х„'(Ь) =0,47. Из таблиц распределения )(з следует, что при любом уровне значимости а==0,90 критерий у' не отвергает гипотезу, и.чи, другими словами, между наблюдениями и гипотезой имеется очень хорошее согласие. Для критерия у' можно исследовать предельное при л-ьоэ поведение мощности при произвольной альтернативе. В рассматриваемой методике гипотезы характеризуются вектором р = =(Рт..., Рл) веРоЯтностей, с котоРыми поавлаютса в каждом опыте события А„..., Ал,, поэтому для функции мощности будем использовать обозначение )р" (р), а о соответствующей гипотезе будем ~оворить для краткости как о гипотезе р.
Чтобы подчеркнуть зависимость функции мощности от объема выооркп, будем писать )ута(р). Исследуя асимптотические свойства критериев (т. е. поведение г! уикций мощности при л -~ ж), прежде всего рассматривают вопрос, является лн критерий состоятельным. По определению, критерий называют согпзэлупгльууьыу, если при у!-~от! )зт, (Р)- 1, 'чг я Н,. Состоятельносгь критерия означает, что с ростом числа иабчюдеипй он позволяет с вероятносгью, близкой к 1, «улавлпваты любые отклонения от основной гипотезы.
В частности, состоятельный критерий является асимптотическп несмещенным !см. (3.3)1. В рассма~риваемом случае справедливо следующее утверждение. Теорема 3.2. Длл любого вглупоРа роро при и- оо функция мощности )р „(р) стремится к 1, ль е. кРгпперий уз лвлнвтя впвпзояпувльпьуч. С) Вычислим среднее и дисперсию статистики Х„т прн гипотезе р. Для этого перепишем формулу (3.5) в виде Л и Х~ = 5,' (р/ — пру)ту(лр))+2,У, (ру — пру)(р, — Ру)!Ру'+ у=! у —.. ! +п ~д (Р; — Ру)/~Рт"-. у= ! Так как Е (ч/!р) = пРу, Е !(ру — лр) ) р1 = ау(ру ! р) =пР/(1 — Ру), то и Е (Хй! ), ~з ( т)зу с ! ~~ (1 )/ (3.7) Отсюда, в частности, имеем Е(Х„'1ро)=Л/ — 1.
Этот точный результат согласуется с асимптотическим результатом теорехзы 3.1, поскольку среднее предельного распределения у'(ЛУ вЂ” 1) равно ЛУ вЂ” 1 (сз!. (1.29)1. Приведем без доказательства формулу дукпсрсии: 0 (Х'',' р) = 4 „(/7«т — /7«с!) + и — ! 1 -1-2: (3/тт — 2/7«,//ы — )тт1~)+ -„(/7~« — /7! ) (3.8) где /7з, = ~,' р„/Р," Отметим частные случая этой формулы.
Если у=! все р/ =рп т. е. дисперсия вычисляется при нулевой гипотезе, то /7«,= ~; (Р,')з-з и, в час!ности, /газ=Я . =Л', /7«т=/7з ь=-1, Рттз= у= ! и = ~,' 1/р;". В этом случае из формулы (3.8) имеем у — -- ! о!зт!а!=туз — !уьт(~ !ур,"— а — тает~.
у= ! !!3 (3.10) 114 Отсюда, в частности, следует, что Вш 0(Х'„)рь)=2(М вЂ” 1), что л ш также согласуется с теоремой 3.1. П сть теп ь у теперь р — любой вектор вероятностей, удовлетворякхций условию р~рь, Тогда) (рх — р,")'1р,')О и из формул (3.7) — (3.3) /=! ги следует, что при и- со среднее и дисперсия статистик Х* потезе р имеют порядок роста и. Отсюда на основании не а- венства Чебышева имеем овании нера- 1 — )(Г„(Р) = Р (Ха ( )1! -сс, и- ! ~ Р) = Р (Е (Хь ~ Р) — Хь ~ Е (Хй / )— — )(! а.н !/Р)~Р(/Е(Хл~р) — Хл~=- ~Е(Х~)Р) — )91 и,н-$)Р)~~ О(Х„*,рДЕ(Х~~р) — )(!,, ~,~'=ОЯ.
° 3. Критерий согласия хи-квадрат для сложной гипотезы. Метод группировки наблюдений с последующим примением крите сог ас л ия )( применим и в более сложной ситуации, когда т ебт рия ется п ове роверить гипотезу о принадлежности неизвестной функции распределения наблюдаемой в опыте случайной величины 9 задан- ному семейству функций распределения. В общем виде задача формулируется так. Пусть,T=(г(хц 9), 6 еи 8» — заданное пара'- метрическое семейство функций распределения (параметр 9 может быть как скалярным, так и векторным) и Х=(Х„..., Х,„)— выборка из распределения Ж($) с неизвестной функцией распре- деления.
Требуется проверить гипотезу Нь! 2'(6) ~ г . Таким образом, в данном случае речь идет о проверке сложной гипотезы. Пусть исходные данные сгруппированы и ч=(чь ..., чн)— соответствующий вектор частот попадания наблюдений в интервалы группировки. Составим статистику, аналогичную (3.5). В данном гипотезе Н случае вероятности попадания в интервалы группировки при по езе Нь уже не будут заданы однозначно, а представляют собой некоторые функции от параметра 9: рт (9) = Р ($ ен Жу,' Нь) = ~ бУ (х; 6), 1 =- 1, „М, в!. поэтому статистика Х„' имеет вид ХД =Хй(8) = ~~', (чу — пр, (8))'l[н)61(6)1.