Г.И. Ивченко, Ю.И. Медведев - Математическая статистика (1115270), страница 25
Текст из файла (страница 25)
Отсюда следует, что при и~20 критическую границу ! =1 (а) можно полагать равной ) ))~п, где К(Л,) =1 — а (функция К(Г) определена в (!.8ф Действительно, в этом случае Р (Я~„~ -7-,.„! Н,) = Р () п.ю. ~)„! Н,) = 1 — К ().ч) = а. Тач, 7 ="1,3581 при !х=0,05 н Х =1,6276 при а=0,01. Таким образом, при заданном уровне значим!эти а часло ).ч определяют из соотношения К(Л») =-! — и и в этом случае правило проверки гипотезы Н, имеет (при и .20) следующий внд: если наблюдав!несся значение С =.'У„(х) сглатистики (3.4) удсвлепморяет неравенству )1 п 1~)-, то гипотезу Нч отвергают; в противном случае делают вывод, что статистические данные не противоргч!ат гипотезе.
Следуя этому правилу, можно ошпбочно отклонить гипотезу Нм когда она верна, с вероятностью, приблизительно равной а. Это правило называется критерием согласия Колмогорова. Для небольших значений и точное распределение Яг„также прогиб) лировано и для расчета точных значений критической границы Г„[10, с. 6111 можно воспользоваться соответствующими таблицами. 2. Критерий согласия хи-квадрат К. Пирсона. На практике вычисление статистики „— трудоемкая задача, поэтому часто применяют другой критерий, называемый критерием 2'. Его можно использовать для любых распределений, в том числе и многомер~ых. Чтобы воспользоваться этим критерием, выборочные данные предварктельно группируют, как это описано в п. 2 $ 2.5, т. е.
переходят к частотному представлению исходных данных. Пусть ч! =- (ч„..., чн) — вектоР частот попаданиа выбоРочиых точек в соответствующие интервалы группировки Ь„..., Ем (ч,+... . +чн — — и) и рч=(р,', ..., р."ч), где р,"=Р(,' е-=Ф, (Нч), 1=-1, ... ..., Л!. В этом случае е (ч, Н,)=М(н; р') и гйпотеза Н, сводится к гипотезе о тоы, что вероятности полиномнальиого распределения построенного вектора частот т имеют заданные значения рь ) = 1, ..., Н. В качестве статистики, характеризующей отклонение выборочных данных (т. е.
частот »,) от соответствующг!х гипотетических значений (в данном случае от средних Е (су!!Н,) =ар",), принимают величину н н Х»= Х»(ч) = ~г (т! !!Р)) ) (цр1!) = „~~ т) ) (пр1) — и, (3 5) г=! П Используя формулу н! а'+" +а')" = .Х г !л:а ! а", ...а"„и яг а,+...ч вн=» (здесь суммирование производится по всем' целым неотрицатель- ным значениям (Л„..., Лн), удовлетворяющим условию Л,+... ...+йн=п), получаем, что характеристическая функция вектора ч=(ч„..., чн) при гипотезе Нч имеет вид Ее"" =(реи +... + рчеин)", 1 = (г!, ..., 1,). Введем нормированный вектор т* = (ч",, ..., тй), = (ч,— пр";)~)~п, 1=1, ..., Л!.
Имеем где М %,111-Е '"- '»'" (11-» р!! "! ' — 1!) . !=1 а критическую область задают в виде сг 1,= г!Г~! ). Точное распределение Ж(Х»'! Н,) неудобно для вычисления (при заданном уровне значимости) критическая границы Г„, но для болыпих объемов выборок и статистика Х„' имеет при гипотезе Н, простое предельное распределение, не зависящее от гипотезы (т. е.
от чисел р,"). Справедливо следующее утверждение. 1 Теорема 3.1. Если 0<р,"(1, 1'=1... М, то нри п-»оо 'ю (Х» ! Но) ! К (Л1 1). Логарифл!ируя это соотношение и применяя формулу 1п(1+в) = е — г»/2+0(е»), е- О, получаем, что при и — ».с»» и ~1( «с(оа к 1п<р,(1) = — !"7 и 1'р'+ и ~~~~~ р,'(а/'"" — 1/— /=! — У р"Р+ — ~ У рд/) +О/' —.'! = — — 1'Х1+О/ — '1, 1=1 1=1 1 р1(1 — р,') прн /=й, где Х=)о/»11' и и/»=»( 3, „.
Отсюда следует, ~ — р»р» прн /чь/г. что предел характеристической функции вектора ч' есть ехр ( — (1/2) 1'Е1) — характеристическая функция нормального за- кона е:Ф" (О, Х). По теореме непрерывности для характеристиче- ских функций отсюда имеем Х(т" 1Н»)-» « / (О„Х) при и — »-оа. Матрица вторых моментов Х предельного распределения вырож- дена. (Это является следствием того, что компоненты вектора т* ю» ~~ г.«».) г р~ 1 (У вЂ” 1)-га порядка матрицы Х(У вЂ” 1)=/а/»11 уже отличен от нуля. Таким образом, предельное распределение подвектора ч» (У вЂ” л).я» (т1,, ч~~ !) является уже йевырожденным нормайь- ным законом «р'(О, Х(У вЂ” 1)). Отсюда по теореме 1,9 следует, чта прн и-1-со ® =~ (У вЂ” 1)Е "(У вЂ” 1)т (У вЂ” 1)!Н«)-'Х~(У вЂ” 1).
(3,6) С другой стороны, из формулы (3,5) имеем И-1 х„= ~ —,(,))»= ~,(,/)»+, (,,;+.,+,7,,) 1=! /=! ч* (У вЂ” 1) Ат«(У вЂ” 1), » ! ( 1/р)+1/рм при /=й, где А = 1а/» ), и а/» = ~, . Непосредственной ~ 1/рм при /Фй. проверкой убеждаемся, чта АХ(У вЂ” 1)=Е(У вЂ” 1) А=Ем-ь т. е. А=Х-'(У вЂ” 1). Таким образом, Х„' совпадает с квадратичной формой ()„в соотношении (3.6). И На практике предельное распределение т» (У вЂ” 1) можно использовать с хорошим приближением уже лри и--50 и ~~~5. Прн выполнении этих условий в соответствии с теоремой 3 ! кри- тическую границу /„ выбирают равной )(! «, м-1, т. е.
(1 — !х) квантили распределения )(»(У-1). Действительно, в этом случае Р(Х„'~«У ь„)!Н»)/ Р(Х„'~71 „, к !! Н») 1 /»к !(х)Ах=с! «! .М вЂ” 1 (здесь йм,(х) — плотность распределения т»(У вЂ” 1)). Таким образам, критерий согласия т» имеет следующий вид: пусть заданы уровеиь ачачимости а и обеем выборки и и наблюдавшиеся значения Ь=(/1„..., /»к) вектора частот ч=(ч», ..., чм) удовлгтеорюат условиям п=-50, Ь/~5, /= 1, ..., У; пиеда если наблюдавшееся значение 1= Х„' (Ь) статистики (3.5) удовлетворяет неравенству 1= х1 —, и-1, то гипса»езу Но отвергают; в противном случае гипотеза Н, не противоречит результатам иепьапапий. Сделаем несколько общих замечаний. Критерий согласия т» применяется в тех случаях, когда в каждом опыте наблюдается одно из У несовместных событий А„..., Ам и заданы частоты появлений этих событий в п испытаниях (говорят также, что наблюдается дискретная случайная величина, принимающая У различных значений).
Если же выборка имеет непрерывный закон распределения, то, применяя предварительно метод группировки данных, приходят к рассмотрению дискретной схемы, в которой в качестве событий Ат рассматриваются события (с ен 81), где о1, ..., Жм — интервалы группировки. Недостатком метода является то, что группировка данных по классам (интервалам) приводит к некоторой потере информации. Кроме того, остаегся еще вопрос о выборе числа интервалов У и длине самих интервалов Жм (Более подробно эти вопросы освещены в [1О, гл. 30].) Однако критерий х' имеет и некоторые достоинства: лри его применении нет необходимости учитывать точные значения наблюдений (бывают случаи, когда исходные статистические данные носят не числовой характер; см. пример 3.7).
Несомненным преимуществом этого критерия является ега универсальность. Приведем несколько примеров применения критерия х". Пример 3.5. При и= 4040 бросаниях монеты Бюффон получил й1 =2048 выпадения «герба» и й,=п — /»1=1992 выпадений решетки. Проверим, используя критерий т», совместимы ли этя данные с гипотезой Н, о том, чта монета была симметричной, т. е. что вероятность выпадения «герба» р=1/2. Здесь У 2, р," = р= 1/2, р1= 1 — р = д= 1/2 н из (3.5) имеем 1 = Х,*(Ь) = = (/!! — пр)'/(пр) )-(й, — пд)»/(пд) =(/1! — пр)'/(прд) = 0,776.
Пусть уровень значимости и был задан равным 0,05. По таблицам распределения т» находим т1,»»; ! = 3,841. Сравниваем полученное значение 1 с табличной величиной твл»; !. Так как 1()11,»», 1„то делаем вывод, что данные не противоречат гипотезе. Рассмотрим пример 113, с. 459], когда гипотетическое распределение является непрерывным. Пример 3.6. Наблюдались показания 500 наугад выбраниых часов, выставленных в витринах часовщиков.
Пусть ! — номер промежутка от !'-го чася да (!'+1)-го, 1=0, 1, ..., 11, а /11 —. число часов„показания которых принадлежали 1-зчу промежутку. Результаты наблюдений оказались следующими; 0 ! 2 3 4 5 6 7 8 9 10 1! Всего Ь! 41 31 54 39 49 45 4! 33 37 41 47 39 и=500 Согласуются ли эти данные с гипотезой Н, о том, что показания часов равномерна распределены на интервале (О, 12)7 Здесь ЛУ=-!2 и, согласно гппотезе Но, ру=" =рта=)П2. Отсюда значение статистики Х„' (!1) = ~' (йу — пру)*,'(пР,") =10,000. /=.
! По таблицам распределении у' находим )у!,зз, !! = 19,675, поэтому следует признать, что согласие предположения с опьппыми данными хорошее. Пример 3.7 !10, с. 563!. В эксперьгментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглычи желтыми семенами и растений с морщинистыми зелеными семенамн. Эти данные и значения теоретических вероятностей, определяемые в соответствии с теорией наследственности Менделя, приведены в следующей таблице: Частота Вероятность "у Сенана 3!5 9/!6 1О! 3/!6 108 3/16 33 1/15 Кругтые н желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые 112 Следует проверить гипотезу Н, осогласовании частотных данных с теоретичсскими вероятностями.
Здесь Х„'(Ь) =0,47. Из таблиц распределения )(з следует, что при любом уровне значимости а==0,90 критерий у' не отвергает гипотезу, и.чи, другими словами, между наблюдениями и гипотезой имеется очень хорошее согласие. Для критерия у' можно исследовать предельное при л-ьоэ поведение мощности при произвольной альтернативе. В рассматриваемой методике гипотезы характеризуются вектором р = =(Рт..., Рл) веРоЯтностей, с котоРыми поавлаютса в каждом опыте события А„..., Ал,, поэтому для функции мощности будем использовать обозначение )р" (р), а о соответствующей гипотезе будем ~оворить для краткости как о гипотезе р. Чтобы подчеркнуть зависимость функции мощности от объема выооркп, будем писать )ута(р).