4. Математическая статистика. Ивченко_ Медведев (1984) (1186157), страница 31
Текст из файла (страница 31)
л(лз — 1) ~,р ' ' и(иа — 1) л; з'= ! г=! совпадение которых с (3.31) нроверяют непосредственно. Величину р называют глштистикой Спармена, а критерий проверки гипотезы Нм основанный на этой статистике, — критерием Сиирменл. 132 Таким образом, р-линейная функция рангов Тп Часто используют также формулы Исследуем некоторые свойства этой статистики при гипотезе Н,. Мнохгество рангов (Тр, ..., Т„) — эта некоторая перестановка (1, ..., и), н интуитивно ясно, что при гипотезе Нр все и! таких перестановок равновероятны.
Поэтому л ЕТ?= 7 !— ъч . (и — 1)! и+1 и! г=! н нз (3 32) имеем л н — — ст] р. 6 и (лз — 1),.ы с=! Лналогнчпо можно найти пр= !?(и — !). (3.33» Прн полном соответствии рангов ()?г=5н !'= !. , л) р= 1, э прн противоположных рангах (Т;=и — з+1, р=1, ., и» р= — 1, вообще, — ! ~р --.!.
Значения р, близкие к крайним, рассматривают как свидетельств?нацие против гипотезы Нр, поэтому критичесиую область критерия Спирмепа задают в виде зг з„= [! р [»е 1„(л) !. Для определения числеинога значения крнтическо8 границы ! (и) при заданных объеме выборки и и уровне значимости а используют таблицы табулировэнного распределепая статистики р.
рассчитанные для л=2, ..., ЗО. При больших и можно воспользоваться приблизкениым распределением. Известно [1О, с. 644], что Ж(»сир' Н,) лр"'(О, !) прн и-«аа. Отсюда следует, что если выбрать !н(и)=с„»'л, !де Ф( — га)=а,'2, то прн больших и Р (Рем Тра [Не)=1'()' и ' р, 'сага,' Нр) — 2Ф ( — сг,) =а, т. е. уровень значимости критерия приблизительно равен а, 3.
Критерий Кендалла. Другой нзвестныа рэнговыа критерий предложен Кендаллом и основан на' статистике т= „чах з!8п(Т; — Т;), ты 'е . где з!8па 1, если а)0, и з!8па= — 1, есчи а(0. Известно [!О, с 643[, что Е (т [ Нр) =О„П (т ! Нр) = 2 (2и +5)г[зи (л — ! )) н Ж (т ! Нр) и у (04?(9л)) прн л -«о». Отсюда следует, что при больших и критическую облэсть следует выбРать в виде бе!а=[! т [»п2гае(3 Гги)[, Ф( — га)=а!2 Статистики р н т имеют разную форму, однако они сильно коррелиро- ваны; если гипотеза Нр истинна, то [10.
с. 683[ >сост [р, т) = Ьн = = 2(л+1)?»' 2и(2л+5). Функция Дл убывает от 1 при л=2 до минимального»качения 0,98 при и=5 й затем возрастает до 1 при а — «о», т. е. критерии Спнрмена и Кен- далла асимптотически эквивалентны. Я 3.6. Гипотеза случайности В различных статистических задачах исходные данные Х=(Х„..., Х„) часто рассматривают как случайную выборку из некоторого распределения Ж(ь), т. е. считают компоненты Х! вектора дайных Х независимыми и одинаково распределеннымн случайиымп величинами. Как правило, зто предположение оправдано и вытекает из самого характера задачи, но иногда оио нуждается в проверке.
Математически задачу можно сформулировать следующим образам: проверить гипотезу д/«. .Рх (х) = г' (х»)... г (х„), х = (х1, ..., х«), где с' (х) — некоторая функция распределения. Такую гипотезу называют гипс)невой слу- чайности. Критерий согласия для проверни этой гипотезы можно построить, исходя нз следующих соображеняй (далее предполагает- ся, что вектор Х имеет непрерывное распределение). Если гипотеза случайности действительно имеет место, то ком- поненты вектора Х «равноправньа> и поэтому данные не должны быть ни в каком смысле упорядочены. Другими словами, ситуа- цию, соответствующую гипотезе Н„можно охарактеризовать как «полный хаос», или «полный беспорядок».
При отклонениях от Н, исходные данные имеют тот или иной порядок, проявляются связи. Следовательно, критерий проверки Н, можно построить на основании статистик, измеряющих степень «беспорядка» исходных данных. Одной из таких статистик является число инверсий в выборке. Эта статистика определяется следующим образом.
По- строим вариационный ряд Ха!«...Х,„! выборки Х=(Х1, ..., Х„). Говорят, что компоненты Х, и Хг образуют инверсию, если 1</, но Х! стоит правее Х/ в вариационном ряду, т. е. наблюдению с меньшим номером соответствует большее значение. Пусть»1!— число инверсий,' образованных компонентой Х! (в варнационном ряду левее Х; стоит !)! элементов выборки с ббльшими номерами), 1=1, ...„и — 1. Тогда. Т„=Т,(Х) жЧ«+...+«) 1»-общее число инверсий для выборки Х. Статистика Т„является естественной мерой «беспорядка» среди наблюдений, и ее можно использовать для проверки гипотезы Н,.
Крайние случаи, когда вариацнонный ряд имеет вид Х,<Х,«...Х„илн Хл<Х„1<... =Х„ естественно рассматривать как свидетельства «полного отсутствия беспорядка», т. е. противоречащие гипотезе Н,. В первом случае статистика Т„принимает минимальное значение, равное О, а во втором случае она максимальна и равна (и — 1)+(и — 2)+... ...+1=и(п — 1)/2.
Таким образом, слишком малые значения Т„ н слишком большие (близкие к (и — 1)/2) естественно рассматри- вать как критические для гипотезы Ны Чтобы определить число- вые характеристики этого критерия, найдем распределение ста- тистики Т„„при гипотезе Н,. Из соображений симметрии ясно, что при гипотезе Н, любое из п1 относительных расположений элементов выборки в соответ- ствующем вариацнонном ряду имеет одинаковую вероятность 1/п1 Введенная случайная величина п» определяется расположением компоненты Х! по отношению к Х;,1, ..., Х, в вариацнонном ряду н не зависит от относительного расположения последних между собой, т.
е. «1! прн любом 1=1, ..., п — 2 не зависит от «1!«1, " «1,-! Таким образом, »11, " . !1„1 взаимно независимы. Далее, «1! может с одной н той же вероятностью 1/(и — 1+1) принимать значения О, 1, ..., и — 1, поэтому ее производящая функция имеет вид « — ! !г а!(г)= ~) Р(»1!=с)г'= . (1+г+...+г '), г О а производящая функция статистики ҄— внд г — ! г! — ! Ф„(г) = ~~ Р(Т„=г)гг =Д !р!(г) = —, И(1+г+...+г').
г 1= ! г=! Отс!ода имеем: Еч! =«2! (1) = —, 1)!1, = ~рг (1)+ Е«1, — (Е!)!)' = !2 « — ! л — ! у и (и — », ~! 2«» ~зг!~ — Эп С.~ 4 ' " .~ 72 1=! Итак, среднее значение статистики Т„прн нулевой гипотезе совпадает с серединой промежутка 10, п(п — 1)/21, и в критическую область ч7 »„следует включать все целые точки этого промежутка, достаточно удаленные от середины, т.
е. можно положиты7 „, = =(!1 — п(п — 1)/4(- 1 (п)) (в данном случае 1 (возможное значение статистики Т„) пробегает все целые точки О, !, ..., и (и — 1)/2). Границу 1„(н) при заданном уровне значимости а выбирают из условия Р(2'„«цех !«~Н,) <а нли, что эквивалентно, из условия Р (Т« ~ «г 1а 1Н«) = =Р~ ~ » 1.(п)=Т.~ ~";»+1.(пНН«)==1 а (1, (и) — это минимальное число, удовлетворяющее данному соотношениюю). Раскладывая функцию Ф„(г) в ряд по степеням г и вычисляя коэффициент при г', можно вычислить вероятности Р(Т«=с ~ Н«) прн заданном и и любом г и использовать их для нахождения критической граинцы /„(и).
Распределение статистики Т„протабулировано для значений п =2, 3, ..., 12 (21. Для больших объе»!ов выборки и применяют простой асимптотический вариант этого критерия. Используя производящую функцию Ф„(г), можно показать, что характеристическая функция нормированной статистики ТК = (҄— и (п — 1)/4) (6/п»!») сходится при п- сх» и любом конечном 1 к е — пн — характеристической функции нормального распределения. Зто означает, что Х(Т„"~Н«) — !- -».в:Ф" (О, 1) прн и-!-со. Последний результат дает возможность построить следующее правило проверки гипотезы Н„когда и велико: 'для заданного уровня значимости а определяют число /„из условия Ф ( — / ) =а/2; по фактически наблюдавшимся данным х=(х1,..., х,) вычисляют зна- кениг1=Т„(х) числа инеерсийв выборке; если ~1 — п(п — 1)/4~6/и !«) 1„, пю гипотезу Н«отвергают как противоречаи4ую исхсдныч данным; в противном случае признают, что гипопмза независимости а одинаковой распределенности наблюдений с«мласуется с опытными данными.
Вероятность опшбочно отвергнуть прн зтоы истинную гипотезу гга равна Р,'1т„— ~~ —,.—,= (.„~на!„=„.И ( — (ч)= . п(п — !) ! 6 и ' Это правило можно использовать уже при л ~ 10. гт/ '- . дп,9",с "--'-'-- ' У" чайного вектора, все 8 компонент которого в независимые одинаково распреде'ч( « . Ср леомые случайные величины? 9..Среди 2020 семей, имеющих двух детей, 527 сеней, в которых два мальчика; н 476 †д девочки (в остальных 1017 семьях дети разгюго пола). ьу- Можно ли с уровнем значимости 0,05 считать.