XVII Математическая статистика (1081432), страница 47
Текст из файла (страница 47)
Определим наблюдаемые случайные выборки Х„, = (Хм ..., Х ) и У„= (Уы ..., У„) следующим образом: Х;=6 +;, '=1,, б ЕВ, У =В„+е +., 3=1,п, д„ЕЕ, где д и д„— неизвестные параметры сдвига. Функция распределения случайной величины Х; равна г (х;д ), 1 = 1, т, а функция распределеняя случайной величины У равна Цх;д„), у = 1, и.
Обычно случайную выборку Хм ..., Хн называют конгпрольной выборкой (или выборкой иэ контрольной совокипноспьи), а Ум ..., ӄ— рабочей или экспериментальной выборкой. Например, Хм ..., Х могут быть измерениями некоторой характеристики иэделия, изготовляемого по традиционной технологии, а Уы ..., ӄ— по новой экспериментальной. На практике исследователей обычно интересует неизвестный параметр (9.30) представляющий собой сдвиг в положении, обусловленный переходом на новую технологию.
Задачу проверки статистической еииотеэм Нд. д = де против одной из альтернативных гипотез Н1, д < до, Нэ. В > бо 389 9.2. Даухвыбарочназ задача о сданта Хм ..., Ха, У» — т, ..., У„ — т и рассмотрим статистику ЪЧ(т) = ~~» В'(Х,У„), 1=» (9.31) называемую стотистпикой рамеое Вилкоксома или ромеоеой с»патпистпикой Вилкоксомо. Значения ш(т) случайной величины У~(т) — целые числа в диапазоне от п(п+ 1)/2 до ти+ п(п+ 1)/2. Рассуждая так же, как н выше (см. 9.1), убеждаемся в том, что если д„— 9 = 9, то функция распределения случайной величины Р~(т) зависит лишь от разности 0 — т, н, в частности, распределение случайной величины И'(в) не зависит от д.
Обозначим через И~„— квантиль уровня у распределения И"(д) нри дя — 9 =9, т.е. нли Нз. д ф бв называют двухеыборочмой задачей о сдв иве. Таким образом, задачи, рассмотренные в примерах 4.25, 4.26, 9.1 а также задачи 4.32, 4.33 являются частными случаями двухвыборочной задачи о сдвиге. Заметим, что если случайные величины е; имеют нормальное распределение, то нормально распределены и случайные величины Х;, 1= 1, т, 1'-, у = 1, п. Поэтому решение двухвыборочной задачи о сдвиге может быть получено при помощи критерия Стьюдента (см. пример 4.14). При решении задач проверки гипотезы Нв против одной из альтернативных гипотез Нм Нз, Нз, а также при построении п»очечной и интпервальной оиенон для д применяется та.же схема, что и в случае одновыборочной задачи о сдвиее (см.
9.1). Для произвольного т Е 1ч обозначим чери» Н. (Х,У ) ранг элемента Уй — т, у = 1, и, в объединенной случайной выборке 390 о. НЕПАРАМЕтРИЧЕСКИе метОдЫ СТАТИсТиКИ Эмпирическое обоснование деухеыборочноео критерия Виякоксона для проверки осмовной еииотезм Но против одной из альтернативных гипотез Ны Нз, Нз состоит в следующем. Чем больше д в (9.30), тем более вероятно, что значения ум ..., у„случайных величин Уы ..., У„превысят значения хм ..., х случайных величин Х~, ..., Х . Следовательно, при больших д ранги й.
(Х,У„), у = 1, и, а вместе с ними и И~(до) при фиксированном до, имеют тенденцию принимать большие значения. Напротив, при д < до значения случайных величин Уы ..., У„в основном меньше, чем значения случайных величин Хм ..., Х, что приводит к небольшим значениям случайных величин В (Х,У„), у = 1, и, а следовательно, и к небольшим значениям ю(до) статистики И'(до). После этих наводящих соображений определим двухвыборочный критерий Вилкоксона.
При проверке гипотезы Но против Н~ на уровне значимости о при помощи двухвыборочного критерия Вилкоксона основную гипотезу Но нужно принять, если то(до) > И'1 и отклонить, если ю(до) < И'1- где И~~ — квантиль уровня 1 — о распределения И~(до) при истинности основной гипотезы Но. При проверке Но против альтернативной гипотезы Нз гипотезу Но следует принять, если ю(до) > И', и отклонить при ю(до) < И' . При проверке Но против альтернативной гипотезы Нз гипотезу Но принимают, если И~*~з < ю(до) < гг1- 1з и отклоняют в противном случае. 391 НЗ. двуявыоорочиав эадача о сдвиге аь п У(г) =ЕЕЧ(у -Х;-т) = 1=1 1=1 Фйв та = ~~1 ц($гь — г) = ~~1 11($1ц) — т), (9.32) а=1 Ив1 где 11 — футпсцил Хевисайда, Ь1, егз, ..., Ъ' „ — последовательность всевозможных разностей вида Уу — Х;, 1= 1, га, у = 1, и, а $'111, $«з1, ..., Ъ~ „1 — вариационный ряд случайной выборки" е1 ез~ ...~ Иав Можно показать, что статистики %(г) и 1Л,т) отличаются на неслучайную величину И (.) = И(.)+"'"'".
2 (9.33) Поэтому, во-первых, квантили И' и Г„статистик Иг(д) и У(д) при д„— д = д связаны равенством п(п+ 1) И' =Г„+ (9.34) а во-вторых, у статистики %(т), так же как у статистик Б(т) н Т(т), есть считающая форма (9.32). Если т и и велики, то можно вычислять квантили Иг по приближенным формулам. Известно, что если пэ и и стремятся к бесконечности так, что т/(т+ и) -+ Л, 0 ( Л ( 1, то для любого 1 б яе 'Сма Хевнвманевереер Т. В некоторых справочниках приведены квантили не статистики рангов Вилкоксона (9.31), а квантили севапаисевнни Манна — 3гнегянн У(г), которал определяется следующим образом: 392 Н НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ где математическое ожидание МлИ'(9) и дисперсия ПяИ'(д) статистики И'(9) определяются по формулам Мя И~(И) =, Вл И'(9) = .
(9.36) 2 ' 12 Позтому п(т+ и+1) тп(т+ и+1) и 2 +и (9.37) 1Г ~~ (авв) + 1 (т» ))1 тп четиое1 (9.38) '(=-) тп — нечетное. 2 Й(Х,У„) = При построении интервальной оценки для параметра д в двухвыборочной задаче также сохраняется схема, использовавшаяся в одновыборочной задаче (см.
9.1). Для статистики Манна — Уитни Рбо (Кю/2 ~~ 17(90) ( 171-ю72) = 1 — о. Из определения Щт) в (9.32) следует, что чо(т) является не- возрастающей кусочно-постоянной функцией от г, убывающей где и — квантиль уровня 7 стандартного нормального распределения. Так же как и при построении точечных оценок в одновыборочной задаче (см. 9.1), значение д оценки Коджеса— Лемана В(Х,У„) параметра д = ΄— О в двухвыборочной задаче определяется как такое число 9, при котором для выборок хм ..., х, уы ..., у„достигается максимум значений ю(9) статистики И'(д) или, что то же самое, значений и(9) статистики 17(В). Рассуждения, аналогичные рассуждению при построении оценок Ходжеса — Лемана в одновыборочной задаче, приводят к тому, что 9(Х,У„) — медиана вариационного ряда Ъ'П1, У12р ..., У1 „1..
393 9.2. Двухвыоорочивв задача о сдвиге скачками в точках о(з), й = 1, шп, и равной озп — ( на полуинтервале (п(0, о(;+И), 1 = 1, тп — 1, где кч — значение К, з = 1, тп. Поэтому доверительный интервал уровня доверия 1 — о определяется либо неравенствами (9.39) е(ь' ) < о < 1'( +1-(у ) либо неравенствами (9.40) 1(во+4-У~ )з) ~( 6 < рЬ1-ар) Используя в неравенствах (9.39) и (9.40) квантили статистики Манна — Уитни, которые выражаются через квантили статис; тики Вилкоксона по формуле (9.34), получим еще два представления доверительного интервала: 1г(и, е(в+11) < () < $'( +е(ее11 и, ), (9.41) $~ +~я+ 1 „< () < е'( «(ее11 . (9.42) Пример 9.4.
Рассмотрим выборку объема т = 6 3,9; 4,3; 4,4; 4,6; 4,9; 5,8 из генеральной совокупности Х и выборку объема и = 5 7,7; 8,1; 8,3; 8,6; 8,9 из генеральной совокупности У. Предположим, что функции распределения генеральных совокупностей Х и )' отличаются лишь сдвигом на неизвестную величину д Е К. Проверим на уровне значимости о = 0,05 гипотезу Не.
() = ()о при ()о = 3 против альтернативной гипотезы Нэ.' д < ()о. Объединим обе выборки и построим вариационный ряд объединенной выборки, предварительно вычтя иэ всех элементов 394 Я. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ второй выборки до = 3: 3,9; 4,3; 4,4; 4,6; 4,7; 4,9; 5,1; 5,3; 5,6; 5,8; 5,9. Из зтого варнационного ряда находим последовательность зна- чений рангов Вз~(Х,У„), ..., Вз~(Х,У„) злементов второй вы- борки в объединенной выборке: 5; 7; 8; 9; 11. Затем по формуле (9.31) получаем ю(де) = то(3) = 40, а по таблицам распределения статистнки гУ(3) при т = 6, и = 5 находим Рз(И'(3) > 39) = 0,063, Рз(И'(3) ) 40) = 0,041, Рз (И'(3) > 41) = 0 026.
(9.43) Таким образом, квантили И"е,ея при т = 6, и = 5 не существует. Из (9.43) видно, что Не отклоняется на уровне значимости о=0,041 в пользу Н~. Чтобы найти значение д оценки И(Х,У„) Ходжеса — Лемана для параметра сдвига д, рассмотрим вариационный ряд У(ц, У1з1, ..., У1 „1 для последовательности разностей Уу — Х;, который в данном случае имеет вид — 2,00; -1,50; -1,30; -1,20; — 0,80; — 0,70," — 0,20; -0,10; -1,20; — 0,70; -0,10; — 1,00; -0,40; 0,50; Так как гоп = 6 5 = 30, то выборочная медиана вариационного ряда У1ц, У1з1, ..., У1 „1 есть 1 -0,7 — 0,8 д= -(о1щ+о(щ) = ' ' = — 0!75. 2 2 -1,70; -1,00; — 0,70," 0,20; — 1,60; -1,00; — 0,50; 0,20; — 1,40; — 0,90; — 0,40; 0,70; — 1,30; — 0,80; -0,30; 1,10. 395 9.3.
Решение типовых примеров При построении доверительного интервала для д уровня доверия 1 — о = 0,95 нужно найти квантиль И' ~з или ФР1 7з, где о = 0,025. Из (9.43) видно, что нельзя построить доверительный интервал при о/2 = 0,025, но можно при о/2 = 0,026. Так как И'1-е,озе = И'о,ет4 = 41, то из (9.43) получаем пэп+1+ — $У1 ~з — — 30+ 1+ 15 — 41= 5, п(п+ 1) 2 %- (з— п(п+ 1) 2 = 41 — 15 = 26. Поэтому используя вариационный ряд $~~ц, 1~1з1, ..., 1'1 находим и1И = -1,4, о1зе1 = 0,2. Отсюда и из (9.42) вытекает, что с вероятностью 0,949 1 00 < в < Ъ 126) т.е.