Левин Б.Р. Теоретические основы статистической радиотехники (3-е издание, 1989) (1141996), страница 67
Текст из файла (страница 67)
Для однородной независимой выборки функция правдоподобия инвариантна к группе перестановок аргументов. Отсюда следует, что для указанной выборки все ранговые векторы равновероятны, каково бы ни было распределение, которому принадлежит выборка. Общее число возможных ранговых векторов, соответствующих выборке размером п, равно числу перестановок п чисел, т.
е. и! Следовательно, выборочное пространство ранговых векторов состоит из и! дискретных точек и-мерного эвклидового пространства. Вероятность попадания рангового вектора (с наблюдаемой выборки в любую точку го 1=1, 2, ..., и! этого дискретного множества равна 1/п1, т. е. для любого распределения однородной независимой выборки Р (К = г; ~ Н) = 1/и! 1= 1, 2, ..., и! (13.
169) Таким образом, ранговый алгоритм — непараметрический по отношению к гипотезе Н о том, что выборка,из произвольного распределения однородная и независимая. Для альтернативы К о том, что независимая выборка неоднородная, ранги перестают быть равновероятными. Для определения функции распределения рангового вектора при альтернативе К необходимо вычислить интеграл Р(К=г;)К) = ) ш(х!К) дх, 1= 1,2, ..., и! А. 364 ду или, другими словами, число элементов выборки х меньших или равных хь Следовательно, выборочному значению х, соответствует порядковая статистика х р вариационного ряда.
(и ) Ранговым вектором 11(х) = ()сь ..., Я„) выборки х называется перестановка чисел 1, 2, ..., которая получается при замене элементов выборки их рангами. Ранговой статистикой называется произвольная функция от рангового вектора. Ранговый алгоритм предписывает сравнение некоторой ранговой статистики с порогом.
Исходную выборку х можно восстановить, если известен вектор х<'! порядковых статистик и ранговый вектор К. Отдельно любой из этих двух векторов представляет необратимое нелинейное преобразование исходной выборки. Для однородной независимой выборки х случайные векторы х<! и (с независимы. Ранг )с; элемента х; выборки размером п при помощи функции единичного скачка и(х) или знаковой функции можно представить следующим образом: л Й;= 2', и(х; — х„),1=1,п, ь=! так как такое преобразование ~не изменяет относительного расположения элементов выборки х. Из (13.17!) следует, что ранговый алгоритм сохраняет непараметрическое свойство и после указанного нелинейного преобразования. 13.5.8.
Знаково-ранговые статистики. Дополним гипотезу Н об однородности и независимости выборки предположе|нием, что плотность распределения выборочного значения симметрична ш(х) =ш( — х). Если альтернатива К состоит в нарушении симметрии функции плотности, то,при такой альтернативе будет сохраняться инвариантность функции правдоподобия выборки к перестановкам аргументов и, следовательно, использование ранговой статистики не позволит проверить гипотезу Н против альтернативы К.
Но нарушение симметрии плотности приводит к тому, что выборочные значения определенного знака становятся более вероятными, чем выборочные значения противоположного знака. Поэтому при ранжировании следует сохранить информацию о знаке. Для этого используют вектор абсолютных величин наблю- дений !х[=(!х~(,..., !х !) (13.172) (! 3.173) и вектор положительных рангов й~ = (Р+ь ..., )7э ), компоненты которого представляют вариациоиного ряда )х(<н, ..., !х(~"> наблюдений. Ясно, что г нч ! х; = (х)( ' ] здп хо 1= 1, и. порядковые номера элементов выборки абсолютных величин (13.
173а) 36Ь где область А,енХ" включает те точки выборочного пространства, которым при упорядочивании соответствует заданный вектор г;= (г,~4, ..., г„<п). Этот интеграл [42] Р[(с-г;!К) = — х ! а! [ в, Г,( [0) ,( ы') и] Практическое использование формулы (13.170), за исключением специальных случаев, сопряжено с трудно выполнимыми вычислениями. Из-за сложности распределения (13.170) синтез оптимального по кр|итерию Неймана — Пирсона рангового алгоритма проверки гипотез при конечном размере выборки практически иереализуем. Это также одна из причин того, что указанный синтез осуществляют на эвристической основе (см.
п, 13,7.4), Отметим, что ранговый вектор однородной независимой выборки инвариантен к безынерционному преобразованию выборки Й (х) = Й (1„), 1„= [! (х,), ..., [(х„) ], (13.171) Элементы вектора положительных рангов (13.172) можно представить в виде 1ср. с (13.168а)] тс(х! ! м!'х-Ф) 7!+ = у' и ( !х; ! — д(), ! = 1, п . где г — вектор перестановок чисел от ! до п, а ч — вектор, ком.
поненты которого равны ~ 1. 13.8.6. Односторонний знаковый алгоритм. Рассмотрим задачу проверки гипотезы Н о том, что независимая однородная выборка х- (х„ ..., х„) при~надлежит симметричному относительно нуля распределению с плотностью ш (х) против альтернативы К, что эта выборка принадлежит тому же симметричному распределению, но с плотностью ш(х — О), сдвинутому на д)0 (т. е. симметричному относительно х=д). По классификации, приведенной в п. 13.7.1, сформулированная задача проверки непараметрических гипотез является задачей еда~ига (рис. 13.8).
Как отмечалось в п. 13.8.2, любую знаковую статистику можно использовать для построения непараметрнческого алгоритма принятия или отклонения гипотезы Н о симметрии распределения относительно нуля. Часто в качестве такого алгоритма (на эвристической основе) выбирают простейший односторонний линейный знаковый алгоритм, предписывающий сравнению суммы знаков с порогом: л т здп хд с„ д=1 т~ (13.1?5) где т, — решение отклонить, а уо — решение принять гипотезу Н. Учитывая связь функций зцпх и и(х)1см.
(13.165)), можно линейный знаковый алгоритм (13.175) записать в виде л т и (хд) с. д-! Уе 366 (13.176) ',(13 174) Рис. !З.8. Задача сдвига Функция вектора положитель- ных рангов К~ и вектора знаков п(х) называется знаково-ранговой статистикой. Алгоритм, использующий знаково-ранговую статистику, называется знаково-ранговым. Если выборка однородная, независимая и выполняется условие симметрии плотности вероятности выборочных значений, то совокупность случайных векторов зцпх, Кд и !х(~'~ независимая н Р (К+ = г ) Н) = 1/и!, (! 3.174а) Р(здпх=ч(Н) = (1~72)", (13.1746) Обозначим вероятность р=Р(х;)О).
Для гипотезы Н величина р=1/2, а для альтернативы К при д) )О р)1/2. Сумма в левой части (13.!76), равная числу положительных значений в независимой однородной выборке размером л, подчиняется бнномиальному закону распределения вероятностей с параметрами (л, 1/2), если справедлива гипотеза Н, и с параметрами (л, р), если справедлива альтернатива К (см. п.1.3.1, а также (13.164а и б)). При заданной вероятности а опгибки первого рода всегда существует такое а*(а, для которого л а* = Р ~ ~„'и (х;) ) [с] + 1 [Н [=: — =* 1 1[л (п — [с], [с] + 1), [~+[,л у ~2 у (13.177) где 1ч(а, Ь) — отношение неполной бета-функции к полной [см. (1.23а)], [с] — целая часть величины с.
Уравнение (13.177) определяет постоянный порог для любых симметричных распределений при фиксированном значен~ии вероятности ошибки первого рода. Заметим, что оио определяет и величину [с], причем может оказаться, что для этого целого числа правая часть (13.177) не равна в точности заданному значению вероятности а ошибки первого рода. Вероятность ошибки второго рода р = Р ~ 2, и (х,) ( [с] [К [[ [ [с1 /л~ ) р" (1: р)"-ь = 1. в (п — [с], [с] + 1).
(13.1?8) ь-о Из (13.177) и (13.178) следует, что при р) 1/2 алгоритм (13.176) — несмещенный, так как при [/=! — р(1/2 из неравенства (см. (1.23б)] !л В[а (л — т, т+ 1) = ( г" — — ' (1 — гУ" [[г) о ] г"- — ' (1 — г)'" [(г=Вч (л — т, т+1) в получаем 1м2(п — [с], [с]+1))1,(л — [с], [с]+1) и, следовательно,1 — р: а. При больших размерах выборки биномиальное распределение аппроксимируется нормальным (см. п. 1.3.2) со средним лр ~и дисперсией пр(1 — р), что соответствует центральной предельной теореме, из которой следует асимптотическая нормальность 367 где х„— процентная точка стандартного нормального распределения.
Подставляя (13.180) в (13.179б), получаем при п»1 х, б= .. (х — (2р: 1)Уп). (13. 181) 2 ]/р (1 — р) Из (13.181) следует, что для несмещенного правила (р)112) пр~и и-+-со вероятность ошибки второго рода [1-~-0. Если д(0 и, следовательно, р<112, то несмещенным будет алгоритм л У. и (х„) с. ь=! т Тогда и а* =- Р ~ ~', и (х;) ( [с]] 11! =- [гп (п — [с], [с[+ 1), (13. 183) Г=! (13.182) р = Р ~ ~ и (х,) ) [с] + 1[К = 1 — 1, р (п — [с[, [с] -[- 1) (13,184) щ и при р(1/2 из (13.'183) н (13.184) следует 1 — 8)а'. 13.8.7. Относительная эффективность одностороннего знакового алгоритма. Сравним по критерию асимптотической относительной эффективности односторонний линейный знаковый алгоритм (13.176) с линейным алгоритмом, оптимальным (РНМ) по критерию Неймана — Пирсона, который используется для проверки простой гипотезы о путевом среднем гауссовской случайной величины (а=0) против сложной альтернативы, что среднее значение положительное (а)0).
В обоих случаях решение выносится по однородной независимой выборке х заданного размера п (см. п. !3.5.7). Предположим, что односторонний линейный алгоритм ч т, хь ~сн ь-~ т. (13.185) оптимальный в указанном смысле для нормального распределения выборок (которое, очевидно, принадлежит классу симмет- 388 линейной знаковой статистики. Тогда формулы для вероятности ошибок первого и второго рода при п»1 можно переписать в виде а=! — г "1(с — п]2)1(п]4) 'l'], (13.179а) ~-а( —.ил'.Рн — и1 (13.179б) где г (г) — интеграл Лапласа. При заданной вероятности ошибки первого рода а порог с определяется из (13.179а) с= (х„3/ п+п)~/2, (13.
180) Ричных распределений), используется для проверки гипотезы о сдвиге произвольного симметр!ичного распределения ш(х) с известной дисперсией а'( оо. Ясно, что алгоритм (13.185) не является нелараметрическим. Согласно центральной предельной теореме линейная статистика (см. левую часть (13.185)1 асимптотически нормальна при произвольном распределении элементов независимой однородной выборки х и при условии о'(со, причем при любом п (" ! и и!~~ х„~ =ла,р, [~ хд~ =лот, о=! /г= ! (13. 185а) Тогда вероятности ошибок первого и второго рода при и» 1 равны о а=Р ~~ хо>с,(а=01 =1 — Р~ ! = о ( х *„~,О, ~ о) = ~ ! " "' ] . о=! ( о~/л (13.186а) (13.1866) где г (з) — интеграл Лапласа.
Прн заданном значении а из (13.186а) находим со = х„о) 'л (13.187) и, подставляя (13.!87) в (13.1866), получаем [ор. с (13.96)] х„ — х, а = )У и а!о, (13.188) где х„и х! а — процентные точки нормального распределения. Определим, используя соотношения, приведенные в п. 13.7.5, КАОЭ линейного знакового алгоритма (13,176) по отношению к линейному (13.185), !имея в виду, что статистики, на которых основаны указанные алгоритмы, асямптотически нормалвные.