М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 25
Текст из файла (страница 25)
В предположении (16), (17) статистика Т,(хл) является достаточной тогда и только тогда, когда д.>я >ообого С~тт на некотором мнохсестве Р;меры еднннйа выполняется равенство 5„(хл: О) =у(Т,(х„); О)Л(х„), (19) 140 ие зависит от Ое=8, то статистика Т,(хл) называется достаточной для данной модели.
Отметим, что п(1,; 8) — ->т,>х„>(1,), в н для каждой пары (1„у, ), для которой существует Ос=8, что 7вт,>х„>(1,) >О, положим ">(1 ° у — ) = уат„,>х„» т,>х„>(у —,!1,). (20) Ввиду достаточности статистики Т,(х„) функция Ь>(1„у —,) формулой (20) задается корректно (и является функцией только от 1., у,,), а равенство (20) при каждом 8, 1„для которых правая часть определена, выполняется на множестве Рв-меры единица. Учитывая введенные обозначения, из (18) получаем равенство 1т,<х„>,т,(х„>(1,. У ) =8(1.' 8)й>(1„У вЂ”.), (21) справедливое на множестве Р,-меры единица, откуда, используя (17), получаем >'х„ (х„) = и (Т, (х„); 0)6> (Т, (х„), Тк (х„))] > !.
(22) Поскольку якобпан >1~ не зависит от О, то, полагая Ь=Ь>11~, получаем представление (19). Обратно, пусть имеет место факторизация (19), Определим функцию >»(1„ у„,) условием 8(х„) =й> (1,, у„,), 1,=Т,(х„), у Т„,(х„) и перейдем в (19) к координатам (1„у„,). Все дальнейшие расуждепия проведем на подмножестве Ф, на котором 1»)0, Ь>0. Воспользовавшись формулой преобразования (17), перепишем (!9) в виде ~т>х„>,т„,>х„>(1„уа —,)(/(=у(1,; 0)Ь>(1„у, ). (23) т1айдем отсюда плотность статистики Т,(Х„): 7т>х >(1) = ~ ° ° ° ~ 1т,>х„>. т,>х„> (1 Ул- )ду> ° ° ° дук =я(1 0) ~ ° ~ й (1- у -)(,7~ >ду> ° Иу -' (24) .=.слп у(1.; 8) >О, то, поделив (23) на (24), получаем, что условная ,.ло> ность равна 141 вде д(1.: б) и й(х„) — неотрицательные измеримые функции ареумен>ов 1, и х„соответственно, н(х„) не зависит от 8.
Дсказате.>ьсктво. Пусть статистика Т,(х„) — достаточная. По- ложим ут„,<х„! ! т,<х„! (У«- (1«) = е =й,(1„у„,)1,(1-'/ ) ... ~ й,(1„г,)(,l(-!Ж, .1!(г,, и не зависит от 6, что и требовалось установить. ° Достаточность рассматривавшихся в примерах (!!) — (1Ч) статистик с помощью теоремы факторизации устанавливается совсем просто. Например, расписав плотность случайной выборки из нормального распределения У(р, о) в виде л «« ()«'2по) "ехр ~ — — зчх, -1- — '. 11 х! — !, ), (25) за«й ю О'- зп'-', «! а л обнаруживаем, что пара Д~~ х!, ~'х,-".! является достаточной ста'!-! ! тпстикой, что было непосредственно проверено выше (см. (15)). К примеру (1) теорема факторизации в предложенной выше форме неприменима, так как условное распределение выборки при условии достаточной статистики — вариацнонного ряда — явл яется дискретным.
Это один нз редких в приложениях случаев. когда пе выполня!отся ограничивающие предположения (16), (!7). Обратимся к другим примерам. (Ч) Рассмотрим линейную статистическую модель с нормальнымн наблюдениями в канонической форме (см. (7) $10): У,=!р!+об„!=1, ..., г; (Л=аб!, !=г+1, ..., и, (26) где Ф=(!р!, ..., !р«), о)0 — неизвестные параметры; (б!, б, ... ..., 6,) — стандартный нормальный вектор. Плотность распределения 1) равна « «« Я'(п)=(Р 2ло) ехр ( — — зч(и! — ф!)' — — в! и!~) =. 2«««йети зо' 4( ! ! «+! и « =()~2по) "ехр ~ — — у и';+ — зчи!!г! — — Ъ $!) то~ ° ! ез й4 за« 4 ! ! ! ! ! ! По теореме факторизации, статистики Т!(и) = иь ! =: 1, ..., г, Юа(и) = — д и! 2 ! ьч 2 а И2 образуют г+1-мерную достаточную статистику.
Эквивалентная ей статистика (Тд(п), ..., Т,(п), Я!(ц)). 81(п)=- ~~)~ и! г+ ! также является достаточной. Заметим, что оценки 9!=Т!(и), о' =3!т(и) параметров !р, а линейной модели были введены в $10. Аналогично обстоит дело и дхя нормальной линейной модели в общей форме (1) $13 с матрицей Х полного ранга. Плотность распределения наблюдений в этом случае равна /ет'(у)=( 2по) ехр ~ — —,~~) ! (у! — ЯО;х!!) ) = 1-! с-! = (У2п о) " ехр ( — — Иу — Ох'Ц'1 . 9 = (О,, ..., 9,), (27) Я(уВ Х= (х!...'х~], х! =(х!и ..., хы), /= 1, ..., Г. Введем статистики Т!(у), 1=1, ..., г„как коэффициенты разложения проекции вектора у на подпространство У, порожденное векторами хь?=1, ..., г: при у= Т!(у)х!+...+Т,(у)х,. Так как вектор ОХ' О,х, +...
+О,х,Ы, го, применяя теорему Пифагора, найдем !1у — ОХ'11т= 11 (у — нргу+ пр! у — ОХ')й~ = 1)у — прг у11~+ 11прду — ОХ у- 1 7 = ~~ у — Я Т! (у) х! ~~ + ~~ ) (Т! (у) — 9!) хг~~ ! ! / ! Подставляя (28) в (2?) и применяя теорему факторизации, получаем достаточную статистику в виде Г (Т,(у), ..., Т,(у), Я(у)), 8~!(у) =- — ~~~~~~(Ту(у) — 9!) х!~~ .
/ ! Остается заметить, что известные нам оценки параметров 9, о личейной модели имеют внд 9;=Т;(у), !'=1, ..., г, о'=5!'(у). !'!'1) Рассмотрим цензурнруемую выборку (см. и. 7 $! 1) Х!ь ь!! < Х!оеэ! < ... < Х~ „,, г„г,) О, (29) 143 считая наблюдения Х!, ..., Х„независимыми Л/(р, о)-распределен- ными, а г!, гз — фикспроваинымп числамп.
Найдем плотность распределения вектора Т = (Уп ..., 1'») ==(Х<„, !!, Х<ч~ь !, ..., Х!,,»), Л/ =-и — г, — г, в точке у=(у!, ..., у:). у!<Уа«".у». Проведем вначале не- строгие рассуждения. Плотность вероятности того, что какие-то Л/ из сл.в. Х!, ..., Х„примут значения у!<Уз«...у», равна л (и†1) ... (и — Л/ + 1) П вЂ” ф ((у; — р)/и), 1 е $е! где !р(х)-Л'(О, 1)-плотность. Вероятность, что слева от у, н справа от у» окажется ровно г! и га соответственно каких-то из и — Л/ оставшихся наблюдений, равна С" яФ ((у, — р)/и)' (1 — Ф ((у» — 11)/о))", где Ф(х) — ф.р, закона Л/(О, 1). Используя независимость, перемножим полученные выражения и получим а' /т(у)= — "', Ф((у,— р)/и)' (1 — Ф((у„— р)/о))" х Гу Г„! » ехр 1 ~~~(у! р) /.
(30) (ъ~хп о)' [Проведем формальную выкладку. Возьмем 6>0 настолько малым, что интервалы (уь у,+6), /=1, ..., Л/, не пересекаются и запишем У ю» (г/ ~ (у/~ у/ + 61~ /= 1 ° Л/) = + Я У!ьа(1 / =Х» У/ ~ (У/ У/+ 61, /+ 1 ..., Л/), (31) »,л......»» где суммирование ведется по всем п(п — 1)...(и — Л/+1) упорядо- ченным набоРам индексов (/!!, Уь ..., /!») без повтоРениа из мно- жества 1, 2, ..., и. Учитывая, что все слагаемые суммы (31) рав- ны между собой, перепишем (31) в виде л! н"юа(~ / = Хоч/~ г/ ен (У/~ У/+ Ц» / = 1 ° ° ° ° Л/) =' (л — У)! л! $ — 'д'и,» (!пах (Х;„..., Х.-, ) < Х,еь йаю (л — /г/! ы ...,с„, У/= Х„,!./, У/ ~ (уь у/+ 6!, / = 1, ..., Л/. Х,,< ппп(Х„, ..., Х,,)), 144 (34! н и !Р» йз 75! ~.'Р!1, ! ! ! Если цензурпрованпе одностороннее: г, 0 пли соответственно надо отбросить, и достаточная вается трехмерной.
гз-О. то у! илп уз статистика оказы- 3. Экспоненциальные семейства, минимальная достаточность. Рассмотрим непрерывную параметрическую модель (Х, й, (Рв, О ~ 9!), где 9 =. (О,, ..., Оз), й > 1, 6 ев )с", а плотности га(х) мер РВ заданы формулой 145 где суммирование ведется по всем С'„''и неупорядоченным наборам индексов !',, !,, ..., ю„без повторения из множества. (1, ..., г!, л — г,+1, ..., л), а 1„1„..., 1„,— остающиеся элементы этого множества. Снова учитывая, что слагаемые суммы (32) равны между собой, получим для (32) выражение л! С„' л ', У'„л(гпах(Х,, ..., Х„) Х,,еь Х„.~;ен(У! у!+5), (л — л')! 1=-1, ..., У, Х„„< ппп(Х, „ь!,, Х„)). (33,' Запишем очевидную оценку сверху для (33): — Ук,< (так (Х„..., Х,,) ( 1!!+ б, Х,,+! ен (уп у!+ б), г 3г ! 1=- 1, ..., У, у„< гп(п (Х,,„4!, ..., Х„)) =- ф ( у ~ г ) ' й (р(кт~,~' ) ф ~1! )) /ю! с~1 ф~ дм ~)' Аналогично получаем оценку снизу: —,;,, ("-.") й( ( — '-'.-")- ( — —."))' '~'- (".' "))" (35) Разделив выражения (34), (35) на б" и устремляя б к нулю, придем к (30).) Из формучы (30) и теоремы факторизации нетрудно вывести, что достаточной является четырехмерная статистика (прн г,>0, гз>0) 1е(х) =-й(х) ехр Д В!Т, (х)+ Ь(0„..., Оь)), (36) Семейство Р, в этом случае назовем и-лорал!егрическим распределениел! экспоненциального типа (в естественной параметризации).
Ряд важных семейств распределений повторной выборки после подходящей параметризации сводится к (36). Например, если отдельное наблюдение в последовательности п независимых испытаний имеет распределение 6(Х; р), то совместная плотность равна при х!, ..., хь>0 (см. (2) $ 7) ~мь(х„) = — х! ° ° ° хл ььь ! ! -Мп+... +с„! г (Р) й и — (х, х„)-зехр (р ~ )их! — Х~~!~ хг+!п(Х" /Г(Р)")1, (37) !=1 ! ! так что, полагая О,=р, В,=.— Л, Т,= ~~ 1пх!, Т,= Я хь при!=! ! ходим к (36). Другой пример: независимая выборка из распределения Л'(и, о) имеет совместную плотность 1жь(х„)= (У2иа) ехр ~ — — Ъ (х! — Р)!!) = 2ьь лев ! П ь =(~2я) "ехр ~ — — „Ъ х';+ — '! Рх! — и — и!по) (38) ! -! ! ! экспоненциального типа (36), если положить 8! = — 1/о', Оз= =1!/о..
!»8 Ьолее общая экспонепциальная модель вида !»(х) =-й(х) ехр1~ а!(8) Т!(х)+Ь(О)1, ! ! (39) 146 гдс О=(О>,...,0!), Оеи6сх)с!, фактически может быть сведена к (36!, если ввести естественную параметризацию !р!=а;(О). Чтобы убедиться в этом, достаточно заметить, что Ь(8) на самом деле является функциеи от а;(0), !=1,...,й, поскольку ехр(Ь(О)) выполняет в (39) роль нормнрующего множителя.
Отметим, что повторная выборка из распределения экспонеицньлыюго типа снова прииадлен!ит к этому типу: 1а(х!!!, х!'-", ..., Хэ"!)=Ь(х<!!) ... Ь(х!"!)ехрД а!(9)Х 1=1 х ~ Т,(хоп)+ Ь(8)). / ! т, =()(х: Т(х)=1!. (40) С минимальной статистикой $(х) связано минимальное достаточное разбиение — такое, что элементы любого достаточного разбиения содержатся в элементах минимального: (х: Т(х) 1)ы(х: 3(х) =51).