М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 23
Текст из файла (страница 23)
Это же соображение лежит в основе приема минимального сокращения данных, о котором идет речь ниже. Именно введем отношение хну па множестве Ф, полагая, что х связано с у отношением Я тогда н только тогда, когда для каждого 6еп =8, такого, что Р, (х), РВ(у) ) О, отношение РВ(х)/РВ(у) пе зависит от 6, а для всех 6, для которых одно пз Рв(х), Рв(у) равно нулю, также равно пулю и другое. Отношение хну, очевидно, рефлексивно: хЯх имеет место для любого х; симметрично: если хну, то и у!гх, и трапзнтивно: х)1у, уЛх=~-х!)х. Таким образом, х!ту есть отношение эквивалентности, и, как известно, множество У' разбивается па непересекающиеся классы Фн (14) Ю= ()Х» У~()л.= я, Ячь!.
где ! пробегает некоторое множество индексов, причем каждый класс Я'~ состоит из множества всех элементов, которые эквивалентны друг другу по отношению Я, (Проверни сделанное утвержденна. Пусть хеиЗ произвольно. Обозначим через 9, множество всем элементов у, таких, что х)(у. Тогда х!(х, и, следовательно, хя9„. Пусть геиУ произвольно; допустим, что М*()'У*Ф тогда существует элемент и из их пересечения. Поскольку х!(и и х)гп, то по симметрии и!тх, а по транзитивности х!тг. Пусть чеи9,, тогда харч, п так как х)гх, то по транзнтнвности хан, т.
е. чеи9, или К~9 . Аналогично получаем 9,с9„т. е. 9 =9» Итак, система подмножеств 'У„хевЮ, такова, что любые два из них либо не пересекаются, либо совпадают. Определим функцию ! !(х) так, что !(х~) =((хг), если 9.,=9~,. и '(х~)Ф!(хз), если Э~,-ей~,. Полагая й!~=4» 1=г(х), хеяФ, получаем, как нетрудно понять, требуемое утверждение.] Докажем, что разбиение (14) достаточное. Определим функцию ф(1, х, у)=рв(у)!Рв(х), к, у Х» (! 5) ~'де 6~9 — любое такое, что РВ(х) ~0; если такого 6 не существует, то положим ф(1, х, у) =во. Проверим, что определение (15) корректно. Если прн всех 6~9 РВ(х)=-0, та все в порядке: функция ( однозначно определена и принимает значение оо.
Пусть 6~ тнк»по, что Р (х) )О. Тогда по определению класса М~ также в и. В. козлов А. В. Прокоров и Р (у)) О, а для всех 8 таких, что Рв(х) )О, верно равенство РВ (у),'РВ (х) = Ра, (у)!Ра, (х), что н требовалось установить. Пусть Онпз — любое фиксированное. Допустим, что Р (Х,) ) 0 и РВ(х) ) О. По определению класса Ж'~ в этом случае Р (у) ) О для всех у~Фа Суммируя (15), получаем ф(С х)= ) ф(1, х, у)="Рв(Я)РВ(х), хш!Яп откуда Р~( )/Р~(Х,) =(ф(Г, )), ев Ж',. (16) О 9 у и это отношение не зависит от 8, 0<8<1, только если !т'(х) =Ж(у). Следовательно, разбиение с элементамн Ф„=(хенФыу(х) =л) 130 Рассуждения, приводящие к (!6), справедливы при всех Оы9, таких, что 1' (х) ) О. Если прп некотором 8 РВ(х)=-0, то по определению класса Ф~ также и Рв(Ю,) =-О.
Следовательно, (!6) справедливо прп всех 8, таких, что Р (ЮД)0, и разбие- ние (14) — достаточное. Йля доказательства минимальности разбиения (!4) возьмем произвольное достаточное разбиение Щ,), и пусть У(х) — по- рождающая разбиение (""У' ) достаточная статистика (Ч(х) — лю- бая функция, принимающая раз.тнчные значения на различных элементах разбиения). По теореме факторизации Р (х)=д(У(х); 8)й(х).
Ограничимся далее подмножеством Я'=(х:8(х))0), которое со- держит носители всех мер Ра (х). Пусть х, у~О' таковы, что У(х) =У(у) =т. Тогда Р (х) = и (т; 8) б (х), Р (у) = и' (и; ОМ (у). Если н(т; 8) О, то РВ(х)=рв(у)=-О. Если же д(т; 8)>0, то Ра (х)/Ра (у) =- Ь (х)/й (у), и, следовательно, х, у находятся в отношении )т и принадлежат одному элементу достаточного разбиения (14). Итак, элементы разбиения (У',) содержатся в элементах разбиения (Я'4 что и требовалось доказать. В примере (1Ч) является минимальным достаточным, а М(х) — минимальная достаточная статистика.
Отметим, что если 8(х) — минимальная достаточная статистика, то, например, ($(х), 8(х)) также будет минимальна, так как, очевидно, порождает то же разбиение. Поэтому в теоретическом плане остается вопрос о выборе такой минимальной достаточной статистики, которая имела бы наименьшую размерность. К построению минимального достаточного разбиения имеется еще и другой подход. Рассмотрим сначала случай, когда семейство (Р) состоит иэ конечного числа элементов Рм Рь ..., Р,. Введем статистику Ф.~х) (Рэ(х), Р,(х), ..., Ра(х)). Покажем, что статистика 1.(х) — достаточная. Пусть х и у принадлежат одному элементу разбиения, задаваемого статистикой 1.
(х): 1.(х) = (.(У), т. е Р,(х) Р;(у), 1=0, 1, ..., й. Очевидно, в таком случае точки х и у находятся в отношении Я и, следовательно, принадлежат одному элементу минимального достаточного разбиения, (14). Итак, элементы разбиения, задаваемого статистикой Е(х), содержатся в элементах достаточного разбиения. Как было отмечено в начале раздела, отсюда следует, что статистика Е(х) — достаточная. Теперь мы преобразуем статистику Е(х) в минимально достаточную.
Предположим вначале, что носитель распределения Рэ(х) содержит носители остальных Р;(х): (х: Р~(х) >0)~(х: Рэ(х) >О). (17) дальнейшие построения проведем на подмножестве У'= =(х: Ро(х) >0)с=О. Покажем, что статистика Т(х) = (Р~(х)/Ра(х), ..., Рэ(х)/Ра(х)) является минимальной достаточной. Пусть х, уапй" принадлежат одному элементу минимального достаточного разбиения (14). В таком случае отношение Р;(х)/Р,(у) не зависит от 1 при всех 1, таких, что Рс(х), Р~(у)>0, а для остальных 1 Р;(х)=Р;(у)=0. Отсюда следует, что либо Р;(х)/Р;(у) = Рэ(х)/Ра(у), либо Р,(х) =Р;(у) =О.
Во всех случаях получается, что Р;(х)/Рэ(х) = Р;(у)/Рэ(у) лля всех 1 1, ..., й, т. е. Т(х) =Т(у). Таким образом, элементы разбиения, порождаемого статистикой Т(х), содержат в себе эле- 131 менты минимального достаточного разбиения (суженного на Ж'1 а потому Т(х) — минимальная достаточпан статнстнка. Если условне (!7) пе выполнено, то, положнв Ра(х) =Я Р~ (х), М 0 легко обнаружить, что статистика Т(х) с заменой Р«(х) на Р«'(х) оказывается минимальной достаточной. В случае произвольного семейства (РВ.
вен 6) рассуждения сохраняются без изменений, если выполнейо условие, апалогнчное (!7). Достаточное разбиение порождается системой статистик, зависящих от В как параметра: 1.(х; В)=рв(х), Ееп Е. (18) Если множество 6 конечно, то (!8) можно рассматрпва1ь как векторную статистику. В общем случае, ради краткости, систему (18) назовем 49нкционнльной статистикой. Прп каждом фиксированном 8=8« «координата» 1.(х; Е„) является обы апой скелнрной статистикой, совокупность всех таких координат 1.(х 8) составляет функцнона.чьную статистику (18). Минимальное достаточное разбпенпе порождается функциональной статистикой у(х: в) =цх; в)!цх; е„), е Е, где В~еп6 таково, что для всех веп8 (х: Р (х) ) О) ~=' (х: Ре (х) > О).
В примере (11) выборки из пуассоновского распределення л %'« 1. (х; В)/С(х; Е,) =. е-м"-е ~(е/0«)~ Прологарнфмировав, получаем « )п (1. (х; В)7~ (х; В,)) = — л (Š— В,) + Я х, 1п ~ ~ ) . (19) ., а,7' 1 $ Поскольку взаимно-однозначное преобразование приводит к эквнвалентной статистике, то (19) также является минимальной достаточной. Как видно нз (19), любая «коорднната» функциональной статистики (!9) выражается через любую другую с Вчем.
Поэтому «избыточную» функциональную статистику (19) можно заме« нить одной скалярной, например статистикой ~ хь н, следова( ! тельно, эта статистика минимальна. 132 $16. ДОСТАТОЧНЫЕ СТАТИСТИКИ В НЕПРЕРЫВНОИ МОДЕЛИ 1. Примеры достаточных статистик.
Мы будем рассматривать здесь статистические модели (,В, М, (Р)), где Я> — область в Я", М=Я'()М„, а мера Р задается некоторой и-мерной плотностью. Эта модель, которую мы назовем непрерывной, и дискретная модель, нзучавшаяся в прелыдущем параграфе, охватывают все наиболее важные области применения математической статистики к выборкам фиксированного объема. К сожалению, полное изложение теории достаточных статистик в непрерывной модели требует привлечения понятий и утверждений, выходящих за рамки данной книги, хотя в идейном отношении нет разницы между дискретным и непрерывным случаем.
Математически подготовленный читатель может ознакомиться с логически полноценным изложением общей теории этого и некоторых других параграфов данной главы по многочисленным отечественным и переводным монографиям по математической статистике, список которых можно найти в конце книги. Определение достаточной статистики будет дано в следующем разделе, а пока займемся примерами достаточных (и на самом деде минимальных) статистик, обращаясь к неформальному понятию информации, различающей элементы Р из (Р). Отметим, что, как н в случае дискретной модели, статистики Т(х„) и $(х„), связанные измеримым взаимно-однозначным преобразованием >г, являются эквивалентными носителямн вероятностной информации и будут называться экаиваленгналп.
Полезнее, однако, несколько более слабая форма эквивалентности: Т(х„) ф(8(х„)) па некотором множестве Р-меры 1 прн каждом Р~(Р). (1) Пусть мера Р> задается многомерной плотностью вида 1(х>)1(хэ)...1(х„), где 1(х) — произвольная одномерная плотность. Таким образом, статистическая модель (й>", М„, (РД) соответствует последовательности и независимых одинаково распределенных испытаний с неизвестным законом распределения, обладающим плотностью. Зто непараметрическая модель, так как индекс 1 здесь функциональный. Покажем, что вариационный ряд Т~ (хпь хмь ° ° хоо) содержит всю информацию о плотности 1.
Для этого заметим, что Р1 (Хп1 я В» ..., ХэчиэВ„) =и(Р~(Х,яеВ»..., Х„е=В„, Хт < ...<Х„), и поэтому плотность Т„(Х,) равна при х><хэ«...х„ п!Цх~)...1(х ). Нетрудно понять, что условное распределение Х„ прн условии Тч(Хн)-((ь .
> (а)> (ь<(э< "<(лэ 133 — равномерное н сосредоточено в и1 точках (Гн.., Г~„), где ((ь ..., 1„) — произвольная перестановка из индексов (1, ..., и). Мы не будем проводить формального доказательства этого факта, а вместо этого сразу обратимся к моделированию, как это делалось в дискретном случае. На первом этапе образуем последовательность сл. в. Т„= (Уь Уз, ..., У„) с плотностью )» (у„) = п1 )(у,) 1(у,) . )(у„), р, < у, < ... < у„ и 1»„(у„)=0 при остальных значениях аргумента. Затем построим независимую от Т„последовательность сл.в.