М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 21
Текст из файла (страница 21)
Зато подобную статистику можно использовать для проверки соответствия модели наблюденным значениям (хотя бы в отношении таких отклонений от модели, которые улавливает данная подобная статистика). Например, в задаче о сравнивании двух независимых выборок гипотеза о том, что наблюдения в обвит выборках хо> и хин имеют общую ф.р., помешают нас в условия примера (1). Понятно, что умеренные значения статистик Т" (х), Т(х) будут говорить в пользу такого предположения. Благоларя подобию, критерии с критическими областями вида Т+(х)>с, Т~(х) < — с имеют прн любом с определенный уровень значиьюстп, пе зависящий от выбора меры Р в пределах семейства (Р).
Задача проверки данных на согласие с моделью, как мы моглп убедиться в предыдущих главах, близка к вопросу о построении доверительного интервала для параметра. Как видно нз примера (У), этот вопрос также можно решать, имея подходящую подобную статистику. й 16. ДОСТАТОЧНЫЕ СТАТИСТИКИ В ДИСКРЕТИОИ МОДЕЛИ 1. Введение. Почему, наблюдая выборочную точку х в статистической модели (Ф, М, (Р)) ° можно рассчитывать на уточнение наших сведений об истинном распределении вероятностей Р? Конечно, потому, что точка х, полученная в результате эксперимента с распределением вероятностей Р, несет информацию о своем распределении вероятностей.
Если статистическая модель уже выбрана. то интерес представляет лишь та информация в х, которая служит задаче различения элементов Р из (Р). По многим причинам статистические выводы приходится основывать нз одной плп нескольких статистиках-функциях от х. Как выбрать эти статистики, чтобы ие потерять информации по интересующему пас вопросу'. Например. рассмотренные в предыдущем параграфе подобные статистики несут информацию лишь о таких чертах распределения Р, которые являютсн общими для всех элементов из семейства (Р) и, следовательно, ничего ие дают для решения задачи о различении элементов Р. Нас пптеоесует такой, по возможности минимальный, набор статистик ()',(х), ..., Тч(х)) =Т(х), который содержал бы всю имеющуюся в х различающую пнформацщо об элемепткх Р и ничего лишнего.
Такая статистика Т(х) будет пазыввться достаточной статистикой для нашей модели. 2. Примеры. (1) Пусть Ж=(х„(хь ..., х„):х; 0 нли 1, 1=1, ..., «), Р„(.ч)=0" (1 — 0)", з„=х,+ ...+х„, где 0(0(1. Это хорошо известная схема испытаниИ Бернутли. 120 Для оценки параметра Π— неизвестной вероятности — нсчольэуется статистика з„:О=з„!и. Допустим, статистика з„приняла некоторое значение з. Что мы получим нового, если узнаем, какая именно из С„' выборок, содержащих ровно з единиц, осуществилась в результате эксперимента? Если мы рассматриваем случай з„=э, то естественно перейтн к модели с выборочным пространством й',=(х„:х~+...+х„з) и семейством условных вероятностных мер, получаемых из Р, сужением на Ф..
Эти меры: Р, (х. !В.) = Р, (хн)/Р. (В.) -О'(1 — 6) -*((С„О*(1-6).-*) = = (С„')-', х„енФ„ как видно, не зависят от 6, а все семейство состопт из единственного элемента — равномерного распределения на й'.. Итак, дополнительная вероятностная информация, содержащаяся в х„, помнио той, что х„чнФ„никак не связана с параметром О, и потому статистику з„следует признать содержащей всю информацию о параметре О. Соображения, лежащие в основе приведенных рассуждений, можно пояснить с иной точки зрения. Реализуем испытания Бернулли с помощью извлечения шаров иэ урны (либо по таблице случайных чисел) по следующей схеме.
Возьмем рациональное О, 0<6<1, и урну с У шарами и+1 цветов, причем доля шаров 1-го цвета равна биномиальной вероятности йч=С„Ф(1 — 6)"-', О, 1, ..., и (в качестве У можно взять наименьшее число, при котором все Мэ„(=0, 1, ..., и, целые). Кроме того, возьмем еще и+1 ури, причем урна с номером 1, 1=О, 1, ..., и, содержит С„' (С э 1) шаров, занумерованных С„' наборами (хь ... ..., х„), х~=0 или 1, 1=1, ..., п, содержащими ровно 1 единиц. Оргаинзуем теперь двухступенчатый выбор.
На первом этапе выбирается шар из урны с шарами и+1 цветов и отмечается цнет ! вытащенного шара. На втором этапе из урны с номером 1 извлекается шар и номер извлеченного шара — последовательность (хь .., х„) — объявляется результатом полного эксперимента. Элементарный вероятностный расчет показывает, что результат опыта — (хь ..., х„) — представляет собой реализацию испытаний Бернулли с вероятностью 6 выпадения 1. С другой стороны, поскольку вторая ступень нашего сложного опыта связана с параметром О лишь через номер 1 — результат первого этапа, совершенно ясно, что к информации о О, содержащейся в исходе ! первой ступени опыта, вторая ступень ничего нового добавить ие может.
(11) Пусть Ф (х„-(хь ..., х„):х~ О, 1, 2, ... ° 1 1, 2, ... ..., и), а мера Ре соответствует независимой выборке из пуассононского распределения с параметром 6)0: и Рэ(х)=Д вЂ” =е эО' ' /Дх1, х„~~. (1) гчч ! ! ! 3 121 Оцсикай параметра 6 — теоретического среднего выборки — слу» жит выборочное среднее х=.з„/л, з„=~~. х!. Рассмотрим услов! ! иую модель в предположении зи=з с выборочным пространством У. (х:х!+...+хи=э) и условной мерой Рв (х» (ййв) = Рв (х»)/Рв (вввв), хрееЫ (2) и У(Х+У=и)=~~~У(Х=о)У(г =и — и)= и и и )вв =~~)~ —,е-" в и и ,и-в -!и+и! Š— и в), в ' ! и)ви-в (и — и)! и! йи и! (и — и)! в ~»+и! (й+р)" и! Таким образом, Рз(Ж;) =еиз (~ Х, =.з) =е з(п6)в!з), (2') и для условной меры получаем выражение » й',в. » Ри(х„(Ю) =е-"ей ' ' /(П хв!)(е-»з(пй) )з!) ' = ! и и =!з(/Пхв!)п-в, з=~; х„ ! ! ! которое ие зависит ат 6. Отметим, что (3) представляет собой частный случай так называемого полиномиальнога распределения (при л=2 — биномнальнаго с вероятностью ()2).
Отсюда следует, чта искусственную выборку объема н из пуассоиовского распределения с параметром 6 можно построить, моделируя сначала пуассаиовскую сл.в. с параметром пй: если оиа приняла значение з, то моделируется опыт по случайному размещению з шаров са и ящикам. Результат последнего опыта запись:наем в виде набора (х!, хв, ..., хи), где х! — число шаров, попавших в ящик с номером !'. Легко видеть, что этот результат имеет пали- !22 Знаменатель в (2) представляет собой вероятность того, чта сумма независимых пуассоновских сл.в., с параметром 6 каждая, примет значение з. Легко проверить, что при сложении двух независимых сл.в., распределенных по Пуассону с параметрами й и )в соответственно, получаемая сл. в, Х+ У также имеет распределение Пуассона с параметром )!+р: номиальную вероятность (3), а опыт в целом приводит к исходу (х>, хз.....
х„) с вероятностью (1). Итак, с точки зрения информации о параметре 0 интерес представляет лишь первый этап указанного двухступенчатого опыта, результат которого выражает статистика з„. 11!1) Пусть ЯГ (х„ (и>, х>...., и„): х,= 1, 2, ..., М, 1= 1, 2,... ..., л), Рх(х,) =М ", х„~1й, т. е. речь идет о выборке с возвращением пз урны с Л' занумерованными шарами. Параметр У принимает натуральные значеш<я. Проверим, что условное распределение выборки Х„ при условии, что Х<„> и>, не зависит от парачегра 1'. Имеем В> (Х„>=п>)=й» (Х,> ч,.т) — Рз(Х< > <~ л> — 1)=- ==Р(Х«л>, <=.1, ..., и) — Р(Х,~л> — 1, <=1, ..., и)= (и> >й1)п ув и> 1) юг(( й> "(п>и (и> 1)~) >и ~ й> й»~>(Х„.=х„(Х<„> =и) =Рл(Х„=-х„)/Р(Х<,> — — и>) = (>ли (>и 1Ув) > л> ~ й< Рассуждения, аналогичные проведенным в предыдущих примерах, показывают, что статистика х<„> содержит всю информацию о параметре М, которая имеется в выборке.
3. Достаточные статистики: определение. Пусть (Ф, Я, (Р)) — дискретная статистическая модель: множество Я; конечно, или счетно, а Я вЂ” система всех подмножеств М. В этом случае любая числовая функция Т(х) является, очевидно, измеримой относительно Я, т. е. будет статистикой.
Для любого Р нз семейства (Р) и для данной (вообще говоря, векторной) статистики Т(х) определим семейство условных мер Р', положив для любого ВенЯ Р'(В)=Р(ВП(х:Т(х)=1))/Р((х: Т(х)=1)), (4) где Реп(Р), а индекс ! при данном Р пробегает множество всех значений, для которых знаменатель в (4) отличен от нуля. Определение 1. Статистика Т(х) называется достаточной для дискретной статистической модели (М, Я, (Р)), если при 1 каждом 1 условные вероятностные меры Р не зависят от Ран (Р).
3 а меч а пие 1. Полезно иметь в виду, что при каждом имеется, вообще говоря, свое подмножество множества (Р) мер Р так>и<, что знаменатель в формуле (4) отличен от нуля, и именно для эн>х Р условные меры Р' должны совпадать между собой. Более наглядным является случай параметризованного семейства (Рп, й ев 6). Здесь определение достаточности Т(х) удобно 123 сформулировать так: существует семейство мер Р, зависящих от индекса 1, таких, что равенство Р,(В()(х: Т(.) =1)ррв((: Т(х) =ц) =-Р'(В) (4а) выполняется для всех пар (9, 1), при которых левая часть в (4а) определена.
3 а меча н ие 2. Пользуясь тем, что Р(В) У(Х(ы) енВ), вместо условных мер (4) в выборочном подпространстве (Я', Я) можно ввести условные вероятности У(Хек В~ Т (Х) =1) (46) и дать определение достаточной статистики Т(х) как статистики, для которой условные вероятности (46) не зависят от Р в пределах семейства (Р) (при данном Г рассматриваются лишь те лэ, для которых (46) определено). Из определения достаточной статистики Т(х) вытекает, что. как и в разобранных выше примерах, статистика Т(х) содержит всю информацию выборки х, полезную для различения элементов Р нз (Р).