М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 30
Текст из файла (страница 30)
Рассмотрим для примера задачу выборочного контроля производства, когда параметр 0 описывает некоторые свойства партии изделий и может рассматриваться как случайный, меняющийся от партии к партии. Опыт прошлых наблюдений может быть обобщен в форме задания распределения вероятностей Я параметра 6. Обозначим через О соотвстствуюшую случайную величину. В результате мы имеем пару случайных элементов Х п 8. Пусть тв(х), г6(0) — плотности распределений Р, и Д соответственно. То~за пара (Х, О) имеет плотность гэ(х)г0(6).
Зависимость случайной выборки Х от сл. в. 9 характеризуетсн условной плотностью 1~~(~М) --1~(~). (1) Можно представить себе, что виачал» реализуется значение сл.в. В с плотностью ~0(6). затем в соответствии с условной плотностью (1) образуется случайная выборка Х. Значение 6, принятое сл. в. -', неизвестно, значение х случайной выборки Х наблюдается. По результатам наблоденпя х пало сделать выводы о значении 8. Назовем бпйесовской статистической люделью структуру. состоящую из статистической модели (Ж, Ж, (Р„, йзне)), измеримого пространства (В, У ) и вероятностной меры Я на нем, называемой априорным распределением.
Выбор апгпорпого распределения является принципиальным моментом в бьйесовском методе. Примеры, подобные приведенному выше, когда распределение Я устанавливается па основе частотных соображенш! по результатам прошлых наблюдений за явлением, весьма немногочисленны. В теории разработаны различные подходы к этой проблеме, Суть проблемы заключается в том, каким способом можно перейтн от априорных сведений плп представлений неформального характера к заданию вероятностного распределения на (Р, 3Г). Мы пе будем здесь останавливаться на этом вопросе, отметим лишь, что, несмотря на различие методологий частотного н байесовского методов в статистике, в конечном счете онп приводят к сопоставимым статистическим праце- дурам.
Если априорное распределение Я каким-то образом выбрано, то задачу оценки 8 можно отнести к области чистой теории вероятностей. Случайный э.чемент 9 измеримого пространства (8, Я ) с распределением Я полностью определен своим распределением вероятностей. Информация о 8, содержащаяся в слу- 169 чайной выборке Х, полностью заключается в условной плотности (рассматриваемой на множестве (х: гх (х) )0)): Рн,х(0!х).=-)х,„(х, 0Их(х) =- .'Ге(х) Гн (0И» (х) =Г (х!0) )0(0Их (х) (2) где мы предполагаем, что меры Рв н Я задаются плотностями и Ух(х) = ~ ".,) Уо(х) ~в(0) "Оз (3) Условную плотность (2) параметра 0 называют алостериорной. Формула (2) представляет собой непрерывный аналог так называемой теоремы Байеса. Легко понять, как трансформируются выражения (2), (3), если одна из величин Х, 9 нлп обе дискретны. Чтобы не вводить лишних обозначений, примем соглашение, что в случае дискретных Х, 9 под плотностями ~0(0), гв(х) и т.
д. будут пониматься соответствующие распределения вероятностей: Р, (х), Я(0) н т. д. В таком случае формула (2) сохраняет свой прежний вид, если Х или 9 дискретны, в формуле (3) интегралы заменятся на суммы, если 9 дискретно. ° Апостериорная плотность (2) служит источником всех дальнейших статистических выводов о О. Скажем, в качестве точечной оценки берут обычно среднее значение по этой плотности: 0~=) 0~Р01х(0~)х)~(0, 1=1 ° ...> рн,х(б,~х) =~... ~р0,х(0~х)бб,... (О;, (О,+, ... 10, (4) где — апостериорная плотность компоненты 9~ вектора 9= (9ь..., ..., 9а). ° Рассмотрим примеры байесовских моделей.
(1) Пусть (Хь...,Х,) =Х, испытания Бернулли с неизвестной вероятностью 0 ОС 1, априорное распределение есть бэта-распределение с плотностью В(а, Ь)-%"-'(1 — О)'-', ОС0(1 (см. п. 0 $7). Тогда апостериорная плотность (2) пропорциональна 0зМ П О)"-зм ~ 0' — ' (1 О)'-' 5(х„) =х,+... +х„, хс --0 или 1 (а+5(х„), Ь+и — 5(х„)). 170 н является бета-плотностью с параметрами а+5(х„), Ь+и — 5(х,), т. е. параметры априорного распределения (а, 6) с учетом результатов испытания изменились на Априорное среднее параметра 0 равно (см.
з 7) ГОВ(а, Ь) '0~'(1 — 0)~'с(0=В(а+1, Ь)/В(а, Ь) =а/(а+Ь), а апостериорное — (а+5(х,))/(а+Ь+и). Если число наблюдений и велико, то байесовская оценка (а+5(х,))/(а+Ь+л), каковы бы ни были а)0 и Ь)0, приближается 5(х )/л — частотой положительного исхода в испытаниях Бернулли. (И) Пусть Хь, Х, — независимые сл. в. с экспоненциальной пло|нс стью 6(0, !), априорное распределение параметра 0— 6(Л, р) с иекоторымн заданными Л, р.
Тогда апостериорная плотность пропорциональна 0 е — змр>"0р-~е — м 0)0 5 (х„)=х~-, ...+л', т. е. представчяет собой плотность распределения 0(Л+5(х,), р+л). Найдем байесовскую оценку для функции надежности Рв(Х > Г) =е-в~ Априорное среднее от ехр( — 01) равно ~Э Ю о ЛР р ~ / Л )Р ( (Л+л)Р р Г (р) 1 Х+ ~ /,) Г (р) о = (Л/(Л+ 1))Р. Априорное среднее от ехр( — 91) равно ((Л+5(х„))/(Л+1+5(х,)))р+"=(1+1/(Л+5(х„)))-ы+р1 (б) Если и велико, то байесовская оценка (б) близка к наилучшей несмещенной оценке (см. пример (ЧШ) $17): ~ (1 — 1/5 (х„))" при 5(х„) ) 1, 0 прн 5(х„) ч,. 1; однако байесовская оценка дает нетривиальный результат при всех 1, в том числе и 1>5(х,).
° Лем ма 1. Пусть Т(х) — достаточная статистика для статистической модели (Ю, Я, (Р, 0~6)). Тогда для любого априорного распределения Я на (6, У ) имеет место равенство (на юдмножестве Х, иллеюи)ем Р -меру единица при люболл О) /ех (0!х') =/епх1 (011) 1 = Т (х) (е) где участвующие в (6) плотности в дискретном случае понил~аютя как распределения вероятностей. 171 Доказательство проведем для непрерывной модели. По крите рпю факторизации (см. $16) ~,()=~„'()=а(Т(); 0)й() (7) на подмножестве Х, имеющем Рв-меру единица, йыо, так что апостериорная плотность пропорциональна (см. (2)) д(т(х); 0)У (0). (8) Покаи:ем, что плотность Гвтх (011), 1=Т(х), также пРопоР- циональна правой части (8).
По формуле (24) 5 16 )мю(1) -.-.п(1; 0) й,(1), откуда по формуле (2), примененной к паре Т(Х), 9, находим ~0~т,х,(0~1) пРопоРциональна д (1; 0) У„ (0). (9) Сравнивая (8) и (9), получаем утверждение леммы. ° Из леммы 1 вытекает, что при байесовском подходе понятие достаточности играет ту же роль, что и в классической статистике.
Именно, как следует из формулы (6), по достаточной статистике восстанавливается апостсриорное распределение 0 при условии выборки х, а это и все, что нужно знать при байесовском методе. 2. Информацкя по Шеннону. Достаточная статистика выступает носителем всей полезной информации о неизвестном параметре 0 как при классическом, так и байесовском подходе.
Но само понятие информации остается пока предметом наших представлений, не имеющим точного математического выра>кения. В байесовском подходе н вгяборка н параметр являются случайиымн элементами, и потому к ним применимо хорошо известное и оказавшееся чрезвычайно полезным понятие информации (н энтропии), введенное Шенноном. Пусть, для начала, Х и Э вЂ” дискретные случайные элементы, опре,~сленные иа некотором общем вероятностном пространстве (1), Ф, У) и отображающие его в измеримые пространства (Ф, М) и (О, У ) соответственно; ()(0) =а (В=0). 1,(х) =Л (Х=х1Е=0).
До проведения каких бы то ни было наблюдений все каши сведения о значении, которое может в результате опыта принять 9, заключены в распределении вероятностей Я(0), которое в статнтпстпкс называют априорным. Если стало известно значение х, 172 принятое случайной выборкой Х, то вся полнота знаний о 6 воплощается в условном распределению Ф'(9=6»Х=х) =Р(9=6, Х =х)/Р(Х =х], называемом в статистике апостериорныл.
Таким образом, дополнительные сведения, содержащиеся в результате опыта, изменили неопределенность наших представлений о возможном значении 6: до опыта она выражалась апрноряым распределением вероятностей, после опыта — апостернориым. Представляется естественным определить какую..чпбо меру расхождения между этими распределениями и с ее помощью измерять информацию, потучземую в результате опыта. Первое, что может прийти в голову, это рассмотреть разность У(9 6) — У(9 61Х ) в качестве такой меры. Однако мы уже имели воэможяость убедиться в $16, 16, что отношение вероятностей яли логарифм этого отношения (т.
е. разность логарифмов вероятностей) оказались полезными при изучении информативных свойств выборки. Также и здесь оказывается полезной логарифмическая мера расхождения: !ь„(6; х) )оп(У(9 6~ Х х)IУ(9 *6) ), (10) называемая информацией, содержащейся в событии А (Х х» относительно события В (9 6». Поскольку дь(В!,1) с.(4В) дь(4!В) д'(и) дЧ4)д'(и) дЧ4) то информация, содержащаяся в В отиоснтельяо А, равна информации, содержащейся в А относительно В, н потому неру (10) называют взаимной инс)ормш(пей между А и В. (Конечно, все делается в предпаложеяин У(А), У(В) >О.) Перепишем (1О,' а симметричной форме: ~~в-е.х= ° ! (10а) ) в Р(6 В)д,( ) . Подчеркнем, что равенство информаций ие означает равнозначности выводов, которые можно сделать об А нэ знания В и, наоборот, о В нз эианпя А. Пусть, скажем, Ая-В, тогда У(В(А) 1 н информация в А относительно В, равная 1оа (1,4В (В)) =- 1Оа (1ФФ (9 6)) ~ lв (6), полностью определяет событие В.