М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 31
Текст из файла (страница 31)
Та же информация (11) недостаточна для определения А по В, если только А и В не совпадают с вероятностью едишща. Очевидно, дело заключается в том, что собствеяяая неопределенность событий А и В, вообще говоря. различна. Примем выражение (11] за собственную меру яе- 173 определенности события В, илч юияпе '~~ ~лн яянип~я ичфор вн, иию, содержащуюся в событии В о самом себе. Ее можно интерпретировать как информацию, необходимую для полного разрешения неопределенности относительно события В. С учетом сказанного величину 19(!/В (6.=0!Х=: ))=/,1х(0!х) (12) можно назвать условной собственной инфорьчацией, содержащейся в событии (6=6) прп условии события (Х=х», и интерпретировать как информацию, необходимую для определения события (6=6), после того как стало известно, что Х=х.
Поэтому разность /8 (6) — /8! х (01х) =- /6 х (6, х) (13) Н (6) =~/Р (6 =6) /8 (6) = — УВ (6 =9! ! ХВ (6 =6). (14) 8 8 Средняя условная энтропия 6 при условии Х определяется равенством Н(6!Х) =тЯ У(6=0, Х=х)/81х(9!х) = в,х = — ~('У (6=6,Х= )!ойй (6=0!Х= ). (!6) в,з Средняя езаинная энтропия между 6 н Х получается усредненнеч формулы (13) и равна /(6, Х) Н(6) — Н(6!Х). (!0) Определенная формулой (16) информация но Шеннону обладает рядом свойств, которые было бы естественно потребовать от любил! формализации понятия информации. Перечислим этн свойства.
'.. 11пформация всегда неотрицательна: /(6, Х))0. 2. Если статистика Т(х) подобная, то /(6, Т(Х)) =О. можег рассматриваться как информация, содержащаяся в событии,'Х=х) относительно события (6=0) и, как видно, совпадает с взаимной информацией (!О). Формулы (10) — (13) определяют понятие информации для отдельных событий (6 6), (Х х), тогда как желательно определить информацию о 6 в Х, как случайных элементах. Это достигается усреднением введенных количеств информации по всем значениям участвующих там случайных величин. Энтролия 6 определяется как среднее значение собственной информации н задается формулой 3. 1!пфс„-.'.сц::.-., содержащаяся в статистике, не превосходит информации, содержащейся во всей выборке: 1(9, Т(Х) )(1(9, Х). 4.
Если Т(х) — достаточная статистика для Я', Ф, (РВ, Оеп8)), то 1(9, Т(Х)) =1(6, Х). Проверим свойства 2 и 4. В случае подобной статистики Т(Х) аолкчсем д~(Т(Х) == х!8::-. В) Ю(Т(х) = х) 1и т(х)(0, х) 1ой ' — = 1оЯ вЂ” — = О, .'У(Т(Х)= х) 9'!Т(Х):= к) что равна нулю и средняя взаимная информация 1(ек, гак Т(Х)). Пусть Т(Х) — достаточная статистика.
Рассмотрим 1(Е,Х) =~~)'Э(в=0, Х= ) )од — "х= к~и= в) 9'(Х = к) в,к (17) Учитывая, что (см. (13) $15) ~ (Т(Х)=1(В=В)=д(1;Е) ~ й(х), (21) к:т(к~ $ н дом ножая числитель и знаменатель дроби в ( 20) на второй множител ь в ( 2 1 ), получаем для выражения (20) значение (щ(~ (Т(Х) =1(Е= Е)1У:Р (Т(Х)=1(В= ),У (В= )) =- =!ни И'(Т(Х) =-!АДЕ=0)1р (Т(Х) =!)) =10 т(х)(В,!), (22) где 1=-Т(х). Подставляя (22) на место логарифмического множителя а (17) и снова воспользовавшись формулой полной вероятюстп, находим 175 По формуле полной вероятности Р(Х=х) = ~)'Р(Х=х)9=к)У(9=т).
Используя достаточность Т(Х), запишем факторизацию (11) из $15: У(Х=х(6-9)=й(Т(Х); О) й(х). (19) Логарифмический множитель в (!7) после подстановки (18), (19) приобретает вид 1оа(й(1;9)~ д(1;т)Р(9=-т)), Т=Т(Х). (20) У(9,.Х)= ~Р(9=-9) T У(Х=. х(9= 0)/е т(х)(6. Т(х)1 =- =~к(9=0)~7„7(Х)(8,1) т Э (Х .х19=9) = в с : т(х);1 =-Х "(9 —.8),У (т(х) =119 =8) )е т(х,(0,1)-:7(9, т(х)). иь ь,$ Для непрерывных моделей н непрерывного априорного распре.
деления информационные характеристики вводятся путем замены ь формулах (!О) — (1О) дискретных распределений вероятностей иа соответств)юшие плотности. а сумм — иа интегралы. Запишем, для примера, выражения для взаимной и средней взаимной информации между 9 и Х: )е,х(0 х) ='оООе,х(0 хИе(6) 7х (х)) У (9, Х) = 1'...
(7е х(0, х) Те и (О.х) 00,... дОьг(х,... д,, (24) Аналогично дискретному случаю доказываются сформулированные выше информационные свойства подобных н достаточных статистик. Рассмотрим одни пример. (1!1) Лопустим вначале, что параметрическое множество 9 (Оь Оь...,О,) конечно и выборка также дискретиа, Запишем взаимную информацию: Уе х (Оь х) =" 1о ' (Р (9 = 0; ) Х =- х),'Р (9:=. 0;)) . (25) Задачу различения, какое именно значение приняла сл.и. 9, будем решать следующим образом: прп данном иаблюдецпи х в качестве предполагаемого значения неизвестного параметр;: выберем 0; такое, что выборка содержит о нем наибольшую информацию: lе х(Опх) з!е х(Оьх), 1-'=1, ...,г.
(26) Иначе говоря, выбирается такое значение 6,, что отношение его апостериориой вероятности к априорной наибольшее: Р(9=0;1Х=х)/ба(9=0~);~сУ(9 8;(Х х)/От(9=81), 1=1,...,г. (27) Перепишем (27) в виде Ф(Х=х~9=6~),Р(Х=х) >Р(Х= х!9=Ос)/Р(Х вЂ” -х), 1=1, ..., г, нлн У(Х=х)9=0з))~(Х=х19=0~), 1 1,, г.
(28) Из (28) видно, что предложенное правило различения на самом деле ие зависит от априорного распределения. Если вообще отка- 176 заться от байесовского метода и записать неравенство (28) для классического подхода: (29) го правило выбора (29) неизвестнгго значения параметра выглядит так: в качестве оценки выбирае,.я такое 8;, при котором вероятность наблюденной выборки х мчксимальна. Этот метод носит нэзвапие метода максимума правдоподобия, н о нем будет идти речь в следующей главе.
Отметим, что в непрерывном случ ~е также можно рассмотреть правило (26), заменив дискретн,.е распределения на плотности. Аналогично (29) имеем оценку О'=О'(х) максимального правдоподобия: ~0~ (х) ) ~р(х), 6 ~ 9. 3. Информация по Кульбаку. В байесовской модели информация по Шеннону служила мерой расхождения между апостернорным и априорным распределениями параметра. При классическом подходе также играют важную роль меры расхождения, но уже между распределениями РВ. О ся В. Фактически любая форма статнстйческого вывода о неизвестном параметре 8 модели (Х, Я (Рв О .= Й)) представляет собой некоторый способ различения мер Рв по иаблюденко. му значению выборки.
Если РО,=-Рв, для некоторых О,ФОь то понятно, что различить по выборке значения О~ и Оз невозможно. С другой стороны, если носители мер Рп, и Рв, не пересскаютгя, то задача различения 0~ и Оз становится тривиальной. Этп крайчие случаи не интересны для теории, но наводят иа мысль, что возможности различения 6~ и От зависят от того, насколько расходятся между собой распределения Рв, н Рв,, Предположим для определенности, что статистическая модель чепрерывна и меры Рв задаются плотностями ~в(х).
ИнфорчаОпей по Кульбаку в точке х для различения в пользу О~ против 8' называется величина г (О,: Ом х) =!ой ((в (х),7в, (х)). (З1) /в,х(Оьх) =- 1оа(аког(хИх(х)) '=1 2. (З2) 177 Выражение (3!) равно разности логарифмов плотностей (в,(х) и ув (х) и как мера расхождения представляется довольно естественной. Возвратимся на время к байесовскому подходу и рас:мотрнм взаимную информацию по Шеннону между х и 8;: Составляя разность выражений (32), получаем /О «(О,,х) — /О «(О„х) =!од(/а (х)//в,(х)) =/(О,:Омх).
(33) Итак, различающая информация в пользу /е, против Яеа в точке х по Кульбаку равна разности информаций Шеннона о 0~ и От, содержащихся в х, вне зависимости от априорного распределения (при условии, что априорные плотности или априорные вероятности в точках 0~ и 02 положительны). Определим среднюю различающую информацию в пользч /а, против /а, относительно меры Рв, как среднее значение (3!) пс этой мере: / (О,; О,) = 5... )'/ (8,: О,; х) /е, (х) с!х,...
Йх„- = !' ... )' /е, (х) 1ой (/е, (х)//е, (х)) с!х ... Их„, (34) где мы предполагаем, что носитель меры Рв, содержится в носителе Ро,'. ',х: /в, (х) ) 0) ~ ,'х: /а„(х] ) 0), и интегрирование в (34) распространяется на все х, для которых /а,(х) ) О. Иногда удобно вместо /(01. 8~) писать /х (О~: О~), чтобы подчеркнуть, что речь идет о различающей информации по всей выборке. С другой стороны, если Т=Т(х) — некоторая статистика, то аналогично (34) определяется различающая информация по статистике: /т(0,: 0,) == !'... ( /а (!) (о~(/те'(!)//та'(!)) с!1 с/! =с!/ .
й (38) Рассмотрим пример. (1Ч) Пусть /~ (хь хт) есть двумерная нормальная плотность й/т(0, Я), где (см. пример и. 1 5 12) /г(хь хт) =о| '(р(х~/о1)ор '<р(хт/от), где ~р(х) — плотность й/(О, 1). Тогда 1ои(/, (Х,, Хй)//т(Х,, Хт)) =-2 ' 1ои(1 — Рэ) — о т2 — ' (1 — Р')-' Хт-Ь + р (1 — ! ')-' о-, ' .; ' Х Х, — а" ,2 — ' (1 — р )-' Х' — 2 — о;--"Х; '+ 2- о-, Х„. Взяв математическое ожидание М~ по мере с плотностью /~(хь хт) от обеих частей равенства и учитывая, что М~Х~'=о~э, М~Хтт=отт, М~Х1Хт=ра~ом 178 получаем / <'< .
'2) = -' '< !о,' (1 — р~) — 2 < (1 — р~) < + р~ (1 — р~) — 2-' (1 — р*)-' + 2 — ' + 2-' = 2 — ' 1оя (1 — р') . Таким образом, /(1: 2) является функцией только коэффициента корреляции р. ° Перечислим некоторые свойства информации (34). 1. Йнформация всегда неотрицательна: /(0<.Оз) вО, причем равенство имеет место тогда и только тогда, когда множество (х: /» (х) ~/в,(х)) имеет Р»,-меру нуль, < 1, 2. 2.
Если Т(х) — некоторая статистика, то /т<х> (8,: Оз) < /х (О,: 8«) с равенством тогда н только тогда, когда Т(Х) — достаточная статистика. 3. Пусть Х=(Х<ц, Х<М) и Х<ц, Хнп — независимы прикаждомиз распределений Р», и Рв . Тогда /хо< х<г> (О: Оз) = /х<ц (О: 9<) + /х< > (О,: Оз). Подставляя (37) в (36) и записывая /»< !и' «1 /х<ц !а) / )., («) х +1 х/». !а, «) /Еа ( ) /в,( ) (36) разложим интеграл (36) в сумму интеграла ./< = )' !' /»<ц (и) /В<,, (ч) 1ой (/В<„(и)//»й, (и)) </и</ч (39) и интеграла 7в получаемого из У< заменой логарифмического члена на второе слагаемое из (38).