Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 12
Текст из файла (страница 12)
Основная наша цель — зто вычисление плотности р(х~Х), достаточно достоверной для того, чтобы прийти к получению неизвестной р(х). Это вычисление мы выполняем посредством интегрирования объединенной плотности р(х, 8~Х) по 9. Получаем р(х~Х) = ~ р(х, 9~Х)ггй, причем интегрирование производится по всему пространству параметра '). Теперь р(х, 9~Х) всегда можно представить как произведение р(х!9, Х)р(8~Х). Так как х и выборки из Х получаются независимо, то первый множитель есть просто р(х~9).
Распределение величины х, таким образом, полностью известно, если известна величина параметрического вектора. В результате имеем р(х~Х) = $ р(х) 9) р(9 ~Х) гг8. (14) Это важнейшее уравнение связывает «условную по классу» плотность р(х~Х) с апостериорной плотностью р(91Х) неизвестного параметрического вектора. Если вблизи некоторого значения 9 функция р(8)Х) имеет острый пик, то р(х~Х)жр(х!8), так что решение может быть получено подстановкой оценки 9, в качестве истинной величины вектора параметров. Вообще, если существует большая т) На протяжении данной главы областью интегрирования для всех интегралов будет все упомянутое пространство.
знС Обучение нри ооссеановеении среднеео ониченин 63 3.4. ОБУЧЕНИЕ ПРИ ВОССТАНОВЛЕНИИ СРЕДНЕГО ЗНАЧЕНИЯ НОРМАЛЬНОЙ ПЛОТНОСТИ 3.4.1. СЛУЧАЙ ОДНОЙ ПЕРЕМЕННОЙ: р(и!.Е') В данном разделе мы рассмотрим вычисление апостериорной плотности р(0|Х) и требуемой плотности р(х(Х) для случая, когда р(х~)4) Аг()4,У), а вектор среднего значения )4 есть неизвестный вектор параметров, Для простоты начнем с одномерного случаи, при котором р (х(р) А((р, оо), (15) где единственной неизвестной величиной является среднеезначение (4. ПредположиМ, что любое исходное знание, которое мы можем иметь о )4, можно выразить посредством известной априорной плотности р(р).
Кроме того, можно предположить, что ,р (р) - А) (р., оР. (16) где р, и о', известны. Грубо говоря, величина р, есть наше лучшее исходное предположение относительно р, а о', отражает неуверенность в отношении этого предположения. Предположение о том, что априорное распределение для р нормальное, в дальнейшем упростит математические выражения. Однако решающее предположение заключается не столько в том, что априорное распределение р нормально, сколько в том, что оно существует и известно.
Выбрав априорную плотность для р, можно представить ситуацию следующим образом. Вообразим, что величина р получена из множества, подчиняющегося вероятностному закону р()1). Будучи однажды получена, эта величина представляет истинное значение )4 и полностью определяет плотность для х. Предположим теперь, что нз полученного множества независимо взято п выборок х„... ..., х„. Положив Х=(х„..., х„), воспользуемся байесовским правилом, чтобы получить выражение Р (Х ( Р) Р (Р) ~ р (Х!Р) р (Р) бр н =аД р(х„~ р) р(р), (17) неопределенность относительно точного значения В, это уравнение приводит к средней плотности р(х19) по возможным значениям В.
Таким образом, в случае, когда неизвестные плотности имеют известный параметрический вид, выборки влияют на р(к!М') через апостериорную плотность р (Й1Ю). 64 Гл. 3. Оценка параметров и обучение е учителем где се — масштабный множитель, зависящий от Х, но не зависящий от р. Из этого уравнения видно, как наблюдение выборочного множества влияет на наше представление об истинном значении р, чпревращая» априорную плотность р(1л) в апостериорную плотность р (р ~Х). Так как р (х»(р)-У (р, ае) и р (р)-У(р„аее), то имеем р(р!Х)=иД ' ехр~ — 2 ( 'а ") ~х Х ехр~ — — (~ ~ч) 1= *=се' ехр = а'ехр р(р!М')==ехр~ — — (~ и") ~.
иоа (19) Отсюда получаем ! а ! оч ое+ ое о„ ае (20) —,= —,т„+ —,, На и !»е о» а о »ч где т„есть выборочное среднее и ! »=1 (21) (22) Решая уравнения в явном виде относительно р„ н оое о' ,,', т„+ кое+ о аоч+ а о„', получаем (28) о~~а» оа иоч»+ ое (24) где множители, не зависящие от р, включены в константы а' н а". Таким образом, р(р!Я'), представляющая собой экспоненцнальную функцию квадратичной функции от р, также является нормальной плотностью. Так как это остается в силе для любого числа выборок, то р (рЬЯ') остается нормальной, когда число п выборок возрастает, и р(р'ЬХ) называют воспроизводящей плотностью.
Если воспользоваться р(рьян) У(р„, о„'), то значения р„и о„'могут быть найдены приравниванием коэффициентов из уравнения (18) соответствующим коэффициентам из выражения 8.4. Обучение нри восстановлении среднего значения Из этих уравнений видно, как комбинация априорной информации и эмпирической информации выборок дает апостериорную плотность р (фЮ). Грубо говоря, )г„представляет наше лучшее предположение относительно р после наблюдения л выборок, а о'„отражает нашу неуверенность относительно этого предположения. Так как и'„монотонно убывает с ростом и, стремясь к овlп при стремлении л к бесконечности, каждое добавочное наблюдение уменьшает нашу г0 7,0 7,0 7,0 ь 00 00 40 -Ч -.У -г -7 0 7 0 Рнс З.л. Обучение среднему прн нормально» плотности. неуверенность относительно истинного значения р.
При возрастании и функция р(р'ьХ) все более заостряется, стремясь к дельта- функции при и -ьоо. Такое поведение обычно называется байесоеским обучением (рис. 3.2). Вообще ра представляет линейную комбинацию т„и р, с неотрицательными коэффициентами, сумма которых равна единице. Поэтому значение рн всегда лежит между т„и р,. При ее~О величина р„стремится к выборочному среднему при стремлении и к бесконечности. Если о,=О, то получаем вырожденный случай, прн котором априорная уверенность в том, что р=р„настолько бб Гл. 8. Оиенха парам«трое и обучение с учиаыхем тверда, что никакое число наблюдений не сможет изменить нашего мнения.
При другой крайности, когда печка, мы настолько не уверены в априорном предположении, что принимаем р„=пе„, исходя при оценке р только из выборок. Вообще относительный баланс между исходным представлением и опытными данными определяется отношением о' к о'„называемым иногда догматизмом. Если догматизм не бесконечен, то после получения достаточного числа выборок предполагаемые конкретные значения р, и а', не играют роли, а р„ стремится к выборочному среднему. ЗЛ,2. СЛУЧАЙ ОДНОЙ ПЕРЕМЕННОЙ: р(х ! Я') После получения апостериорной плотности р()е)Я') остается только определить «условную по классу» плотность р(х1Я)').
Из уравнений (14), (15) и (19) имеем р (х ! Я') = ~ р (х! р ) р (р 1Я') с(р = хехрЕ 2 ~ а„) ~с((ь Г 1 (х — р„)»1 = — ехр ~ — — " ~1(а, а„), 2паан ~ 2 ае + ае где ~ (о, о„) = ) ехр ~ — 2 — ()х — ч ) 1 с Следовательно, поскольку плотность р(х(Х) как функция х пропорциональна ехр ( — ( /е) (х — р а)е/(о»+аз„)), то плотность р (х)Х) распределена нормально со средним )с„ и дисперсией о«+о„'. р (х 1 Я') )т' (р„, о' + о,',). (25) Другими словами, для получения «условной по классу» плотности р(х(Х), имеющей параметрическую форму р(х(р) )и'(р, о'), следует просто заменить 1» на р„и а' на а'+а„'. По сути дела, с условным средним ра обращаются так, как еслй бы оно было истинным средним, а увеличение дисперсии характеризует дополнительную неопределенность х из-за недостаточно точного представления о среднем значении р.
Это и является окончательным результатом: плотность р(х(Х) есть требуемая условная по классу плотность р(х)оз;, Я)), которая с априорными вероятностями Р(со,) составляет вероятностную информацию, требуемую для построения байесовского классификатора. з) Напомним, что дли простоты мы не различаем классы, но все выборки здесь принадлежат одному и тому же классу, скажем ыр так что р(х(Я) на деле есть р(х!чер Яу). 3.4. Обучение лри еосстанаееении среднего онаненин 3.4.3. СЛУЧАЙ МНОГИХ ПЕРЕМЕННЫХ Исследовать случай многих переменных можно, непосредственно обобщив случай с одной переменной. Поэтому мы ограничимся лишь беглым наброском относящихся к нему доказательств. Как и прежде, положим, что р (х [ )4) - АГ ()г, Х) (26) и р ()е) й( ()ее Хе)» (27) где Х, Х, н р, предполагаются известными. После того как получено множество 2", содержащее и независимых выборок х„..., м„, можно применить байесовское правило н получить выражение л р ((а [,2 ) = а Я р (х [ )г) р ()4) = р [ — [л'! г '-»г )» — 2»'(г-' л*„-»г,'л,][], Ф ! которое представим в виде р Ы]Я=а'"ехр ~ — —,()г — )4.)'Х.'()4 — )4.)1.
(28) (29) Х„')е„е пХ 'пг„+Х,')г„ где еп„есть выборочное среднее еп„=- — ~ч» ' х„. 1 (30) Н4О Решение этих уравнений относительно )е„и Х„можно облегчить, если принять во внимание матричное тождество (А '+В ') '= А (А+В) 'В=В(А+В) 'А, справедливое для двух любых невырожденных матриц А и В размера г(хг(. После несложных преобразований приходим к окончательному результату: )г„= Хг ( Хг+ — „Х) пг„+ — „Х (Х, + — „Х~ )гг (3!) Х„=Х,(Х,+ — „'Х) ' — 'Х. (32) Таким образом, р(фЮ) гУ(р, Х„), и мы снова получили воспроизводящую плотность.
Приравнивая коэффициенты, получим уравнения, аналогичные (20) и (21): Хл! и Х ! + Хг Гл. 8. Очеииа аарометрое и ооучеиие е учителем Для доказательства того, что р(хье:) А(()»„, Х+Х„), надо, как и прежде, произвести интегрирование р (х ( Ю) = ~ р (х ~ )») р ()» ) .В')»()». Вместе с тем к тому же результату можно прийти с меньшими затратами, если принять во внимание, что х можно рассматривать как сумму двух случайных переменных — случайного вектора )», такого, что р()»1Х)-У()»„, Х„), и независимого случайного вектора у, такого, что р(у) А((0, Х).