Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 11
Текст из файла (страница 11)
Предположим, что Х содержит и выборок: Х=(хы ..., х„). Так как выборки получены независимо, имеем е р (Я' ! 8) = Д р (ха ~ 8). (1) Рассматриваемая как д У функция от О, плотность Рис. 3.1. Опенка по максимуму правдопор(Я'(О) называется праадо- добия для параметра 6. лодобием величины 8 относительно данного множества выборок. Очанка ло максимуму пра~- доподабия величины 0 есть по определению такая величина 8, при которой плотность р(Х~О) максимальна (рис. 3.1).
Интуитивно это означает, что в некотором смысле такое значение величины 0 наилучшим образом соответствует реально наблюдаемым выборкам. Для целей анализа обычно удобнее иметь дело с логарифмом правдоподобия, нежели с самой его величиной. Так как логарифм есть монотонно возрастающая функция, то максимуму логарифма правдоподобия и максимуму правдоподобия соответствует одна и та же величина О. Если р(Х!8) есть гладкая дифференцируемая функция О, то 0 определяется посредством обычных методов дифференциального исчисления. Пусть 0 есть р-компонентный вектор 0=(8„..., Ор)', пусть также ув — оператор градиента, а двт д дзл з) Иногда это и не имеет места, например когда все выборки входят в одну и ту ксе коварнадионную матриву.
Что следует делать в таких случаях, показано в задаче 6. 58 Гл. а. Оценка аараиетрае и айучение с учителем и пусть 1(В) — функция логарифма правдоподобия 1(9) = )онр(Х ~9), Тогда 1(9) = ~~~,!одр(х„~9) и=! (4) л ~!а1= ~ ~!а!ойр(хе)8). Совокупность условий, необходимых для определения оценки по максимуму правдоподобия величины 8, может быть получена, таким образом, из решения системы р уравнений уа 1=0. 3.2,2. СЛУЧАЙ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ: НЕИЗВЕСТНО СРЕДНЕЕ ЗНАЧЕНИЕ Для иллюстрации применения полученных результатов к конкретному случаю предположим, что выборки производятся из нормально распределенной совокупности со средним значением )е и ковариационной матрицей Х.
Для простоты сначала рассмотрим случай, когда неизвестно только среднее значение. Тогда )одр(ха)М)= — )од ((2п) ~Е~) — 2 (ха — )и)'Х '(хи — (л) ~!а)ой Р (х„~ уе) =- Е ! (ха — )ъ). Если отождествить 8 и (з, то из уравнения (Б) увидим, что оценка по максимуму правдоподобия для 1! должна удовлетворять уравкению ~~~ ~Х '(х„— )и) =О.
а=! После умножения на л и преобразования получим л 1 ч! )е = — „~„х„. е=! (6) Этот результат весьма убедителен. Он свидетельствует о том, что оценка по максимуму правдоподобия при неизвестном среднем по совокупности в точности равна среднему арифметическому выборок — выборочному среднему. Если представить и выборок геометрически в виде облака точек, то выборочное среднее будет центром этого облака. Помимо всего, выборочное среднее имеет ряд достоинств с точки зрения статистических свойств, в связи с чем эта 3.2.О~ но уд р И ИИ 3.2.3.
ОБЩИЙ МНОГОМЕРНЫЙ НОРМАЛЬНЫЙ СЛУЧАЙ В общем и более типичном многомерном нормальном случае неизвестны как среднее )а, так и ковариационная матрица Х. Как раз зти неизвестные параметры и образуют компоненты параметрического вектора О. Рассмотрим одномерный случай, приняв О,=и и О,=о'. Здесь имеем 1од р (ха ~ 6) = — — ! од 2ийа — ае (ха — 6,)' 1 1 а (х» — 6,) 1 1 +(ха — ег)а ° 2аа 20аа чгв 1од р (ха ~ 6) = Тогда уравнение (5) приводит к следующим условиям: — (х„— Ог) =О 1 ба и а е „в где О, и 6, — оценки по максимуму правдоподобия соответственно для О, н 6,. После подстановки )а=От, наг=От и несложных преоб- разований получим следующие оценки по максимуму правдопо.
добия для )а и ааг 1 и-а р= — ~ х„, Ф=! а 1 ъ~ оа = — ~, (х„— )а)а. — л а=1 (8) Хотя анализ многомерного случая в основном носит аналогичный характер, он значительно более трудоемок. Из литературы ') хорошо известно, что оценка по максимуму правдоподобия для )а ') Т.
Андерсон, Введение в многомерный статистический аналиа, гл. 3, М., Фиаматгиа, !963. весьма наглядная оценка часто оказывается предпочтительнее, нв говоря уже о том, что она представляет максимально правдоподоб- ное решение. ЗО Гл. 8. 0»»янна нарам«»ярое и обучение с учителем н Е дается выражениями л м = — „~~', хе " е=! (10) Таким образом, еще раз подтверждается, что оценка по максимуму правдоподобия для среднего значения вектора — это выборочное среднее. Оценка по максимуму правдоподобия для ковариационной матрицы — это среднее арифметическое и матриц (хь — )«) (хд — )«)». Так как подлинная ковариационная матрица и есть ожидаемое значение матрицы (х — )«) (х — )«)», то полученный результат также весьма естествен.
З.З. БАЯЕСОВСКИЯ КЛАССИФИКАТОР Читателям, знакомым с математической статистикой, известно, что оценка по максимуму правдоподобия для ковариационной матрицы смещена, т. е. ожидаемое значение 2 ие равно Х . Несмещенная оценка для е' задается выборочной ковариационной мал»- ри»)ей С = — ~~'„(хе — )«) (хь — м)». е=! (1 1) Очевидно, что 2 =1(и — 1)/п)С, так что эти две оценки, по суще. ству, совпадают при большом и.
Однако наличие двух сходных и тем не менее разных оценок для ковариационной матрицы смущает многих исследователей, так как, естественно, возникает вопрос: какая же из них «вернаямэ Ответить на это можно, сказав, что каждая из этих оценок ни верна, ни ложна: они просто различны.
Наличие двух различных оценок на деле показывает, что единой оценки, включающей все свойства, которые только можно пожелать, не существует. Для наших целей сформулировать наиболее желательные свойства довольно сложно — нам нужна такая оценка, которая позволила бы наилучшим образом проводить классификацию. Хотя разрабатывать классификатор, используя оценки по максимуму правдоподобия для неизвестных параметров, обычно представляется разумным и логичным, вполне естествен вопрос, а нет лн других оценок, обеспечивающих еще лучшее качество работы.
В данном разделе мы рассмотрим этот вопрос с байесовской точки зрения. 8.8. Байасоасянй яласчп(викаеар з.зл. плотности, условныв по кллссу Сущность байесовской классификации заложена в расчете апостериорных вероятностей Р(а,~х).
Вайесовское правило позволяет вычислять эти вероятности по априорным вероятностям Р(а,) и условным по классу плотностям р(х|а;), однако возникает вопрос: как быть, если эти величины неизвестны? Общий ответ таков: лучшее, что мы можем сделать,— это вычислить Р(агах), используя всю информацию, имеющуюся в распоряжении. Часть этой информации может быть априорной, как, например, знание о виде неизвестных функций плотности и диапазонах значений неизвестных параметров.
Часть этой информации может содержаться в множестве выборок. Пусть Я' обозначает множество выборок, тогда мы подчеркнем роль выборок, сказав, что цель заключается в вычислении апостериорных вероятностей Р(аДх,Х). По этим вероятностям мы можем построить байесовский классификатор. Согласно байесовскому правилу '), (а ~х й")— (12) Р «(» (ыр,в:) Р (ы) 1Я') ! Это уравнение означает, что мы можем использовать информацию, получаемую из выборок, для определения как условных по классу плотностей, так и априорных вероятностей. Мы могли бы придерживаться этой общности, однако впредь будем предполагать, что истинные значения априорных вероятностей известны, так что Р(аг)Х)= — Р(а,).
Кроме того, так как в данном случае мы имеем дело с наблюдаемыми значениями, то можно разделить выборки по классам в с подмножеств Я'ы ..., Х„ причем выборки из Хг принадлежат а,. Во многих случаях, в частности во всех, с которыми мы будем иметь дело„выборки из Ху не оказывают влияния на р(х)аы Х), если (чь/. Отсюда вытекают два упрощающих анализа следствия. Во.первых, это позволяет нам иметь дело с каждым классом в отдельности, используя для определения р(хетаг, Х) только выборки из Я'г. Вместе с принятым нами предположением, что априорные вероятности известны, это следствие позволяет записать уравнение (12) в виде (13) р(а,(х, Х) = ~Ч», 'р(х! ад я)) Р(ыу) г) Заметим, что в данном уравнении каждая вероятность и функция плотности условны по отношению к множеству выборок.
То обстоятельство, что данное уравнение и есть просто байесовское правило, становится более ясным, если опустить общие величины, входящие в виде условий, Читатель может найти этот прием полезным прн интерпретации сходных уравнений в других местах данной главы. 62 Гл.3. Оценка параметров и обучении е учикмлем Во-вторых, так как каждый класс может рассматриваться независимо, можно отказаться от ненужных различий классов и упростить записи. По существу, здесь имеется с отдельных задач следующего вида: требуется определить р(х~Х), используя множество Х выборок, взятых независимо в соответствии с фиксированным, но неизвестным вероятностным законом р(х).
Это и составляет главную задачу байесовского обучения. 3.3.2. РАСПРЕДЕЛЕНИЕ ПАРАМЕТРОВ Хотя требуемая плотность р(х) неизвестна, предположим, что она имеет известную параметрическую форму. Единственно, что предполагается неизвестным, зто величина параметрического вектора 8. Тот факт, что р(х) неизвестна, поимеет известный параметрический вид, выразим утверждением, что функция р(х~9) полностью известна. При байесовском подходе предполагается, что неизвестный параметрический вектор есть случайная переменная. Всю информацию о 9 до наблюдения выборок дает изеестная априорная плотность р(9). Наблюдение выборок превращает ее в апостериорную плотность р(9~Х), которая, как можно надеяться, имеет крутой подъем вблизи истинного значения 9.