Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 43
Текст из файла (страница 43)
Прилежный читатель сможет показать, что если функция правдоподобия дифференцируема и если Р(в!)зьО для любого !', то Р (а!) и О; должны удовлетворять соотношениям Р (а,) = — ~~',Р (ве(х», Ое) » 1 (О) 2„Р(а!)х», О!)у 1ойр(х»(ве, О!)=О, в! (10) где Р ( .! О.) р (х» |ео О!) Р (а!) ~я~~ ~р(х» (ар 9!) Р(а.) 1=! (П) аль ПРИЛОЖЕНИЕ К СЛУЧАЮ НОРМАЛЪНЪ|Х СМЕСЕЙ х! Р!не! сот х ? ? Случай! самый простой, и мы его рассмотрим подробно из педагогических соображений. Случай 2 более реальный, хотя несколько более сложный. Случай 3 представляет собой задачу, которая возникает, когда мы сталкиваемся с полностью неизвестным множеством данных.
К сожалению, он не может быть решен методами максимума правдоподобия. А|ы отложим иа конец главы обсуждение того, что можно сделать, когда число классов неизвестно. Посмотрим, как эти общие результаты применяются в случае, когда плотности компонент нормально распределены, р(х)вь О,) А((ИЪ Х !). Следующая таблица иллюстрирует несколько различных ситуаций, которые могут возникнуть в зависимости от того, какие параметры известны ()Г) и какие неизвестны (?): Гл. б. Ойунвнив авв унивввлх и вууиниуввхи аль1. СЛУЧАЙ 1. НЕИЗВЕСТНЫ СРЕДНИЕ ВЕКТОРЫ Если единственными неизвестными величинами являются вектОры средних значений )х„то В, можно идентифицировать с р1 н использовать соотношения (6) для получения необходимых условий оценки по максимуму правдоподобия вектора )х,.
Поскольку 1оя р (х / гвь )х,) = — !од [(2п)~м ! Х, ! ы* ] — — (х — )41)' 21 ' (х — рг), 1 то .!пар(х (в;, )хг) =Х,'(х — )хг). Таким образом, из условия (6) для оценки по максимуму правдоподобия )х) получим ~ Р (ги, ! х», )х,) =,~, '(хи — )х;) = О. После умножения на 21 и перестановки членов получаем формулу и ~ Р (ин ! хх, уи) хх )хг = (12) ~я~~ ~Р (м;!хв, )в;) В=1 которая интуитивно оправданна.
Она показывает, что оценка для ри — это просто взвешенное среднее выборок. Вес й-й выборки есть оценка правдоподобия того, что хи принадлежит (-му классу. Если оказалось, что Р(ги;!хх, )х) равно единице для нескольких выборок н нулю для остальных, то р; есть среднее выборок, которые оценены как принадлежащие ~'-му классу. В более общем смысле предположим, что р, достаточно близко к действительному значению р, и что Р (ги; !хи, )41) есть в сущности верная апостериорная вероятность для вь Если рассматривать Р(кч!хх )х) как долю тех выборок, имеющих значение х„, которые принадлежат (-му классу, то видим, что соотношение (12) определяет )х, как среднее выборок 1'-го класса.
К сожалению, соотношение (12) не определяет )х, явно, и если мы подставим в( ~ Р (хх ! ил ру) Р (еу) 1=! с Р(х!во )х~) М()хь 21), то полУчнм сложнУю комбинацию из по. парно совместных нелинейных уравнений. решение этих уравнений обычно не единственно, и мы должны проверить все полученные решения, чтобы найти то, которое действительно максимнзнрует правдоподобие.
6.4. При»олеские к серчаю нормальных смесей 217 Если у нас есть какой-то способ получения достаточно хороших начальных оценок )»е(0) для неизвестных средних, уравнение (12) предполагает следующую итерационную схему для улучшения оценки: и ~чь, 'Р (аи(х», )и())) х» Рс(1+ 1) = (13) ч~~~ ~Р (ьч(х», и;(/)) »=1 Это — градиентный метод подъема или процедура восхождения на вершину для максимизации логарифма функции правдоподобия. Если перекрытие между плотностями компонент невелико, то связь между классами будет малой и сходимость будет быстрой. Однако, когда вычисление закончено, нам достаточно убедиться, что градиент равен О.
Как и все процедуры восхождения на вершину, эта тоже не гарантирует, что найденный максимум — глобальный. 6А.2, ПРИМЕР Чтобы продемонстрировать, с какими конкретными вопросами можно встретиться, рассмотрим простую одномерную двухкомпо. нентную смесь, имеющую нормальную плотность: 1 Г 1 р(х~р, р.) ==ехр)~ — —,(х — р Р1+ 3)/2и +=ехр~ — — (х — р,)'1 3 г'2л ~. 2 25 выборок, показанных в табл.
6. 1, были отобраны из этой смеси с р,= — 2 и р,=2. Таблица 6П 26 нмборох нз смеси с нормальным распределением Класс Клесс 1 2 3 4 5 6 7 В 9 1О 11 12 Гл. б. Обучение без учигпгля и группврсвка 218 Используем эти выборки для вычисления логарифма функции правдоподобия а 1(р„р,) = ~~~~ ~1од р (ха )р„1ь,) для различных значений р, и р,. На рис.
6. 1 показано, как изменяется 1 в зависимости от и, и цз. Максимальное значение 1 достигается при р,= — 2,130 и р,=1,666, которые находятся поблизости Рис. 6.1. Контуры функции логарифма правдоподобия. от значений р,= — 2 и р,=2'). Однако 1 достигает другого максимума, сравнимого с первым, при р,=2,085 и р,= — 1,25?. Грубо говоря, это решение соответствует взаимной замене р, и р,. Отметим, что, если бы априорные вероятности были равны, взаимная замена р, и р, не вызвала бы изменения логарифма функции правдоподобия. Таким образом, когда плотность смеси не идеитифи- з) Если данные в табл. 6.1 разбить на классы, получим результирующие средние выборок аг,= — 2,176 и ага=.1,684.
Таким образом, оценки по максимуму правдоподобия для обучения без учителя близки к оценкам по максимуму правдоподобия для обучения с учителем. 6.4. Прилоисение н случаю нормальных счесал 219 цируема, решение по максимуму правдоподобия не является единственным. Можно дополнительно взглянуть на природу этих множественных решений, изучая результирующие оценки плотностей смеси.
Рис. 6. 2 показывает истинную плотность смеси и оценки, полученные с использованием оценок по максимуму правдоподобия, как если бы они были истинными значениями параметров. 25 значений выборок показаны в виде точек вдоль оси абсцисс. Отметим, что максимумы как действительной плотности смеси, так и решения по максимуму правдоподобия размещены там же, где расположены две основные группы точек. Оценка, соответствующая меньшему и - ч' —.т -е -1 й 1 е,7 Ч Ааииае ° ьы ь ° ь ° чь ° ы ь ч ю ° Рнс. 6.2. Оценка плотности смеси.
локальному максимуму логарифма функции правдоподобия, представляет собой зеркальное отображение, но ее максимумы также соответствуют группам точек. На первый взгляд нн одно из решений не является явно лучшим, и оба представляют интерес. Если соотношение (13) используется для итерационного решения уравнения (12), результаты зависят от начальных значений р,(0) и р, (О). Рис. 6.3 показывает, как различные начальные точки приводят к различным решениям, н дает некоторое представление о степени сходимости.
Отметим, что, если р.,(0)=р,(0), мы попадаем в седловую точку за один шаг. Это не случайность. Это происходит по той простой причине, что в этой начальной точке Р (со, ~х„р,(0)) = =Р(соа1х„, р,(0)). Таким образом, уравнение (13)дает средние для всех выборок р, и р, при всех последующих итерациях, Ясно, что это общее явление, и такие решения в виде седловой точки можно ожидать, если выбор начальной точки не дает направленного смещения в сторону от симметричного ответа. Гл. б. Обучение бег учшпеля и группировка Рис.
6.3. Траектории дли итерациоииой процедуры. 6,4.3. СЛУЧАЙ 2. ВСЕ ПАРАМЕТРЫ НЕИЗВЕСТНЫ Если )до Х; и Р(гог) неизвестны и на матрицу ковариаций ограничения не наложены, то принцип максимума правдоподобия дает бесполезные выроищенные решения. Пусть р(х1)г, ог) — двух- компонентная нормальная плотность смеси Р(Х~)г, Цг)= — ЕДР~ 2 ( О ) ]+=ЕДР~ '2 Функция правдоподобия для и выборок, полученная согласно зтому вероятностному закону, есть просто произведение п плотностей р (ха~)г, оа). Предположим, что р=х„так что 1 1 Г 1 1 р(х,1)г, о') = +=ехр ~ — — х,'~.
2)~ 2ло 2У2я 1 2 Ясно, что для остальных выборок р(хе~)г аг)) — ехр~ — — хе~, 1 Г 1,1 2~2п 1. 2 .1 Ге. б. Обучение бее учипиех и еруппиреена ~~»', Р(еее(х», 96(хн — )ей(хе — )е!)! н=! (16) ~ Р (м;)хн, О;) /г= ! где Р ! ! 6~ Р(хе ! !е! а!) ~ (е!!) (и!!~х», )= е ~ЧР ~р (хн ! еер В!) Р (м ) ! ! (2; ) еы ехр ~ — — (хе — )е!)!2! е(х» — и;)~ Р(м!) (17) с ~~~Р!2 1 ыеехр ~ — (хн — )у)е2! ! (х» — )! )~ Р (ее)) е=! Хотя обозначения внешне весьма усложняют эти уравнения, их интерпретация относительно проста.
В экстремальном случае прн Р(и!!(хн, 6), равном единице, если хн принадлежит классу еи!, и равном нулю в противном случае, оценка Р (еи!) есть доля выборок из ее, оценка р! — среднее этих выборок и 2 ! — соответствующая матрица ковариаций выборок. В более общем случае, когда Р(и!!~хи, О) находится между нулем и единицей, все выборки играют некоторую роль в оценках. Однако и тогда оценки в основном— это отношения частот, средние выборок и матрицы ковариаций выборок. Проблемы, связанные с решением этих неявных уравнений, сходны с проблемами, рассмотренными в п.
64.1. Дополнительная сложность состоит в необходимости избегать вырожденных решений. Из различных способов, которые можно применить для получения решения, самый простой состоит в том, чтобы, используя начальные оценки в (17), получить Р (еи!'!хх, б!) и затем, используя соотношения (14) — (16), обновить эти оценки. Если начальные оценки очень хорошие, полученные, возможно, из достаточно большого множества помеченных выборок, сходнмость будет очень быстрой.
Однако результат зависит от начальной точки, и всегда остается проблема неединственности решения. Более того, повторные вычисления и обращение матриц ковариаций может потребовать много времени. Значительного упрощения можно достичь, если предположить, что матрицы ковариаций диагональны. Это дает возможность уменьшить число неизвестных параметров, что очень важно, когда число выборок невелико. Если это предположение слишком сильно, то еще возможно получить некоторое упрощение, предполагая, что с матриц ковариаций равны, что тоже снимает проблему вырожденных 223 6.4. Лрилокение к случаю нормальных смесей решений.