Хайкин С. - Нейронные сети (778923), страница 42
Текст из файла (страница 42)
корректные классификации), а вторая пара слагаемых— некорректные (1псопес1) (т.е. ошибки классификации). Каждое решение взвешивается произведением двух факторов: стоимости принятия решения и относительной частоты его принятия (т.е. априорной вероятности). Целью является нахождение стратегии минимизации среднего риска. В процессе принятия решения каждому вектору наблюдения х из пространства Х должно быть сопоставлено какое-либо из подпространств — Х, или Хг. Таким образом, 206 Глава 3. Однослойный персептрон 1. Чтобы интеграл вносил отрицательный вклад в значение риска К, все значения вектора наблюдения х, для которых подьнпегральное выражение (т.е. выражение в квадратных скобках) является отрицательным, должны быть отнесены к подпространству Х„(т.е.
к классу С,). 2. Чтобы интеграл вносил положительный вклад в значение риска К, все значения вектора наблюдения х, для которых подынтегральное выражение является положительным, должны быть исключены из подпространства Х, (т.е. отнесены к классу Сз). 3. Значения х, при которых подынтегральное выражение равно нулю, не влияют на риск К. Их можно отнести к любому классу произвольным образом.
В данном случае будем относить их к подпространству Хз (т.е. к классу Сз). Принимая зто в расчет, байесовский классификатор можно описать следующим образом. Если выполняется условие Р,(сш — сы)~л(х~С,) > Рз(сш — сзз)7к(х1Сз), то вектор наблюдения х следует относить к подпространствуХ: (гп.е. к классу Сг), в противном случае — к надпространству Хз (т.е. к классу Сз). Для упрощения изложения введем следующие обозначения: Ух(к~с,) * = Ь(х~с,)' рз(сщ — сат) р,(сз, — сы) (3.77) (3.78) На рис. 3.10, а представлена блочная диаграмма байесовского классификатора.
Его важные свойства сводятся к следующему. 1. Обработка данных в байесовском классификаторе ограничена исключительно вычислением отношения правдоподобия Л(х). Величина Л(х), являющаяся частным двух функций плотности условной вероятности, называется отношением правдоподобия (1йге!йзооб табо). Величина с, называется пороговым значением (йгевЬо!б) процедуры проверки. Заметим, что обе величины— Л(х) и с, — всегда положительны.
В терминах зтих величин байесовский классификатор можно переопределить следующим образом. Если для вектора наблюдения х отношение правдоподобия Л(х) превышает пороговый уровень ~г то вектор х принадлвлсит к классу Си в противном случае — к классу Сз. 3.10. Взаимосвязь лерселтрона и байесовского классификатора в гауссовой среде 207 Относим х к классу Сн если Л(х) >0 В противном случае — к классу Ст Относим х к классу Сп если !оял(х)>!оа ~, В противном случае — к классу Ст б) Рмс.
3.10. Две эквивалентные реализации байесовского классификатора: на основе отношения правдоподобия (а) н его логарифма (б) 2. Эти вычисления полностью инвариантны по отношению к значениям априорной вероятности и стоимости, назначенным в процессе принятия решения. Эти значения влияют на величину порога Р,. Байесовский классификатор и распределение Гаусса Рассмотрим частный случай задачи классификации на два класса, в котором случайная величина имеет распределение Гаусса.
Среднее значение случайного вектора Х зависит от того, какому классу принадлежат его реализации — С! или Сз, однако матрица ковариации Х остается одной и той же для обоих классов. Таким образом, можно записать следующее. Е[Х] = )(„ Е[(Х вЂ” р,)(Х вЂ” )(!)т] = С. Е[Х] = ))з Е[(Х вЂ” )( )(Х вЂ” )( )т] = С. Класс Сг'.
Класс Сг: С вычислительной точки зрения более удобно работать с логарифмом отношения правдоподобия, а не с самим коэффициентом. К этому заключению приходим по двум причинам. Во-первых, логарифм является монотонной функцией. Во-вторых, значения Л(х) и Р всегда положительны. Исходя из этого, байесовский классификатор можно реализовать в эквивалентной форме, показанной на рис. 3.10, 6. Такой подход называют логарифмическим критерием отношения правдоподобия (1оя-1Рке1й)оо(( гайо 1ез1). 288 Глава 3. Однослойный персептрон Матрица ковариации С не является диагональной, а зто значит, что образы классов С~ и Сз коррелированы. Предполагается, что матрица С является несингулярной, поэтому существует обратная матрица С '.
Используя эти соглашения, функцию плотности условной вероятности Х можно представить в следующем виде: /х(х(С,) = ехр( — -(х — р,) С '(х — р,)), 1 = 1, 2, (3.79) где т — размерность вектора наблюдения х. Введем следующие предположения. 1. Вероятность принадлежности образа обоим классам — С, и Сз — одинакова, т.е. р~ = рз = 1/2. (3.80) 2. Ошибка классификации имеет постоянную стоимость, а корректная классификация стоимости не имеет: сэз = сз~ не„= сзз = О. (3.81) Теперь мы обладаем всей информацией, необходимой для построения байесовского классификатора для двух классов. В частности, подставляя (3.79) в (3.77) и вычисляя натуральный логарифм, после упрощения получим." 1ойЛ(х) = — 1/2(х — р,,)тС '(х — )х,) +1/2(х — )х )тС '(х — р ) (3.82) )тС вЂ” ~ + 1/2( тС-х тС вЂ” э Подставляя (3.80) и (3.81) в (3.78) и находя натуральный логарифм, приходим к соотношению 1ой ~=0.
(3.83) Выражения (3.82) н (3.83) свидетельствуют о том, что байесовский классификатор для данной задачи является линейным классификатором, описываемым соотношением (3. 84) у — ж х+Ь, где 3.10. Взаимосвязь персептрона и байесовскою классификатора в гауссовой среде 209 х, Рис. 3.11.
Граф передачи сигнала байесовского класси- фикатора в гаугхоаой среде у = 1об Л(х), ~ = С-'(р~ — рз), т Ь = -()ь, С-')з, -)з, С-'(Я,). (3.85) (3.86) (3.87) Более точно, классификатор представляет собой линейный сумматор с вектором весов тв и порогом Ь (рис. 3.11). Теперь с учетом (3.84) логарифмический критерий отношения правдоподобия для задачи классификации на два класса можно описать следующим образом. Если выходной сигнал у линейного сумматора (содержаиГего порог Ь) пологкителен, вектор наблюдения х относится к классу Сп в противном случае — к классу Сз.
° Персептрон работает при условии, что классифицируемые образы линейноразделимы (1шевх!у зерагаЫе). Распределение Гаусса в юнтексте байесовсюго классификатора предполагает их пересечение, что исключает их линейную разделимость. Границы этого пересечения определяется посредством векторов 1ь, и 1ьз и матрицы ковариации С. Природа пересечения проиллюстрирована на рис. 3.12 для частного случая скалярной случайной переменной (т.е. размерность гп = 1).
Если входные сигналы неразделимы и их функции распределения пересекаются так, как показано на рисунке, алгоритм обучения персептрона не сходится, так как границы областей решения могут постоянно смещаться. ° Байесовский классификатор минимизирует вероятность ошибки классификации. Эта минимизация не зависит от пересечения между распределениями Гаусса двух классов. Например, в частном случае, показанном на рис. 3.12, байесовский классификатор всегда будет помещать границу областей решения в точку пересечения функций гауссова распределения классов С, и Сз.
Описанный выше байесовский классификатор в гауссовой среде аналогичен персептроиу в том смысле, что оба классификатора являются линейными (см. (3.71) и (3.84)). Однаю между ними существует ряд мелких и важных различий, на юторых следует остановиться (657). 210 Глава 3. Однослойный лерселтрон х Рис. 3.12. Две пересекающиеся одномерные функции распределения Гаусса Класс Кисс Сл С~ ° Алгоритм работы персептроиа является непараметрическим (попрагагпепзс), т.е. относительно формы рассматриваемых распределений никаких предварительных предположений ие делается. Работа алгоритма базируется иа коррекции ошибок, возникающих в точках пересечения функций распределения. Таким образом, персептрои хорошо работает с входными сигналами, генерируемыми нелинейными физическими процессами, даже если их распределения ие симметричны и ие являются гауссовыми. В отличие от персептроиа байесовский классификатор является параметрическим (рахагпепзс).
Ои предполагает, что распределения случайных величин являются гауссовыми, а это может ограничить область применения классификатора. ° Алгоритм сходимости персептроиа является адаптивным и простым для реализации. Его требования к хранению информации ограничиваются множеством сииаптических весов и порогов.
Архитектура байесовского классификатора является фиксированной; ее можно сделать адаптивной только за счет усиления требований к хранению информации и усложнения вычислений. 3.11. Резюме и обсуждение Персептрои и адаптивный фильтр иа основе алгоритма ЬМБ связаны самым естественным образом, что проявляется в процессе модификации сииаптических связей.
Более того, оии представляют различные реализации однослойного персептрона, обучаемого на основе коррекции ошибок (ашя! е 1ауег регсер1гоп Ьазед оп егтог-согтесГ!оп1еагл!пя). Термин "однослойный" здесь используется для того, чтобы подчеркнуть, что в обоих случаях вычислительный слой состоит из единственного нейрона (это отмечено и в названии данной главы).
Однако персептрои и алгоритм минимизации средиеквадратической ошибки отличаются друг от друга в некоторых фундаментальных аспектах. 3.11. Резюме и обсуждение 211 ° Алгоритм минимизации среднеквадратической ошибки использует линейный нейрон, в то время как персептрон основан на формальной модели нейрона Мак-Каллока-Питца. ° Процесс обучения персептрона завершается за конечное число итераций. Алгоритм минимизации среднеквадратической ошибки предполагает непрерывное обучение (соп1шпоиа 1еапппй), т.е. обучение происходит до тех пор, пока выполняется обработка сигнала. Этот процесс никогда не останавливается.