Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 19
Текст из файла (страница 19)
Для того чтобы лучше понять это решение, рассмотрим матрицу УУ'. — вектор выборочного среднего значения смеси двух распреде- лений, а — выборочная автокорреляционная матрица смеси двух распре- делений. $4.3, минимизАция сРеднекВАдРлтичной ОшиБки 111 Применим такое линейное преобразование системы коордипат, чтобы М 1[[ (1/У) ~ У1 — О и (1/Ж),~~ У1У,' = 1„ Так как при этом матрица [/У' преобразуется в матрицу У1, чо выражение (4.49) примет вид где штрихом помечены векторы и переменные в преобразован ной системе координат.
Таким образом, Анализ уравнения (4.58) показывает, что коэффициенты ~[в[... и[„~т определяются корреляцией между требуемым выходом и У. Более простой результат можно получить, если предположить, что ~ (г„') = + 1, 7 = 1, 2, ..., Л . В этом случае иУО УО 1/~ ~1/ (~1) Р (Ю2) б 1.......') =~'=Р(,)Р,— Р(.,)Р, в предположении, что выборочные априорные вероятности и вы- 11г (4.62) (4.63) Поэтому Р! = [Р ((ог) /~ ((о() ]Рг, Рг — Р( = [1/Р(о)() ]Рг. (4.64 ) (4.65) (4.66) Гл. $, линеиные кллссиФиклтОРы борочные средние значения равны истинным априорным вероятностям и векторам математического ожидания.
Из выражений (4.53) и (4.54) видно, что Р(о)1), Р; и К; в преобразованной системе координат связаны между собой следующим образом: ((о1) (К1 + Р~1Р1) + Р ((о2) (К2 + 2 2) Р((о()Р( + Р((ог)Рг = О. Подставляя (4.64) в формулу (4.61), получим 2Р ((ог) Рг. Таким образом, в преобразованной системе координат вектор Г перпендикулярен к отрезку прямой, соединяющей Рг с Р), Рис. 4.0. Классификатор, л(иннл(изирующий среднеквадратичную ошибку. А) Р (о1 ) + Р(оь) 1 а) 2Р (оь) Г)~У+ (Р (о)~) — Р (о),)) = О) т Б) Р (о1,) = Р(о12) ! 6) г)гт = О. как изображено на рис. 4.9, а.
Если априорные вероятности кл с сов равны, т. е. Р(о)() = Р(о)г), то величина порога (4.60) будет равна нулю, как показано на рис. 4.9, б. Преобразование (4.53) и (4.54) можно определить только по информации о смеси двух распределений, при этом не требуется информации о распределениях отдельных классов. Поэтому на- 5 4,3.
мин1лмизлцпя сРеднеквлдРлтнчнОЙ Ошивки 113 зовем это преобразование совместной нормировкой. Такое преобразование имеет важное значение, если необходимо разделить данные объекты на две группы в отсутствие информации о распределениях классов [Фукунага, Кунтц, 1970, в, г.]. Этот тнп классификации называют классификацией без учителя, илп автоматической классификацией. Она будет рассмотрена в последней главе. Данная классификация противопоставлена классификации с учителем, при которой для синтеза классификатора используется информация о распределениях каждого класса. Таким образом, по этому разделу можно сделать следующие выводы. 1) В случае совместной нормировки линейная разделяющая функция, минимизирующая среднеквадратичную ошибку л(е)кду требуемым и действительным выходом, определяется корреляцией между требуемым выходом и У.
Это справедливо для любого распределения. 2) В частности, если все требуемые выходы равны +1, то классификатор превращается в гиперплоскость, перпендикулярную к отрезку прямой, соединяющей векторы Р( и Рг. Это ре1пение совпадает с тем, которое быг)о получено в (4.3), где использовались корреляционный классификатор или классификатор, основанный на вычислении евклидова расстояния. Однако, так как выражения для значений порога в случае (4.3) и рис.
4.9, а различны, то выбор одного из них для каждого конкретного случая зависит от метода, используемого в конкретном приложении. Если априорные вероятности равны, т. е. Р(о)1) = =Р(о)г), то значения порога также равны. 4.3.2. Совместная нормировка смеси в случае нормальных распределений. Объединение процедуры совместной нормировки и построения корреляционного классификатора можно осуществить с иной точки зрения.- Рассмотрим случай, когда два распределения имеют.
разные векторы математических ожиданий и ковариационные матрицы. Для таких распределений интуитивный подход к синтезу линейной разделяющей функции состоит в следующем. 1) Предположим, что два распределения имеют одинаковыо ковариационные матрицы, причем каждая из ковариационных л(атриц равна среднему значению фактических ковариационных матриц, т. е.
Р(о)1)Х(+ Р(о)г)Хг. 2) Применим байесовский подход. Если распределения являются нормальными, то в случае одинаковых коварпационных лгатриц байесовский классификатор будет линейным. 11а рис. 4.10 изображен соответствующий пример. Из выражения (4.2) следует, что байесовский классификатор для упомянутых выше искусственных распределений имеет. 1':1. 4.
линейе1ые кллоеиФиклтОРы ф 4.4. тРевуемый ВыхОд и ЕРеднеквлдРлтичнля ОшиБкА 117 ((Е,) — переменная, на которую наложено ограничение ~(г,) ) О, ;(4.72)' где Б1дп( ) равно +1 или — 1 в зависимости от знака И"7;. В критерии (4.70) в качестве ((Я,) выбрана величина ~ И"Е;~. При этом только в случае И"Е, ( О производится вклад (И"Е,)2 в среднеквадратичную ошибку е2. Критерий (4.71) оценивает количество объектов, для которых выполняется условие И"Е ( О. В третьем критерии, наряду вектором И', подстраивают значения ( (Я,), которые должны быть положительными.
Эти критерии работают хорошо, но из-за наличия в них нелинейных функций, таких как ~ ~, Б1ип( ) и ((Е1) ) О, трудно получить явное значение оптимальных коэффициентов И'. Поэтому для нахождения оптимальных коэффициентов И' необходимо использовать поисковые методы, например, градиентный метод. Градиентный метод, минимизиру1ощий некоторый критерий, определяется следующим образом: И'(Е+ 1) = И'(Е) — р(де'/дИ') ~ „-„„(4.73) где 1 — номер итеративного шага, а р — положительная константа.
И в этом случае вследствие нелипейностп функций, входящих в е~, нельзя вычислить пропзводну1о де2/дИ'. Однако, по аналогии с линейным случаем (4.48), для рассмотренных критериев были предложены следующие рекуррентные выражения ~ХО, Кэшьяп, 1966]. 1) И'(У+ 1) = И'(Е) + (2р/У) У~ ~ У'И'(Е) ~ — У'И'(Е)], (4.74) 2) И'(1+ 1) = И'(1) + (2р/Ж) У~à — Б1дп(У'И'(1))], (4.75) 3) И (С+ 1) = И (г) + (2р/ж) и ~г Д вЂ” ГИ (г) ], (4.76) Г(~+1) = ГД+ (2р,аЧ) ~ГИ Д вЂ” ГД]+Ля, (4.77) где ~ У'И'~ — вектор с компонентамп, равнымп абсолютным значениям соответствующих компонент вектора У'И'; Б1дп(У'И') — вектор с компонентами, равными +1 или — 1 в зависимости от знака соответствующих компонент вектора У'И', Го — — ~1 1... 1]', х(4) — вектор штрафа с компонентами, явля1ощимися функциями соответствующих компонент вектора Г(Р). Другой подход состоит в том, что задача построения классификатора рассматривается как задача нахождения допустимого решения в форме (4.43) задачи линейного программирования с искусственно введенным вектором цен.
Для понимания этого подхода необходимо знакомство читателя с литературой по линейному программированшо. (4.78) Поскольку сходимость не зависит от выбора системы координат, это преобразование без ограничения общности упрощает рассмотрение данного вопроса. Критерий (4.72) можно записать следующим образом: е' = (1/Ж) (И"У вЂ” Г') (У'И' — Г) = = И'И' — (2/Ж) И УГ+ (1/Ж) Г'Г. (4.79) Градиенты среднеквадратичной ошибки е~, по коэффициентам И' и Г, представляют собой выражения ОБ2/дИ = 2(И' — (1/ж) иг), '(4.80) де2/дГ = (2/Ж) (à — У'И') .
(4.81) Для того чтобы выполнялось условие ((Е,) ) О, вычислительная процедура должна быть организована следу1ощпм образом. 1) Можно гарантировать выполнимость условия ((Е1) ) О, если в качестве начальных условий выбрать полон'ительные числа и в дальнейшем никогда не уменьшать текущие оценки. Этого можно добиться, если изменять значение вектора Г в соответствии с ЛГ = С+ ~С~, (4.82) а вместо С использовать С = У'И' — Г.
(4.83) Таким образом, компоненты вектора ЛГ будут положительны пли равны нулю в зависимости от того, положительны или отрицательны соответствующие компоненты вектора С. Следовательно, Г(1+1) = Г(/) +рЛГ Г(~) +р(С+ ~С~), '(484) где р — выбираемая соответствующим образом положительная константа.
В этой процедуре на каждом шаге значение ( всегда возрастает, а для того, чтобы уменьшить ошибку между ((21) и И"Е,, подстраивается коэффициент И'. Однако следует напом- 4.4.2. Доказательство сходимости для случая линейной разделимости классов, Если известно, что два распределения безошибочно разделимы линейной реша1ощей функцией, то существует поисковая процедура оптимизации критерия, которая гарантированно сходится ~ХО, Кэ1пьяп, 1966]. Рассмотрим третий критерий (4.72), при оптимизации которого наряду с коэффициентами И' подстраиваются ((Е,) при условии, что ((Е~) ) О.
Предположим, что система координат преобразована таким образом, что выполня1отся условия (4.53) п (4.54), т. е. ГЛ, $, ЛИНЕИНЫЕ КЛАССИФИКАТОРЫ 118 $4.5. ДРУГИЕ РАЗДЕЛЯ1ОЩИЕ ФУНКЦИИ 1 19 нить, что масштаб 1 и И' существенно не изменяют основну1о структуру классификатора, т. е. И"'2, представляет собой такой же классификатор, как и аИ"'Е1. 2) Не накладывается ограничений на коэффициенты И".