Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 48
Текст из файла (страница 48)
Х Ф Х (г) в (9.55) состоит из двух членов. Первый Когда 1-р- 2, 11,г в в иа ионные член р(" (г) превращается в р (г), когда обе ковариацио ы и поэтому его можно рассматривать как матрицы одинаковы, и х с е них степень разделимости мости классов, благодаря различию их средин ЛХ =, значений. торои чле . В й член н(2)(г) превращается в н(г), когда = ЛХ2, и его можно рассматривать как степень разделимости, ооусловленную „ б ю различием ковариационных матриц.
птимальные признаки для ка каждого из этих членов можно выбрать следу щим образом. 288 ГЛ. 9. СЛУЧЛЙ МНОГИХ РЛСПРЕДНЛГНИИ 282 Выбор признаков для р" (8). Выбор признаков для р("(8) производится так хсе, как в случае равных ковариационных матриц. В этом случае достаточно Одного признака, и он Определяется следующим образом: Р' (8) 2 (1 ) ( 1 '?) «( ) 1+ 2) ( 1 ~[~2)т (1) 1 (9.85)' 1 (1) ((1 — 8) Х1+ ~~~) (ЛХ? — ЛХ2) 1 (9.86) [(ЛХ ЛХ ) (('1 — 8) 2 + Х Г1(ЛХ Лх ))1/2' ГДЕ ВЕРХНИЕ ИпдЕКСЫ ОЗНаЧа1От, чтО ° (?)(81 ф(1) относятся к первому члену. Вектор ф(11 нормиру т д я И1 Ф1" ((1 — 8) 2'1+ 8Х,) Ф'," = 1 Выбор признаков для р(2) (8) .
Процедура выбора признаков для р'~) (8) Очень похожа на процедуру максимизации критерия У2(пг) (9.14). По аналогии с (9.37) имеем (2,( ) 1 1 «(А+ ЬА) ((1 — г) Х, + гХа) (А + ЬА ) « 2 '«(А+ ЛЛ) Х,(А'+ ЛА') «' ' «(А+ ЛА) Х (А'+ ЛА') )' 1 «А ((1 — я) Х, +.~12) А 2 ) АР А~ «1 ' « ~~дА~ «' = 1г [ЛА ((1 — 8) Х1+ 82).,) А' [А ((1 — 8) Х1+ 8Х ) А 1 ~) — (1 — 8) Фг «ЛАХдА (АХ?А ) ) — 81г «ЛАХ,А'(АХ.,А') ') = = ?г «ЛАХ1 ««(1 — 8) 1+ 8Х~ Х,) А'— — (1 — 8) А'«(1 — 8) 1+ 8(АХ1А') '(АХ,А"))— — 811 'Х,А' «(1 — 8) (А2',А') ' (А2'дА') + 81)) Х Х «А((1 — 8) Хд+ 82',) А'~ ') = О. (9.87) Для того чтобы (9.87) выполнялось при л1обых ЛА, вырахсенио [ ° ) в (9.87) должно быть нулевой матрицей, т.
е. ((1 — 8)1+811 'Х,) А' — (1 — 8) А' «(1 — 8) У+8 (АХ,А') '(АХ,А'))— — 8~, '~.,А'«(1 — 8) (А~,А') '(АХ1А')+ И) = = 8 (1 — 8) [А'+ Х1 Х,А' — А'(АХ1А') (АХ,А')— — Х1 'Х,А'(АХ,А') 1(АХ1А')~ = = 8(1 — 8)[Х1 'Х,А' — А'(А2'1А') (А2',А')) х х [х — (А2',А') ' (АХ1А')) (9. 88) 9 9 3, ГРлн11цА чнРновА и Рлсстоянии БхАтлчАРпя Х ~Х,А' = А'(АХ А') 1(АХ А') (9.89) или (9.90) А2'?А' = АХ24'. Матрица А, удовлетворяющая (9.()О), пе может быть оптимальной, так как в силу (9.79) из (9.90) следует [( (8) = О.
Так (2) как (9.89) совпэд1ает с (9.25) и, кроме того, р, (8) инвариантно (2) относительно любого преобразования с матрипей размерности т Х т то матрица А должна состоять из собственных векторов ! матрицы Х~ ~Х„а собственные значения матрицы (А2.?А') 'Х Х (А2'.2А') в т-мерном подпространстве совпадают с т собственными значениями матрицы ~1 ~, в исходном пространстве. В таком случае р, (8) принимает вид (2) (1 — Я) +,~Л,.
(2) (8) = ~ 1п т 1 1п «(1 — 8) ХГ + 811 ) ° 1= — 1 (9. 91) Поэтому первые т собственных значений л?, ..., 1), выбираются таким образом, чтобы выполнялось условие (1 — 8))),~ ' + 8Ы1 ) ° ° ) (1 — 8) )),и + гала †(9 9 ) вместо ранее применнвп1егося условия Х? )... ) Х„. Выбранные т признаков являются собственными векторами, соответствующими первым т собственным значениям (9.92), а матрицу А можно определить как А' = [Ф(1" Ф(2) ф(~)1 (9. 93) где верхние индексы обозначают второй член 11.(8). Выбор признаков для комбинаиии р(" (8) и 11(2) (8)'. Для минимизации р (8) мы не имеем аналитической процедуры и поэтому должны использовать численные метод1ы поиска минимума.
Од1нако признаки, близкие к оптимальным, можно найти аналитически. Рассмотрим два возможных способа выбопа таких признаков. — 1 а) Выберем собственные векторы матрицы Х1 Х, и нормируем их относительно 2'1. Тогда АХ,А' = 1 и АХ,А' = Л. (9.94) Оптимальные признаки, следовательно, удовлетворяют одному из двух условий ГЛ. 9. СЛУЧАЙ МНОГИХ РАСПРЕДЕЛЕНИЙ Далее, и) 1 (9.95) где (011 — багз) — /-я компонента вектора (А '1 А-'г) = -4 (М) — 1'бхг) ° (9.96) Таким об аз р ом, мы выбираем первые т собственных векторов так, чтобы удовлетворить условию [Фукупага, 1969] (0(11 — 11)21) г)1 — г) ~ -)- )г ))1 — г) Х~ ' -)- гХ) ') ) ...
(1 — ') + а1 ... ) г(1 — г) '"' + [и [(1 — г) 7),„'+ г7)„', ']. (9.97) В этой процедуре мы используем и щ „12) ся, что эти признаки являются также хорошими и для [21" (г). Слово «хорошие» означает, что [11" (г) хорошо представляется небольшим числом признаков [112) (г) . Преимущество этой процедуры заключается в том, что влияние отдельных признаков можно оценивать независимо (т.
е. выполняется свойство аддитивности) . б) Если [21" (г) доминирует в )2 (г), то собственный вектор ( . ) должен быть наиболее эффективным признаком. Поэтому вначале выбираем Ф1, а остальные т — 1 признаков )1) (2) могут быть выбраны таким образом, чтобы максимизировать [1„, 1(г) [Хандерсон, 1969]. Этими признаками будут Ф(2) ... Ф' ) 1 г. ° ° г ггг — 1 из (9.93). Недостаток этой процедуры в том, что вектор Ф1 неортогонален к другим признакам, и поэтому выбор отдельных признаков становится не независимым. П р и м е р 9.4.
Расстояние Бхатачария )2 ('/г) вычисляется дЛя СтапдгартНЫХ даННЫХ 1= 1, 2. ПрИЗНаКИ ВЫбИраЮтСя И уПО- рядочиваются согласно описанным выше процедурам а) и б). Результаты приведены в табл. 9.1. 9.3.3. Верхняя граница для распределений, отличных от нормального. Ранее рыло указано, что испольэова)ние границы Чернова или расстояния Бхатачария ограничивается некоторыми распределениями специального вида, для которых э р 1х эти границы могут быть найдены аналитически.
В соответствии с этим мы рассмотрели выбор признаков с использованием этих г а этих границ для нормальных распределений. Однако существует несколько способов нахождения верхней границы вероятности ошибки и $9.3. ГРАНИНА ЧЕРНОВА И РАССТОЯНИЕ БХАТАЧАРИЯ 285 '-г)[[,„для распределений общего вида. Рассмотрим одну из таких процвдгур [Хейдгорн, 1968].
м.. " Для того чтобы получить верхнюю границу вероятности ' ошибки, воспользуемся комбинацией границы Бхатачария (9.56)' Таблица 91 Выбор признаков для максимизации расстояния Бхатачария Процедура а) 1,49 0,22 1,64 0,84 1,80 2,08 76,6 88,3 4,8 5,1 5,5 8,3 6,3 15,0 5 Граница ошибки 1 1 2 ехр[ — 111(й)1 % Фактическая ошибка е, 90 1,9 2,0 3,2 2,5 4,7 6,0 13,9 Процедура б) Хв 5,21 5,10 2,16 2,22 91,9 94,5 1,29 54,8 и неравенства Иенсена. Для вогнутой функции «кореньквадратный» неравенство Иенсена формулируется следгующим образом: Е([р(Х/о)1) р(Х/о)г) ] '~~) ~ [Е(р(Х/о)1) р(Х/о)г))] "г.
(9.98) Для того чтобы связать левую часть неравенства (9.98) с границей Бхатачария (9.56), предположим, что математическое ожидание выражения [р (Х/о)1) р (Х/о)г) ] "г вычисляется при 'раВНОМЕрНОМ раСПрЕдгЕЛЕНИИ Х. ПуСтЬ А — ОбЪЕМ ОбЛаСтИ бЗ, ГдгЕ Х равномерно распределено.
Тогда (9.98) превращается в 11'2 )1)А) ) р )Х!иг) Р )Х)иг) АХ1 11) 1) ) )Р)Х)и,) р)Х)и )~ АХ~[ (9. 99) 111 гг11 — ~21 Р1( ~2) % Соответствующие А1 из а) '()„.в,б+7„.-0 б)2 г)г( /2) % 8,41 3,86 0,65 27,7 12,06 3,10 1,15 48,9 Х2 14,14 1,59 67,7 0,12 0,84 1,50 64,9 )),1 10,53 1,84 78,2 712 10,42 2,07 88,0 ~б 6,77 2,10 89,2 1,77 1,08 2,20 93,6 0,35 0,26 2,28 96,8 2,73 0,01 2,35 100,0 7"в 4,34 2,35 100,0 ОВЛ И РЛССтОЯнии БХАтЛЧАРиЯ 287 ~ 9 2 ГРАНИЦА ЧЕРН ГЛ.
9. СЛУЧАЙ МНОГИХ РАСПРИДИЛННИЙ 286 Или С [р(Х]и,) р(Х(и,)] ЫХ й р' А~ С р (Х(ие) р (Х]и ) ШХ~ 1!2 (9.100) А [ р (Х]и,) р (Х],) АХ~ ~< [Р (со~) Р (19,)1"' 1]2 (9.101) 1 [ Область й должна покрывать ту часть пространства, гдв р(Х/о11) р(Х/в12) не првнебрежимо мало.
Тогда левая часть неравенства (9.100) почти эквивалентна границе Бхатачария, гдв интеграл бервтся по всему пространству У. Оданако следаует отметить, что граница (9.100) пропорциональна УА и становится равной оо при й =,У. Поэтому область й следует выбрать настолько малой, насколько это позволяет упомянутое вышв ограничвние. Таким образом, вероятность ошибки ограничена выражением в([Р(О1 ) Р(о1 )]"2 ] [р(Х/со,) р(Х/со.))~'~с~х( Р Так как нас интересу1от распредавлвния р(Х/со() общего вида, будвм оцвнивать плотность вероятности по имеющимся объектам. Воспользуемся оценкой Парзена (см. гл. 6) и возьмем в качестве ев ядра нормальнов распределение. В таком случав ])]1 р (Х/,) = (1/~',.) ~ (2п) "" ] 2., ! '"~~,"" Х Х ехр — — Х~д""~ (Х вЂ” Х )'Х, ' (Х вЂ” Х ) (9.102) где Х,, / = 1, 2, ..., У,— объекты из класса 1, а Х( — выборочная ковариационная матрица класса (.