Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 46
Текст из файла (страница 46)
(2.123) и (2.124)). В таком случае критерий Х1 9.2.2. Выбор признаков, максимизирующих критерий У1. Предположим, что мы выбираем т(т ( и) признаков 1' = ~у!... у ]', полученных умножением матрицы преобразования А размерности т,г4', и на исходный и-мерный вектор Х = ) х!... х„]'! т' = АХ. 271 $9,2: ДИСКРИМИНАНТНЫИ АНАЛИЗ 270 (9. 25) (9.19) Так как (АЯ,Ат) — 1 (АЯ1Ат) = Я2'51,„, У,(т) = 1г52 Я„„=,'~~ [11. — 1 (9.20) (9.27) или р,.
(А Ч~),. = ~ ~, (А Чг),, г = 1, 2,, тг (9.28) (9.30) Уг (т) = $г М = ~~~ Лг. (9.32) ГЛ. 9. СЛУЧАИ МНОГИХ РАСПРЕДЕЛЕНИИ для п и т признаков принимает вид п У, (и) = $г Я,.— 15, = Х Л., 1=1 Бак только с помощью (9.17) определено т-мерное подпростраиство пространства Х, критерий г1(т) оказывается инвариантным относительно любой невырожденной матрицы преобразования В размерности т Х т, так как $г ((ВЯ, В ) (ВЯ, В )) — 1г (Вт Я'и, В ВЯггиВт) = $г (Вт 52и,51 Вт) = $г (Я~щ51и1ВтВт ) = 1г (Ь~~„Я1ги). (9.21) Следовательно, выбрать т признаков, максимизпрующих У1, значит найти такое т-мерное подпрострапство, что собственпыо значения матрпцы 52 Я1 в этом подпространстве будут больпге, чем в любом другом т-мерном подирострапстве.
Как только это подпространство найдено, линейные преобразования внутри него не могут ни улучшить, ни ухудшить значение г'1(пг). Условие максимума критерия У1(т) (9.20) можно записать следующим образом: Л 7 (т) ~г [((А + ЛА) Я ( ~т г ЛАт)) — 1 (( 1 [ ЛА) Я (Ат ! ЛАт))1 г((АЯ Ат) — 1(АЯ,Ат)) =- 0 (9 22) при люоых ЛА. Используя прнблпжениое равенство (1+ Л) г — Л и опуская члены второго и более высоких порядков малости, имеем Л7, (т) 1г [ (АЬ' Аг) — 1(ЛАЯ,Ат -[- АЯ.ЛАт) (АЬ'.,Ат) — 1(АЯ1Ат) + +. (А ~2 Ат) — 1 (ЛА Ь'1Ат + АЬ'1ЛА г) гг [(АЯ Ат) — 1 ЛАЯ (Ат (АЯ Ат) — 1 (АЯ,1т) Я, Я Ат)1 ~г ~[АЯ Ат) ( $Я 1т) — 1А АЯ Я, ] Я ЛАт (АЯ 1г) — 11 (9 23) Так как 51, Я2, АЯ1А'(= 51,.) и АЯ2А'(= Ь2.,) — матрица рассеяния и оип симметричны, то (9.23) имеет вид: ЛУ1(т) = — $г[ ] — $г[ ]'". Так как 1г~ ] = 1г[ ]', выражение (9.23) принимает впд Ы (т) м — 2 ~г [(АЯ,Ат) ' ЛАЯ, [Ат (АЯ.Ат) ' (АЯ,Ат)— — 52 'Я,Ат)] = О.
(9.24) Для того чтобы (9.24) выполнялось при любых ЛА, выражение ( ) в (9.24) должно быть нулевой матрицей, т. е. А' (АЯ,Ат) — 1 (АЯ1Ат) = 52 'Я1Ат то матрица в левой части этого равенства может быть выражена через матрицы ее собственных значений Ж и собственных векторов Ч" следующим образом: (АЯ. А') — ' (АЯ1А') = 52 'Я1 = Чг УT~. Поэтому (9.25) принимает вид (АтЧг) у Я, 15 (АтЧг) где (А'Ч"); — г-й вектор-столбец матрицы (А'Ч'), имеющей размерность пХ т.
Уравнение (9.28) показывает, что [г; и (АЧ");, г = 1, 2,..., т, являются- также собственными значениями и собст 1 ст ственнымн векторами матрицы э2 зг. Нам уже известно из (9.21), что после выбора т-мерного подпространства с помощью матрицы преобразования А дальнейшее применение матрицы преобразования Ч"' размерностей т Х т не изменяет У1(т). Поэтому из (9.28) можно сделать вывод, что оптимальным является такое преобразование А, при котором собственные значения матрицы 52 151 в соответствующем т-мерном подпространстве будут равны; [г;=Л;, г=1, 2, ..., т, (9.29) где Лг упорядочены следующим образом: Лг > Л2 »... Л .
Этого можно достигнуть, составив матрицу А' из первых т соб- ственных векторов Ф;, г = 1, 2,..., т: А' = ~Ф1 Ф2...Ф ]. (9.31) Действительно, А' = [Фг...Ф ] В при любой невырожденной матрице В размерности т К т дает одно и то же значение критерия :г1(т): Равенство (9.32) показывает, что влияние отдельных признаков 272 $9.2 ДИСКРИМИНАНТНЫИ АНАЛИЗ 273 Лз=Л4 ° ° ° =Ля=О. '(9.34) Я2 51Ат рАт (9.
44) ГЛ 9 СЛУЧАИ МНОГИХ РАСПРЕДЕЛЕНИИ является независимым и свойство аддитивности (9.2) выполняется. Пример 9.1. Возьмем в качестве матриц Я1 и Я2 соответственно Яи (9.8) и Я (9.7). Так как ранг матрицы Яд равен 2, — $ матрица Я Яь, имеет только два ненулевых собственных аначеиия, т. е. | Л + Л вЂ” ~г (Я Як) 2 Р (со;) (ЛХ, — М9)' !Р (со,) Х, + Р (со2) Х,! (ЛХ ЛХ ) 4=4 (9.33) Поатому, не уменьшая критерия У~, можно ограничиться всего двумя признаками. Прим ер 9.2.
Возьмем в качестве Я~ и 82 матрицы Яи2 (9.9)' и Я„(9.7). Так как ранг матрицы Яи равен 1, то матрица Я„~Б~ имеет только одно ненулевое собственное значение: |, = Л, = 1г (Я„'Я„) = = (ЛХ, — ЛХ2)'(Р (со,) Х, + Р (о) ) Х ) — ' (ЛХ вЂ” М,) т (9.35) Л2 = Лз = ... = Ла = О. ,'(9.36) Можно, не уменьшая Ун ограничиться всего одним признаком.
Сравнивая с (3.104), видим, что (9.35) — граница Чернова для нормальных распределений, когда два распределения имеют одинаковые ковариационпые матрпцы Р (со ~) Х~ + Р (со2) 2.'2. 9.2.3. Выбор признаков, максимизирующих критерий У2.1"ритерий У2 можно максимизировать по А аналогично тому, как это делалось для критерия У~. Д| ( ) 1 !<А+ ~А) ~ (А + ~А )! 1п!А~А ! !<А+ЛА> Ь',(А'+ ЛА')! !А,~,А'! = !7+ (~ ~~ 1т ~ ~~ ~ 1т)( ~~ ~т) — $! !К+ (Лля,Ат+ Ая,ЛА') (Ая,л') — '! =1г((ДАЯ,Ат 4 АЯ ДАт) (АЯ Ат) — с) — 1Г ((ДАЯ,Ат !- АЯ ДА') (АЯ А') ') = =2~Г [ДАЯ [Я2 'Я,А' (АЬ1А~) — 1 Ат (АЯ Ат) — ')1=0 (9.37) И в этом случае, для того чтобы (9.37) выполнялось независимо от ДА, выражение ( ) в (9.37) долнсно быть нулевой матрицей.
Поатому Я вЂ” 'Я Ат = Ат (АЯ Ат) — $ (АЯ Ат) (9.38) Уравнение (9.38) совпадает с (9.25). Можно также доказать, что критерий У2 (т) инвариантеп относительно любой невырожденной матрицы преобразования В размерности т Х т, так как !Вяс В'! 1 (ВИЯ1 !!В'! 1П~Л~ ! (939) !ВЯ2 В ! !В! !Я2 ! !Вт! !Я2т! Таким образом, для максимизации критерия У2(т) в качестве признаков выбираются первые т собственных векторов матрицы Я1',при атом критерий У2(т) примет вид П1 |,( )=Х1ПЛ,. (9.40) ~=1 Свойство аддитивности (9.2) также выполняется для этих ортогональных признаков. 9.2.4.
Выбор признаков,.максимизирующих критерий Уз. Значения критериев Уз и У4 зависят от выбранной системы координат. Например, матрица В размерности и К и изменяет Уз и У4 следующим образом: Уз = $г(ВЯ!В ) — р (1г(ВБ2В ) — с) := 1г(Я~В В) — Р (1г(Я2В В) — с) Ф 1гЯ1 — р (1ГЯ2 — с), (9.41) У4 = Ы(ВБ,В') ~И(ВБ2В )— = 1г(Я~В В) (~г(ЯгВ В) Ф сгЯ~/1гЯ2, (9.42) если не выполняется условие В'В = У, т. е. если В не является ортогональным преобразованием.
Оптимальные признаки в этом случае находят путем максимизацин критерия Уз(т) по А [Себестиан, 1965~ ДУз(т) = $г((А + ДА) Я! (А'+ ДА') ) — р [~г((А + ДА) Я2(А'+ ДА') ) — с~~— — Фг(АЯ~А') + р(Сг(АЯ2А') — с) =- а:1г[(ДАЯНА' — рДАЯ2А') + (АЬ',ДА' — рАЯ2ДА')1 = = 2$г(ДА (Я~А' — рЯ2А') ) = О. (9.43) Для того чтобы (9.43) выполнялось при любых ДА, выражение ( ° ) в последней строке (9.43) должно быть нулевой матрицей, т. е.
274 275 (9.50) А' = [Ф,Ф,... Ф,1. (9 45) У(т)= ~ Л; < т т „~~ 1 =- (1/т),», А,. 1=1 1=1 (9.48) ГЛ. 9. СЛУЧАИ МНОГИХ РАСПРЕДЕЛЕНИИ Так как р должно быть определено однозначно, матрица А' должна быть вырожденной матрицей, состоящей из т одинаковых вектор-столбцов. Из (9.44) следует, что этот повторяющийся вектор-столбец должен быть собственным вектором Фс матрицы с — 1с Юз Я1, соответствующим наибольшему собственному значению Из (9.15) и (9.44) следует, что критерий Уз(т) равен .сз(т) = 1г(АЯ,А') = Х~ 1г(АЯ9А') = Х,с. (9.46) Из (9.44) — (9.46) видно, что для максимизации критерия 19(т) выбирается только один признак, независимо от того, какая матрица берется в качестве Ь'|, и добавление других признаков не может улучшить сз(т).
Этим признаком является собственный вектор матрицы Я9 Я1. 9.2.5. Выбор признаков, максимизирувщих критерий Я~. Хотя критерий У4 является одним из наиболее известных критериев ~Уилкс, 1960], его максимизация оказывается значительно более трудной задачей, чем в предыдущих случаях. Однако, если не требовать абсолютной аптимальности, можно и в этом случае выбрать в качестве признаков собственные векторы матрицы Я~ Яс. Нормируя собственные векторы относительно Я9, получим матрицу А, которая одновременно приводит к диагональному виду матрицы Я, и 59. А52А' = 1, АЯ,А' = Л.
(9.47) Тогда критерий с4(т) принимает вид Хотя и нет гарантии, что это множество признаков максимизи- рует У4(т), но обычно оно дает значение, близкое к оптимально- му. Кроме того, влияние отдельных признаков является незави- симым, т. е. имеет место свойство аддитивности. 9.2.6. Обобщение на случай многих классов. Одно из важных ПРЕИМУЩЕСТВ КРИТЕРИЕВ УС вЂ” '..с4 ЗаКЛЮЧаЕтСЯ В тОМ, ЧтО ЭтИ КРИТЕ- рии можно использовать и при наличии многих классов. Единственная модификация, которая для этого требуется,— это обобщение определений матриц рассеяния (9.7) — (9.10). Определения (9.9) и (9.10) трудно обобщить на случай многих классов.
Однако (9.7) и (9.8) легко обобщаются следующим 9 9.3. ГРАН11ЦА чеРнОВА и РАсстОЯние БхАтАчАР11Я образом: м и = „'~~~ Р (со,.) Е ((Х вЂ” М,.) (Х вЂ” М )т!со ) = „'~~ Р (со,.) Х,, (9,49) 4=1 1=1 м Я = „~~~ Р (со.) (М; — М ) (М; — Мо)', а матрица рассеяния смеси распределений имеет вид Я =Е((Х вЂ” ЛХо) (Х вЂ” Яо)') = Я +Яь (9.51) Те же критерии и те же процедуры выбора признаков, которые использовались для случая двух классов, применимы и в случае многих классов.
Отметим, что ранг матрицы Яь равен ЛХ. Поэтому, когда используется критерий У~ с матрицей Я~ в качестве Я~, матрица — 1 Л~ 51 имеет только м ненулевых собственных значений. Остальные и — Л1 признаков пе вносят вклад в У,. Очевидно, что по мере увеличения числа классов эти критерии становятся все менее и менее точными индикаторами разделимости классов. Однако это утверждение справедливо и для всех других критериев. Один .из способов преодоления этой трудности — использование попарной классификации.
~ 9.3. Граница Чернова и расстояние Бхатачария Критерии, рассмотренные в предыдущем параграфе, являются простыми, и выбор оптимальных признаков производится непосредственно. Кроме того, этп крптерии без существенных изменений можно использовать и н случае многих классов. Однако эти критерии имеют один недостаток: опп не связаны непосредственно с вероятностью ошибки байесовского классификатора. В этом параграфе мы рассмотрим критерий, который более сложен, чем предыдущие, но зато связан с верхней и нижней границами вероятности ошибки. 9.3.1.