Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 41
Текст из файла (страница 41)
Тогда можно записать Н= (Ч Ф)Л(Ф Ч ). (8.21) Так как матрицы Ч' и Ф ортогопальны, матрица Ч'"Ф также ортогональна, так как (Ч"Ф)'(Ч'"Ф) = (Ч"Ф) (Ч"Ф)' = 1. (8.22) Разобьем матрицу (8.21) аналогично (8.19) Из этого следует, что в' (т) = Сг Н„= Сг (КзЛ1Кз + К4Л,К',). (8.24) Тогда суть нашего доказательства состоит в том, чтобы показать: 1Г Лз (~ 1Г (Кз Л1КЗ + К4лзК4). (8.25) Из ортогональности матрицы К = Ч" Ф имеем следующие тождества: 1 1+ '~ 2К2 К1К1 + КзКз = ~, К2К2 + К4К4 = Продолжим доказательство: 1г (КзЛ1К3 + К1лзК4) = Сг (Л1КзКз + Л2К4К4) = = 1г Л, + 1г(Л1К',К, — Лзк,'К,) > ~~ 1Г Лз + ] 7~ти 1Г (КЗКЗ) ~т+1 1Г (К2К2) ~ = 1г Лз+ ]~ти1г(~ — К1К1) — 7 т+11г(~ — К1К~)] = =1ГЛз+ Р.„— Х +1)1Г(1 — К",К1) = = 1г Лз + (Х вЂ” Х +1) 1г К;К, 1г Л,. $8.1.
дискРетное РАзложение кАРуненА — лоеВА Первое неравенство следует из того, что Х вЂ” наименьшее собственное значение матрицы Л1, а Х +1 — наибольшее собственное значение матрицы Л2. Мы воспользовались здесь матричным тождеством 1г(АВ) =1г(ВА) и тождествами (8.26) — (8.28). Подробное обоснование неравенства (8.29) оставлено в качестве упражнения.
Когда Ч' = Ф, имеем К1= К4 1 и К2 — — Кз — — О, так 1'ис. в.з. нримеры разложении Карунена — Ноева. что неравенство превращается в равенство. Доказательство окончено. Чтобы лучше почувствовать особенности разложения Карунена — Лоева, рассмотрим два простых примера. Пример 8.1. Рассмотрим два множества данных, показанные на рис. 8.2, а и б. В обоих случаях векторы математического ожидания равны нулю. Во-первых, вычислим выборочную ковариационную матрицу Х„. Для данных а и 6 соответственно имеем: х„, = — ~ хх, = — [[1]~1 1~+ [ ] ~2 2) + 24$ Х!.
= 5, Х2. = О, а Х [;=1 ° (8.35) Ф„= [ 1/У2 1 1/ $/2] Ф„= [ 4 — ! Л!ь=4, Х2ь=1, — 1/ $/2 1 1/Ъ/2 1 4 ~2Ь 1/ ~'2 ] 1/ $/2 ~ [для данных б)]. (8.33) / и ~ Х Х, = Х,/(1ГХ,) ~/=! (8.34) ГЛ, Ь, СЛУЧАИ ОДЕ1ОГО РЛС!1РЕДЕ;1ЕНПЯ Во вторых, найдем собственные значения и собственные векторы магрицы Х„ — 1/У2 [для данных а)], (8.32) 1/ $/2 ~ ~ ! ~ ? Таким образом, в обоих случаях базисные векторы повернуты на угол 45', как показано ыа рис. 8.2. Наконец, рассмотрим влияние исключения одного из этихбазнсных векторов.
Для данных а) собственное значение л2. — О. Поэтому, даже в том случае если искл!очить вектор Ф2 из разложения Карунена — Лоева, среднеквадратпчная ошибка будет равна нулю. Рис. 8.2, а показывает, что все четыре объекта можно без ошибки выразить через первый базисный вектор Ф!. С другой. стороны, для данных б) собственное значение Х2ь — — 1. Поэтому мы ожидаем, что при исключении из разложения вектора Ф~ среднеквадратичная ошибка будет равна 1. Из рис.
8.2, б видно, что объекты Х2 —— [2 2]' и Х4 = [ — 2 — 2]' можно выразить через вектор Ф! без оп1ыбки, ыо объекты Х! — — [ — 1 1]' и Хз — — [1 — 1]' выражаются с ошибкой, равной ~2. Поэтому среднеквадратичная ошибка равна (02+ О'+ У22 + У22) /4 = 1 т. е.
равна собственному значенпю Х2ь. 8.1.2. Проблема нормализации. При разложенып Карунепа— Лоева мы решаем вопрос о включении или невключеыии в разложение собственного вектора в зависимости от величины соответствующего собственного значения. Однако абсолютная величина сооствеыного значения не дает егце адекватной информацип для принятия решения.
Отношение собственного значения к сумме всех собственных значений показывает, какая доля среднеквадратичной о1пибки вносится исключением соответствующего собственного вектора. Следовательно, выра11сеыне 2 8,2. кРитеРии для случля ОднОГО РАспРеделения можно использовать в качестве критерия для включения или певключения в разложение 1-го собстве11ыого вектора. Заметим, что Иногда перед прпмененпем разлоскенпя Каруыена — Лоева объекты нормализуют. Нормализованный вектор Х задается выраже- Х = (Х вЂ” Л7)/ИХ вЂ” Л7И, (8.36) !1Х~! = 1. (8.37) Пусть Х х и Х! — ковариацпонпая матрица нормализовапыого вектора Х и ее собственные значения. Тогда о /1=1ГХк= Е[Х'Х!= 1.
(8.38) 1=1 / Другими словамп, Х! — это нормалпзованные собственные значения. Однако преобразование (8.36) должно быть оправдано физическими сообрах ениями. Статцстпческие свойства вектора Х, включая ковариационыую матрицу, полностью отличны от статистических свойств вектора Х. Таким образом, применение разложения Карунена — Лоева к вектору Х дает совершеыыо другие собственные векторы и, следовательно, совершенно другие признаки, чем применение этого же разложения к исходным данным.
~ 8.2. Другие критерии для случая одного распределения Кроме среднеквадратичной ошибки аппроксимации, существуют другие критерии качества признаков в случае одного распределения. В этом параграфе мы рассмотрим два хара1стсриых критерия: критерий разброса и энтропию [Тоу, 1967]. 8.2.1. Критерий разброса. Критерий разброса представляег собой математическое ожидание квадрата расстояния между обьектами, определяемое следующим образом: 32 = е ц х, — х, р) = е (х',х,.
+ х,'х,.]— — Е (Хсх, + Х',Х,.], (8.39) где Х, и Х! — взаимно независимые векторы-объекты, взятые из одыого распределения. Учитывая свойства независимости, (8.39) 243 1'Л. 8, СЛУЧАИ ОДНОГО РАСПРЕДЕЛЕНИЯ 242 % 8.2. КРИТЕРИИ ДЛЯ СЛУЧАЯ ОДНОГО РАСПРЕДЕЛЕНИЯ можно переписать в виде сУ~ = 2Е (Х'Х) — 2Е (8К') Е (Х) = 2 1г ~Е (ХХ') — ММ')~ = = 21г(Я вЂ” ММ') = 2$г Х„, (8.40) где Я и Х „— автокорреляционная и коварнационная матрицы, а М вЂ” вектор математического ожидания распределения.
Пусть вектор Ъ' связан с вектором Х ортогональным преобразованием Ч', т. е. ~~х — Ч!'Х (8.41) Случайный вектор Ъ' имеет тот же самый разброс, что и Х, так как 1Уу2 = 2 Сг Х у — — 2 Сг Ч"'Х „ЧР = 2 Сг Х, (8.42) И~ = 2 ~ Ч"';Х„Ч"„. (8.43) где Ч'» — г-Й столбец матрицы Ч'; (читатель может проверить, что 1-й член (8.43) есть разброс случайной величины у;). Если рассматриваются только т (т ( и) компонент вектора У, то их разброс ду2(т) = 2 ~~ Ч";Х„Ч";. (8.44) Теперь задачу выбора признаков можно сформулировать как задачу выбора ортонормированных векторов Ч'1, ..., Ч'„, мак- 2 симизирующих д„(т).
Но из (8.12) и доказанной оптимальности разложения Карунена — Лоева следует, что Ч'1, ..., Ч" должны быть, как и раньше, доминирующими собственными векторами ковариационной матрицы Х„. Таким образом, можно сделать следующие выводы: 1. Доминирующие собственные векторы ковариационной матрицы Хх являются наилучшими в смысле разброса 112 признаками среди всех ортогональных преобразований. 2. Из (8.43) или (8.44) следует, что вклад каждого признака в общий разброс равен удвоенной величине соответствующего собственного значения. Равенство (8.42) следует из ортогональности матрицы Ч', Мы ограничиваемся рассмотрением ортогональных преобразований из-за их свойства сохранять расстояние: разброс определяется по формуле (8.39) через расстояния, и поэтому .линейное преобразование общего вида может сделать его произвольно большим или малым.
.х МОжнО так1ке записать Иу как СУ'мыУ вклаДов кажДой компоненты вектора Ъ': 8.2.2. Энтропия совокупнссти. Энтропию совокупности можно использовать в качестве меры «неравномерности» распределения. Энтропия вычисляется по формуле Ь = — Е(1п р(Х)). '(8.45) Если компоненты вектора Х независимы, энтропию Ь можно представить в виде суммы энтропий отдельных переменных: П Ь = — ~~ Е (1п р (х1) ). 1'=1 (8.46) Ь= — ((2п1™/2! ' ехр( — —,1Х вЂ” М1'2 1Х вЂ” М1) х 9' х ( — — (Х вЂ” Л11'2 '1Х вЂ” М! — —,!и!2 ~ — —, 1п2п) ЙХ = = —,, и+ —,1п) Х ) + — „, п1п 2л, (8.47) т. е. Ь является функцией ) Х ) .
Если выбрать собственные векторы матрицы Е в качестве признаков, то (8.47) принимает вид П 1е = — ~~' 11-1-1п1, -'е1прп1. (8.48) 1 1 Следовательно, влияние отдельных признаков на энтропию мо;кно оценивать независимо, и вклад 1-го признака равен 1/2(1+1п(Л1) +1п2л). Пр им ер 8.3. Когда компоненты вектора Х являются двоичными величинами и независимы, выражение для энтропии (8.46) принимает вид П Ь = — ~ (Р1 1п Р, + (1 — Р,.) 1п (1 — Р1)), (8.49) 1=1 где Р, — вероятность того, что х; = +1.
Таким образом, вклад Энтропия является значительно более сложным критерием, чем предыдущие два, потому что в формулу для энтропии входит плотность вероятности вектора Х. И в этом случае задача выбора признаков состоит в нахождении признаков, максимизирующих Ь для данного т (т (и). Как и при рассмотрении критерия разброса, мы ограничиваемся преобразованиями, сохраняющими структуру распределения. Некоторые частные случаи рассматриваются ниже в качестве примеров. Приме р 8.2. Когда распределение вектора Х является нормальным, выражение для энтропии (8.45) принимает вид ГЛ. 3. СЛУЧАЙ ОДНОГО РЛСПРВДНЛНН11Я ~ з.з, Рлзложиние кАРунинА — лоыеА отдельной переменной хс оценивается величиной — (Р; 1п Р, + + (1 — Р,)1п(1 — Р,)).