Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 40
Текст из файла (страница 40)
Выбор признаков обычно рассматривают как процесс преобразования исходных измерений в более эффективные признаки. Если это преобразование является линейным, то функция, связывающая признаки с исходнымп переменнымп, хорошо определена, и задача сводится к нахождению коэффипнентов линейной функции, максимизирующпх или минимизирующих некоторый критерий. Следовательно, если критерий эффективности признаков задан, то его экстремум можно найти с помощью хорошо разработанных методов линейной алгеоры или, в случае сложного критерия, с использованием методов оптимизации.
К сожалению, во многих прикладных задачах распознавания образов имеются важные признаки, являющиеся существенно нелинейными функциями исходных измерепий. В таких случаях основная задача— найти подходящее нелинейное преобразование для рассматриваемых данных. Поскольку мы не располагаем сколь-либо общей теорией, позволяющей систематически генерировать нелинейные преобразования и находить среди них оптимальное, процедуры выбора признаков в очень сильной степени зависят от конкретной задачи. Некоторые из этих задач будут рассмотрены в гл.
10. ф 8,1, дискРетное РАзл01кение ИАРуненА — лоеВА 235 ГЛ. 8. СЛУЧАЙ ОДНОГО РАСПРЕДЕЛЕНИЯ 234 В этой и следующей главе будут рассмотрены критерии для измерения эффективности признаков. Так как линейные преобразования строятся на основе этих критериев, мы рассмотрим также и зти преобразования. В этой главе мы будем иметь дело с признаками объектов, характеризующихся одним распределением. 3 есь же будет рассмотрено оценивание собственных значений д ь и собственных векторов, так как зто является центральной задачей в случае одного распределения.
В следующей главе мы обобщим зти результаты на случай двух или большего числа классон, а эффективность признаков будет оцениваться с точки зрения разделимости классов. 5 8.1. Дискретное разложение Карунена — Лоева (8.1) Х =,')', у,Ф,. = ФЪ', Рассмотрим вначале выбор прпзнаковвслучае одного распре деления. 11ри наличии только одного распределения нельзя говорить о разделимости классов, т. е. о задаче распознавания образов. Вместо этого мы рассмотрим, насколько точно можно описать объекты, генерированные в соответствии с распределеним с помощью набора признаков. Если с помощью небольшого числа признаков удается точно описать объекты, то можно сказать, что такие признаки эффективны.
Хотя зта задача непосредственно не связана с распознаванием образов, знание характеристик отдельных распределений помогает отделить одно распределение от других. Кроме того, выбор признаков для случая одного расх~ пределения находит широкое при- менение в других областях, таР11с. 8.1. Нелинейное прообразо- ких, как представление сигналов ванне. и сжатие данных в системах свя- зи. Еще одно ограничение связано с тем, что ищутся только такие признаки, которые можно получить линейным преобразованием исходных переменных.
Как видно из рис. 8.1, новый признак у весьма эффективен для представления данных объектов, но этот признак является нелинейной функцией относительно х1 и х2. 8.1.1. Критерий минимума среднеквадратичной ошиоки. Пусть Х вЂ” и-мерный случайный вектор. Тогда Х можно точно представить разложением где Ф= [Ф, Ф1 ~= [У1...У 1'. (8.2) (8.3) Матрица Ф является детерминированнои и состоит из и линеино независимых векторов-столбцов, т. е.
1Ф~ ~ О. (8.4) Следовательно, линейные комбинации столбцов матрицы Ф обра- зуют и-мерное пространство, содержащее Х. Столбцы матрицы Ф называготся базисными векторами. Далее можно предположить, что эти столбцы ортопормированы, т. е. 1т' г=,47. (8. 5) Если условие ортонормированности выполнено, то компоненты вектора Ъ' определяются следующим образом: у,. =Ф';Х, г=-1, ...,и. (8.6) Следовательно, Ъ' представляет собой ортогональное преобразование сЛучайного вектора Х и тоже является случайным вектором.
Каждая компонента У является признаком, который вносит вклад в представление наблюдаемого вектора Х. Предположим, что мы определили только пг (т ( и) компонент вектора У и все еще хотим если не точно представить, то по крайней мере оценить Х. Это можно сделать, заменив заранее выбранными константами те компоненты Ъ', которые мы не вычисляем, и получить следующую оценку: П1 и Х(т) = ~ у1Ф;+ ~~~~ Ь,Ф;. (8.7) 1=1 1 — т+1 ЛХ (и) = Х вЂ” Х (т) = Х вЂ” ~~ У.Ф, — Х 6 Ф 1=~+1 Х (уг — 61) Ф,. 1=т+1 (8.8) Заметим, что как Х, так и ЛХ являются случайными векторами. Используем среднюю величину квадрата ЛХ в качестве критерия для измереНия эффективности подмножества, состоящего из т Без ограничения общности можно считать, что вычисляются только первые и компонент вектора у. Если используются не все признаки, то вектор Х представляется с ошибкой, которая определяется выражением 237 $ 8.1.
де1скРетееОе РАзложеЕеие КАРуненА — лоеВА 236 ГЛ. 8. СЛУЧАИ ОДНОГО РАСПРЕДЕЛЕНИЯ признаков: е~ (т) = Е(1ЛХ(и) ~~') = И 77 =Е ~ Х (у; — 6!)(у~ — 61) Ф;Ф, = 1=777+! 1=777+! 77 Е ((у, — 61)'). (8.9) 1=уп+ ! Каждому набору базисных векторов и значений констант соответствует некоторое значение е2(т).
Выберем их таким образом, чтобы минимизировать е2(т). Оптимальный выбор констант Ь7 производится следующим образом: 61 = Е(у,.) = Ф';Е(Х). Другими словами, мы должны заменить те у<, которые не измеряются, их математическими ожиданиями. Это легко показать, минимизируя е'(и) по Ь;: ', Еиу, — Ь,.)2) = — 2(Е(у,) — Ь,.) =О. Теперь среднеквадратичную ошибку можно записать следующим образом: Р (т) = Х Е (Ь! — Е(у!И = 7= 777+1 77 Ф!Е ~(Х вЂ” Е (Х)) (Х вЂ” Е (Х))'1 ФЕ- (8.11) 7= 777+ 1 (8.12) Ф';Х„Ф„ 1=777+ ! где Хх — ковариацпонная матрица случайного вектора Х.
11иже будет показано, что оптимальный выбор матрицы Ф удовлетворяет условию Х„Ф; = А7Ф;, (8 13) т. е. оптимальные базисные векторы — зто собственные векторы ковариационной матрицы Хх. Таким образом, минимальная сред- неквадратичная ошибка равна е2 (и), 1 = ~~ А,... (8.14) 1=П7+ ! Разложение случайного вектора по собственным векторам ковариационной матрицы представляет собой дискретный вариант разложения Кар унена — Лоева. В задачах распознавания образов коэффициенты у1,..., у„этого разложения рассматриваются как признаки, представляющие наблюдаемый вектор Х. Эти признаки обладают некоторыми замечательнымп свойствами, которые мы здесь перечислим.
1. Эффективность каждого признака, т. е. его полезность с точки зреые!я представления Х, определяется соответствующим собственным значением. Если некоторый признак, например, у исключается из разложения, то среднеквадратичная ошибка увеличивается на Ль Поэтому, если мы хотим уменьпеить число признвнов, признан с насчменьшим собствелпьсы знвченнеи следует исллючнть в первую. очередь и т, д. Если собственные значение йеренумеровань! в порядке убывания. Л! ) А2 ) ... А. ) О, (8 15) то прпзпакп должны быть упорядочепы по важности таким же Образом. 2. Рассматриваемые признаки взаимно некоррелировапы, т.
е. ковариацпонпая матрица случайного вектора 1' диагональна: л, о л, Х,, = Ф'Х,Ф =. (8.16) о л„ В частном случае, когда случанный вектор Х распределен нормально, признаки у; взаимно независимы. 3. Собственные векторы коварпационной матрицы Хх дают наименьшее значение среднеквадратичной ошибки е2(т) среди всех ортонормированных базисных векторов. Неортогональныо л!1НОЕЕеЕые преобразования в этой главе 'не рассматриваЕотся: в случае одного распределения нас интересуют лишь те преобразования, которые сохраняют структуру распределения. Доказательство свойства 3.
Предположим, что мы разложили случайный вектор Х по столбе!ам другой ортогональной матрицы Ч'. Е'ассмотрим матрицу Н = Ч'Х„Ч', (8.17) диагональный элемент которой имеет вид ~!! Ч Е~хЧ 1- Разобьем матрицу Н на подматрицы следующим образом: (8.18) Н7 77 — 777 н=Г 077 1~7, 1~,„ (8.19) 'Хогда среднеквчдратичпая ошибка в случае, если измеряются 239 (8.20) к,~к,~ ~1З:, ~4 (8.23) (8.26) (8. 27) (8.28) 10 (8.30) 4 10 + 1 1 1)+ 1 4 2 — 2)= 10 х, — хх,—— + 11 + 2 Р 21 10 4 2 — 2) ,'0 . (8.31) 4 — 1 ~+ ~+ — 2 (8.
29) ГЛ. 8. СЛУЧАИ ОДНОГО РАСПРЕДЕЛЕН11Я только т компонент вектора Ъ', имеет вид В (Ш) = ~Г Н22 (в соответствии с равенством (8.12), которое было получено только из условия ортогональности Ф1). Наша цель состоит и том, чтобы показать, что среднеквадратичная ошибка 82(т) (8.20) ограничена снизу значением 82(т),„1 выражения (8.14). Пусть Ф и Л вЂ” матрицы, составленные соответственно из собственных векторов и собственных значений ковариационной матрицы Х„.