Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 25
Текст из файла (страница 25)
Геометрически, если ~1эг1~=1, каждая компонента у; есть проекция соответствующего х1 на прямую в направлении ж. В действительности величина тг не имеет реального значения, поскольку она просто определяет масштаб у. Однако направление тв имеет значение. Если мы вообразим, что выборки, Ге. 4. Неяарамеоеричеекие метаЗы 130 помеченные м„попадают более или менее в одну группу, а выборки, помеченные ео„попадают в другую, то мы хатим, чтобы проекции на прямой были хорошо разделены и не очень перемешаны. Йа рис. 4.6 показан выбор двух различных значений и для двумерного случая. Мерой разделения спроецированных точек служит разность средних значений выборки, Если ш~ есть среднее значение е(емерной вы- хе Рис.
4.6. Проекция выборок на прямую. борки, заданное как 1 ч-е Ш1 = — ~„Х, ое х еЯе (67) то среднее значение выборки для спроецированных точек задается посредством 1 ч~ ! к~ те = а,м Ь' = „~ веех =Юеше. (68) и, и, е е Оее х еЯ'е ОтсюДа слеДУет, что 1т,— те!=!ее(ш,— ш,)~ и что мы можем сделать зту разность сколь угодно большой, просто масштабируя ве. Конечно, чтобы получить хорошее разделение спроецированных данных, мы хотим, чтобы разность между средними значениями была велика относительно некоторого показателя стандартных отклонений для каждого класса.
Вместо получения дисперсий выборок определим разброс для спроецированных выборок, помеченных же, посредством зе= Х (Ы вЂ” те)'. ее зее (69) 4ЛО. Линейный дискрималвлт Фишера Таким образом, (1/н)(з,'+за«) является оценкой дисперсии совокупности данных, а з„+4 называется полным разбросом внутри класса спроецированных выборок. Линейный дискриминант Фишера тогда определяется как такая линейная разделяющая функция ') и'х, для которой функция критерия ) лаг — лаз р э»+за максимальна. Чтобы получить г' как явную функцию от иг, определим матрицы разброса 5« и 5«г посредством Яг= ~~„', (х — па;)(х — гаг)' (71) х «Я'г (72) Тогда за = Х (тигх — тигпзг) а = а «Хг тиа (х — пт,) (х — па,)г щ =а х«Я'г =чз огчз, (73) так что за+за =аи Зигти.
(74) Аналогично (т — т )' =(уатта — чзггпа)а = = аиг (пт, — пт,) (пт, — пта)г ти = =те овиг (75) где ов = (гпа — пта) (пта — гпа)г (7б) Матрица 5» называется матрицей разброса внутри класса. Она пропорциональна- ковариационной выборочной матрице для совокупности й-мерных данных.
Она будет симметричной, положительно полуопределенной и, как правило, невырожденной, если н)й. Зв называется матрицей разброса между классами. Она также ') Следует отметить, что теперь мы употребляем термин «разделяющая функция» для обо»печеная любой функции от х, которая помогает в решении задачи принятия решения; мы не настаиваем на том, чтобы результирующая разделяющая ункцня использоватась непосредственно для определенна илассификатора. ак как у=мах есть сумма случайных величин, общепринято ссылаться на центральную предельную теорему и допускать, что р(у!ыг) является нормальной плотностью, упрощзя этим задачу получения классификатора. Когда это допущение не оправдывается, можно позволить себе использовать довольно сложные методы оценки р(у1ыг) и выведения «оптимального» классификатора.
Гл. 4. Непараметрические мгаадм симметричная и положительно полуопределенная, но нз-за того, что оиа является внешним произведением двух векторов, ее ранг будет самое большее единица. В частности, для любого е направление Яви совпадает с направлением ш,— т, и 5„— вполне вырожденная матрица. При помощи Яз и Яя функцию критерия Г можно представить в виде 1 (ж) = (77) ПРБ„, Это выражение хорошо известно в математической физике как обобщенное частное Релея.
Легко показать, что вектор эг, который максимизнрует l, должен удовлетворять соотношению Явя' = ) Ямз" (78) что является обобщенной задачей определения собственного значения, Если 5„, является невырожденной, мы можем получить обычную задачу определения собственного значения, написав ЯЖ~Явм = )лг. (79) В нашем частном случае не нужно находить собственные значения и собственные векторы ЯфЯз из-за того, что направление Яз и~ всегда совпадает с направлением т,— т,. Поскольку масштабйый множитель для ж несуществен, мы можем сразу написать решение я =Яят(ш — ш ). (80) Таким образом, мы получили линейный дискриминант Фишера— линейную функцию с максимальным отношением разброса между классами к разбросу внутри класса.
Задача была преобразована из И-мерной в более приемлемую одномерную. Это отображение а- мерного множества на одномерное, и теоретически оно не может уменьшить минимально достижимый уровень ошибки. В общем мы охотно жертвуем некоторыми теоретически достижимыми результатами ради преимущества работы в одномерном пространстве.
Когда же условные плотности распределения р(х~е;) являются многомерными нормальными с равными ковариационными матрицами Х, то даже не нужно ничем жертвовать. В этом случае мы вспоминаем, что граница оптимальных решений удовлетворяет уравнению м'х+ш,=0, где =л '( р~) и ш, есть константа, включающая в себя зг и априорные вероятности. Если мы используем средние значения и ковариационную матрицу выборок для оценки )г; и Х, то получаем вектор в том же направлении, что и м, удовлетворяющий (80), который максимизирует 7. 4.11. Мнозгеанленныа дионриминантныа анализ !Зз Таким образом, для нормального случая с равными ковариациями оптимальным решающим правилом будет просто решение оз„если линейный дискриминант Фишера превышает некоторое пороговое значение, и решение о»х — в противном случае. 4.11.
МНОЖЕСТВЕННЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ (81) »=1 где, как и прежде, 51= ~ч~', (х — ш!)(х — гп!)! хоЯ! (82) и»; = — ~ч» х. ! х! Я'» (83) Соответствующее обобщение для 5в не так очевидно. Предположим, что мы определяем полный еекпюр средних значений гп и полную матрицу разброса 5, посредством пт = — ~ч~,х = — ~~~, и;ш! (84) х »=1 5 =~(х — гп)(х — тп)1, х (88) Отсюда следует, что 5г = ~ч~~~ ~ (х — гп!+ гп! — ш) (х — гп! + гп! — ш)т= х хЯ! (х — гп!) (х — пт,)'+ ~~~, '~ч~ (гп! — ш) (ш, — гп)! = !=! х хЯ! С=! х хЯ'! = 5в, + ~ и! (ш; — п!) (гп! — и!)».
1=1 Естественно определять этот второй член как матрицу разброса между классами, так что полный разброс есть сумма разброса внут- Для задачи с с классами естественное обобщение линейного дискриминанта Фишера включает с — 1 разделяющих функций. Таким образом, проекция будет из а'-мерного пространства на (с — 1)-мерное пространство, причем принимается, что а-.с. Обобщение для матрицы разброса внутри класса очевидное: Гп. 4. Непарамеп!рическае мепюдм 134 ри класса и разброса между классами; е 5в=2~ и (т — т)(т — т)' «=! (86) 5т = 5!а+ 5в (87) В случае с двумя классами мы обнаружим, что полученная в ре.
зультате матрица разброса между классами будет в иеи,/и раз больше нашего предыдущего определения. Мы могли бы переопределить 5в для случая с двумя классами, чтобы добиться полного согласования, но вспомнив замечание Эмерсона о том, что бессмысленное согласование — идол недалеких умов„пойдем дальше. Проекция из е(-мерного пространства в (с — 1)-мерное пространство осуществляется с помощью с — 1 разделяющих функций у! = те!!х, ! = 1, ..., с в 1. (88) (89) Выборки х„..., х„проецируются на соответствующее множество выборок у„..., у„, которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы опре- деляем те= — „' ее У! с 1 П1= — ~~ И,то Г=! с 5 =~ ., '( —,)( — т!)! У ЕЖ (90) (91) (92) 5в — — Х и;(т! — т) (т! — т)', е=! (93) то можно непосредственно получить 5~ = )Г15„йг (94) (98) Эти уравнения показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в пространство меньшей размерности.
Мы ищем матрицу отображения К, Если считать у! составляющими вектора у, а векторы весовых функций !и! столбцами матрицы Яг размера е(х (с — 1), то проекцию можно записать в виде одного матричного уравнения у = У'х. е.П. Множественный дискрииинантный анализ которая в некотором смысле максимизирует отношение разброса между классами к разбросу внутри класса.
Простым скалярным показателем разброса является определитель матрицы разброса. Определитель есть произведение собственных значений, а следова- тельно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса. Пользуясь этим пока- зателем, получим функцию критерия Л(ЯУ) = — = 1дв! ~ КггЮвн' ! (96) <Я 1 )вгг.с йг) ' Задача нахождения прямоугольной матрицы иг", которая мак- симизирует /, не из легких. К счастью, оказывается, что ее решение имеет относительно простой вид ').