Хайкин С. - Нейронные сети (778923), страница 105
Текст из файла (страница 105)
Исходя из этого, в свете равенства (8.2) требуется, чтобы для возмущения первого порядка Й1 выполнялось соотношение (Й))т» = 0. (8.1 1) Это значит, что возмущения Й1 должны быть ортогонапьны вектору г) и, таким образом, допускаются только изменения в направлении вектора г1. Согласно соглашению, элементы единичного вектора г1 являются безразмерными в физическом смысле.
Таким образом, можно скомбинировать (8.10) и (8.11), введя дополнительный масштабирующий множитель Х в последнее равенство с той же размерностью, что и вхождение в матрицу корреляции К. После этого можно записать следующее: или, эквивалентно, (бг1)~(Кг) — )~г)) = О. (8.12) Для того чтобы выполнялось условие (8.12), необходимо и достаточно, чтобы (8. 13) Это — уравнение определения таких единичных векторов г), для которых дисперснонный зонд ~у(й) принимает экстремальные значения. 618 Глава 8.
Анализ главных компонентов КЧ, = Л~Ч,, 2 = 1,2,...,т. (8.14) Пусть соответствующие собственные значения упорядочены следующим образом: Л1 > Лз » ... Л, » ... Ли,. (8.15) При этом Лд будет равно Л . Пусть из соответствующих собственных векторов построена следующая матрица размерности гл х т: кк=[Ч| Чз ''' Чз ''' Ч [' (8.16) Тогда систему т уравнений (8.14) можно объединить в одно матричное уравнение: КО=ОА, (8.17) где А — диагональная матрица, состоящая из собственных значений матрицы К: л — г11ак[Л1 Лз ° ° ° Лз ° ° ° Л [ ° (8.18) Матрица 1г является ортогональной (унитарной) в том смысле, что векторы-столбцы (т.е. собственные векторы матрицы К) удовлетворяют условию ортогональности: т [1, ЧЧ =10, „, (8.19) Выражение (8.19) предполагает, что собственные значения различны. Эквивалентно, можно записать: В уравнении (8.13) можно легко узнать задачу определения собственных значений (е(8епча1це: ргоЫещ) из области линейной алгебры (10221.
Эта задача имеет нетривиальные решения (т.е. Ч ф О) только для некоторых значений Л, которые и называются собственными значениями (е18епча!ие) матрицы корреляции К. При этом соответствующие векторы Ч называют собственньсни векторами (е18епчесгог). Матрица корреляции характеризуется действительными, неотрицательными собственными значениями. Соответствующие собственные векторы являются единичными (если все собственные значения различны). Обозначим собственные значения матрицы К размерности т х гп как Л„Лз,..., Л, а соответствующие им собственные векторы— Чы Чз,..., Ч соответственно. Тогда можно записать следУющее: 8.3.
Анализ главных компонентов 619 из чего можно заключить, что обращение матрицы 9 эквивалентно ее транспониро- ванию: дт — ()-г (8.20) Это значит, что выражение (8.17) можно переписать в форме, называемой ортогональным преобразованием подобия (огГ!гойопа! гйпп1апГу ггапз1оппайоп): (8.21) или в расширенной форме: 12з, /с= з, 1Г 0 (8.22) Ортогональное преобразование подобия (8.21) трансформирует матрицу корреляции К в диагональную матрицу, состоящую из собственных значений. Сама матрица юрреляции может быть выражена в терминах своих собственных векторов и собственных значений следующим образом: (8.23) 'т'(ч ) = 21, у = 1,2,...,гл. Теперь можно сделать выводы, касающиеся анализа главных компонентов. (8.24) ° Собственные векторы матрицы корреляции К принадлежат случайному вектору Х с нулевым средним значением и определяют единичные векторы п,з представляющие основные направления, вдоль юторых дисперсионный зонд у(г1,) принимает экстремальные значения. ° Соответствующие собственные значения определяют экстремальные значения дисперсионного зонда гу(п, ).
Это выражение называют спектральной теоремой (зресгга! бгеогеш). Произведение векторов й,й~ имеет ранг 1 для всех 1. Уравнения (8.21) и (8.23) являются двумя эквивалентными представлениями разлоясения по собственным векторам (е!8епсошров!1!оп) матрицы юрреляции К. Анализ главных компонентов и разложение по собственным векторам матрицы К являются в сущности одним и тем же; различается только подход к задаче. Эта эквивалентность следует из уравнений (8.7) и (8.23), из которых ясно видно равенство собственных значений и дисперсионного зонда, т.е. $20 Глава 8. Анализ главных компонентов Основные представления данных Пусть векнгор данных х является реализацией случайного вектора Х.
При наличии т возможных значений единичного вектора е следует рассмотреть т возможных проекций вектора данных х. В частности, согласно формуле (8.1) а =г1 х=х г),, 2=1,2,...,т, т т (8.25) где и, — проекции вектора х на основные направления, представленные единичными векторами ц,. Эти проекции а, называют главными комлоненлгами (рппсгра1 сошропепг).
Их количество соответствует размерности вектора данных х. При этом формулу (8.25) можно рассматривать как процедуру анализа (апа!уз(з). Для того чтобы восстановить вектор исходных данных х непосредственно из проекций аэ, выполним следующее. Прежде всего объединим множество проекций (а,1) = 1,2,...,т) в единый вектор: а = [аы аз,..., а ~~ = (х~г)„х~г),..., х~г1 ~~ = 9~х. (8.26) Затем перемножим обе части уравнения (8.26) на матрицу Я, после чего используем соотношение (8.20). В результате исходный вектор данных х будет реконструирован в следующем виде; (8.27) который можно рассматривать как формулу синтеза.
В этом контексте единичные векторы г1, будут представлять собой пространства данных. И в самом деле, выражение (8.27) является не чем иным, как преобразованием координат, в соответствии с которым точки х пространства данных преобразуются в соответствующие точки а пространства признаков. Сокращение размерности С точки зрения задачи статистического распознавания практическое значение анализа главных компонентов состоит в том, что он обеспечивает эффективный способ сокращенилразмерности (ойшепяопа!йу гедпсйоп).
В частности, можно сократить количество признаков, необходимых для эффективного представления данных, устраняя те линейные комбинации в (8.27), которые имеют малые дисперсии, и оставляя те, дисперсии которых велики. Пусть к„ 2а,..., )н — наибольшие 1 собственных значений матрицы корреляции К. Тогда вектор данных х можно аппроксимировать, отсекая члены разложение (8.27) после 1-го слагаемого: 8.3. Анализ главных компонентов 621 Входной вектор (данных) Кодер Вектор главных мпонентов аг аг х, хг а а) Вектор гхавнык компонентов Вггеегвновленный вектор данных хг хг а, ггг Рис. 8.2. Два этапа анализа главных компонентов: кодирование (а) и декодирование (б) б) аг аг ( < т. (8.28) аг Имея исходный вектор х, с помощью выражения (8.25) можно вычислить главные компоненты из (8.28) следующим образом: т а, аз х, (<т. (8.29) аг Линейная проекция (8.29) из Я™ в Я' (т.е.
отображение из пространства данных в пространство признаков) представляет собой гиифратор (епсог(ег) для приближенного представпения вектора данных х (рис. 8.2, а). Соответственно линейная проекция (8.28) из Я' в Я™ (т.е. обратное отображение пространства признаков в пространство данных) представляет собой деигифратор (бесов(ег) (см. рис. 8.2, б). Обратите внимание, что доминирующие (г(опггпап() собственные значения Хг, Хз,..., Хг не участвуют в вычислениях (8.28) и (8.29). Они просто определяют количество главных компонентов, используемых для кодирования и декодирования. Вектор оигибки аппроксимации (арргохппайоп епог чесгог) е равен разности между вектором исходных данных х и вектором приближенных данных х (рис.
8.3): 622 Глава 8. Анализ главных компонентов е = х — х. (8.30) Подставляя (8.27) и (8.28) в (8.30), получим: е = ,'г атЧ,. т=г+г (8.31) Вектор ошибки е является ортогональным вектору приближенных данных х (рис. 8.3). Другими словами, скалярное произведение векторов е и х равно нулю. Используя (8.28) и (8.31), это свойство можно доказать следующим образом: егх = ~г а Чт~> а Ч = ~~г ~~г агатЧ~Ч =О, (8.32) гэн+1 1=1 где учитывается второе условие выражения (8.19). Соотношение (8.32) называют принципом ортогональности (рппс)р!е оТ огйо8опа111у).
Общая дисперсия гп компонентов вектора данных х составляет (согласно (8.7) и (8.22)): и,' = ~~г Х„ 1=1 1=1 (8.33) где гг~ — дисперсия 7'-го главного компонента а . Общая дисперсия 1 элементов при- ближенного вектора х равна: (8.34) Х п2=С~ 3, тки+ г 3=г+1 (8.35) Числа Х~+ы..., 3 являются иаименьгиими (т — 1) собственными значениями матрицы корреляции К. Они соответствуют слагаемым, исключенным из разложения (8.28), используемого для построения приближенного вектора х.Чем ближе зти собственные значения к нулю, тем более эффективным будет сокращение размерности (как результат применения анализа главных компонентов вектора данных х) в пред- Таким образом, общая дисперсия (1 — т) элементов вектора ошибки аппроксимации х — х равна: 8.4.
Фильтр Хебба для выделения максимальных собственных значений 623 Рис. 8.3. Взаимосвязь векгора х, его реконструированной версии х и вектора ошибки в ставлении информации исходных данных. Таким образом, для того чтобы обеспечить сокращение размерности входных данных, нужно вычислить собственные значения и собственные векторы матрицы корреляции векторов входных данных, а затем ортогонально проектировать эти данные на подпространство, задаваемое собственными векторами, соответствуюгциии доминирующим собственным значениям этой матрицы. Этот метод представления данных обычно называют пространственной декомпозицией [вцЬзрасе десощрояйоп) [797!. Пример 8.1 Двумерное мишкество данных Для иллюстрации применения анализа главных компонентов рассмотрим пример двумерного множества данных (рис.