Хайкин С. - Нейронные сети (778923), страница 112
Текст из файла (страница 112)
Пусть 3 = 1; тогда для п = 1, 2,... вычислим: р,(п) = ттт(п)х(п), и,(п + 1) = ттт(п) + т)[дт(п)х(п) — Уг(п)тт,(п)], где х(п) — входной вектор. Для больших п ттт(п) — т(т, где т1т — собственный вектор, связанный с наибольшим собственным значением 3., матрицы корреляции вектора х(п). 3. Принимаем т' =2 и для и = 1, 2,... вычислим: т(п) = [рт(п), рз(п), , От т(п)] у,(п) = тч, (п)х(п) + а, (п)у, ,(п), и,(п + 1) = и,(п) + т)[ут(п)х(п) — уз(п)тгт(п)], а,(п + 1) = а,(п) — т1[Уу(п)У, т(п) — Уз(п)аз(п)].
4. Увеличиваем 3 на единицу, переходим к шагу 3 и продолжаем до у = т, где пт — нужное количество главных компонентов.(Обратите внимание, что 3 = 1 соответствует собственному вектору, связанному с наибольшим собственным значением, которое вычисляется на шаге 2.) Для больших и получаем тт (п) — г(, и а,(п) — О, где т(, — собственный вектор, ассоциированный с у-м собственным значением Х матрицы корреляции вектора х(п). При таком значении параметра скорости обучения 2., ) Х, и гг~(п) — ~ Х, цри п — оо. Обратите внимание, что собственное значение Ц, вычисляется нейроном (~ — 1) и, таким образом, доступно для использования при коррекции прямых и латеральных весов нейрона т1 868 Глава 8.
Анализ главных компонентов 8.8. Два класса алгоритмов РСА В дополнение к обобщенному алгоритму Хебба (ОНА), который рассматривался в разделе 8.5, и алгоритму АРЕХ, описанному в разделе 8.7, существует и ряд других алгоритмов анализа главных компонентов (РСА), широко описанных в литературе5. Различные алгоритмы РСА иа основе нейронных сетей можно разбить иа два класса: алгоритмы повторного оценивания (геезйгпабоп а18огШпп) и алгоритмы декорреляции (десогге!айп8 а18опдзш). Согласно этой классификации, бНА является алгоритмом повторного оцеииваиия, так как выражения (8.87) и (8.88) можно записать в эквивалентном виде; «,(п+ 1) = «з(и) + з)уз(п)(х(п) — х,(п), (8. 133) (8.134) В алгоритме повторной оценки нейронная сеть имеет только прямые связи, и ее веса корректируются согласно алгоритму Хебба.
Последующие выходы сети должны обучаться другим главным компонентам, при этом оценки предшествующих компоиеитов вычитаются из входного сигнала перед тем, как эти даииыс поступят для использования в процессе обучения. В отличие от этого алгоритма АРЕХ является алгоритмом декорреляции. В таких алгоритмах нейронная сеть имеет как прямые, так и обратные связи. Работа прямых связей основана иа правиле обучения Хебба, в то время как работа обратных — иа аити-Хеббовском правиле. Последующие выходы сети декоррелируются, заставляя сеть воспроизводить разные главные компоненты.
Подпространство главных компонентов В ситуациях, где используется только надпространство главныд компонентов (рпп- с)ра! зпЬзрасе), можно применять симметричную модель (зупппегпс тоде!), в которой оценка х, (п) в алгоритме СНА заменена иа следующую: х(п) = ~~у «й(п)уа(и) для всех 1. (8.135) Обсумдение разных нейронных моделей, используемых длл анализа главных иомлонентов, и их сравнение лредлагаетсл в (258!.
где х,(п) — операция повторной оценки (геезйгпазог), которая определяется следующим образом: х (и) = ~«ь(п)уь(п). а=1 8.9. Пакетный и адаптивный методы вычислений 889 В симметричной модели, определяемой формулами (8. 133) и (8. 135), сеть сходится к множеству выходов, которые определяют подпространство главных компонентов, а не к самим основным компонентам. При сходимости векторы весов этой сети ортогональны друг другу, как и в ОНА.
Описанное здесь подпространство главных компонентов можно рассматривать как обобщение классического правила Ойа (О)а), определяемого соотношением (8.46). 8.9. Пакетный и адаптивный методы вычислений Обсуждение анализа главных компонентов будет не полным, если не рассмотреть вычислительные аспекты этой задачи. В этом контексте можно сказать, что существуют два основных подхода к вычислению главных компонентов: пакетный и адаптивный. Метод декомпозиции на основе собственных векторов (е18епдесошроя)йоп), описанный в разделе 8.3, и связанный с ним метод сингулярного разложения принадлежат к категории пакетных. С другой стороны, алгоритмы ОНА и АРЕХ (см. разделы 8.5 и 8.7) принадлежат к категории адаптивных.
Теоретически сингулярная декомпозиция основана на усредненной по множеству матрице корреляции К случайного вектора Х(п) (см. раздел 8.3). На практике же мы используем оценку матрицы корреляции К. Пусть (х(п)) ~, — множество )Ч реализаций случайного вектора Х(п) в равномерно распределенные дискретные моменты времени.
Имея такое множество наблюдений, в качестве оценки матрицы корреляции можно использовать простое среднее: (8. 136) Предполагая, что среда, представленная случайным вектором Х(п), является эргодической (егйогйс), простое среднее К(1Ч) достигает значения К при достижении размером множества Ж бесконечности. На этом основании к простому среднему К()Ч) можно применить процедуру разложения по собственным векторам, вычислить его собственные значения и ассоциированные с ними собственные векторы, используя вместо матрицы К матрицу оценки К(1Ч). Однако с точки зрения вычислений самым лучшим методом является сингулярная декомпозиция (япйп1аг ча1пе десошроябоп — 8ЧР), применяемая непосредственно к матрице данных.
Для множества наблюдений (х(п))н, матрица данных определяется следующим образом: (8. 137) 860 Глава 8. Анализ главных компонентов Тогда несложно заметить, что если не учитывать масштабирующий множитель 1/Аг, то оценка К(АГ) матрицы корреляции К равна скалярному произведению ААт. Согласно теореме о сингулярной декомпозиции (см. главу 5), матрица данных А(п) может быть представлена в виде декомпозиции !368]: А = 1)Е згт, (8.138) где Ю и З1 — ортогональные матрицы, т.е. — г)т (8.139) у — г — 'ггт (8.140) Матрица Е имеет следующую структуру: сг, О ггз (8.141) О ггь О О где й < т; т — размерность вектора наблюдений х(л).
Числа п„гтз,..., сгь называются сингулярными значениями (з!пйп!аг ча!ие) матрицы данных А. Соответственно столбцы ортогональной матрицы к) называются левыми сингулярными векторами (1ей гйпйп1аг чесгог), а столбцы матрицы У вЂ” правыми сингулярными векторами. Сингулярная декомпозиция матрицы данных А связана с декомпозицией оценки К(Аг) матрицы корреляции по собственным векторам в следующих аспектах. ° За исключением масштабирующего множителя 1/чу сингулярные значения матрицы данных А являются квадратным корнем из собственных значений оценки К(Аг).
° Левые сингулярные векторы матрицы данных А являются собственными векторами матрицы оценки К(ГЧ ). Теперь вычислительные преимущества сингулярной декомпозиции становятся очевидными. Для заранее заданной точности вычислений процедура сингулярной декомпозиции требует вдвое меньшей вычислительной мощности, чем процедура разложения по собственным векторам. Более того, для компьютерной реализации процедуры сингулярной декомпозиции существует множество алгоритмов и высокоточных программ (368], (434], [435].
Однако ввиду жестких требований к хранению 8.10. Анализ главных компонентов на основе ядра 661 данных на практике использование этих программ может быть ограничено не слишком большими размерами множеств. Переходя к категории адаптивных методов, следует сказать, что они работают с множествами произвольных размеров. Для всех практических реализаций ие существует каких-либо ограничений на Аг. Адаптивные методы можно проиллюстрировать на примере Хеббовских нейронных сетей, работа которых основана на идеях из нейробиологии. Требования к хранению данных в таких методах являются относительно умеренными, так как в них ие нужно хранить промежуточные значения собственных значений и собственных векторов.
Еще одной привлекательной чертой адаптивных алгоритмов является то, что в неетационарнай среде [попа(абопагу епутч гопщеп1) они имеют встроенную способность отслеживать постепенные изменения в оптимальном решении незатратным способом (по сравнению с пакетными методами). При этом основным недостатком адаптивных алгоритмов типа стохастической аппроксимации является их относительно малая скорость сходимости. Это особенно отчетливо наблюдается в больших стационарных задачах, даже при реализации адаптивных методов на параллельных аппаратных нейронных сетях 1594].
8.10. Анализ главных компонентов на основе ядра Форма РСА, которую мы рассматривали до сих пор, подразумевает вычисления в пространстве входных данных. Теперь рассмотрим другую форму алгоритмов РСА, в которой вычисления осуществляются в пространстве признаков, являющемся нелинейным отображением входного пространства. Пространство признаков, в соответствии с теоремой Мерсера, определяется ядром скалярного произведения ([ппег-ргог]пс( ]сегпе!).
Вопросы, связанные с ядром скалярного произведения, рассматривались в главе 6, посвященной машинам опорных векторов. Идея анализа главных компонентов на основе ядра (1сегпе]дэазед рппстра! сошропеп(8 апа]уяз) была предложена в [947]. Ввиду нелинейности отображения входного пространства в пространство признаков ядро РСА также является нелинейным. Однако, в отличие от других форм нелинейных РСАб, реализация РСА на основе ядра базируется на линейной алгебре. Таким образом, РСА на основе ядра можно рассматривать как естественное расширение обычных РСА. ь Методы нелинейною анализа главных компонентов (за исключением РСА ядра) можно разделить на три класса [258].