Хайкин С. - Нейронные сети (778923), страница 113
Текст из файла (страница 113)
Семи Хеббл (НеЬЬгап пептогйа), получаемые путем замены линейных нейронов в подобных Хеббовским алгоритмах РСА нелинейными нейронами [542]. Семи релликачии (герйсагог пептогй) или сисюемы лвмокобвроелиия(ацгоепсобег), созданные иа базе мноюслойных персептронов (о сетях репликации см. в главе 4). Главные кривые (рппсгра) сцгте), основанные на итеративной оценке кривой или поверхности, описывающей шрукт)ру данных [430].
В [18б] и [891] укюывалось, что самоорганизуюшиеся карты Кохонена можно рассматривать как вычислительную процедуру поиска дискретной аппроксимации главных кривых. Самоорганитуюшиеся карты рассматриваются в слепуюшей главе. 662 Глава 8. Анализ главных компонентов Пусть вектор ф(х, ) определяет образ входного вектора хгл иидуцироваииый в пространстве признаков, определяемом нелинейным отображением з: Ж " — ~ Я ', где глс — размерность входного пространства; тг — размерность пространства признаков.
Для множества примеров (х,)~, получаем соответствующее множество векторов признаков (ф(х,) ~и,. Соответственно в пространстве признаков можно олределить матрицу корреляции К размерности тг х глг следующего вида: кк = — ~г ф(х,)фт(х;). (8.142) Как и в обычном РСА, первое, что нужно сделать, — это убедиться, что множество векторов признаков (ф(х,))~, имеет нулевое среднее значение: гг — ф(х,) = О. (8.
143) где Х вЂ” собственное значение матрицы корреляции К; Г1 — ассоциированный с иим собственный вектор. Далее заметим, что все собственные векторы, которые удовлетворяют равенству (8.143) при Х ф О, лежат в линейной оболочке множества векторов признаков (ф(х,)~'»,. Следовательно, существует такое множество коэффициентов (аэ )'" „для которых ц = '2,'ахф(х,).
(8.144) Подставляя (8.142) и (8.144) в (8.143), получим: ~> а ф(х,)К(х„х,) = АгХ ~г а,ф(х;), (8.145) 1=г э=г где К(х;, х ) — ядро скалярного произведения ((лпег-ргодпсг кегле!), определяемое в терминах векторов признаков как К(х, х ) = фт(х.)ф(х ). (8.14б) Выполнение этого условия в пространстве признаков является более сложным требованием, чем его выполнение во входном пространстве. В задаче 8.10 будет описана процедура для выполнения этого требования.
Далее будем предполагать, что векторы признаков уже отцентрированы. Тогда выражение (8.14) можно адаптировать к нашей ситуации, записав следующее: 8.10. Анализ главных компонентов на основе ядра 663 Теперь сделаем еще один шаг и выразим уравнение (8.145) только в терминах ядра скалярного произведения. Для этого умножим обе части (8.145) на транспонированный вектор грт(хь), в результате чего получим: ,'г а,К(х„, х,)К(х„хз) = ХХ,э азК(х„х,), )с = 1,2,..., Аг, (8.147) где ядра К(хы х;) и К(хы х,) сформированы согласно (8.146). Теперь введем два матричных определения.
° Матрицу К размерности )т" х Аг назовем маеригтей ядра. Ее у-й элемент является ядром скалярного произведения К(х„х,.). ° Введем вектор а размерности Аг х 1, у-ми элементами которого являются коэффициенты а,. Тогда выражение (8.147) можно переписать в более компактном, матричном виде Кг© Я„Кгх (8.148) где под квадратом матрицы Кз понимается произведение матрицы К саму на себя. Так как зта матрица встречается в обеих частях уравнения (8.148), все решения задачи поиска собственных значений сведутся к решению упрощенной задачи (8.149) Пусть Х, > Хз »... Хлг — собственные значения матрицы ядра К, т.е. (8. 150) Хз = АгХ„1 = 1, 2,..., Аг, где Х,.
— 7-е собственное значение матрицы корреляции К. Тогда выражение (8.149) принимает стандартный вид Ка= ~а, (8.151) где вектор коэффициентов а выступает в роли собственного вектора, связанного с собственным значением Х матрицы ядра К. Вектор гх строится с учетом требования того, чтобы собственный вектор й матрицы К был нормированным (т.е, имел единичную длину): (8. 152) 884 Глава 8. Анализ главных компонентов где предполагается, что собственные числа упорядочены по убыванию, а Х вЂ” наименыпее ненулевое собственное значение матрицы ядра К.
Используя (8.144) и (8.151), можно показать, что условие нормировки (8.152) эквивалентно следующему: т а„а, = —, )с =1,2,...,р. (8.153) Для извлечения главных компонентов нужно вычислить проекции на собственные вектоРы Чл пРостРанства пРизнаков; Гур(х) = ~~У а„ор~(х,)<р(х) = э ац,К(х„х), й = 1,2,...,р, (8.154) где вектор х — "тестовая" точка; а„, — 7-й коэффициент собственного вектора ан, связанного с и-м собственным значением матрицы К.
Проекция (8.154) определяет нелинейные главные компоненты (поп!)пеаг рппсгра! согпропепг) гп,-мерного пространства признаков. На рис. 8.13 проиллюстрирована основная идея алгоритма РСА на основе ядра, в которой пространство признаков нелинейно связано с входным пространством посредством преобразования ф(х), Части (а) и (б) на рисунке обозначают входное пространство и пространство признаков соответственно.
Контурная линия на рис. 8.13, б представляет собой постоянную проекцию на главный собственный вектор, показанный на рисунке символом вектора. На этом рисунке предполагается, что преобразование гр(х) выбрано так, что образы точек данных, индуцированные в пространстве признаков, вытягиваются вдоль собственного вектора. На рис. 8,13, а показаны нелинейные контурные линии во входном пространстве, которые соответствуют прямым в пространстве признаков. Заметим, что мы преднамеренно не показали прообраз собственного вектора во входном пространстве, так как он может не существовать [947).
Для ядра скалярного произведения, определенного в соответствии с теоремой Мерсера, выполняем обычный алгоритм РСА в т,-мерном пространстве признаков, где пз, — параметр. Все свойства обычного алгоритма РСА, описанные в разделе 8.3, сохраняются и для РСА на основе ядра. В частности, РСА на основе ядра является линейным в пространстве признаков, но нелинейным во входном пространстве.
Как таковой он может быть применен ко всем тем областям, где обычный алгоритм РСА использовался для извлечения признаков или сокрагцения размерности данных, при котором нелинейное расширение имеет смысл. В главе 6 были представлены три метода построения ядра скалярного произведения, основанные на использовании полиномов, радиально-базисных и гиперболических функций (см. табл. 6.1). Открытым остался вопрос о том, как выбрать наиболее подходящее ядро для конкретной задачи (т.е. соответствующего пространства признаков) !948]. 8.10. Анализ главных компонентов на основе ядра 666 Пространство наков Входное вростравство Алгоритм РСА на основе ядра в сжатом виде 1.
Для данного множества примеров 1х,)~ г вычислим матрицу ядра К=(К(х„х,) ), где К(хг х ) = арт(хг)Е(х ), 2. Решаем задачу на собственные значения: Ка= Ха, где Х вЂ” собственное значение матрицы К; а —. соответствующий ему собственный вектор. 3. Нормируем собственные векторы, применяя требование а„а, = —, й = 1, 2,..., р, т )ьв где )г — наименьшее ненулевое собственное значение матрицы К (в предположе- нии, что собственные значения отсортированы по убыванию).
а) б) Рис. ВЛЗ. Алгоритм РСА на основе ядре. Двумерное входное пространство с множеством точек данных (а); двумерное пространство признаков с образами точек части (а), вытянутыми вдоль собственного вектора (б). Равномерно распределенные пунктирные прямые в части (б) представляют контуры константной проекции на собственный вектор; соответствующие контуры во входном пространстве являются нелинейными 666 Глава 8. Анализ главных компонентов 4.
Для извлечения главных компонентов тестовой точки х вычислим проекции аь — — г) гр(х) = ~~ аь, К(ц, х), гс = 1, 2,..., р, где аь, — у-й коэффициент собственного вектора аь. Пример 8.3 Для того чтобы лучше разобраться в работе алгоритма РСА на основе ядра, на рис. 8.14 показаны результаты простого эксперимента, описанного в 1947). Двумерные данные, состоящие из компонентов хг и хз и используемые в этом эксперименте, можно описать следующим образом: х,- значения имеют равномерное распределение в интервале ( — 1, Ц; хз-значения нелинейно связаны с элементами хг следующей формулой: 2 хз хг+е где с — аддитивный гауссов шум с нулевым средним значением и дисперсией, равной 0,04.
Результаты РСА, показанные на рис. 8.14, были получены с помощью полиномов ядра; К(х„х,) = (х х,), И = 1,2,3,4, где Ы = 1 соответствует линейному РСА, а д = 2, 3, 4 — РСА на основе ядра. Результаты линейного алгоритма РСА показаны в левом столбце на рис.
8.14. Он имеет только два собственных значения, поскольку размерность входного пространства равна двум. В противоположность этому РСА на ос- нове ядра позволяет извлекать компоненты более высокого порядка, как показано в столбцах 2-4 на рис. 8.14. Контурные линии, отображаемые в каждой из частей рисунка 1за исключением нулевого собственного значения в линейном РСА), представляют собой постоянные главные значения гт.е, по- стоянные проекции на собственный вектор, связанный с рассматриваемым собственным значением). На основе результатов, показанных на рис. 8.14, можно сделать следующие выводы. Как и ожидалось, линейный РСА не способен обеспечить адекватное представление нелинейных входных данных. В любом случае первый главный компонент монотонно изменяется вдоль параболы, окаймляющей входные данные.
В РСА на основе ядра второй и третий главные компоненты демонстрируют поведение, в чем-то аналогичное для различных степеней полинома Н. В случае степени полинома г1 = 2 третий главный компонент ядра РСА воспроизводит дисперсию, полученную вследствие аддитивного гауссова шума ш Удаляя из результата вклад этого компонента, получим эффект шумоподавления.