Хайкин С. - Нейронные сети (778923), страница 106
Текст из файла (страница 106)
8.4). При этом предполагается, что обе оси призншюв на графике имеют приблизительно одинаювый масштаб. Горизонтальная и вертикальная осн графика представляют собой естественные координаты множества данных. Повернутые оси с метками 1 и 2 явились результатом применения к этому множеству данных анализа главных компонентов. На рис. 8.4 видно, что проектирование множества данных на ось ! позволяет выделить свойство выпуклости данных, а именно тот факт, что множество данных является бимодальным (т.е, в епг структуре существуют два кластера).
И в самом деле, дисперсия проекции точек данных иа ось 1 превышает дисперсию проекции на любую другую ось рисунка. В отличие от этой ситуации внутренняя бимодальиая природа этого множества данных абсолютно не видна при его проектировании на ортогональную ось 2. В этом простом примере важно обратить внимание на то, что кластерная струкгура данного множества не проявляется даже при проектировании на вертикальную и горизонтальную оси графика. На практике чаще всего приходится иметь дело с многомерными множествами данных, в юторых кластерная сгрукгура данных скрыта, и приходится выполнять статистический анализ, аналогичный описанному выше анализу главных компонентов [653). 8.4.
Фильтр Хебба для выделения максимальных собственных значений Существует тесная взаимосвязь между поведением самоорганизующихся нейронных сетей и статистическим методом анализа главных компонентов. В этом разделе мы продемонстрируем эту связь, доказав следующее утверждение. Один линейный нейрон с Хеббовским правилом адаптации синаптических весов может 624 Глава 8. Анализ главных компонентов 0 2 4 6 8 Рис. 8.4. Совокупность данных показана в двумерной системе координат, а плотности точек сформированы проектированием этих совокупностей на две оси, обозначенные цифрами 1 и 2.
Проекция на ось 1 имеет максимальную дисперсию и явно демонстрирует бимодальный ипи кластерный характер данных т у = ~~' тсьто (8.36) Обратите внимание, что в описанной здесь ситуации мы имеем дело с единственным нейроном, поэтому нет необходимости применять в обозначениях синаптических весов двойной индекс. быть преобразован в фильтр для выделения первого главного компонента входного распределения [7981.
Чтобы приступить к изучению этого вопроса, рассмотрим простую нейронную модель, показанную на рис. 8.5, а. Эта модель является линейной в том смысле, что ее выход является линейной комбинацией входов. Нейрон получает множество из т входных сигналов х„хз,..., к через соответствующее множество т синапсов тю„тсз,..., тс . Выход полученной модели можно определить как 8.4. Фильтр Хебба для выделения максимальных собственных значений 525 х,(п) х (и) у(п) х (и) хг(п) х',(и) и,.(п) Рис.
8.5. Представление фильтра для извлечения максимального собственного значения в виде графа передачи сигнале: граф выражения (8.36) (а); граф выражений (8.41) и (8.42) (б) б) Согласно постулату Хебба, синаптический вес ш, изменяется во времени, сильно возрастая, если предсинаптический сигнал х, и посгсинаптический сигнал у совпадают друг с другом. В частности, можно записать следующее: ш(п + 1) = ш(п) + т)у(п)х(п), т = 1, 2,..., гп, (8 37) ш,(п) + 11у(п)х,(п) (~ ™, [шп(п) +т)у(п)х,(п))з)туз' (8.38) где п — дискретное время; 11 — параметр интенсивности обучения (1еапппй-тате рагаше1ег). Однако это правило обучения в своей общей форме приводит к неограниченному росту синаптических весов ш„что неприемлемо с физической точки зрения.
Эту проблему можно обойти, применив в правиле обучения, используемом для адаптации синаптических весов, некоторую форму насыщения (зашгайоп) или нормировка (поппа1)хат(оп). Использование нормировки обеспечивает эффект введения конкуренции между синапсами нейрона за обладание ограниченными ресурсами, которая, исходя из второго принципа самоорганизации, является существенным условием стабилизации сети. С математической точки зрения удобная форма нормировки может быть описана следующим соотношением (798): 826 Глава 8. Анализ главных компонентов где суммирование в знаменателе проводится по всему множеству синапсов, связанных с данным нейроном.
Предполагая малость параметра скорости обучения т1, (8.38) можно представить в виде ряда по т1 н записать так: ш,(п+ 1) = шт(п) + т1у(п)[х,(п) — у(п)ш;(п)] + 0(т1з), (8.39) где элемент 0(т1з) представляет собой слагаемые второго н более высоких поряд- ков по т1. Для малых значений т1 это слагаемое вполне обоснованно может быль проигнорировано. Таким образом, (8.38) можно аппроксимировать рядом перво- го порядка по т): ш,(п+ 1) = ш;(п) + т1у(п)1х,(п) — у(п)ш;(п)].
(8.40) х',(п) = х;(и) — у(п)ш;(п). (8.41) Это выражение можно рассматривать как эффективный входной сигнал (ейесбке 1прлт) т-го синапса. Теперь можно использовать определение (8.41) н переписать правило обучения (8.40) в следующем виде: и~т(п + 1) = ш;(п) + т)у(п)х',(п). (8 42) Общая работа нейрона представляется как комбинация двух графов передачи сигнала, показанных на рис. 8.5. Граф на рнс. 8.5, а отражает зависимость выхода у(п) от синаптнческих весов ш,(п), шз(п),...,ш (п), согласно (8.36). Графы передачи сигнала на рис. 8.5, б иллюстрируют выражения (8.41) и (8.42). Передаточная функция з т в средней части графа представляет собой оператор единичной задержки (шнтде1ау орегатог). Выходной сигнал у(п) на рис.
8.5, а выступает в роли передаточной функции на рис. 8.5, б. Граф на рнс. 8.5, б ясно показывает следующие две формы внутренней обратной связи, действующей в нейроне. ° Положительная обратная связь для самоусиления и роста синаптических весов ш;(п) в соответствии с внешним входным сигналом х,(п).
° Отрицательная обратная связь ( — у(п) ) для контроля роста связей, стабилизирующая синаптнческий вес ш,(п). Слагаемое у(п)х,(п) в правой части (8.40) представляет собой обычную Хеббовскую модификацию сннаптического веса ш, и, таким образом, участвует в процессе самоусиления, диктуемого первым принципом самоорганизации. Отрицательное слагаемое ( — у(п)и~т(п)), согласно второму принципу, отвечаег за стабилизацию. Оно преобразует входной сигнал х,(п) к форме, зависящей от соответствующего синаптического веса ш,(п) и выходного сигнала у(п): 8.4. Фильтр Хебба для выделения максимальных собственных значений 82г Слагаемое-произведение ( — у(п)ш;(п)) связано с фактором забывания (Гогйетйл8), юторый часто используется в правилах обучения, но с одним отличием: фактор забывания становится более явно выраженным с усилением выходного сигнала у(п).
Такой тип управления имеет определенное нейробиологическое объяснение [1016). Матричная Формулировка алгоритма Для удобства выкладок введем следующие обозначения: х(п) = [хз (п), хз (и),..., х (п)]т (8.43) т(п) = [зо1(п), юз(п),..., за~~(п)] (8.44) Входной вектор х(п) и вектор синаптических весов зт(п) обычно являются реализациями случайных векторов. Используя это векторное представление, выражение (8.36) можно переписать в форме скалярного произведения: у(п) = х (п)и(п) = зт~(п)х(п). (8.45) Аналогично, выражение (8.40) можно переписать в следующем виде: и(п+ 1) = зт(п) + т)у(п)[х(п) — у(п)и(п)].
(8.46) Подставляя (8.45) в (8.46), получим: и(п+ 1) = т(п) +т)[х(п)хт(п)зг(п) — зг~(п)х(п)х~(п)зг(п)т(п)]. (8.47) Алгоритм обучения (8.47) представляет собой нелинейное стохастическое разностное уравнение (поп1шеаг згосЬазг)с 611Тегепсе еспагюп), которое делает анализ сходимости этого алгоритма сложным с математической точки зрения.
Для того чтобы обеспечить базис для анализа сходимости, немного отвлечемся от поставленной задачи и обратимся к общим методам анализа сходнмости стохастических алгоритмов аппроксимации. 828 Глава 8. Анализ главных компонентов Теорема об асимптотической устойчивости Алгоритм самоорганизующегося обучения, описываемый уравнением (8.47), является частным случаем общего алгоритма стохастической аппроксимации: эч(п+ 1) = эу(п) +э)(п)гз(чу(п),х(п)), и = 0,1,2,.... (8.48) Предполагается, что последовательность т[(п) состоит из положительных скаляров.
Функция коррекции (прдаге бэле[[оп) Ь(, ) является детерминированной функцией с некоторыми условиями регулярности. Эта функция, вместе с последовательностью скаляров 71(.), определяют полную структуру алгоритма. Целью описываемой здесь процедуры является определение связи детерминированного обычного дифференциального уравнения (де[епшшзйс опйпагу д[[гегепйа[ ецпа[[оп, или ОРЕ) со стохастическим нелинейным разностным уравнением (8.48).
После выявления такой связи свойства устойчивости этого дифференциального уравнения можно ассоциировать со свойствами сходимости алгоритма. Описываемая процедура является довольно общим приемом и имеет широкую область применения. Она была разработана независимо друг от друга в (665) и (607), использовавших совершенно разные подходы .
Для начала предположим, что алгоритм стохастической аппроксимации, описываемый уравнением (8.48), удовлетворяет следующим условиям. 1. Значения 71(п) — зто убывающая последовательность положительных действительных чисел, такая, что: ~~э 71(п) = оо, и=э 7)Р(п) < со, р > 1, п=г 71(п) — 0 при и — оо. (а) (8.49) (б) (8.50) (в) (8.51) 2. Последовательность векторов параметров (синаптических весов) эт( ) является ограниченной с вероятностью 1. 3. Функция коррекции й(ук, х) является непрерывно днфференцнруемой по эч и х, а ее производные ограничены во времени. э Подходы, примененные в [0071 и [бб51, посвященных изучению динамики алгоритма стохастической аппроксимации, свели эту задачу к изучению динамики дифференциаяьных уравнений.