Хайкин С. - Нейронные сети (778923), страница 176
Текст из файла (страница 176)
Однаыз обратим внимание на то, что для существования обобщенной функции Ляпунова (14.62) грг(о) должна быть неубывающей функцией входа о, но не обязательно должна иметь обратную. а,(и,) Ь (и,) с„ грг(и!) Модель Холгрилда С,о, 1 — (и,./1г,) + 1, ф,(о.) 884 Глава 14. Нейродинамика Теорема Коэна — Гроссберга является общим принципом нейродинамики для широкого спектра областей применения [387]. В следующем разделе рассмотрим еще одно применение этой важной теоремы. 14.10. Модель ВЗВ В этом разделе мы продолжим нейродинамический анализ ассоциативной памяти и изучим модель состояния мозга ВЯВ (Ьгаш-з1а1е-[п-Ьох), которая впервые была описана в [54).
В своей основе модель ВБВ является системой с положительной обратной связью с амплитудным ограничением (роз111че ГеедЬаск зуз1ет ич1Ь ашр1йиде 1пп11абоп). Она состоит из множества взаимосвязанных нейронов, которые замкнуты обратной связью сами на себя. В [54) эта модель использует встроенные обратные связи для усиления (ашр11Ту) входного образа до тех пор, пока все нейроны сети не достигнут насыщения. Таким образом, модель ВБВ можно рассматривать как устройство классификации, в котором аналоговому входу дается цифровое представление, определяемое некоторым устойчивым состоянием модели. Пусть 1Ч вЂ” симметричная матрица весов, наибольшие собственные значения которой имеют положительные действительные части.
Пусть х(0) — вектор начальных состояний этой модели, представляющий некоторый входной сигнал активации. Предполагая, что модель имеет Х нейронов, вектор состояния этой модели имеет размерность Х, а матрица весов 1У вЂ” размерность А1 х Х. Алгоритм ВБВ полностью определяется следующей парой уравнений: у(п) = х(п) + [3ЪЪ'х(п), х(п+ 1) = ~р(у(п)), (14.63) (14.64) +1, если у,(п) > +1, х (и+ 1) = 1р(у,(п)) = у,(п), если — 1 < у,(п) <+1, (14.65) — 1, если у (и) < — 1. Равенство (14.65) ограничивает вектор состояний модели ВВВ Х-мерным единичным кубом с центром в начале координат.
где ~3 — малая положительная константа, называемая коэффициентом обратной связи (ТееоЬаск Тас1ог); х(п) — вектор состояний модели в дискретный момент времени и. На рис. 14.21, а показана блочная диаграмма системы уравнений (14.63) и (14.64); блок с меткой %Ч представляет однослойную линейную нейронную сеть (см. рис. 14.21, 6). Функция активации 1р является кусочно-линейной функцией аргумента у, (и) — тчго компонента вектора у(п) (рис. 14.22): 14.10. Модель ВВВ 888 Уснднтель обратной связи Единичные зазержкн х(л + )) Нелинейность Матрица весов х<(л) х (л) Выходы Рис. 14.21. Блочная диаграмма модели ВВВ (а); граф передачи сигнала линейного ассоциатора с матрицей весов )()((б) х, (л) б) Функция Ляпунова модели ВЗВ Модель ВВВ можно переопределить как частный случай нейродинамической модели, описанной выражением (14.! 6) 1387).
Для того чтобы это увидеть, вначале перепишем Итак, алгоритм работает следующим образом. В качестве вектора начального состояния на вход модели ВЯВ подается сигнал активации х(0), после чего для вычисления вектора у(0) используется уравнение (14.63). Затем для усечения вектора у(0) используется равенство (14.64), в результате чего получается вектор х(1). Далее, применяя в цикле выражения (14.63) и (14.64), получим х(2). Этот цикл продолжается до тех пор, пока модель ВВВ не достигнет некоторого устойчивого состояния, представленного одной из вершин единичного гиперкуба. Интуитивно понятно, что положительная обратная связь в модели ВЯВ приводит к увеличению Евклидовой длины (нормы) вектора начального состояния х(0) до тех пор, пока вектор состояния не упрется в стенку единичного гиперкуба.
После этого вектор продолжает "скольжение" по стенке куба, пока не достигнет некоторого его "устойчивого" угла, где он пытается выйти наружу, чему препятствует единичный куб 1546). Описанный процесс положен в основу названия данной модели, которое дословно переводится как "модель мозга в виде ящика". 886 Глава 14. Нейродннамнка Рис. 14.22. Кусочно-линейная актнаацн- онная функция, используемая е моделя ВЗВ )-й компонснт алгоритма ВЯВ (14.63) и (14.64) в следующем виде: х,(п, +1) = — ф ~~~ с,,х,(п), э' = 1,2,...,Х.
1=1 (14.66) Коэффициенты с„определяются таким образом: сул = Ьээ + 13то,э, (14.67) / и — хЯ = — ху(1) + кр ~~ слх;(г), у = 1, 2,...,%, (14 68) ~И ' в=1 где смещение 1 равно нулю для всех ~. Однако, для того чтобы применить теорему Коэна — Гроссберга, требуется сделать еще один шаг и преобразовать (14.68) в форму аддитивной модели. Это можно сделать, введя новое множество переменных: (14.69) тле бл — Дельта КРонекеРа, РавнаЯ еДиниЦе пРи 1 = У и нУлю в пРотивном слУчае; ш„— 11-й элемент матрицы весов %.
Уравнение (14.66) записано в форме для дис- кретного времени. Чтобы продолжить, потребуется переформулировать его в форме непрерывного времени: 14.10. Модель ВЗВ 887 ТАБЛИЦА 14.4. Соответствие между теоремой Коэна — Гроссбергв и моделью ВЗВ Теорема Коэна-Гроссберга Модель ВЯВ Тогда с помощью определения (14.67) получим: х,(1) = ~) с,1и1(1).
1=1 Следовательно, модель (14.68) можно переписать в эквивалентной форме; (14. 70) Теперь можно применить теорему Коэна — Гроссберга к модели ВЗВ. Сравнивая (14.71) и (14.56), мы видим соответствия между моделью ВЗВ и теоремой Коэна (табл. 14.4). Таким образом, подставив результаты из табл. 14.4 в выражение (14.57), получим, что функция Ляпунова для модели ВЗВ имеет следующий вид: (14.72) где 1р'(и) — первая производная сигмоидальной функции 1р(и) по своему аргументу. В заключение, подставляя определения (14.65), (14.67) и (14.69) в (14.72), можно определить функцию Ляпунова (энергии) для модели ВЗВ в терминах исходных пе- ременных состояний [387): Е = — — ~1 2 т ,'1 в11хтх, = — — х Жх.
2 1=1 (!4.73) Оценка функции Ляпунова для сети Хопфилда, представленная в разделе 14.7, предполагает существование производной функции, обратной к сигмоидальной нелинейности модели. Это требование удовлетворяется для функции гиперболического тангенса. Однако этому условию не удовлетворяет модель ВЗВ, если переменная состояния ~-го нейрона в ней может принимать только значения ь1 и -1.
Несмотря на а,(и,) Ь,(и,) ага 1р (и ) н 111 — иЯ = — и1.(1) + 1> с111р(и,(1)), у = 1,2,..., А1. (14.71) 888 Глава 14. Нейродинамика эту сложность, функцию Ляпунова для модели ВЯВ можно вычислить с помощью теоремы Коэна — Гроссберга.
Этот факт хорошо иллюстрирует общую применимость этой важной теоремы. Динамика модели ВЗВ При непосредственном анализе, выполненном в [366], было показано, что модель ВБВ является де-факто алгоритмом наискорейшего спуска, который минимизирует энергию Е, определяемую формулой (14.73). Это важное свойство модели ВБВ, однако, предполагает, что матрица весов % удовлетворяет следующим условиям. ° Матрица Ъ~ симметрична: ° Матрица %' является положительно полуопределенной, т.е. в терминах собственных значений; Х м)0, где Х ы — наименьшее собственное значение матрицы Ч~. Исходя из этого, функция энергии Е модели ВЯВ убывает с ростом п (количество итераций), если вектор состояний х(п+ 1) в момент времени и+ 1 отличается от вектора х(п) в момент времени и. Более того, точки минимума функции энергии Е определяют равновесные состояния модели ВЯВ, которые характеризуются следующим; х(п+ 1) = х(п).
Другими словами, подобно модели Хопфилда, модель ВЯВ является сетью, минимизирующей энергию (епегяу-ппппшх(пй ле1и ог(с). Равновесные состояния модели ВБВ определены в некоторых углах единичного гиперкуба и в начале координат. В последнем случае любые отклонения вектора состояний, независимо от того, насколько малыми они будут, усиливаются положительными обратными связями модели и, таким образом, уводят состояние модели от начала координат в направлении некоторой устойчивой конфигурации.
Другими словами, начало координат является седловой точкой. Для того чтобы все углы единичного гиперкуба являлись возможными равновесными состояниями модели ВБВ, необходимо выполнение третьего условия [382). 14.10. Модель ВЗВ 888 ° Матрица весов ЪУ должна быть диагонально-доминантной (о!айова! оощ!пап!), т.е. и„> ~) )щ„~, 7' = 1,2,...,Х, (14.74) гДе шч — (1-й элемент матРиЦы ЪУ. Для того чтобы равновесное состояние х было устойчивым (т.е, чтобы угол единичного гиперкуба был фиксированной точкой аттрактора), в этом кубе должен существовать бассейн аттракции М(х), такой, чтобы для любого вектора начального состояния х(0) из Х(х) модель ВЯВ сходилась к х. Для того чтобы все углы единичного гиперкуба были возможными точечными атгракторами, матрица весов Ж должна удовлетворять четвертому условию 1382). ° Матрица весов % должна быть строго диагонально-доминантной, т.е.
ю„> ~~! ~ю„) + а, 7' = 1, 2,..., Ж, (! 4.75) где а — некоторая положительная константа. Важной точкой в этой дискуссии является то, что если модель ВВВ имеет симметричную и положительно полуопределенную матрицу весов %' (что чаще всего и происходит), то только некоторые (но не все) углы единичного гиперкуба являются точечными аттракторами.
Для того чтобы все углы были потенциальными точечными аттракторами, матрица весов %' должна также удовлетворять условию (14.75), которое включает в себя условие (14.74). Кластеризация Естественным применением модели ВБВ является кластеризация (с!цз!епп8), Это следует из того факта, что устойчивые углы единичного гиперкуба выступают в роли точечных аттракторов с четко определенными бассейнами аттракции. Эти бассейны делят пространство состояний на соответствующее множество четко очерченных областей. Следовательно, модель ВВВ может использоваться в качестве алгоритма кластеризации без учителя (ипзпрегч!зео с!пз!ег!пй а!Эог!!)зтп), в котором все устойчивые углы единичного гиперкуба представляют собой "кластеры" рассматриваемых данных.
Самоуснление, производимое положительными обратными связями (соответствующее первому принципу самоорганизации, сформулированному в главе 8), является важной составляющей этого свойства кластеризации. 890 Глава 14. Нейродинамика В [56) описано использование модели ВБВ для кластеризации (и, следовательно, идентификации) сигналов радара от разных источников. В этом приложении матрица весов %', являющаяся основой работы модели ВЯВ, обучалась с использованием линейного ассоциатора (ассоциативной памяти), обучаемого методом коррекции ошибок (см. главу 2).
Для примера предположим, что информация представлена множеством К векторов обучения, которые ассоциированы сами с собой следующим образом: хь — ~ хь, )г = 1, 2,..., К. (14.76) Пусть вектор обучения хь выбирается случайным образом. Тогда матрица весов Ж подвергается приращениям, соответствующим алгоритму коррекции ошибок (см. задачу 3.9): ЬЪУ = з)(хь — Жхь)хы (14.77) где з) — параметр скорости обучения. Целью обучения является построение такой архитектуры, чтобы для множества возбуждений хи хз,..., хк система вела себя как линейный ассоциатор: Жх„= х„, lс = 1,2,..., К.