Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 29
Текст из файла (страница 29)
Функционирование ИНС Элмена описывается системой рекуррентных соотношений слой- задержки у,(Ус+1) у.,(/с+ 1) Скрытый слой— и, -нейронов Входной слой— Рис. 9.5 — Нейронная сеть Злмена у (~с+1) =~~~ и"'о (~с+1)+О'", 1=1,2,...,т (9.17) или в матричной форме О(и+ 1) = Ч~(И~ "х(~~)+ И~ о(~~)+ Во'), (9.18) (9.19) 188 ! ! ! ! ! ! ! ! ! ! Выходной слой— и = п, адаптивных линейных ассоциаторов у(~+» = 1(" 'о(~) +~' ', 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ где )г" — (пг хпг) — матрица настраиваемых синаптических весов контекстного слоя.
Сеть Элмена получила распространение в системах управления движущимися объектами, при построении систем технического зрения, обнаружения изменения свойств сигналов, например, в задачах предсказания землетрясений и др. 114, 215), 9.4 Сеть Джордана О ~И и,. (/с + 1) = ~ игг," х,. (7с) + ~ гггг (у,, (й) + ау,, (й — 1)) + О г.", г=г с=1 о,(1с+1) = афпг(и,,(1с+1)), г =1,2,...,иг, (920) у,(1+1)=г1~~ ~ ~,гг~',~о,(Ус+1)+О~~~ г=1,2,...,иг г=г (9.21) или в матричной форме о(й + 1) — Ч' ~И' х(1.) + И~ (у(Й) + ау(7с — 1)) + О )„ у()с+1) = Чг~'~(%~'~оЯ)+В~ ~'))= = Ч" гг (И '" (Ч" л Ж вг хЖ) + Ч' (у Ж) + уЖ вЂ” 1)) + О "') + О ' ')) (9.22) (9.23) В принципе данная сеть решает тот же класс задач, что и ИНС Элмена, однако, благодаря более глубокой памяти и дополнительному слою нелинейных функций активации, обладает лучшими аппроксимирующими и прогнозирующими свойствами.
189 Еще одной рекуррентной сетью, предложенной М. Джорданом 1264~ для распознавания временных последовательностей образов, является структура, приведенная на рис. 9.6. Подобно сети Элмена она имеет скрытый, выходной и контекстный слои с тем отличием, что сигнал на контекстный слой поступает с выхода сети, а сам этот слой состояний образован сумматорами, охваченными через элемент задержки обратной связью с фактором забывания 0 < а < 1. Таким образом, сигнал на выходе контекстных нейронов определяется не только текущими выходами сети, но и их экспоненциально взвешенными предыдущими значениями, что обеспечивает этой сети более «глубокую» память по сравнению с ИНС Элмена. Работа сети Джордана описывается системой рекуррентных соотношений уг(й+)) У( ) у (Уг.+1) Входной слой- Скрытый слой- л, -нейронов Выходной слой- и = л, нейронов гг=гго Рис.
9.6 — Нейронная сеть Джордана 9.5 Нейронные сети с временными задержками Рассмотренные выше рекуррентные нейронные сети представляют собой специализированные архитектуры, в каналах обратной связи которых присутствуют элементы единичной задержки ~ '. В принципе временной фактор может быть учтен и в рамках статических нейронных сетей с прямой передачей информации путем введения в них цепочек, образованных элементами задержки.
Такие сети называются ИНС с временными задержками (Типе-Ве1ау Мепга1 Хегжог1ся - Т1 гМХ) [4, 6, 9, 2361 и используются в задачах обработки временных последовательностей различной природы. В качестве примера рассмотрим структуры, приведенные на рис. 9.7. 190 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ х(й) х, (/с) у(1с) у(й) х, (1с) Рис. 9.7. — Статическая и динамическая нейронные сети Если схема, приведенная слева, реализует стандартное отображение у(1с) = Г(х,(Ус),х,(/с),...,х„(7с)), (9.24) то структура, изображенная справа, уже учитывает динамику входного сигнала (9.25) у(к) = Г(х(3с)„х(х — 1),... х(х — п)).
у(/с + 1) х® Рис. 9.8. — Многослойная сеть с глобальной обратной связью либо используя локальные послойные обратные связи (рис. 9.9). у(/с + 1) о~'~ 1+1 о' ' /с+1 х(Й) Рис. 9.9 — Многослойная сеть с локальными обратными связями 191 В общем случае такая сеть не является рекуррентной, поскольку не имеет обратных связей от выхода ко входу. Ввести такие связи в статическую сеть достаточно просто, охватывая ее глобальной обратной связью так, как это показано на рис. 9.8, Заметим, что ИНС, приведенная на рис. 9.9, известна как рекуррентный многослойный персептрон [9) и успешно была использована в задачах распознавания речи [265, 266).
Основными элементами ТРИО могут служить как стандартные нейроны типа элементарного персептрона (рис. 2.2) или обобщенного формального нейрона (рис. 4.11), так и динамические нейроны типа цифрового нейрона- фильтра, приведенного на рис. 1.13. На практике наибольшее распространение получили три основные схемы нейронов [6, 235~: ~ базовый динамический нейрон с элементами задержки во входных каналах (рис. 9.10), осуществляющий преобразование (9.26) )~ базовый динамический нейрон с элементами задержки во входных и выходном каналах (рис. 9.11), осуществляющий преобразование (9.27) ~ нелинейный нейронный фильтр (рис.
9.12), представляющий собой обычный формальный нейрон, у которого вместо настраиваемых синаптических весов используются адаптивные цифровые фильтры [54-56), что позволяет реализовать преобразование 19.28) где х,. (й) — отфильтрованная оценка входного сигнала х,. (й). Нейронные сети с временными задержками получили широкое распространение при управлении, прогнозировании, эмуляции и идентификации нелинейных динамических объектов и процессов. 192 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ Рис. 9.10 — Динамический нейрон с задержками на входах 193 Рис. 9.11 — Динамический нейрон с задержками на входах и выходе х, (/с) х,® к„® Рис. 9.12 — Нелинейный нейронный фильтр У® 194 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ 9.б Скрытая марковская модель Скрытые марковские модели (НнЫеп Магич Моде1я — НММ) — еще один пример специализированных архитектур рекуррентных нейронных сетей [4~.
Простейшим примером такой сети является марковская модель первого порядка, способная принимать одно из и различных состояний х,, 1= 1,2,...,и в каждый момент времени 1 . Изменение состояний определяется стохастической динамикой сети, при этом вероятность перехода модели из 1-го в ~'-е состояние на каждом шаге 0< и„<1 не зависит от предыстории уже произошедших переходов.
Эти вероятности могут быть представлены в виде (и хи) — матрицы й', являющейся аналогом матриц синаптических весов. Предполагается также, что на каждом такте на выходе НММ появляется одно из т возможных выходных состояний с вероятностью р„., 1=1,2,...,т; ~'=1,2,...,и.
Стартуя из некоторого начального состояния в момент к = О, сеть отрабатывает М тактов, после чего регистрируется ее конечное состояние. Задача состоит в восстановлении исходного наблюдаемого состояния по конечному известному. Такая постановка возникает при анализе речевых сигналов, когда по записи голоса (конечное состояние) требуется восстановить состояния звукового тракта, формирующего последовательность фонем (начальное состояние), Диаграмма состояний марковской модели может быть представлена в виде сети, состоящей из п узлов (один для каждого состояний) и связей, определяющих вероятности переходов так, как это показано на рис.
9,13. Рис. 9.13 — Вероятности перехода скрытой марковской модели с тремя состояниями С тем, чтобы проанализировать динамику сети, развернем ее во времени на У тактов (рис 9.14). Пусть при й =0 только 1-тый узел находится в возбужденном состоянии (единица на выходе), в то время как остальные состояния равны нулю.
195 состояние 1 состояние 2 2 состояние н Рис, 9.14 — Развернутая скрытая марковская модель Вероятность того, что при 1=1 модель перейдет в ~'-е состояние есть и,,, и вероятность достижения состояния 1 при 1с =2 - это ~ и,,и... состояние и при й = 3 — ~ ~ и,, и,, и,, и т.д. 1=1 /=1 Переходя к собственно нейросети — скрытой марковской модели (рис. 9.!5), рассмотрим ситуацию, когда наблюдается только выходной сигнал сети, а сами переходные и начальные состояния неизвестны. яо =1 Рис.
9.15 — Скрытая марковская модель Как видно, НММ подобна по структуре многослойному персептрону (рис. 2.4) с числом слоев, равным л', одним входом х, =1 и одним выходом с той лишь разницей, что в ней присутствуют дополнительные синаптические веса р,, 1= 1,2,...,н; 1с =1„2,...,У. Если сеть стартует при 1с = О из состояний, заданных дискретным распределением вероятностей р,,р„...,р„, то вероятность 1-го выходного 19б 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ состояния в тот же момент времени определяется величиной ~~! р,.
р„.. г=! Вероятность появления 1-го состояния при 1. = О и д -го при 1с = 1 — это П П ~! ~! р,.р„.и,,р . и т.п. !=! !=1 Обучение такой сети, конечной целью которого является нахождение синаптических весов-вероятностей и прежде всего р,,р„..., р„, осуществляется с помощью пакетного варианта алгоритма обратного распространения ошибок. Следует, однако, помнить, что синаптические веса НММ должны лежать в интервале от нуля до единицы (ограничения на вероятности), В связи с этим в процессе обучения должен минимизироваться не обычный критерий качества Е', а построенная на его основе функция Лагранжа ь Е~+АС(р и, р ) (9.29) 9.7 Машина Больцмана и обучение отжигом Большой класс оптимизационных задач может быть решен с помощью сети Хопфилда с энергетической функцией ~! Н П т Е(й) = — — ~ ~ и„х,.(Ус)х,(/с) — ~ х,.(Ус)О, = — — х (Ус)йх(й) — х (й)О, (9.30) 2,=,м Р' ',=,' ' 2 минимизация которой осуществляется в процессе последовательных переходов х,.(1с+1) = х!дп ~и„х,.(/с)+О,.
!=1 (9.31) приводящих к одному из локальных минимумов х, хв или х, показанных на рис. 9.3. В какой именно из экстремумов попадает сеть, определяется ее начальными условиями, при этом сходимость гарантируется только к ближайшему к исходной точке. Если же в процессе решения оптимизационной задачи требуется отыскание глобального экстремума (точка х ), стандартная сеть Хопфилда в этой ситуации оказывается бессильной и требует существенной модификации, 197 где С(рс, и,,, р, ) < Π— функция, задающая ограничения на синаптические веса; А — неопределенный множитель Лагранжа. Для поиска седловой точки (9.29) в принципе может быть использован любой из методов нелинейного программирования, основанный на решении системы уравнений Куна-Таккера [177, 2151.














