Хайкин С. - Нейронные сети (778923), страница 164
Текст из файла (страница 164)
Таким образом, подставив (13.15) в (13.14), а затем изменив порядок интегрирования и суммирования, получим: к' та с,(1) = / 6,(Х) ~> ш,зх;(1 — Х) ~1х+ 6, = — О'Э г=1 то =6Я* ~~> шкЯ +6„ 1=1 (13.16) где символ звездочки обозначает операцию свертки. Форма общего импульсного от- клика 6 (г) зависит от объема требуемой детализации. Чаще всего для него исполь- зуется следующая функция: / 6 (г) = — ехр ~ — — /, г, ~, т„/ (13.17) где т, — некоторая временная коясгпанта, являющаяся характеристикой нейрона у.
Функция времени 6, (г) в выражении (13.17) сходна с импульсным откликом простой электрической цепи, состоящей из сопротивления гг н емкости С, соединенных параллельно и питающихся от текущего источника, т.е. т,=ЛС.. (13. 18) Следовательно, выражения (13.16) и (13.17) можно использовать при формулировке модели, показанной на рис. 13.16. Говоря физическими терминами, синаптические веса ш,ы ш,з,...,шу, представлены проводимостью (те. величиной, обратной сопротивлению), а соответствующие входы х„~1), кз(г),...,х,(г) представлены потенциалами (т.е. напряжением).
Сумматор характеризуется малым входным сопро- 13.7. Пространственно-временные модели нейрона 819 "л ч)!х!(! к>(!) х!(!) х(!) х„(!) Рис. 13.16. Аддитивнан модель нейрона тивлением, единичным усилением тока и высоким выходным сопротивлением. Это значит, что он выступает как узел суммирования входящих токов. Таким образом, общий ток, проходящий через эту резисторно-емкостную цель (гез(з(апсе-сарае((апсе— КС), составляет: та ют!х!(1) + 1!з 1=! где первое слагаемое (суммирование) соответствует возбуждениям х!(1), хз(1),..., х,(г), воздействующим на синаптические веса (проводимости) и)!„и!,з,...,(л, а второе слагаемое является током источника 11, представляющий внешнее смещение (Ь|аз) Ь . В литературе по нейронным сетям модель, показанную на рис.
13.16, обычно называют аддитивной (адд(((че шо((е1). Эту модель можно рассматривать как неоднородную (1шпред) аппроксимацию электрической цепью модели в виде распределенной линии передачи (д(зцтЬп(е(1 (гапзппззюп йпе пюде1) биологического дендрического нейрона (Ь(о1ой(са1 ((епдппс пепгоп) (867). Такую природу КС-цепи (см. рис. 13.16) можно также объяснить тем фактом, что сам биологический синапс является фильтром, предназначенным для хорошей аппроксимации [954). 820 Глава 13.
Временная обработкас использованием сетейлрямого распространения 13.8. Распределенные сети прямого распространения с задержкой по времени Универсальный алгоритм миопического отображения, который обеспечивает математическое обоснование фокусированной Т1.РХ, ограничен только теми отображениями, которые инвариантны к смещению. Значение этого ограничения состоит в том, что фокусированные Т1.РХ применимы только в стационарных (инвариантных по времени) средах. Это ограничение можно обойти, используя распределенные сети прямого распространения с задержкой но времени (Т1 г61). Здесь под распределенностью подразумевается то, что неявное влияние времени распределено по всей сети.
Конструкция такой сети основывается на применении нейронного фильтра с несколькими входами (см. рис. 13.14) в качестве пространственно-временной модели нейрона. Обозначим символом и~,,(1) вес, соединенный с 1-м отводом г1К-фильтра, моделирующего синапс, соединяющий выход нейрона 1 с нейроном з. Индекс 1 варьируется от нуля до порядка Р1К-фильтра — р. Согласно зтой модели, сигнал в„(п), образующийся на выходе 1-го синапса нейрона у, представляется суммой свертки (сопио1пйоп зшп): в,,(п) = ~~) и~,,(1)х;(и — 1), (13.19) х,(п) = [х,(п), х,(п — 1),..., х,(п — р)[т, ил(п) — [юл(0), ю;(1),..., щ~;(р)] (13.20) (13.
21) Таким образом, скалярный сигнал я,,(п) можно выразить как скалярное произведение векторов зв„.(п) и х,(п); в,(п) = тг~х,(п). Формула (13.22) определяет выход в„(п) 1-го синапса нейрона 1 в модели, показанной на рис. 13.14, в ответ на подачу входного вектора х,(п), где ю' = 1, 2,..., гпе. Вектор х;(и) называют "состоянием", так как он представляет состояние 1-го синапса в момент времени и. Исходя из зтого, суммируя вклад всего множества, состоящего из то синапсов модели (т.е. суммируя по всем индексам 1), можно описать выход у,(п) нейроназ следующей парой уравнений: от(п) = ~~ в,,(п) + 61 = ~> зг~тх,(п) + 6„ т=1 з=1 у,(п) = ф(и,(п)), (13.23) (13,24) где и — дискретное время.
Выражение (13.19) можно переписать в матричном виде, если ввести следующие определения вектора состояния и вектора весов для синапса 1: 13.9. Апюритм обратного распространения во времени 821 где и,(п) — иидуцироваииое локальное поле нейрона т; Ъу — внешнее смещение (Ъ1аз); гр( ) — нелинейная функция активации нейрона. Предполагается, что во всех нейронах сети используется одна и та же форма нелинейности.
Обратите внимание, что если векторы состояний и весов (»,т и х,(п) ) заменить соответствующими скалярами (пг,т и х;) и если операцию скалярного произведения заменить простым умножением, то динамическая модель нейрона, представленная выражениями (13.23) и (13.24), сведется к статической модели, описанной в главе 4. 13.9. Алгоритм обратного распространения во времени Е(п) = — ~~г ез(п), (13.25) где индекс т' соответствует только нейронам выходного слоя, а е, (и) — сигнал ошибки, определяемый следующим образом: е,(п) = г(,(п) — у,(п). (13.26) Нашей целью является минимизация функции стоимости (созг пзпсг(оп), определяемой как сумма квадратичных ошибок Е(п) по всем моментам времени: Есбщая = У Е(п). и (13.27) Алгоритм, который можно использовать для вычисления оценки оптимального вектора весов и с помощью которого достигается цель, осиоваи иа аппроксимации метода наискорейшего спуска. Очевидно, что для решения поставленной задачи нужно продиффереицировать функцию стоимости (13.27) по вектору весов»п.
дЕсбщая ~~- дЕ(гг) дтпл„дтч з (13.28) Для обучения распределенной сети Т(.РЫ требуется некоторый алгоритм обучения с учителем, в котором фактический отклик всех нейронов выходного слоя сравнивается с желаемым (целевым) откликом в каждый момент времени. Предположим, что нейрон т' находится в выходном слое сети, а его выход обозначен как у (п), при этом желаемый отклик этого нейрона обозначен г(1(п) (имеются в виду значения в момент времени и). После этого можно определить мгновенное (шзгаптапеопз) значение суммы средиеквадратических ошибок сети следующим образом: 822 Глава 13.
Временная обработкас использованием сетейпрямого распространения Продолжая далее действия в соответствии с подходом мгновенного градиента, мы раскрываем сегль во времени (ппТо!г( бзс пепчогк ]п глпе). Стратегия состоит в следующем: в первую очередь нужно попытаться устранить в сети все задержки по времени, разворачивая ее в эквивалентную "статическую", но более громоздкую сеть, после чего можно применить стандартный алгоритм обратного распространения для вычисления мгновенных градиентов ошибки. К сожалению, такой подход имеет следующие недостатки.
° Потери в смысле симметрии между прямым распространением состояний и обратным распространением в терминах, необходимых для вычисления мгновенных градиентов ошибки. ° Отсутствие удобных рекурсивных формул для распространения ошибки. ° Потребность в глобальной бухгалтерии для ведения учета того, какие статические веса остались неизменными в эквивалентной сети, полученной раскрытием (ппГо!бйпй) распределенной Т).РН. Несмотря на то что использование мгновенной оценки градиента является очевидным подходом при разработке временной версии обратного распространения, с практической точки зрения он не рационален. Чтобы обойти проблемы, связанные с подходом мгновенного градиента, в 11110], [1111] было предложено действовать следующим образом.
Во-первых, мы понимаем, что раскрытие общей ошибки градиента в сумму мгновенных ошибок (см. (13.28)) не является единственно возможным. В частности, можно рассмотреть следующий альтернативный способ выражения частной производной функции стоимости Е бщ,„ по вектору весов и„: дЕобщзя ~ ~ дЕебщзя дпэ (и) а „ ~ а;( ) о „ ' (13.29) дуб,лзя дгг, (и) дЕ(~) де,.
(и) дэтл де;; Равенство достигается только тогда, когда берется сумма по всем п (см. (13.28) и (13.29)). Имея разложение (13.29), можно использовать идею градиентного спуска в пространстве весов. В частности, можно реализовать следующую рекурсию для коррек- где индекс времени и касается только и,. (и). Можно интерпретировать частные про- изводные дЕобщщ,ггдо,(п) как изменение функции стоимости, вызванное изменением индуцированного локального поля гг (и) нейрона э в момент времени и. Здесь важно обратить внимание на то, что 13тк Алгоритм обратною распространения во времени 823 ции вектора весов-отводов зт„(п); дЕ„щ д,( ) % (п+1) =%'(и)-Ч д,(п) д„'(п) (13.30) где т) — параметр скорости обучения (1еапипй-гаГе рагаше1ег).
Из определения (13.23) видно, что для любого нейрона 2 сети частная производная индуцированного локаль- ного поля ох(и) по отношению к «„(и) определяется следующим образом: диз(п) д«„(п) (13.31) где х,(п) — входной вектор, применяемый к сииапсу 1 нейрона з. Более того, можно определить локальный градиент (1оса1 йгасйепг) нейрона з' следующим образом: ( ) общая ди,(п) (13.32) Следовательно, равенство (13.30) можно переписать в знакомом виде: зтз,(п+ 1) = ът„(п) + цб,(п)х,(п). (13.33) Ь,(п) = = — = е,(п)~р'(е,(п)), дЕ 5щ „дЕ(п) ди,(п) до,(п) (13.34) где е (и) — сигнал ошибки, измеряемый иа выходе нейрона з; у'( ) — производная функции активации ф( ) по своему аргументу.