Диссертация (785777), страница 25
Текст из файла (страница 25)
5$.$5".&!MWKXN? времениH(+$ 6$1/- &!!$"(&!* 0$$6 4/3##,..$!" /"()("($* &0 .$,..$!" ,!("* ! ! "& "#$ &!"$A" 1/-$. *& "#/" $ ! Y!#"!ВBPTT вычислениеградиентапроизводится,начинаязавершающегомомента?алгоритмеS$!$; $)$..$,..$!" ,!("(* 0$64- /"()("($*&0 /11с.$,..$!",!("*0.&+$5.$)(&,**"$5"#.&,'#.$,..$!"2$('#"*#? 7$,..$!"/"()("($*времени "(+$и далееназад,в обратномвремени,по направлениюк входу сети,,!("*Rт.
е. длявычисле0.&+ 5.$)(&,* "(+$ *"$5 /! 4$ )($2$6 /* /! $A"$!*(&! &0 (!5," "& "#$ .$,..$!"ния градиента надо вначале дойти до завершающего момента времени. В отличие от этого,1/-$.? H#$- .$5.$*$!" "#$ +$+&.- &0 "#$ !$"2&.3; *(!$ "#$- #&16 &!"$A",/1в алгоритме RTRL градиент может быть вычислен в тот же самый момент времени, когда(!0&.+/"(&! 0.&+ 5.$)(&,* "(+$ *"$5*?#! N; /!6#! & начальный#! &является#! YточкойполученаНС-модели,его %стартовоймоментвремени,.$,..$!"'''&'''&Z()$! реакция(!5," 5/""$.!(! т.е̇."(+$;M"%!! !#! (в прямом времени).#!#!а затем используется распространениевперед[ #! /!6/"()("($* ! #! Y M!" & '''& !% & '''& !! ! N; "#$ .$,..$!" ,!("R* !$" (!5," !&Алгоритм RTRL требует большего объема вычислений, чем алгоритм BPTT, однако онпригоден для обучения НС-модели в оперативном режиме (on-line). В то же время, для вы:числения якобиана RTRL в общем случае более эффективен, чем BPTT за счет того, что вRTRL вычисление якобиана является составной частью процесса вычисления градиента.Алгоритм RTRL, как и алгоритмы BP и BPTT, существует в различных модификацияхдля различных нейросетевых архитектур.
Все эти модификации основаны на одних и тех жеидеях, но отличаются техническими деталями реализации. Проиллюстрировать принципы, накоторых основан алгоритм RTRL, удобно на примере рекуррентной сети Элмана, показаннойна рис. 2.45 [96, 97].133Для данной сети входные паттерны слоев для момента времени t имеют вид:(t)I (t) = (I1(t) ; : : : ; Ij(t) ; : : : ; INI) — во входном слое;(t)R(t) = (R1(t) ; : : : ; Rj(t) ; : : : ; RNR) — в рекуррентном слое;(t) ) — в выходном слое;O(t) = (O1(t) ; : : : ; Oj(t) ; : : : ; ONO(t) ) — в контекстном слое:C (t) = (C1(t) ; : : : ; Cj(t) ; : : : ; CNCВыходная активность элементов рекуррентного слоя определяется соотношениями:Rej(t) =XjWijRI Ij(t) +XjWijRC Rj(t 1) ;Rj(t) = f (Rej(t) );(2.66)а выходная активность элементов выходного слоя — соотношениями:Oej(t) =XjWijOR Rj(t) ;Oj(t) = f (Oej(t) ):Корректировка весов связей для момента времени(2.67)t проводится согласно приводимымниже соотношениям.
А именно, веса связей между рекуррентным и выходным слоями вычисляются следующим образом:Oi(t) f 0 (Oei(t) )Rj(t) ;WijOR = Di(t)где D (t)(2.68)= (D1(t) ; : : : ; Dj(t) ; : : : ; Dj(Ot)j) — желаемые значения выходов.Веса связей между входным и рекуррентным слоями определяются соотношениями вида:WjiRIR(t)hWjiRI=jO j Xk(D(t)kjRjXO(t) )f 0(Oe(t) ) W RCkkron += f 0 (Rei(t) ) Ii(t) ÆhjkjRjXl=1khh=1WhlRCRh(t);WjiRI(2.69)R(t 1)lWjiRI;jI j, jRj, jOj — количество элементов в соответствующих слоях; Æhjkronkron = 0 для h =Æhj6 i.где= 1 для h = i,Веса связей между контекстным и рекуррентным слоями вычисляются согласно выражениям:WjiRCR(t)hWjiRC=jO j Xk(t)(DkjRj(t) XR(t)0RChOk )f (Oek ) WkhRC ;(t)kron += f 0 (Rei(t) ) Ri(t 1) ÆhjjRjXl=1h=1WhlRCWjiR(t 1)lWjiRC(2.70):Алгоритм RTRL может использоваться для обучения широкого класса динамических сетей, в том числе на основе архитектуры LDDN (Layered Digital Dynamic Network), к которойможно привести большинство существующих рекуррентных сетей [74, 98, 99].1342.4.2.3 Расширенный фильтр КалманаЕще один вариант алгоритма обучения рекуррентных сетей, ориентированный на работув оперативном (on-line) режиме — это расширенный фильтр Калмана (РФК) [75].Будем считать, что для идеальной НС-модели наблюдаемый процесс является стационарным, т.
е.wk+1 = wk , но состояния его (веса wk ) «испорчены» шумами k .Фильтр Калмана (ФК) в его стандартном варианте применим только для систем, наблюдения которых линейны по оцениваемым параметрам, в то время как уравнение наблюдениянейросети является нелинейным:wk+1 = wk + k ;ybk = f (uk ; wk ) + k ;гдеuk — управляющие воздействия, — шум объекта и — шум наблюдений, эти шумыявляются гауссовскими случайными последовательностями с нулевым средним и ковариационными матрицамиQ и R.Для того, чтобы использовать ФК, требуется линеаризовать уравнение наблюдения. Можно использовать статистическую линеаризацию, т. е.
линеаризацию относительно математического ожидания. Она дает:wk+1 = wk + k ;ybk = Hk wk + k ;где матрица наблюдения имеет вид yb ekHk = T == Jk :w wx==wx kwkTkЗдесь ek — вектор ошибки наблюдения на k -м шаге оценивания.Уравнения расширенного фильтра Калмана для оценкиwk+1 на следующем шаге имеютвид:Sk = Hk Pk HkT + Rk ;Kk = Pk HkT Sk 1 ;Pk+1 = (PkKk Hk Pk ) e + Qk ;wk+1 = wk + Kk ek ;135Здесь ek — вектор ошибки наблюдения на k -м шаге оценивания:ek = ykybk = ykf (xk ; wk ); — коэффициент забывания, влияет на значимость предыдущих шагов.
Здесьобозначено также: Kk — калмановский коэффициент усиления, Sk — ковариационная матрицаошибок ek , Pk — ковариационная матрица ошибок оценивания (wbk wk ).а величинаСуществуют альтернативные варианты РФК, которые могут оказаться более эффективными при решении рассматриваемых задач, в частности, такой:Pk = Pk + Qk ;Sk = Hk Pk HkT + Rk ;Kk = Pk HkT Sk 1 ;Pk+1 = (IKk Hk ) Pk (IKk Hk )T + Kk KkT ;wk+1 = wk + Kk ek :Вариант РФК данного вида более устойчив в вычислительном отношении, обладает робастностью к ошибкам округления, что положительно влияет на обеспечение вычислительнойустойчивости процесса обучения НС-модели в целом.Как видно из соотношений, определяющих РФК, ключевым моментом опять является вычисление якобиана Jk ошибок сети по настраиваемым параметрам.При обучении нейросети использовать в РФК только текущее измерение нельзя из-за недопустимо низкой точности определения направления поиска (влияние шумов и ), необходимо формировать векторную оценку на интервале наблюдений, тогда обновление матрицы Pkпроисходит более корректно.В качестве вектора наблюдений можно взять последовательность значений на некоторомскользящем интервале:ybk = [ybi l ; ybi l+1; : : : ; ybi ℄T ;где l — длина скользящего интервала, индекс i относится к моменту времени (шагу дискретизации), а индексk указывает номер оценки.
Ошибка формируемой НС-моделиek = [ei l ; ei l+1 ; : : : ; ei ℄Tтакже будет векторной величиной.1362.5 Адаптивность НС-моделей2.5.1 НС-модели со вставочными подсетямиС точки зрения обеспечения адаптивности НС-моделей весьма плодотворной являетсяидея вставочного нейрона и объединения таких нейронов — вставочной подсети.2.5.1.1 Концепция вставочного нейрона и НС-модели с такими нейронамиЭффективный подход к реализации адаптивных НС-моделей, основанный на концепциях вставочного нейрона и сети с преднастройкой, был предложен А. И. Самариным в [100].Как отмечается в данной работе, одно из основных свойств НС-моделей, делающих их привлекательным средством для решения разнообразных прикладных задач, состоит в том чтосеть может меняться, подстраиваясь под решаемую задачу.
Такого рода подстройка можетосуществляться в следующих направлениях:нейронная сеть может обучаться, т. е. менять значения своих настроечных параметров(это, как правило, синаптические веса межнейронных связей сети);нейронная сеть может менять свою структурную организацию за счет добавления илиизъятия нейронов и перестройки межнейронных связей;нейронная сеть может динамически преднастраиваться под решение текущей задачиза счет замещения некоторых ее составных частей (подсетей) ранее подготовленными«заготовками», либо за счет изменения значений настроечных параметров сети и ееструктурной организации на основе подготовленных заранее соотношений, связывающих решаемую задачу с требуемыми изменениями в НС-модели.Первый из этих вариантов приводит к традиционному обучению НС-моделей, второй — кклассу растущих сетей, третий — к сетям с преднастройкой.Важнейшее ограничение, связанное с особенностями первого из перечисленных подходовк подстройке НС-моделей (обучение), состоит в том, что сеть, до того как ее начали обучать,потенциально пригодна для решения широкого класса задач, но после завершения процессаобучения она может решать уже только конкретную задачу, в случае возникновения другойзадачи требуется переобучение сети на нее, при котором навык решения предыдущей задачиутрачивается.Второй из подходов (растущие сети) позволяет справиться с указанной проблемой лишьчастично.
А именно, если появились новые обучающие примеры, которые не укладываются в137НС-модель, полученную согласно первому из подходов, то эта модель наращивается новымиэлементами, с добавлением соответствующих связей, после чего проводится дообучение сети,не затрагивающее ранее построенную ее часть.Третий из подходов является наиболее мощным и, соответственно, наиболее сложным.Следуя ему, необходимо либо организовать процесс динамической (т. е. непосредственно в ходе работы НС-модели) замены составных частей модели заранее подготовленными их альтернативными вариантами, отвечающими изменившейся задаче, либо организовать НС-модельв виде целостной интегрированной системы, в которой имеются специальные структурныеэлементы, называемые вставочными нейронами и вставочными подсетями, функция которыхсостоит в воздействии на рабочие элементы сети таким образом, чтобы их текущие характеристики отвечали специфике решаемой в данный момент конкретной задачи.2.5.1.2 Вставочная подсеть как инструмент адаптации НС-моделейВыше, в разд.