Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 13
Текст из файла (страница 13)
Фоллсайд разработали алгоритм обучения с регуляризующим членом вида [179] (4.166) где (4.167) (4.168) т)(й) = х)()с — 1)(1+ а соя 0(/с)); Ет(1- ~, (1 !)Ч„, Е,.(й)(! )(Ли,.(/с — 1)(( (4.169) Ли,. (к — 1) = и,. (й) — и,. (й — 1); ЛЕ,. (/с — 1) = Е,. (Ус) — Е,.
(й — 1); О. 1 < а < 0.5 (4. 170) В [180, 181] было предложено в качестве основы алгоритмов обучения использовать метод сопряженных градиентов, в общем случае имеющий вид [177] и,. (1+1) = ь,. (1)+т)Я)ь,. Я), х(о) = -(~ Е,. (О), ~,®) = — Ч„Е,(1.)+ РФ),Я вЂ” 1) (4 171) и приводящий к алгоритму Флетчера-Ривза при ~,„, Е~(/с)~„Е,,(1) ф(/с)— Ч, Ет(и — 1)С7.
Е.ж — 1) (4. 172) 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ алгоритму Полака-Рибьера при (~? Е (1 ) ~? Е (? 1))7 ~У Е Е~ (К вЂ” 1) ч Е. (л — 1) (4. 173) и алгоритму Хестенса-Штифеля при (т? Е,ж) — (?„Е,.Ф вЂ” 1))(? Е,ж) т ,т(~ (4 174) дЕ, (?с) ьл(?с+ 1) = и,. (7с) — т)л ®) дв~л (4.175) где г)л(х — 1)+а„если дл(н — 1)дл(/с) ) О, Ьг1лЯ вЂ” 1), если дл(й — 1)дл(lс) < О, цл(К вЂ” 1) в остальных случаях; (4.176) г)л(й) = а — параметр аддитивного увеличения (обычно 10 <а <0.1); Ь вЂ” параметр мультипликативного уменьшения (обычно 0.5 < Ь < 0,9); дл (й) = дЕ,. (й)/дь„; Бл(й) = (1 — а)дл(?с)+аул(й — 1)„0 < а <1.
(4.177) Следует также отметить, что обладая повышенной скоростью сходимости "Ре1га-Ваг-Ре11а" — алгоритм не допускает колебаний в процессе обучения. Своеобразной комбинацией алгоритма Чана-Фоллсайда и "Ре11а-Ваг-Ре!га" является процедура Сильвы-Алмейды, имеющая вид (183) 85 В 1182~ для улучшения сходимости процесса обучения было предложено использовать следующие эвристики: )' каждый вес ил имеет собственный параметр шага г),,; ~ параметр шага адаптируется по ходу процесса обучения на основе информации о текущих значениях производных дЕ?(й)/ди:л; ) в случае, если производные дЕ, ()с)/ди л несколько шагов подряд не меняют знак, параметр шага увеличивается; ~ в случае, если производные дЕ,.(/с)/ди„меняют знак, параметр шага экспоненциально уменьшается.
На базе этих эвристик был предложен следующий алгоритм, известный под именем "Ре1га-Ваг-г)е11а": дЕ, (/с) иг,,(/с+1) = и,,(тс) — х1,,(й) ' +фЛи,,(хс — 1) диг г (4.178) где л л л ах1,,(И'), если о,,(1с)о,,(1с — 1) >О, т1,,(/с) = Ьт),г(тс) в ггротивном случае; (4.179) 1.1 < а < 1.3; 0.75 < Ь < 0.9; и = Ь ', хх .. (0) = 10 '; ф = 0.1.
Согласно этому алгоритму, если компоненты градиента дЕ,.(ди„имеют один знак на соседних шагах, параметр шага экспоненциально возрастает, а если происходит смена знака производных — этот параметр уменьшается. В (1841 рассмотрен, так называемый, "8црег 8АВ"-алгоритм, в котором при неизменном знаке производных дЕ,./дгг„ на двух соседних шагах происходит увеличение параметра шага до достижения им максимального значения (обычно хх„, = 20); в противном случае уточнение весов не происходит.
Эта процедура может быть записана следующим образом: дЕх(1с) и',,(Й) — х?,,(1с) ' +фЛи„(lс — 1), если д,,(1с)д„.(1с — 1)>0, и „(1с+ 1) = ' ' ди,, " " " (4.180) и,, (тс) в противном случае, где ат1,,(К вЂ” 1), если о,,(гс)о,,(гс — 1) >О и х1,,(тс — 1) <т1,„, т1,, (Й) = ' ' ' ' (4.181) Ьх1,,(1с — 1) в противном случае; л л л а = 1.05; 0.5 < Ь < 0.7 . Радмиллером и Брауном был исследован знаковый алгоритм обучения (4~, известный под именем "КРИКОР" и имеющий вид дЕ, (Й) и,,ф+1) = и, (Й) — т1,,Я)хгдп д„ (1.182) с параметром шага ппп~ах1,, (Ус — 1) х) „)', если д,, (гс)Ь „(Ус — 1) > О, хх„Я) = шах(Ьху,,(й — 1),т1„„„~ если д,,(тс)д,,(Ус — 1) < О, х1,,(х) в ггротивпом случае (4.183) и коэффициентами а =1.2; Ь = 0.5; хх,„=10 ', хх = 50.
4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ С. Фальманом для ускорения процесса обучения было предложено модифицировать активационные функции стандартных нейронов. Так вместо обычной сигмоиды была введена конструкция [185~ у(и,) =(1+е ~') '+0.1и,, (4.184) а вместо гиперболического тангенса— (4.185) у(и,.) = 1авЬ()и,.)+0.1и, Алгоритм обучения, получивший название 'Яц1сЕргор", имеет форму и„(1+1) = ил(й) — гас)к„.Я)+Д,,Я)Ьи<,,Я вЂ” 1), дЕ,. (Ус) в,,(й) = ~ +уи„(7с), див (4.186) где и „если Ли„(й — 1) =О или в,,(/с)Ли„(й — 1) >О, ЧЮ = ' " (4.187) л л л 0 в противном случае; р',„, если Д,,Я) > р',„или в,вЯ)Ьи„Я вЂ” 1)ф,,(1) <О, Р,;Ж) = - влй) Р,;Ж) = ~ в противном случае.
л „® — 1) — в,, (/с) (4.188) Обычно значения свободных параметров принимаются 0.01 < и, < 0.6, р„„= 1.75. Достаточно часто 'Яв1с1сргор"-алгоритм используется в упрощенной форме 1186~: ф,,(й)Ли,,(й — 1), если Ль„(й — 1) ~0, Ли:,,(й) = дЕ,.(й) и ', если Ли~„(А — 1) =О, д~',, (4.189) где дЕ,. (К) ди,, дЕ,( -) дЕ,ж)'~-" ди„ди „ (4.190) ф,,(Ус) = пил , и,.(1+1) = и,,(й) — т1ф — 1)ч' Е,.Я)~, ,, и,. (1+1) = и,.
(й) — фас — 1) %' Е,. (А)/ф, ф>1, (4, 191) рассчитывается параметр шагая тр(Ус — 1)р, если Е,(,и,(Ус+1)) < Е,(,и,.И+1)), фй) = фас — 1)/ф в противном случае (4.192) и, наконец, пересчитываются синаптические веса , и,. (Ус + 1), если Е, (, и,. Я + 1)) < Е, (, и,. (1с + 1)), и,.(й+ 1) = ' ' ' ' ' (4.193) и,.1в+1), в противном случае. Перечень возможных подходов к ускорению процесса обучения можно было бы продолжать, однако поскольку все рассмотренные алгоритмы строятся на тех или иных эвристиках, достаточно трудно сформулировать общие рекомендации по их использованию.
В каждой конкретной задаче наилучшим может оказаться любой из описанных здесь подходов. Все рассмотренные выше алгоритмы обучения с точки зрения теории оптимизации 11771 относятся к градиентным процедурам, или процедурам оптимизации первого порядка т.е. таким, при построении которых используются только первые производные целевых функций. Добиться существенного повышения качества процессов обучения можно, переходя к так называемым ньютоновским алгоритмам, или процедурам второго порядка, при синтезе которых кроме первых используются производные и второго порядка 115, 181.
Для глобальной целевой функции Е,'. = — ~~ е,1р) = — ~~1 е,.(Й), 2 „' 2, (4.194) заданной на всей обучающей выборке, алгоритм настройки синаптических весов может быть записан в виде , 1®+ 1) =, 1®) -1~'-„Е,')-'У. Е,'), (4.195) 88 Еще один метод ускорения процесса обучения, получивший название алгоритма динамической адаптации, рассмотрен в 141. Идея этого метода состоит в том, что в направлении антиградиента — Ч„, Е,(/с) вычисляется два набора синаптических весов вместо одного 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ где д2Ей "2 ди'2о д 2 Е /с д'Е' 2 ди'2оди'2~ д Е,. дв,г д~~' ~од"" 2 д Е~ 2 (э,а „( (4.196) д~, дв,о ди' зди' „, д2Ей 2 д Е. 2 д2Е2 2 дв' „ 'пди 'О д~,.„дюл — (22+1) х(п+ 1) — матрица-гЕССиан, ОбраЗОванная втОрыми прОиЗвОдными; дЕ, 'дЕ,' дЕ,".
~7„,Е,". = ', ' „..., ' — (22 +1)х1 — вектор-градиент. д „'д „"'д „, дЕ, дЕ, И,2(1+1) = И„(й)— д.,', д „ (4.197) пренебрегают внедиагональными элементами гессиана. К сожалению, несмотря на простоту численной реализации, этот алгоритм может приводить к значительным колебаниям в процессе настройки весов. Более строгие и эффективные результаты могут быть получены на основе методов нелинейной идентификации систем (187-192). Перепишем целевую функцию (4.194) в виде Е, = — ~~ е,.(р) = — ~~ е,. ®) = — ~~ (И,(Й) — у,(Й)) 2„„' 2 ' 2,.
л =1ЕМ Ж вЂ” Е ЖИ2=1Е Ж вЂ” т Ф))2= г, г,. 111 !!2 (4.198) (здесь 1Э,.(7с) =(21,(0),д,(1),...,д,(7с))' — (1+1)х! — вектор обучающих сигналов; Х(7с) = (х(0), х(1),... х®)) — (/с + 1) х(п+1) — матрица входных сигналов на 89 И хотя с теоретической точки зрения ньютоновские методы существенно превосходят градиентные, на практике возникают проблемы как с вычислением самого гессиана, так и с его обращением, особенно при работе в реальном времени. Поэтому в задачах обучения искусственных нейронных сетей широкое распространение получили псевдоньютоновские методы, использующие те или иные упрощенные представления гессиана.
В простейшем из таких алгоритмов [41 временном интервале от 0 до 1) и введем в рассмотрение (п+!)х(Ус+1) матрицу У,'., с элементами У,', = ду(и,'. х(р))/ди ... и (и+1)х(л+1) — матрицу Н,'., элементы которой имеют вид д2Е". дЧ/(итх(Ус)) дцу(итх(Ус)) ди,,ди... ди,, ди,, д ~У/(и,. х(Ус)) — ~ "(сУ,.(й) — у(и,'.х(й))) ' = Н,', — Н,','. й 'в (4.199) При некоторых весьма необременительных предположениях относительно характера активационных функций у(е) [181, членами Н,',' можно пренебречь, т.е. положить Уй Уп У У У (4.200) Тогда итерационный релаксационный процесс минимизации критерия (4.198) может быть записан в форме процедуры Гаусса- Ньютона 1187! и,'.
+'(й) = и ~ (Ус)+(У~У," ) 'У,"(ОУ(Ус) — ~Ук(Х(Ус)и,' (й))), (4.201) где верхний индекс Й обозначает номер итерации ускоренного машинного времени, в котором обрабатывается полный набор сигналов ОУ (й), Х(Ус) . На практике наибольшее распространение получили алгоритмы Хартли 1193! и,'. "(Ус) = и,". (Ус)+гУ' (У,':,У,' ) ',У',:(О,.(й) — цг(Х(Ус)ъы',. (Ус))), (4.202) и," "(Ус) = и,' (Ус)+(У,'.У,"~ + ф' ~' ) 'У,'(ОУ(Ус) — ьу(Х(Ус)и', (Ус))), (4.203) где УУ' — скалярный параметр; Е,' — неотрицательно определенная регуляризующая матрица, обеспечивающая устойчивость процессу обучения. Объединяя (4.202) и (4.203), можно записать следующий обобщенный алгоритм вычисления синаптических весов: и ~ "(Ус) = и'.
(Ус)+гУ' (У~У".~ + УУ~ У,' ) 'У'(.О (Ус) — ~У~(Х(й)и' (Ус))). (4.204) Процесс уточнения оценок в машинном времени прекращается либо при 90 где гу' — некоторый положительный демпфирующий параметр, и Марквардта ~194, 195~ 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ поступления нового наблюдения сУУ (Ус +1), х(1+1), либо при выполнении условия ь,'. "'(й) — и,'. (Ус) < е.
(4.205) и,И+1) = из(Ус)+гУ(УУ(ЫХ~Ю+ф1) 'У,(Ус)(сУУ(Ус) — 4У/(и,'. (Ус)х(Ус»), (4206) с учетом соотношений для псевдообратных матриц 11321 11ш(УУ(й)У~(Ус)+ УУ1) ' = (У,(Ус)У,' (Ус»', (.УУ(У ),У,'(~»'У,(Ц = (.У,'(У»' = УУ(+У(И), (здесь У,. (Ус) = (У у(и,'.х(А»), приходим к процедуре (4.207) (4.208) сУу (й) — ук(иХ(Ус)х(Ус» ~У(Ус+1) = в,.(й)+ту ' ', У,.(Ус), !!'" Г (4.209) являющейся обобщением алгоритма Качмажа (4.15) на нелинейный случай. На основе процедуры (4.209) несложно получить оптимальные модификации дельта-правила обучения Г199, 200~.














