Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 23
Текст из файла (страница 23)
В этом случае эффективными могут оказаться робастные методы оценивания (27, 45, 156, 232-234), основанные на целевых функциях, отличных от квадратичного критерия таких, как 1 логистическая функция Велша е, (/с) Д„,(е,(Й)) =е, 1п(соей ' ), 1 (4.347) функция Хубера е, (к) 2 если (е,. (Ус)! < ь'„ е1 е ~е (Й)~ — в противном случае„ (4.348) Ун(е, ЖИ = функция Талвара е~ (в) 2 если )е,(к)( < в,, (4.349) Ь(е,И)) = в~ — в противном случае, 2 139 после нескольких итераций улучшения не произошло, добавляется еще один узел и т.д.
Здесь, правда, существует опасность «переобучения» (очегИ11пд), при котором сеть теряет свои обобщающие свойства и начинает «отрабатывать» случайные флуктуации. Стандартный алгоритм обратного распространения минимизирует целевую функцию (4.322), основанную на квадратах ошибок обучения е,. (й) . Во многих практических приложениях с успехом могут быть использованы иные конструкции типа (4.143), приводящие к критерию качества ~' функция Хэмпела ег гге (1с) — 1 — сок ' если (е,. (1с)! < е,, л е1 (4.350) ь'! 2 — ' в противном случае гг и другие, например, (4.80), (4.82). Здесь ь', >Π— управляющий параметр, обычно выбираемый из эмпирических соображений.
С целью повышения скорости обучения и улучшения обобщающих свойств сети в 12351 предлагается использовать комбинации этих функций, например, (4.351) где а — весовой параметр, изменяющийся в процессе обучения по правилу (4.352) Наилучшие результаты были получены при выборе е, (1с) 1;(е (Ф)) =е, 1и созе Е~ (4.353) с Осе,«1 и 1г(е,.
(й)) = — е,. (1с). (4.354) (4.355) 140 Заметим, что на начальных этапах обучения доминирует функция Л (е,. (/с)), которая при малых значения параметра е, по свойствам приближается к критерию наименьших модулей, т.е. обладает выраженными робастными свойствами, будучи при этом дважды дифференцируемой. Для минимизации локальной целевой функции (4347) можно использовать стандартную градиентную технику оптимизации. При этом 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ или до,"(й) ди,"(й) д,", (4.356) дя(~) дя(~) дХ(е] Ж)) , ]'=1,2,...,п, до1з1- д, — д', = '- з (4.357) и приняв в качестве целевой функцию Велша (4.347) с дЕ(й) ° е, Ж) = — е,' Сапй ду] в, (4.358) получаем дг(И) до',:"И), е, Ж) д]1~,1" д~'~(й) = — „, ' „, =е,'сапЬ до] (к) ди,.
в] ди (4.359) и Л "ж) =)жМ]]ж)о'-М. (4.360) Аналогично без дополнительных комментариев можно записать В~ ~да(~) 1з](~) (4.361) д121(у ) 1 ] ~, д]з](~) 1]1(у ) (4.362) Ли 12]Ф) =])ж)613! Ж)х!"-]Ф) =])ж)613]ж)о[1]ж) (4.363) (4.364) 141 откуда видно, что последние два сомножителя определяются только характеристиками нейронов и не зависят от вида принятого критерия качества Е(й) . Это означает, что основная структура алгоритма обратного распространения ошибок сохраняется, изменяясь лишь в части, связанной с производной целевой функции. Записав для выходного слоя очевидное соотношение (4.365) ди [.,'.](1с) = гуж)д,"](1с)х[3! Ж) = ]1(у )д[ц(й)х[(ус).
(4.366) о'." (1с) = у" (у['(Й)и[".]) = [ап)](у[.'](1с)и[.'](1с)), (4.367) дЕ(®) 1(к)о,,] ®~,, „® ди',,' (4.368) Ду,"(Ж) = — п,Ж),, =]),(Ж)о,"](1с)]],"]Ж)/у,"](1), де(й) (4.369) д [к]д Б" Ж)= — др(с) = У' Ъ д""лж) "" Ж) =12 д" д""" ИЗ И]' Р1 (4.370) д [л ~[з](1с) дЕ( ) д [3] д [3] И. И. (4371) В заключение данного подраздела следует отметить, что для обучения многослойных сетей с помощью обратного распространения, после соответствующей модификации, связанной с вычислением локальных ошибок скрытых слоев, с успехом могут быть использованы практически все процедуры, описанные в подразделах 4.4 и 4.5.
4.7 Алгоритмы самообучения Настоящий подраздел в отличие от предыдущих посвящен процедурам обучения без учителя (самообучения), представляющим собой по определению Б. Уидроу 167~ алгоритмы адаптации синаптических весов в разомкнутом контуре. Наиболее широкое распространение самообучение получило в задачах кластеризации, квантования непрерывного пространства входов, понижения размерности пространства сигналов (нелинейного факторного анализа), 142 Несложно видеть, что вид целевой функции влияет только на локальную ошибку выходного слоя о,['[(Й), не изменяя структуры процедур настройки скрытых слоев. Для улучшения аппроксимирующих свойств сети в 127~ предлагается наряду с синаптическими весами настраивать и параметры крутизны активационных функций с помощью модифицированного алгоритма КрушкеМовеллана 1174).
При этом для трехслойного персептрона очевидны соотношения: 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ выделения информативных признаков при распознавании образов и т.п 128, 29~. Самообучение лежит в основе таких получивших широкое распространение ИНС, как самоорганизующиеся карты Кохонена, сети Гроссберга, сети, основанные на теории адаптивного резонанса, конкурентные сети и др. Здесь мы рассмотрим правила обучения отдельных нейронов, а также области их целесообразного использования. 4.7.1 Правило обучения Хэбба Обучение по Д.Хэббу является наиболее известным, а его история насчитывает более пятидесяти лет [9, 14, 15, 27, 2361. Суть состоит в том, что, если два соседних нейрона, связанных через синаптическую связь, активируются одновременно, то сила этой связи увеличивается; если же эти нейроны активируются асинхронно, то эта сила или уменьшается, либо исключается вообще.
Формально для 1-го нейрона сети с (п+1) входами правило Хэбба выглядит следующим образом: ~4.372) и,;1х+1) = и,;Ж)+цй)Х,1у,(Ус))у;(х;Ж)), (4.373) правило обучения принимает вид (4374) ь„11+1) = м,.„. Я)+тЯс) у,. (3с)х,. (К) и'!(1+1) = и' Ж)+77(ус) у 1к)хсзр). или (4.375) И, наконец, для сети, образованной т параллельно подключенными ко входу нейронами (4.373), правило Хэбба записывается в форме И'в+1) =%Ю+г1яуях (Ь (4.37б) где И'(Й) =(и,(Ус),...,и,.(Ус),...,ь,„(1)) — тх(п+1) — матрица синаптических весов. Несложно видеть, что при нулевой матрице И'(О) 143 где )';.
(е) и у,. (е) — некоторые функции, выбираемые, как правило, из эмпирических соображений. В случае, если в качестве нейрона используется рассмотренный во втором разделе линейный ассоциатор (4.377) откуда следует пропорциональность синаптических весов коэффициентам корреляции между входными и выходными переменными. Практическое использование алгоритмов (4.374) — (4З77) осложняется тем обстоятельством, что с ростом обучающей выборки синаптические веса могут увеличиваться неограниченно, что в свою очередь, приводит к существенным вычислительным трудностям.
Ограничить значения коэффициентов можно, используя алгоритм й'(1+1) =И'®+туу(й)х'(й) — иИ~(й) =(1 — а)И'(Ус)+цу(Ус)х'(й), (4.378) '1 в., а (4.379) Разновидностями алгоритма (4.376) являются 1151 автоассоциативное правило обучения Хэбба И'ж+1) =и ж)+г)®хж)х ®), (4.380) связанное с автокорреляционными свойствами входных сигналов, и автоассоциативное правило Уидроу-Хоффа И1(УС + 1) = И1Ж) + 77(УС)(х(УС) — И/(Ус)х(УС))хт Ж), (4.381) минимизирующее целевую функцию (4.382) Несложно видеть, что (4.381) совпадает с алгоритмом обучения с учителем Качмажа-Уидроу-Хоффа, в котором, однако, вместо внешнего обучающего сигнала Ы(й) используется входной вектор х(й). Хэббовское правило обучения может быть получено и из сугубо формальных соображений путем минимизации критерия качества, называемого в данном случае энергетической функцией и имеющего вид где 0 < а < 1 — фактор забывания.
Можно показать |141, что предельное значение синаптических весов в этом случае определяется соотношением 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (4.383) (здесь а>0), отличающийся от (4.151) отсутствием внешнего обучающего сигнала И, (1) . Процесс минимизации (4.383) имеет вид, близкий к (4.155) 6Ь'~, " =тле-а, +о,х,) й (4.384) и отличающийся от него структурой локальной ошибки Б, описываемой в данном случае элементарным соотношением ~4385) Тогда (4.384) с учетом (4.385) можно переписать в виде т11у1хс ~~ Р) Й (4386) для непрерывного времени или ~4.387) ,;11 +1) = „ж)+т111)су,ж)хж-св,;1~)), и . (й + 1) = и .
(й) +туЯ)Ь . (Ус) х(А) — аи . (й)), тК+1) = тж+ЧжЬ1и) ' ж — гхоз 1и» (4.388) (4389) 4.7.2 Входная звезда Гроссберга Входная звезда (1пз1аг) С.Гроссберга представляет собой нейрон по структуре аналогичный адалине, предназначенный для решения простейших задач распознавания образов и осуществляющий преобразование — у~(пах+~ ) (4,390) где 1, если и,. > О, у(и,.) = 0 е прот иеиом случае.
(4,391) 145 для дискретного. На рис. 4.24 приведена схема самообучения с помощью правила Хэбба (4,388). Рис. 4.24 — Правило обучения Хэбба Схема входной звезды приведена на рис. 4.25. к11й) у,й) к„(Й) Рис. 4.25 — Входная звезда и, Я)к(Ц =)(и,(Й)((!)к(Й)~совО >О, С4392) 14б Несложно видеть, что этот нейрон активизируется (на выходе появляется 1) в случае, если вектор входных сигналов к1й) в некотором смысле близок к текущему вектору синаптических весов и,.1Й), т.е.
при выполнении условия 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ где 0 — угол между векторами и',.(й) и х(й); О,. — сигнал смещения, задающий порог «близости» векторов, который определяет срабатывание входной звезды. Если принять О, = ()и,))()х(), (4.393) то звезда активизируется только в случае, если входной сигнал совпадает с вектором синаптических весов, т.е. распознается только один образ. Чем меньше значение О,, тем больше возможных образов могут активизировать нейрон, который становится при этом все менее «разборчивым». Обучение входной звезды производится с помощью модифицированного алгоритма (4.378), принимающего в данном случае вид (4.394) и,(Ус+1) = и,(1с)+т?у,(Ус)х®) — ау,(/с)и~(1с).
Необходимость модификации связана с тем, что в случае подачи на вход нейрона последовательности х(1с), не активизирующей звезду (у,. (й) = О), происходит постепенное забывание всей накопленной информации. Действительно в этом случае алгоритм (4.378) приобретает вид (4,395) и,.
()с+1) = (1 — а)и,,(lс). Отличительной же особенностью правила (4.394) является то, что самообучение происходит только в активизированном состоянии когда у,. (1с) =1. Положив для простоты а=п, получаем так называемое стандартное правило самообучения входной звезды (4.396) и,. (1+1) = и,. Я) + и у, (И)(х(К) — и,. (1с)), которое можно проиллюстрировать с помощью рис. 426. При у,.














