Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 12
Текст из файла (страница 12)
= 0.5 и минимума— когда ут находится в окрестности 0 или 1. В случае гиперболического тангенса 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ где (4.133) — локальная ошибка. В векторной форме алгоритм (4.132) имеет вид и,(1+1) = и,,(/с)+т1Я)Б,Я)х(И), (4.134) (4.135) и,(й+1) = и,Ф)+тЯд)',е;(Ю,М(1 — )';Ю)хФ), а для активационной функции (4.122)— и:, (х +1) = и, (х) + т)(х)т, е,. (1с)(1 — у,. (1с))х®). (4.13б) На рис 4.10 приведена схема обучения нейрона с помощью дельта-правила (4.134). х, (Ус) у, (/с) х,® х„(/с) с1 (с-) Рис. 4.10 — Дельта-правило обучения Реализация данной схемы требует достаточно точного вычисления активационных функций и их производных, форма которых существенно получивший в теории и практике искусственных нейронных сетей широкое распространение под именем дельта-правила обучения.
Для сигмоиды (4.121) этот алгоритм имеет форму зависит от параметра у, который в общем случае также может быть настраиваемым. В некоторых практических приложениях вычисление производных затруднено, в связи с чем был предложен альтернативный алгоритм обучения (27~, не использующий операцию дифференцирования. В этом случае генерируется малый зондирующий сигнал возмущения ди,. ®, который накладывается на сигнал и,. (1с) с тем, чтобы оценить мгновенное значение градиента функции ошибки. Эффект малого возмущения на ошибку е,. (й) = с(,.
(А) — у,. (й) запоминается. При этом так как дЕ,(1) 1 де,'(Ус) 1 де,'®) ди,Я) де,.(Ус) — е,. (Ус) ' х,. (Ус), (4. 137) д,; 2 д~'х 2д~,ж) д,; ' дсс;Ж) то для малого изменения Ди,. ®) можно записать де,'. Ж) (де,. (Ус))" (4.138) ди,. (1с) Ди,. (1с) или де~(/с) де,.(1с) де,.(1с) = 2е,. (Ус) ' = 2е,. (1с) ди,. (1с) ' ди,.
(Ус) ' ди, (/с) (4.139) Используя данные соотношения, можно ввести следующие алгоритмы обучения: 1 (Де, (/с)) и~;в+1) = и';;(Ус) — — 77Ж) х;(Ус) 2 Ди,ж) (4.140) Де,. (1с) и„(Ус+1) = и,,(1с) — с)(И)е,.Я) ',(lс) Ди,(й) (4.141) (4.142) Е,.(~) = ~'(е,.(с)) = ~(с1,. 0) — у,.(г)) Е,(Ус) = Х(е,(Ус)) = Х(сУ,И) — у,(й)), (4.143) практически идентичные при малых Ди,. (/с) . Схема обучения, реализующая алгоритмы (4140), (4.141) приведена на рис. 4.11. Дельта-правило обучения несложно распространить на критерии, отличные от квадратичного, в общем случае имеющие для непрерывного и дискретного случаев соответственно вид 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ где ('(с,.
) — некоторая выпуклая дифференцируемая функция потерь. х,И) х,®) х„(/с) д,(й) Рис. 4.11 — Схема обучения с помощью зондирующих сигналов По аналогии с (4.123) и (4.125) можно записать с(и'„дЕ,(г) дг де, ду, ди, ~' = — тр ~ = — 'ч =ф'(е.)ь|l'(и.)х,. =тф,х,, (4.144) сл ди~; дВ. ду ди ди'; где д('(е,.) ду(и,.) в и (4.145) В дискретной форме (4.144) имеет вид и, (/с + 1) = и', (/с) + т1(1) 1'(е, (/с))~1~'(и, (1с))х(й) = и, (й) + х1(/с) Б,. (1с) х(1с) (4.
146) 1 1+ с1, (с) 1 1 — с1, (г) Г,() =-(1+ 1,())1 ' +-(1-~,())1 2 ' 1+у,.(с) 2 ' 1-у,® (4.147) Данный критерий всегда положителен, кроме случая у,. (с) = с(,. (~) (идеальное обучение). Использование актив ационной функции 79 и отличается от (4.134) только конструкцией локальной ошибки о,. (й).
В качестве функции ('(е,) в 127] рассмотрена мера, связанная с энтропией и приводящая к критерию гиперболического тангенса, приводит к правилу обучения Ив',, " =т~д,.х,, Й (4.148) где д,. (г) — локальная ошибка д,(~) = ~1,(~) — у,(~) = е,(~). (4 149) Такая же простая форма, в дискретном случае имеющая вид (4.150) ь,. (Ус+1) = и,. (Ус)+туЯ)е,. (к)х(Ус), (4.151) (4.152) где а > О, а в качестве 1" (~) кроме (4.147) может использоваться, например, .1(е,) =(е,! (4.153) (4,154) (здесь Р' > 0 — скалярный параметр). Процесс минимизации (4.151) имеет вид ~Ь „ ' ='7( — аь„+д,х,.), ~й (4,155) где д,. = 31(е,)/де, . В дискретной форме (4.155) можно записать в виде рекуррентной процедуры и ( Ус + 1 ) м у Я ) + я ( 1 ~ ) ( я я | Я ) + 5 Я ) Я Я (4.156) 80 объясняется тем, что компонента у~'(и,.) после преобразований исчезает, а это позволяет использовать для обучения все алгоритмы, рассмотренные в подразделе 4.3. Обобщением критериев (4.142) и (4 143) являются конструкции вида 127) 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ Улучшить аппроксимирующие свойства нейронных сетей можно, вводя дополнительно обучение параметра крутизны у, хотя в практических приложениях он обычно полагается постоянным.
Для этого может быть использован, например, алгоритм Крушке-Мовеллана [174~ дЕ,. (/с) д~(у,. (й)и,. (1с)) у,.()с+1) =у,.(1) — и (к) ' = у,.(Ус)+ч1 Я)е,.Я) ' ' . (4.157) Объединение процедур обучения (4.134) и (4.157) позволяет настраивать все параметры сети, хотя при этом могут возникнуть некоторые проблемы численной реализации, связанные, прежде всего, с необходимостью дифференцирования активационных функций достаточно произвольного вида. Эти трудности просто преодолеваются, если в качестве базового блока ИНС использовать обобщенный формальный нейрон из подраздела 1.4 с активационной функцией (1.22). При этом алгоритм обучения синаптических весов и параметра крутизны может быть записан в достаточно простом виде [621 ь,, (1+1) = и,, (1) + ту(/с)е, (1)(~(21+1)(у, (1с)и, (й))и сР,у, (й))к, (й), (4.158) у,.
(/с+ 1) = у,. (й)+и (й)е,. (1)(~ (2! +1)(у,. (й)и,. (й)) "ср,и,. (/с)). г=о Схема обучения на основе (4.158) приведена на рис 4.12. Одной из проблем, возникающих в процессе нелинейного обучения, является проблема выбора параметра шага г1(1с), которая проявляется весьма остро в ситуациях, когда обучение производится либо в обстановке помех, либо в нестационарных условиях.
Достаточно часто коэффициент фас) полагается фиксированным и одинаковым для всех нейронов сети. Обычно его значение не превышает единицы с тем, чтобы избежать нежелательных колебаний. Однако малое постоянное значение параметра шага уменьшает скорость сходимости, а, следовательно, увеличивает общее время обучения. Противоречие между требованиями устойчивости и высокой скорости привело к возникновению целого семейства алгоритмов обучения с адаптивным выбором параметра шага [271, обеспечивающих высокую скорость сходим ости при сохранении устойчивости процесса настройки сети в целом.
При этом необходимо отметить, что большинство из известных алгоритмов имеет эвристический характер. В [175~ рассмотрена так называемая "Яеагсп-Тпеп-Сопчег8е" стратегия, согласно которой параметр шага в процессе обучения постепенно уменьшается. На начальной стадии, называемой фазой поиска, скорость обучения практически неизменна. На последующей стадии — фазе сходимости параметр шага экспоненциально стремится к нулю и рассчитывается согласно 81 выражениям х, ()с) х,Й) х„(/с) Рис. 4.12 — Схема обучения обобщенного формального нейрона (4.159) или с /с Ло ~о 14.160) где )1„>0, с > О, А, »1 (обычно 100 < й, < 500).
Несложно видеть, что при к «й,, )711) = п„а при й » й, — уменьшается пропорционально 1/й, т.е. удовлетворяет условиям Дворецкого 1115]. Таким образом, "8еагс1)-Треп-Сон)~егде" — стратегия является процедурой стохастической аппроксимации, обеспечивающей сходимость в обстановке интенсивных помех. Еще один подход к обучению, основанный на стохастической аппроксимации, развивается Б. Т.
Поляком 1176, 177~. Предложенные им рекуррентные соотношения для уточнения синаптических весов имеют вид 82 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ дЕ,'. и,,(Ус+ 1) = и„(Ус) — ту(Ус) ди' т й,,(Ус+1) = ь,,(Ус)+ту(Ус)(и„(1+1) — й,,(Й)), (4.161) (4,162) ту(А) = ус — йь (4.163) для й > й„. Как указывает автор метода, процесс усреднения позволяет повысить скорость сходимости в обстановке помех. Один из простейших приемов увеличения скорости обучения состоит в том, что шаговый коэффициент ту(й) увеличивается, если глобальная целевая функция Е~ =~ Е,.(й) уменьшается, и резко уменьшается, если происходит возрастание критерия.
В последнем случае синаптические веса вообще не уточняются, т.е. и „(1 +1) = и,, (Ус) . Таким образом, стратегию управления параметром шага можно записать в виде [271 ату(й — 1), если Е,'. < Е,'. Ьту(й — 1), если Е~ > КЕ~ ', ту(Ус — 1), е остальных случаях, (4.164) ту(й) = где а = 1.05; Ь = 0.7; К = 1.04. дЕ» дЕ,(й) где ' =~ ';ту(И)=туо~Г;0.5<у(1;ту(й)=1/(1+ус). ди т ~ дв~„ Данный подход объединяет в себе две процедуры. Первая — это рекуррентная процедура стохастической аппроксимации с коэффициентом шага ту(1) = ту,/хт .
Вторая — процесс усреднения с коэффициентом ту(й) = 1у'(1+1). В отличие от обычного алгоритма обучения здесь вычисляются две последовательности весов в„(1) и й,,(Й), где й„(Й) — это усредненное значение и,, (й) . Алгоритм использует два шаговых коэффициента: ту(й) = ту„й ' и ту(Ус) = (й+ 1) ', причем коэффициент ту(Ус) убывает более медленно, чем ту(Ус) . На практике процесс усреднения должен начинаться не при й =О, а с момента й > А„, для которого и „(й) уже находится в окрестности оптимальных значений, что ведет к значениям коэффициентов шага Й.
Шмидхубер предложил [178] еще более простой способ определения параметра шага в реальном времени Е,. (/с) — Е,. ц(1-) = ппп ' ', „х) )(~ Е,. (7с)( (4.165) где и „, — максимально возможное значение параметра (обычно п,„=20); Е,.— желаемое значение целевой функции (обычно 0.01 < Е,. < 0.1). Л. Чан и Ф.














