Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 11
Текст из файла (страница 11)
Подход, предложенный Ф. Швеппе [157~, состоит в том, что эллипсоид Е, должен содержать все возможные значения параметров, принадлежащие пересечению Е,, (эллипсоид, построенный в (к — 1)-й момент времени) с областью 6„лежащей между двумя гиперплоскостями последнего й-го неравенства (4.89) так, как это показано на рис.
4.9. Рис. 4.9 — Аппроксимация пересечения эллипсоида парой гиперплоскостей Поскольку пересечение Е„, и 6, не является эллипсоидом, необходимо так построить и,. (й) и Р(И), чтобы Е, максимально точно его аппроксимировал. Объединив (4.89) и (4.90), несложно видеть, что искомые параметры описываются системой неравенств < (ь,. — ь,. (7с — 1))" Р ' (й — 1)(и,. — и,. (й — 1)) < 1, г (й)(с(. (/с) — и . <р(х(/с))) < 1 (4.91) 69 или для некоторого неотрицательного р®)— (и, — и,(й — 1)) Р ~(И вЂ” 1)(и', — и,(й — 1))+ + рЯ) г "- Я)Ц,. Я) — и ',.
гр(х(/с)))' < 1+ рЯ). (4,92) Вводя вектор уклонений й,.(й) (4.11), после несложных, но громоздких преобразований квадратичной формы в левой части (4.92), приходим к алгоритму оценивания Фогеля-Хуанга [1б01 , й+ 1) = ~, ®+ ай) 'й)Рй)( (,(~) - ,' й)Ч(хй)))Р(хй)), а®г (1 )Р(1 — 1)Ю(хй))Ч' (х(1 ))Р(1 -1) 1+ рй)г -Ж)~р'(х®))РЖ-1)д(хЖ)) РЖ)И, Ж) — и', И)У(хй))) г (й)+ рЯ)ср'(хЯ))Р(К вЂ” 1)ср(х(Ус)) (4.93) Р(х)е~(() де1Р(й) = 1+ р(х) г (й)+ фй)(о (х(7с))Р(й — 1)(а(х(7с)) т рЯ)срт(хЯ))РЯ вЂ” 1)гр(х(й)) г (lс)+ р(1с)с~ (х(й))Р(Ус — 1)~>(х(х)) (4.94) или, что то же самое, с решением дифференциального уравнения д с(е1 Р(/с) д~э (4.95) Поскольку (4.95) явно не имеет аналитического решения, необходимо воспользоваться или процедурой одномерного поиска глобального минимума (4.94) или численной процедурой отыскания действительных неотрицательных корней (4.95).
70 являющемуся разновидностью взвешенного метода наименьших квадратов. Процедура (4.93) содержит неопределенный параметр р(й), который выбирается так, чтобы объем эллипсоида Е,. на пересечении Е,, и (,. был минимальным. Данная задача связана с поиском в каждый момент й минимума функции 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ Введением переменных а(Ус) = р '(й)г'(й), '- (Ус) е, (Ус) аж) а(Ус) + ср'( (Ус»Р(Ус — 1)Ю( (Ус» (4.96) алгоритм (4.93) может быть преобразован к форме [1671 Р(Ус — 1)(сУУ (Ус) — иг~ (Ус)ср(х(Ус») и У (й + 1) = и У (ф) + ср(х(Ус», а(Ус) + ср' (х(Ус»Р(Ус -1)ср(х(й» Р(У вЂ” 1)ср(х(а» р (х(Ус»Р(У вЂ” 1) 1 Р(" '('"® " -:.,~.
». — ..: ~ (4.97) структурно совпадающей с экспоненциально взвешенным рекуррентным методом наименьших квадратов, но существенно отличающейся своими свойствами, а кроме того, требующей на каждом такте Ус решения задачи минимизации по а(й) функции т 1г г-1 г~(Ус) е, (Ус) с(есР(Ус) = 1+ а(~) а(У)+ср'(х(У»Р(У -1)р(х(У» 1 срт (х(Ус»Р(Ус — 1)ср(х(Ус» аф) + ср (х(Ус»Р(Ус — 1)ср(х(Ус» (4.98) УЭ (Ус) = у(Ус)Р '(Ус), О(Ус) = у 1(Ус)Р(Ус), у(Ус) ~ 0 (4.99) после чего перепишем (4.91), (4.92) в виде (и'У вЂ” иУ(Ус — 1»" УУ '(й — 1)(и У вЂ” и У(Ус — 1» < у(1 — 1), .-'(У )(~УУ(У ) - и,'~р(х(У»)"- < 1, 1»т У1-1 (У 1)(, (® 1» + +р(УМ Ж)(сУ (Ус)-и ср(х(й») <у(1 -1)+р(Ус).
(4.100) Необходимость минимизации этой функции существенно усложняет процесс обучения. Для упрощения алгоритма введем в рассмотрение скалярную переменную у(Ус) такую, что Преобразуя (4.100), можно получить процедуру вида иУ И+1) = и', Ж)+ о(Ус)еУЖ)Жс)ср(хй)) т( (Ус))УЗ® 1+ о(И р'(х(У )) О(У вЂ” 1)ср(х(У )) (4.101) (здесь д(Ус) = р(к)г '(Ус) = а '®)), структурно совпадающую с алгоритмом Хэгглунда ~1681, минимизирующим целевую функцию Е,'.
= ~~ о(р)е,.(р). (4.102) р=О Эта процедура отличается от алгоритма Хэгглунда наличием двух параметров у(Ус) и д(Ус), полностью определяющих ее свойства, Можно показать |47, 1691, что алгоритм вида и, (Й + 1) = ь У (Ус) + у(Ус)о(Ус)еУ (Й)Р(Й)ср(х(Ус))„ у(~) ( Р(Ус -1)ср(х(У~))срг (х(Ус))Р(У~ -1) 1 (4 103) у(Ус — 1) ~ у(Ус — 1)+ д(й)у'(хЖ))Р(Ус — 1)ср(х(Ус)) / у которого эти параметры удовлетворяют соотношениям у(Ус — 1)о (Ус)е,. (Ус) ~(Ус) г(Ус) у(к — 1) + д(Ус)ср' (х(Ус))Р(Ус — 1)ср(х(Ус)) е, (Й) — — ',--- — 1 0<йУ)<у(У 1), г (Ус) ср (х(к))Р(к — 1)ср(х(к)) (4.104) обеспечивает сходимость настраиваемых весов к эллипсоидам минимального объема, содержащим оптимальные параметры, не требуя при этом решения вспомогательных задач оптимизации или поиска корней.
Алгоритм достаточно прост в вычислительном отношении и по мере накопления информации в процессе настройки постепенно принимает форму взвешенного рекуррентного метода наименьших квадратов, столь популярного в задачах обучения ИНС [1Я. 4.4 Нелинейные алгоритмы обучения 72 В настоящем подразделе рассмотрены алгоритмы, также основанные на парадигме обучения с учителем и реализующие правило коррекции по ошибке, однако сама ошибка обучения 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ е,(®) = с1,(/с) — у,(Ус) = с(т(й) — вт(и т(Ус)х(/с)) (4.105) Е (Ус) = с1 , (х)и , (/с) — )и (й)) = е . (й)и (й) = (д (Ус) — оп и ~ х(Ус))и ~х(1с), (4.106) а в качестве алгоритма настройки — соотношение (4.10), которое с учетом того, что (4.107) Ч Ет(й) = -е,(/с)х(/с), приобретает простую форму и,,(/с+1) = и,.(й)+т1е,.(1с)хЯ) = ит(1с)+т1(с1,.(1с) — ядпиР (й)х(1с))х(lс), (4.108) где обучающий от(й) и выходной ут(1) =язеп ит(й) сигналы нейрона могут принимать только два значения +1 и — 1.
С тем, чтобы исключить влияние на процесс сходимости амплитуды входного сигнала, может быть использована модификация (4.108), имеющая вид 147~ с7тЮ вЂ” тяп и ', Я)хЮ ит(Ус+1) = и,.(й)+т1 ',~ х(тс), !! (~)!' (4.109) однако отличающаяся по свойствам как от алгоритма Качмажа-Уидроу-Хоффа (4.18), так и от алгоритма обучения (4.28). Рассмотрим далее обучение квадратичного нейрона, описанного в подразделе 1.3 и осуществляющего преобразование Ф1 П О т.(Й) =0.(1с)+~~ и (1с)х.(Й)+~~и.,(1с)х,®)х,(1с), 1=1 р=1 1=1 (4.110) которое с учетом обозначений ит,(1) =О,(й), Ь,Ж) =(ил(Ус),и,,(Ус),...,и',„(Ус)) — (пх1) — вектор, С,(/с) =(и,„,(/с)т — (пхп) - матрица; х (/с) =(х,(/с),х,(/с),...,х„(/с)) — (их 1) - вектор, х(1с) = (1, хт (/с)), можно переписать в виде в данном случае является нелинейной функцией синаптических весов и определяется принятой активационной функцией ут( ).
Типичным примером такого алгоритма может служить процедура обучения пер септрона Розенблатта с сигнум-функцией активации, рассмотренного в подразделе 2.2. В качестве целевой функции используется выражение ~1701 (4.111) или в еще более компактной форме у,(й) = х'И)И',(/с)хЖ), (4.112) где Фж) 0561 Ж) И',.(й) = 0.5Ь,.Ж) ~ С,.(й) (4.113) - блочная (л+ 1) х (и+ 1) - матрица. Настройку матрицы синаптических весов И',. будем осуществлять путем минимизации критерия Е,.Я) = — е',(Й) = — (с1,. (7с) — хг(И)%,.хЦс))' (4.114) с помощью градиентной процедуры И~ (7с+ 1) = И' (Ус)+п(Ус)е.(Ус)х(()х (7с), е,.(/с) = сУ,.(Ус) — х (й)И~,(й)х(х). (4.115) где (4.116) И~,.Ж) =И',.
— в',.®) (4.117) после чего, решая дифференциальное уравнение дТг(И', (й)И;~ (7с)) =О, дтпл (4.118) (здесь Тг(~)- символ следа матрицы), можно получить оптимальное значение параметра шага в виде 1171, 172~ (4.119) Подстановка (4.119) в (4.115) приводит к алгоритму обучения Для нахождения параметра п(й), обеспечивающего алгоритму (4.115) оптимальные свойства, введем матрицу уклонений текущих значений И',.(й) от оптимальных 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ являющемуся расширением алгоритма Качмажа-Уидроу-Хоффа на квадратичный нейрон. В (172, 1731 изучена сходимость этого алгоритма и предложены различные его модификации, включая многошаговые процедуры.
В настоящее время в нейронных сетях, как уже отмечалось выше, наибольшее распространение получили сигмоидальные актив ационные функции типа униполярной сигмоиды 1 у(у,.и,.) = о'(у,.и,. ) = +е (4.121) и биполярного гиперболического тангенса -2г !! у(у,.и,.) = 1апЬ(у,.и,.) = 1+е (4.122) сЬ „дЕ,. (~) дЕ,. (~) де,.
(4.123) й ди„де, ди„ или с учетом того, что (4.124) системой сЬг,, де,. де, ди,. ду(и,) й 'ди!.. 'ди.ди" ' ди. " = — ануе ' = — ануе — ' ' =гуе ' х, =не у'(и )х, =худ.х,, (4.125) /! /! 1 где о,. — так называемая локальная ошибка, выражающая в виде дЕ,. (~) (4.126) 75 которые связаны между собой соотношением (1.! 1). Заметим также, что при больших значениях параметра крутизны у,. они практически совпадают с релейной и сигнум-функцией соответственно. Процесс обучения в непрерывном времени (или, что то же самое, минимизация целевой функции (4.4)) может быть реализован с помощью градиентного спуска, описываемого системой дифференциальных уравнений Если в качестве активационной функции используется сигмоида (4.121), то дЧ(,) ~'(и,) = ' =у,у,(1-ут), дит (4.127) а уравнения (4.125) принимают вид сЬ~ т ' =т)т,ету,(1 — у,)х,, сй (4.128) дат(ит ) ь|/'(и ) = ' =у.(1 — (тапЬу.и )') =у.(1 — у'.) (4.129) и обучение происходит согласно дифференциальным уравнениям Ии~,т ' =т)т е.(1 — у )х,, Й (4.130) при этом настройка весов практически останавливается, если ут приближается к — 1 или +1, поскольку производная ду,./ди, равная у,.(1 — у,.), достигает своего максимума при у, = 0 и минимума — при +1.
В дискретном случае обучение производится путем минимизации критерия Е, И) е, И) И, И) у, (Ус)) И, (й) Ч/(и, И))) (4.131) 1 Н = — (с(, (1с) — у(~ и,, х, (тс)))' 2 г=О с помощью рекуррентной процедуры дЕ,(й) де,(/с) де,.(1с) и,, (1с+1) = и,, (/с) — т)(1с) ' ' = и',, (1с) — т1(lс)е, (7с) дет (lс) ди,, " ' ди, де,(/с) дит(1с) = и,, (1с) — тЯ<)етЯ) ' ' = и,, (й) + т1(тс)е, (lс)~1т'(и,. (Ус))х,. (й) = (4.132) = иЪ(ус)+т1(ус)д Ж)х,(тс), при этом производная ду, /ди, достигает максимума при у,.














