Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 26
Текст из файла (страница 26)
Второй скрытый слой, называемый слоем суммирования, настраивается совершенно аналогично обучению радиально-базисных сетей. При этом на выходе и адаптивных линейных ассоциаторов формируются сигналы 6:г, — П НЕЙРОННЫЕ СЕТИ Эффективность рассмотренных в предыдущих разделах многослойных ИНС с прямой передачей информации объясняется, прежде всего, их универсальными аппроксимирующими свойствами, однако низкая скорость обучения, основанного на обратном распространении ошибок, может создавать определенные проблемы при обработке в реальном времени нестационарных сигналов.
Альтернативой многослойным персептронам в известной мере могут служить сети, использующие радиально-базисные функции. В этих сетях функции активации в отличие от сигмоид многослойных ИНС вЂ” немонотонные, например, гауссианы. Поскольку выходной сигнал этих сетей формируется как линейная комбинация радиально-базисных функций, для настройки синаптических весов могут быть использованы оптимальные по быстродействию линейные алгоритмы обучения, при этом, что очень важно, по своим аппроксимирующим свойствам радиально-базисные сети не уступают многослойным. Важнейшим преимуществом радиально-базисных сетей является то, что они позволяют сократить время обучения по сравнению с сетями, использующими обратное распространение ошибок, обеспечивая при этом высокое качество аппроксимации.
Вместе с тем следует помнить, что количество нейронов скрытого слоя должно быть достаточно велико (при этом оно растет экспоненциально с ростом размерности пространства входов). Сочетание положительных свойств многослойных и радиально-базисных ИНС обеспечивается так называемыми Х вЂ” П (сигма-пи) нейронными сетями [27, 250-252), получившими к настоящему времени весьма ограниченное распространение и применение. На рис. 6.1.
приведена схема Х вЂ” П нейронной сети с и входами и одним выходом, осуществляющая нелинейное отображение Р" -+ Н'. Как видно из рисунка, сигнал на выходе сети, содержащей Ь нейронов в скрытом слое, может быть записан в виде (6.1) где р!(е) — радиально-базисные функции активации; р,. (е) — сигмоидальные функции активации; и:,(/с), !!:, (1), а„(А.), Ь„.. (/с) — 6(2п+ 3) + 1 настраиваемых синаптических весов сети, ! = 1,2,...,Ь; !' =0,1,2,...,Л. Записав сигналы, формируемые ИНС, в виде 166 несложно заметить, что сигнал выходного слоя формируется подобно выходу радиально-базисной сети, а скрытый слой обладает как персептронными, так и радиально-базисными характеристиками.
Схема, приведенная на рис. 6.1, является обобщением ряда известных архитектур. Так, полагая функции активации р(и,.) линейными, т.е. (6.3) гр(г,.(й)) = Ф(!/хф) — с,./!,О,.) (6.4) радиально-базисными с фиксированными весами а,, =1, приходим к модифицированной радиально-базисной сети Стокбро-Умбергера-Херца 127), приведенной на рис. 6.2. .л, у = е(х) Рис. 6.2 — Нейронная сеть Стокбро-Умбергера-Херца На следующем рисунке 6.3 приведена еще одна архитектура сигма-пи сети, предложенная Лином и Унбехауэном [27~ и известная как каноническая структура с кусочно-квадратичным представлением и линейным разбиением. 168 б Š— П НЕЙРОННЫЕ СЕТИ Рис.
63 — Квадратично-кусочно-линейная сеть Лина-Унбехауэна 169 Е(У')= — е- (У) = — (сУ(У) — у(У)), 1 г 1 г 2 2 (6.5) можно получить систему дифференциальных уравнений, описывающих процесс настройки синаптических весов, сУи'о о ат сУи,. — '= гУе(У)у,.(У), сУУ сУа„- сУ(а (и, ) —" = гУе(У)и,сУс,(и,.) ' ' хг(У), сУУ ' ' ' сУи, сУУг; с(р,,(а,.) — о = гУе(с)и,(а,(и„) ' ' хУ(У), сУУ ' ' " сУа, У =12,...,6; У' =01,...,л; гУ >О. (6.6) В дискретном времени минимизация критерия Е(Ус) = — е'(Ус) = — (сУ(Ус) — у(й))' 2 2 (6.7) приводит к системе рекуррентных соотношений и~о (1 + 1) = и о (Ус) + ц, (Ус)е(Ус), и>,.
(Ус+ 1) = и,. (Ус)+ гУ,. (Ус)е(Ус)у,.Я) = и,(й)+ у,(й)е(Ус)са,. (и,(Й))р,(и,(Ус)), а,, (Ус+1) = а,,(Ус)+ гУ„.. (Ус)е(Ус)ъи,. (Ус)р,. (и,. (Ус)) ' " хг(Ус), сУр,. (г „(й)) сЬ, Уг,,(Ус+1)=Ь,,(Ус)+гУ;,Ж)е(Ус)и';(Ус)Щ(г';(Ус)) х,(Ус). сУ суг,. (и,. (Й)) сУа, (6.8) Учитывая тот факт, что на интервале — ггу'2<и,.(й), и,.(Ус) <ггу'2 функция О< са(г,(Ус)) =сояи,(й) <1 удовлетворяет всем требованиям, предъявляемым к 170 Можно заметить также, что и многослойный персептрон, и радиально- базисная сеть в каком-то смысле являются частными случаями г.
— П архитектур. Алгоритм обучения Х вЂ” П сети легко может быть получен на базе процедуры градиентного спуска, если активационные функции (а,.(е) и р,.( ° ) непрерывны и дифференцируемы. Принимая в качестве целевой функции стандартную конструкцию б Š— П НЕЙРОННЫЕ СЕТИ но (Ус + 1) К> (~) + Чо(ус)е(ус), и,.(ус+1) = и,(ус)+гу,.(ус)е(к)соз1,(ус)япи,.(ус), а,, (Ус +1) = а,, (Ус) — ц„" (Й)е(ус)ь,.
(Ус)ху(ус) яп1, (Ус) яп и, (Ус), Ь,(ус+1) = Ь,,(ус)+ ку,,(Ж)е(й)х,(ус)сояг,(й)соки,.(ус). (6.9) Скорость обучения ИНС с помощью алгоритмов (6.8), (6.9) существенным образом зависит от способа задания параметров шага поиска хуо(ус),ту,(ус), яу„..
(Ус), в связи с чем целесообразно обратиться к процедурам, в которых этот выбор осуществляется автоматически. Переходя к векторно-матричной форме представления сигналов и параметров Х вЂ” П сети, можно записать Л .,(У) = Х...ж).,(У) =.,'ж).ж), у=о В У т(У) у=о 1(ус) = а(ус)х(ус), и(ус) = Ь(ус)х(ус), (6,10) (здесь а, =(а,.„а,.„...,а,.„),Ь,. =(Ь,.„Ь,.„...,Ь,.„) — (1 (п+1))-векторы, являющиеся У- тыми строками (Ьх(а+1))-матриц синаптических весов а и Ь; х(ус) =(1,х,(ус), ...,х„(ус)); г(ус) =(г,(ус),го(ус),...,1„(ус)); и(ус) =(и,(ус),ио(ус),...,и„(й)) ), (е(1 Ж)) = (са1(~1И)),са (г. (Ус)),",су, Ь, (Ус)))', у (~(У )) — (у,(и, Ж)),у,(~,(У )),".,у о(~,Ж))), у(ус) = (у,(ус), у,(ус)„...
у„(ус)) = (е(1(ус)) .' р(и(ус)), (6.11) (здесь са(1 (Ус)), р(и(й))„т(ус) — (Ьх1) -векторы, " .— символ скоттова произведения 12531) и 171 радиально-базисным функциям, а функция — 1< р(и,.(ус)) = йпи,.(ус) <1 - всем требованиям, предъявляемым к сигмоидальным, можно принять их в качестве активационных функций Х вЂ” П сети. Тогда алгоритм (6.8) автоматически принимает следующую простую форму: (дса(гг(Ус)) Ю (г (Ус)) ду (и И))~ дг>> дг'г д „ (с>гут,(гг,(Ус)) дЧтг(и,(Ус)) дЧ >„(гг„(Ус))~ а'„~(и(ус))— дггг даг д>и>, ) и(ус) =(и,(7с),и,(ус),...,и„(ус))т, (6.12) у(ус) = и.(ус)+ и'Ж)(~(г Ж))' 'гу (а(ус))) = = и>о(Ус)+ и> (ус)((а(а(ус)х(Ус))' 'р(Ь(Ус)х(ус))), (6.13) ио(Ус+1) = "'о(гс)+ гУо(Ус)е(гс)> и>(ус +1) = и (й) + гу„,(Ус)е(й)у(й), аж+1) = а(ус)+гу Ж)е(ус)и>(ус)".'гу/(Ь(ус)х(ус))."> 7(о(а(ус)хж))хт(ус) Ь(Ус + 1) = Ь(Ус) + туЯе(Ус)и(Ус),=.,' суг(а(Ус)х(Ус))с:.'>сур(Ь(7с)х(/с))х (ус).
(6.14) Вводя составные векторы < т(~ )т у(ус) =(1,у (Ус)) (6.15) можно объединить первые два соотношения (6.13), а последние два записать построчно й>(й+ 1) = й(ус)+ гу;,(ус)е(Ус)у>(й), а,, (ус +1) = а, (ус) + ту,, (ус)е(ус)и>, (ус)гут, (Ь, (®)хЖ)) ' '„х(ус) дсгг, (а,т (ус) х(ус)) диг У, (У +1) У, (®)+ (Ус) (1) (Ус) ( т(7) (7)) > (Ус) д гут,. (Ь,.' (Ус) х(Ус)) ди,. (6.16) Введение обозначений 172 (здесь су(о(г(1)), сУгут(а(ус)), и(ус) — (уг>с1)-векторы), после чего выходной сигнал сети и алгоритм обучения приобретают соответственно вид б Š— П НЕЙРОННЫЕ СЕТИ (6.17) позволяет окончательно записать градиентный алгоритм обучения Х вЂ” П сети в виде и (Й + 1) = й(/с) + гу (Й)е(/с) ъ(Й), а,(1+1) = ц(К)+ц. (Й)е(Й)Р,(Й), (6.18) Ь,.(К+1) = Ь,.(7с)+ гу ф)е(ф)д,.ф).
Используя вместо градиентной процедуры (6.17) алгоритм ЛевенбергаМарквардта (181, характеризующийся высокой скоростью сходимости Й(1+1) = й~(й)+(Ф(й)у~(й)+ф-У) 'е(К)у(К) йсЖ+1) = ~; Ж) +(Р; Ж)Рг Ж) + А, 0 е(Ж)Р!(И) Ь,. Ж + 1) = Ь,. (и) + (Ч,. (К)Ч т (К) + А 1) 1е(й) Ч,. (/с), (6.19) (здесь 1 — единичные матрицы соответствующих размерностей;,0,-,„,0„,,0, неотрицательные регуляризующие добавки), с помощью формулы обращения матриц Шермана-Моррисона путем несложных преобразований [201, 2541 можно получить алгоритм обучения сети, приведенной на рис. 6.1, (6.20) 173 Процедура (6.20) достаточно проста с вычислительной точки зрения, характеризуется высоким быстродействием и не использует операцию обращения матриц, что важно при работе в реальном времени в случае больших размерностей входных векторов.
7 КАСКАДНО-КОРРЕЛЯЦИОННЫЕ НЕЙРОННЫЕ СЕТИ К нейронным сетям с прямой передачей информации относятся и так называемые каскадно-корреляционные сети, предложенные в работе С. Фальмана и К. Лебьера 1185), основная особенность которых состоит в возможности добавления новых узлов в процессе обучения. На рис. 7.1 приведена схема подобной сети, содержащая три каскада, л входов и один выход. х, х2 х„ о''=у Рис. 7.1 — Каскадно-корреляционная нейронная сеть В начале процесса обучения формируется стандартная однослойная структура с л входами и т выходами (для т =1 это единственный нейрон, как показано на рис. 7.1), которая обучается с помощью любого из рассмотренных в подразделе 4.4 нелинейных алгоритмов обучения, хотя в оригинальной работе 1189) для каскадно-корреляционных ИНС предложен '()п1сЕргор" — алгоритм (4.180), (4.183).
После предъявления всей обучающей выборки х(1), х(2),..., х(У) оценивается точность аппроксимации и в случае, если ошибка слишком велика, формируется каскад из л„нейронов-кандидатов, параллельно подключенных ко входам сети 1,х,,х„...,к„ и выходу первого каскада он'. Нейроны-кандидаты, как правило, отличаются друг от друга начальными значениями синаптических весов И~"'(О), видом функций активации и алгоритмами обучения.















