Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение, страница 9
Описание файла
DJVU-файл из архива "Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение", который расположен в категории "". Всё это находится в предмете "нейросетевое моделирование сложных технических систем" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "нейросетевое моделирование сложных технических систем" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 9 - страница
Функция достоверности типа «скользящего окна» порождает многошаговый алгоритм вида [116,1171 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ < г(й) = Р (Ус — 1)ср(х(1)), д(1с) = А(/с — 1)ср(х(1с)), (4.38) .(~)а'(И)+ аф)г'(й) ср (х®))с1(гс) +, ЧЯ)с1 Я), если ср (х(Й))сг(Й) >ег(1с), 1+ Рг(хи)и~) (срт(х(1с)Мус)) 2 г(ус)гг (й) Р„ж-1)- в противном случае, 1+ ср (х(Й))г(гс) (4,39) Р„(1с) = А(1с — 1) —,, если ср (х(1))с1(1) > е,(гс), дж)д'(~) А(й) = срг (х®))д(1с) (4.40) А(1с — 1) в противном случае, если ср~ (хЯ)) А(1с — 1)ср(х(й)) > е, (Ус), А(1 — 1) ср' (х(й))А(1 — 1)ср(х(/с)) Р (/с — 1) в противном случае, 1+ ср (х(/с))Р (Ж вЂ” 1)ср(х(lс)) (4.41) г1(й) = гс =(1,0,...,0)' — (ух1)- вектор; ег®) и ег®) - некоторые пороговые величины, зависящие от степени мультиколлинеарности векторов ср(х(р)) и задающие соответствующий способ их обработки; Ф(1с) = (ср(х(Ус —,'1 + 1)),...,ср(х(Ус — 1)), ср(х(гс))) .
Из алгоритма (4.34)-(4.41) следует целый ряд известных процедур. Так у = 1 соответствует алгоритму Качмажа-Уидроу-Хоффа, при 1 < у < 1г+1 приходим к модифицированному алгоритму Качмажа [118-1261, при 1г+1 < т. < 1с получаем алгоритм текущего регрессионного анализа [1271 и,. (Ус+ 1) = гг,. (й)+ ",, ' ' ср(х(1с)), (4.42) 1+ ср' (х(1с))Р„(/с — 1)ср(х(Ус)) Р (гс — 1)Р(х(гс — Х))9> (х(гс — Х))Р„(1с — 1) Р„(~-1) =Р,®-1)+ " 1-срг (х(1 — у))Р„Ж-1)ср(хй — у)) Р„(~) = Р,(®-1) Р„ж-1) р(хж))р'(х(~))Р,ж-1) 1+9)г (хж))Р,Ж-1)р(хж)) (4.43) и, наконец, при 1' = 1с получаем стандартный рекуррентный метод наименьших квадратов, получивший широкое распространение как в адаптивной идентификации [46,65), так и обучении нейронных сетей [15,181: Р (1с — 1)(с1. (/с) — и т Ж)ср(х(1с))) т ср(х(Й)), 1+ д'(х(1с)) Р„(й — 1) ср(х(1с)) Р (® 1 ( (1с)) т( (с))Р (1с Р„(Ус) = Р„(й — 1) 1+ ср' (х(1с))Р„® — 1)ср(х®)) (4.44) А Ей ~ с р 2( ) (4.45) рсО приводит к широко распространенному экспоненциально взвешенному рекуррентному методу наименьших квадратов: Р (/с — 1)(И (1с) — ь (й)ср(х(/с))) ~,.
(1с+ 1) = ~,. (1с) + ср(х(тс)) а+ срт (х(Ус))Р ® — 1)ср(х(Ус)) ч() Ю( ) т 1 Р„Я вЂ” 1)ср(х(Ус))ср'(х(й))Р„(Ус — 1) а а+ ср (х(/с))Р (й — 1)ср(х(1с)) (4.46) где 0<а<1. Проблема практического использования алгоритма (4.46) осложняется тем, что в процессе обучения может возникнуть так называемый «взрыв параметров» ковариационной матрицы Р Я), т.е. экспоненциальный рост ее элементов. Предупреждение этого нежелательного явления связано с правильным выбором фактора забывания а, который обычно выбирается в диапазоне 0.95 < а < 0.99, что соответствует 20 < у < 100 в алгоритме со скользящим окном. В общем случае известно [13Ц, что алгоритмы (4.42) и (4.46) приводят к аналогичным результатам при 58 Принципиальным вопросом использования рассмотренных алгоритмов является обоснованный выбор величины «окна», которая зависит как от характера нестационарности внешней среды, так и от уровня действующих шумов [1281.
Следящие и фильтрующие свойства алгоритма вступают в противоречие, поэтому необходимо предусмотреть возможность подключения дополнительной процедуры управления памятью, реализующей компромисс между этими свойствами [47, 129, 130]. Улучшение фильтрующих свойств связано с необходимостью увеличения памяти алгоритма, а, следовательно, с накоплением больших объемов данных. В этом случае более целесообразно использование функции д(А — р) в форме «экспоненциального убывания ценности информации».
Минимизация критерия качества обучения 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ Х-1 й= у+1 (4.47) ~, Ж+ 1) =, (й) + гУ(й)(сУУ (Ус) — и," (й)ср(х(Ус)))ср(х(Ус)), (4.48) где А(Ус — 1) если ср' (х(й))А(Ус — 1)ср(х(Ус)) > в, (Ус), ср ~ (х(Ус)) А(й — 1)ср(х(Ус)) Р (й — 1) в ггуготивгголг елучсге, 1+ ср (х(гс))Р (Ус — 1)ср(х(Ус)) (4.49) г1(Ус) = А(Ус — 1)ср(х(й))ср' (х(й))А(Ус — 1) ср~ (х(Ус))А(Ус — 1)ср(х(Ус)) ср (х(Ус))А(Ус — 1)ср(х(Ус)) > ег (Й), А(Й вЂ” 1) в ггротивном случае, А(Ус) = (4.50) 1 (Р (Ус — 1)ср(х(й)))(А(Ус -1)ср(х(Ус))) (Уг (Ус ) т + й срг (х(Ус))Аф — 1)ср(х(Ус)) (А(Ус — 1)ср(х(Ус)))(Р (Ус — 1)ср(х(Ус))) + + ср' (х(Ус))А(Ус — 1)ср(х(Ус)) , (А(Ус — 1)ср(хй))(Р„(Ус — 1)ср(х(Ус))) ), (4.51) (ср' (х(Ус)) А(й — 1)ср(х(Ус))) если срг (х(Ус)) А(Ус — 1)ср(х(Ус)) > ег (Ус), 1 Р,(Ус -1)ср( (Ус))ср'( (Ус))Р,(Ус -1) т ) в противнол случае, й й+ ср' (х(Ус)) Р (Ус — 1) ср(х(й)) Р„(Ус) = однако уменьшение й приводит к быстрому вырождению матрицы Р,,'(Ус) =~ й' 'ср(р)ср' (Р) и, как следствие, к «взрыву параметров».
Применение в алгоритме (4.46) вместо обращения матрицы операции псевдообращения Г1321 приводит к процедуре Г133, 134~: ф ) А ( О ) Р ф) = (Ф(Ус)А (Ус)Ф~ (Ус))+, Р„(0) = О, Ф(Ус) = (~я(х(0)), ~У>(х(1)) „..., (я(х(Ус))), 1 — й 2 — й 1 А(й) =Жал -',а '-,...,а '-,1), (4.52) (4.53) (здесь г(0) = 1, 0 < а <1, 0 < а < 2) совпадающий при а =0 с одношаговым алгоритмом Качмажа-уидроу-Хоффа, а при а =1 — с адаптивным алгоритмом стохастической аппроксимации Гудвина-Рэмеджа-Кэйнеса [138, 139].
В [110, 111] исследована сходимость этой процедуры, отличающейся от алгоритма, введенного в [138, 139], наличием фактора забывания а, что позволяет обеспечить процессу обучения следящие свойства и в то же время исключает возможность «взрыва параметров». Аналогично предыдущему можно записать алгоритм типа (4.53) со «скользящим окном», при этом < иУ(1+1) = ж,.(Й)+аг '(Й)(ИУ(А) — и,. (Й)~Р(х(Й)))Д(х(й)), (У~) = (~ — 1)+)(гр(. (И))!) — )(гр(х(У~ — т))! . (4.54) Сравнительный анализ алгоритмов (4.46) и (4.53) показывает, что процедура (4.46), обладая высокой скоростью сходимости, работает в весьма узком диапазоне изменения фактора забывания, а алгоритм (4.53), как и все процедуры стохастичес кой аппроксимации, характеризуется низким быстродействием. Отмеченных недостатков в значительной мере лишен градиентный (со скалярным коэффициентом фй) ) экспоненциально взвешенный оптимальный по быстродействию алгоритм [140, 141] 60 1 — (6+1)х(6+1) - единичная матрица, (е)' - символ псевдообращения по МуруПенроузу [132].
Хотя алгоритм (4.48)-(4.52) работоспособен при любых значениях фактора забывания а, его громоздкость заставляет искать альтернативные подходы к синтезу многошаговых алгоритмов обучения. В теории и практике адаптивных и обучающихся систем наряду с рекуррентным методом наименьших квадратов и его модификациями широкое распространение получили алгоритмы, основанные на стохастической аппроксимации [47, 115, 135, 136].
Примером является модифицированный алгоритм типа стохастической аппроксимации вида [137] 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (х)(г (х) — Я(У„)ру (х)) иУ(Ус+1) = иУ(й)+ //;( )-~( ).У( )!/' (4.55) где е (й) = е ~ (й) + й е '(й — 1) гУИ) =УУ(й)гр(х(й))+агУЖ вЂ” 1), Кя) =гр(хЖ))дарг(х(у))+ияИ-1) 0<а<1. (4.56) В [1101 исследована сходимость этой процедуры в нестационарных стохастических условиях и показано, что по следящим и фильтрующим свойствам, она превосходит рассмотренные градиентные алгоритмы обучения. В случае, если функция достоверности УУ(й — р) имеет вид «скользящего окна», соотношение (4.56) приобретают форму ~,е(Ус) = е,'.
(й) + е,'-. (Ус — 1) — е,'. (Ус — ~), ,. (У~) = аУ(У~)Ч(х(~))+,. (У~ — 1) — аУ(У~ — Х)ч(хй — Х)), У~И) = Ч(х(У ))Ч' (х(У ))+ ФУ -1) - Ю(хй - ж))р'(х(У -Х)). (4.57) Задача обучения искусственных нейронных сетей может значительно усложняться в случае, если сигналы гр(х(1)) характеризуются высоким уровнем корреляции. В этих условиях методы, основанные на традиционных квадратичных критериях, оказываются ненадежными, а получаемые с их помощью оценки синаптических весов не обеспечивают требуемой точности. Эффективным средством повышения качества обучения может служить использование методов смещенного оценивания 1142, 143~, позволяющих в большинстве случаев получать значения настраиваемых параметров более близкие к оптимальным, чем оценки, получаемые с помощью метода наименьших квадратов.
В теории и практике смещенного оценивания как наиболее универсальные можно выделить так называемые двухпараметрические оценки, в общем случае имеющие вид (1(У ) 1 т(У )+У(Ф(~, Фт(1))д)-~ 1 (1)У1 (У ) (4.58) 61 где Ф(Ус) = (гр(х(0)),гр(х(1)),..., гр(х(Ус))) — (Уг+1) х (6+ 1) - матрица входных сигналов; Уэ,.
И) = (сУу (О), сУу (1),..., сУу (й)) — (Ус+1) х1 — вектор обучающих сигналов; У и ц - некоторые скалярные параметры, определяющие свойства получаемых оценок; У(Ф(й)Ф" (х))' = У.(й) — регуляризующая добавка, обеспечивающая устойчивость процедуры оценивания. и У (й + 1) = (К(1с) + И «(й)) ' Яс), гУ (Ус) = сУУ (Ус)гр(х(Ус)) + гз(У«. — 1), я(У ) = Р(х(~))~'(х(Ю+ УУж -1), Р® 1) ( (У). т( ®))Р® Р„(Й) = Р„(Ус — 1) 1+ д>' (хф))Р„(Ус — 1)гр(хф)) (4.59) Из (4.59) в качестве частных случаев следуют: )~ обобщенные гребневые оценки Ермакова-Панкратьева 11461 (при а = — 1), )~ обычные гребневые (ридж) оценки (при ц = 0) 11471, 1 сжатые оценки с параметром сжатия (1+ 1) ' (при ц = 1) 1148, 149~, обычные оценки наименьших квадратов (при У = О).