Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение, страница 8
Описание файла
DJVU-файл из архива "Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение", который расположен в категории "". Всё это находится в предмете "нейросетевое моделирование сложных технических систем" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "нейросетевое моделирование сложных технических систем" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 8 - страница
Предполагается, что имеется множество неизвестных источников сигналов (и,(й)1,"„которые не зависят друг от друга. Сенсоры воспринимают эти сигналы не покомпонентно, а в смеси, представляющей собой неизвестную линейную комбинацию х(1) = Аи(к) так, как это показано на рис. 4.7. Задача сводится к восстановлению вектора у(й) = и(й) по данным наблюдений вектора х(й) при неизвестной (лхл) — матрице А.
49 и,® и~(й) ! и„(/с) х(й) Неизвестная среда Рис. 4.7 — Схема слепой сепарации Несложно видеть, что первые три задачи весьма близки к проблеме идентификации, а задача слепой сепарации практически совпадает с задачей обратного моделирования и сводится к нахождению оператора сепарации В = А '. Естественно, что применение ИНС для решения этих задач принципиальных затруднений не вызывает. Остановимся кратко на задаче текущего прогнозирования стохастической последовательности х(1) по данным о ее предыстории х(й — 1),х(й — 2),.... Проблема сводится к нахождению оценки х(А) = Г(х(й — 1),х(Ус — 2),...,х(Ус — р)) в реальном времени в темпе с поступлением данных. В линейном случае эта задача хорошо исследована и успешно может быть решена с помощью адаптивных прогнозирующих авторегрессионных моделей (1041.
Для построения же нелинейных прогнозов наиболее целесообразным представляется применение ИНС, например так, как это показано на рис. 4.8. х(/с) прогнозирования Рис. 4.8 — Схема нейросетевого прогнозирования 50 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ В настоящее время нейросетевые прогнозирующие модели успешно используются для решения широкого круга задач науки, техники, экономики [32, 35, 40, 4Ц. 4.3 Линейные алгоритмы обучения Е,.
(г) = — е,. (ю) = — (И, (г) — и, (0))~ 1, 1 (4.4) или, что в принципе то же самое, Е,. (7с) =-е, (й) =-(д,(й)-и,(й)) . (4.5) Градиентная оптимизация (4.4) в непрерывном времени ~1051 приводит к системе дифференциальных уравнений (4.6) или с учетом того, что (4.7) (4.8) г =0,1,...,л, где и > 0 - скалярный параметр, определяющий скорость обучения. На практике наибольшее распространение получили дискретные 51 В настоящем подразделе рассмотрены алгоритмы, основанные на парадигме обучения с учителем и реализующие правило коррекции по ошибке, при этом полагается, что сама ошибка является линейной функцией синаптических весов. Такие алгоритмы имеют достаточно много приложений, простейшим из которых является обучение адалины, рассмотренной в подразделе 2.1. С математической точки зрения процесс обучения в этом случае сводится к минимизации критерия качества обучения (целевой функции) по настраиваемым синаптическим весам и, (~' = 0,1,...,п) и может протекать как в непрерывном ~, так и дискретном /с = 0,1,2,...
времени. В качестве целевой функции наиболее часто принимается квадрат текущего значения ошибки обучения, т.е. алгоритмы обучения вида (4.9) и>,,(Ус+1) = ь',,(й)+п(И)е,.Я)х,Я), или в векторной форме (4.10) и,(1+1) = и,(й) — г~(Й)7„, Е,Я = и,(Й)+пЖ)е,(Й)х(Й), где ~7 Е,(А) = — е,(й)х(й) — вектор-градиент целевой функции по синаптическим (4.11) й,.(й) = и,.
— и,.(7с) и решая дифференциальное уравнение д() й,. (/с))( дп (4.12) несложно получить оптимальное значение параметра шага (4.13) что приводит к алгоритму обучения е,. (Й)х(Й) (,(+1) — Ж)+ 1 )(х(Й)() (4.14) известному в теории искусственных нейронных сетей как алгоритм УидроуХоффа. Нельзя не отметить, что впервые этот алгоритм был предложен С. Качмажем намного раньше 1106, 1071 и задолго до появления нейроматематики использовался для решения задач адаптивной идентификации объектов управления 1108, 109~ в так называемой мультипликативной форме 52 весам.
Скорость процесса обучения с помощью алгоритма (4.9), (4.10) полностью определяется выбором параметра г1(й), определяющего шаг смещения в пространстве настраиваемых параметров. Естественно выбрать этот параметр так, чтобы скорость сходимости текущих значений и,.(х) к оптимальным гипотетическим весам и,.
была максимальной. Вводя в рассмотрение вектор уклонений текущих значений и,(Й) от оптимальных и, 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ пе,. (1с)х(Й) и,. (1с + 1) = и', (/с) + ',, 0 < и < 2, !)х(й)1 (4.15) обеспечивающей при соответствующем выборе параметра помехоустойчивость процессу обучения. Процесс настройки единичного нейрона-адалины несложно распространить на некоторые виды нейросетей в целом.
Записав преобразование, осуществляемое сетью, приведенной на рис. 3.2, в форме у = Г(х) = и, + ~ и,ср, (х) = и ср(х), (4.16) Ж 1)= Ж) 'Ж)- ''Ж)Р(хж)) ( Ж)) (( р(хИ))! (4.17) обеспечивающему сходимость синаптических весов к своим оптимальным значениям для любой последовательности линейно-независимых векторов ср(х(1)),ср(х(2)),...,ср(х(1с)),.... Для сети (3.1) с множеством выходных сигналов у, (/с) получаем с(, (й) — у, (1с) и,.(1+1) = и,(й)+х1 ' ', ср(х(Ус)), )(ср(х(1с))1 у,.
(1с) = и ~ (й)ср(х(/с)); ~' = 1,2„...т. (4.18) Наряду с квадратичными критериями качества обучения (4.4), (4.5) получили распространение и иные формы целевых функций, выбор которых в значительной мере определяется априорной информацией о характере распределения входных сигналов и действующих помех 145~. Так наибольшую помехоустойчивость (робастность) обеспечивает использование модульного критерия Е,.
(/с) = )с1,. (/с) — у,. (1)( = е,. (й)(„ (4.19) приводящего к алгоритму обучения и,. (к + 1) = и, (/с) — т1(1с) ияп(у,. Я) — и,. (Ус)ср(х(сс)))ср(х(lс)). (4.20) Если вместо обычной сигнум-функции используется релейная функция с где и =(и,,и,,и„...,и„),ср(х) =(1,ср,(х),...,ср„(х)), приходим к градиентному алгоритму обучения радиально-базисной сети зоной нечувствительности 2Л, то процедура (4.20) приобретает вид [111) .(~+1) = ..(~)- ( !дл(у (К)- (~)ср(х(~)))+Л)+ т1(!с),. т 2 (4.21) + !фл(у, (/с) — и,. (!с)ср(х(Й)) — Л)ср(х(!с)). ограничении у,. (7с) — и,'.
(1+1)ср(х(1)) = О, (4.22) т.е. уточненный вектор синаптических весов и,. (й + 1) обращает в нуль апостериорную ошибку обучения. Из этих рассуждений следует, что алгоритм Качмажа-Уидроу-Хоффа минимизирует евклидову норму (с!=2). Минимум кубической норме доставляет алгоритм Нагумо-Ноды [113) у, (й) — и т (7с)ср(хф)) и,(/с+1) = и,. (1)+ ядпср(х(/с)), ср (х(Ус)) !с~т!ср(х(Ус)) (4.23) а алгоритм Некрасова[114) у, (7с) — и ~ (lс)ср(х(7с)) и„(/с+1) = и „(/с)+ и!ах (ср, (х(/с))( =о.!,....! и,. (1+1) =и,. (1с) (4.24) минимизирует октаэдрическую норму. Заслуживает внимания алгоритм обучения, являющийся расширением (4.23) у, (Ус) — и,! (Ус)ср(х(Ус)) т Чт(ср(хй))) !р(ср (х(!с)))ср(х(/с)) (4.25) (здесь !р(ср(х(Й))) = (!1т„(ср(х(й))),!1т!(ср(х(ус))),...,!р„(ср(х(ус))))т) и тесно связанный с методом инструментальных переменных [46).
Целый ряд алгоритмов может быть получен при использовании в качестве целевой функции неравенства В [112) была предложена методика построения алгоритмов обучения, состоящая в том, что при известной оценке и,. (Й) очередное значение и,(1+1) ! находится из условия минимума нормы 1!,~и „(Й + 1) — и,.„. (®) ' при 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (4,26) Е, (lо) = е,. (й)Ле, ((о) < О, ь,, (/с +1) = и, (/о) + п(1о)(у, (lо) — урр(1о)ср(хЯ))) Мапср(хЯ)), (4.27) г '1()У(х(/с))! (4.28) и многие другие.
Рассмотренные процедуры относятся к так называемым одношаговым алгоритмам обучения, поскольку при каждом уточнении синаптических весов используется только одно последнее значение ошибки е,(й). Применяя алгоритмы более сложной структуры, учитывающие информацию о предыстории процесса обучения, можно добиться существенного сокращения времени настройки и обеспечить возможность устойчивой работы как в условиях помех, так и нестационарности внешней среды. На практике наибольшее распространение получили алгоритмы, связанные с критерием минимума суммы квадратов ошибок обучения Е,' = ~1 а(1у)е,(Р) = ~~ а(р)Е,(р) (4.29) р=о р=о и их модификации, определяемые выбранной системой весовых коэффициентов а(р), р=0,1,2,...,1. При этом крайне важным является тот факт, что все процедуры имеют унифицированную форму 146,65~ и',(Ус+1) = и',(1о)+хай)(о(,И) — и', Ж)~Р(хЖ)))~Р(х(1о)), (4.30) а отличие между ними определяется лишь коэффициентом фА), который может быть не только скаляром, но и матрицей.
Например, алгоритму Качмажа, как уже отмечалось, соответствует п(й) = ~~д(х(1о)) ~, стохастической аппрпкеимапии (! 15е — д(д( = '(1 ' р' (~(д)ур(х(до(, методу иаимеиаших 1 т квадратов — матрица фас) = ~,гр(х(1))гр (х(А))~ и т.д. Ниже мы рассмотрим группу многошаговых алгоритмов обучения, порождаемых минимизацией критерия 55 где Ле,.(1о) =е,.(1о+1) — е,.(1о) — первая разность последовательности ошибок обучения. Несложно видеть, что все рассмотренные выше алгоритмы удовлетворяют этому неравенству. Кроме того, легко могут быть получены алгоритмы, использующие нелинейности типа сигнум-функции, например, Е,' = ~г е,'(Ус — р)е(Й вЂ” р), (4.31) рсо где я(Ус — р) - функция достоверности р-го наблюдения относительно текущего момента времени Ус .
Исходя из удобства реализации вычислительных процедур и физического толкования процесса обработки «новой» и «устаревшей» информации, функцию е(1 — р) обычно задают в двух вариантах: ~ в виде «скользящего окна» 1, если 0<р<у, е(Ус — р) = О, если ~<р<Ус, (4.32) (здесь у - величина скользящего окна или память алгоритма), в виде «экспоненциального убывания ценности информации» е(й — р) = а', 0 < а <1, (4.33) гггг (Ус + 1) = гс', (Ус) + гУ(Ус)(сУУ(Ус) — гс', (Ус)9?(х(Ус)))сР(х(Ус)), (4.34) где (4,35) г (Ус — 1) = Р„(Ус — 1)сУг(х(Ус — ~)), г(Ус — 1)г ' (Ус — 1)Р (Ус — 1)+ Р (Ус — 1)г(1 — 1)г г (Ус — 1) 9 9 + Р (Ус 1) !! ( -1)!!' г г (Ус — 1) р (Ус — 1)г(Ус — 1)г (Ус — 1)г ~(Ус — 1) + Ч !!-.(У -1)!!' если Ф (Ус — 1)г(Ус — 1) = е+ег(Й), г(Ус — 1)г ~(й — 1) Р (Й 1)+,, в агротивггом случси, 1 — срг (х(Ус — ~))~ (Ус — 1) Р„(Ус — 1) = (436) г (й — 1) г г (й — 1) А(Ус — 1)+,, если Ф Ж вЂ” 1)г-(Ус — 1) = х+Ег(Ус), !!" ('-1)!!г (4.37) А(й — 1), в противном случае, А(Ус — 1) = 56 где а — фактор забывания 1461.