Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение, страница 10
Описание файла
DJVU-файл из архива "Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение", который расположен в категории "". Всё это находится в предмете "нейросетевое моделирование сложных технических систем" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "нейросетевое моделирование сложных технических систем" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 10 - страница
Воспользовавшись формулой Шермана-Моррисона-Вудбери, запишем очевидные преобразования (А(й)+УА'(й)) ~ =(Р ~(К)+УР «(1с)) ~ = 2 — « (1 УР (~)(1+1 Р1-«(Ц))-~Р г(Ц))Р (У ) = (1+ У Р„' «(й)) ' Р (й), (4.60) из которых с учетом (4.59) и (4.60) следует и . (Ус + 1) = (1 — У Р '- ф)(1+ У Р ' (1Я Р ~ (Ус)) и . (Ус) = =(1+УР' «(Ус)) 'ж,(Ус), (4.61) где и,. (й) — обычная оценка метода наименьших квадратов (4.44). Соответствующие рекурр ситные соотношения для синаптических весов в общем случае принимают вид ~1501 вычисления 62 Следует подчеркнуть, что регуляризация информационной матрицы Ф(1)Ф'(®) с помощью добавки У.(й) преследует цель не только более устойчивого ее обращения, но и улучшения статистических свойств оценок, хотя первоначально идея регуляризации носила чисто вычислительный характер.
Использование оценок (4.58) для обучения в реальном времени затруднено, поскольку требует хранения всей обучающей выборки Ф(й),У)У(й) . Вводя в рассмотрение матрицы Л(й) = Р„'(У.) = ФЯ)Ф' Я), гУ = Ф(И)ВУЦс), оценки (4.58) можно переписать в рекуррентной форме 1144, 145~ 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ в,. (Ус +1) = (У(Ус)(и, (Ус) + Р„(Й)ср(х(Ус))(сУУ (Й) — ср' (х(Ус))и,. (Ус)), Р„(Ус — 1)ср(хй))ср (хй))Р (Ус — 1) Р„ж) = Р„ж-1) 1+ ср'(х(й))Р (Ус — 1)ср(х(й)) Я (У(У ) = (! -У Р ' (У )(1 + У Р'-' (У ))-' Р -' (У )) = (! + У Р" (У )) ' (4.62) где для оценок Ермакова-Панкратьева— (4.63) для обычных ридж-оценок— (У(Ус) =1 — УР„®)(1+УР (й)) ' =(1+УР (Ус)) ', (4.64) для сжатых оценок— !У(1) = (1+!) '1, (4.65) для оценок метода наименьших квадратов— (4.66) !У(Ус) = 1.
Р (Й вЂ” !)ср(х(Ус))еУ (Ус) и У(Ус+1) = и У(Ус)+ !+ р'( (У ))Р (1- — 1)ср( (~))' Р„(Ус — 1)ср(х(Ус))ср (х(Ус))Р„(Ус — 1) Р„(Ус) = Р (Ус — 1) 1+ ср~ (х(Ус)) Р (Ус — 1)ср(х(Ус)) и'У(0) =О, Р„(0) =Г'1 (4.67) а в [1521— Таким образом, выбор конкретного типа смещенных оценок в зависимости от условий обучения сводится к выбору оператора !У(Ус), действующего на обычную оценку наименьших квадратов.
Вместе с тем введенные оценки непригодны для обучения в нестационарных условиях, поскольку учитывает всю ретроспективную информацию с одинаковым весом. Число работ по синтезу рекуррентных алгоритмов обучения с конечной памятью, использующих идеи регуляризации, невелико [151-!53!. Так в работе [152у предложен алгоритм вида Р„(Й вЂ” 1)ср(х(Й))е,. (1с) и, (/с + 1) = и, (lс) + 1+ ср (х(1с))Р (й — 1)ср(х(к)) Р (1с — 1)ср(х(й))ср~ (х(/с))Р„ф — 1) Р„(й) = Р (И вЂ” 1) 1+ ср" (х(1с))Р (1с — !)ср(х(1с)) и', (0) = О„Р„(0) = У, ~, (4.68) при этом алгоритм (4.67) обеспечивает получение обычной ридж-оценки, а (4.68) — обобщенной.
Основным недостатком этих алгоритмов является то, что с ростом объема выборки доля регуляризующей добавки т. в информационной матрице постоянно падает, что ведет к потере свойств оценок. Адаптивный алгоритм со скользящим окном может быть получен из (4.68) путем добавления соотношения для «сброса» устаревшей информации [154, 1551 Р,ж — 1)(с1, ж) — и,'ж)ср(хж))) т ср(х(Й)), 1+ р'(хж))Р,ж -1) р(хж» Р~рй — 1)ср(хй — К))ср (х(к — Х))Р, Ж вЂ” 1) Р„(И вЂ” 1) = Р„()с — 1)+ 1 — ср (хй —,"с))Р„Ж вЂ” 1)ср(хй —,"с)) ч( ) ч( ) т Р (/с — 1)ср(х(lс))ср (х(1с))Р (lс — 1) 1+ срт (х(ЯР (lс — 1)ср(х(7с)) и,.
(0) = О, Р„(0) = Е, '. (4.69) При т = 1 приходим к одношаговому алгоритму , сУ, И) — и,'(Ус)ср(х®)) /() т 1+ срт(х(А))Е, 'ср(х(Ус)) (4,70) Дополнительную гибкость рассмотренным процедурам можно придать, предусмотрев возможность варьирования параметра регуляризации 1 по ходу процесса обучения. Вопросы выбора данного параметра достаточно подробно освещены в [1431, заметим лишь, что работа в реальном времени ограничивает класс результатов операционными оценками, в которых параметр который для обычной ридж-оценки приобретает аддитивную форму алгоритма Качмажа [1091 с1, (lс) — и т (й) ср(х(/с)) и',(/с+1) = и,(1с)+ ср(х(Й)).
(4.71) 1+ 1ср(хЖ))!) 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ рассчитывается на основании получаемых выборочных значений дисперсии действующих возмущений. При этом алгоритм (4.69) следует дополнить соотношениями для сброса устаревшего значения УЯ вЂ” 1) и введения нового УЯ): Я 1)( У Я) г(® ( Я))) ьУ(1+1) = ьУ(й)+ ср(хИ)), 1+ ср (ХЯ))р (Ус — 1)ср(х(Ус)) й(й — 1)ср(х(й — Х))ср' (хЯ вЂ” Х))У)(к — 1) 1 — ср (хЯ вЂ” Х))УУИ вЂ” 1)ср(х(Ус — Х)) бЯ) = 0Я вЂ” 1)+ УЯ вЂ” 1)У)Ж вЂ” 1)(1 — УЯ вЂ” 1)ОЖ вЂ” 1)) ОЯ вЂ” 1), Р, Я вЂ” 1)ср(х(Ус))ср'(хЯ))Р„(Ус — 1) Р„Я) = Р„(Ус — 1) 1+ срг (х(Ус))Р„Я вЂ” 1)ср(х(Ус)) ож) = Р,ж)+ У(Ю,(ж+ У(Ю,И» 'Р,(х), и У (О) = О, Р (О) = Р„(0) = Г'(0)1.
(4.72) Особенностью алгоритма (4.72) является то, что при Х < Ус он переходит в форму регуляризованного многошагового алгоритма, а получаемые с его помощью оценки являются несмещенными. При Х>Ь (4.72) представляет собой устойчивую модификацию текущего метода наименьших квадратов, Варьируя регуляризующей добавкой по ходу процесса обучения, можно получать различные формы рекуррентных процедур настройки синаптических весов нейронных сетей. Большинство рассмотренных выше алгоритмов настройки тем или иным образом связано с квадратичными критериями.
Поскольку достаточно часто обучение происходит в условиях интенсивных помех, целесообразно более подробно остановиться на робастных многошаговых процедурах. Известно [45~, что квадратичный критерий (4.31) позволяет получить оптимальное качество обучения в случае, когда помехи ДУс), Ус = 0,1,2,... подчинены нормальному закону распределения или в более общем случае, когда возмущения имеют ограниченную дисперсию, т.е. ~~ Р(~)сУ~ =г ( (4.73) 65 где р© — плотность распределения помех, которая, как правило, неизвестна. Существует достаточно много распределений, не входящих в этот класс, например, так называемые распределения с «тяжелыми хвостами».
Возмущения, имеющие подобное распределение, характеризуются возможностью возникновения выбросов, которые могут внести искажения в процесс обучения. р(о) = >о, 1 2а (4.74) и «класса приблизительно нормальных распределений», при этом элементы этого класса имеют плотности вида р(4) =(1-е)р (4)+ейск)., (4.75) где р © вЂ” плотность нормального закона распределения И (0,0'); 1(~) произвольная плотность; 0 < ь' < 1 - параметр степени «загрязненности» основного распределения р (~).
Для каждого класса существуют наихудшие (в смысле фишеровской информации 1(р ): р = ппп1(р)) распределения: )~ для класса невырожденных распределений — распределение Лапласа р Я)= ехр — —, ~В! 2а а (4.76) для класса распределений с ограниченной дисперсией — нормальное распределение р" © = ехр— 2 г 20'г (4.77) ~' для класса приблизительно нормальных распределений комбинация нормального и лапласовского распределений ~г ехр —, ггри ф < 8„ Г2гг 0 ' 20' р*(4) = (4.78) 1 — а ~г в)ф ехр — , ехр — , в противном случае, Г2У ' 20 01г где значение ь', находится с помощью уравнения Наиболее обширная группа распределений может быть описана с помощью «класса невырожденных распределений», в который входят все распределения с 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (4.79) В соответствии с конкретной р (~) получаем следующие критерии качества обучения: )" для класса невырожденных распределений Е,'.
= ~)е,.(р)(, (4.80) в=о ) для класса распределений с ограниченной дисперсией й Е,' = Ее,'(р), р=о (4.81) )~ для класса приблизительно нормальных распределений Е,' = ~Х(е,(р)), (4.82) р=о где 1 „е, (р) при )е,. (р)) < е, „ 2а= )е,. (р)(е, —, +, в противгиэм случае. 20.2 о.о (4.83) ~'(е,(р)) = Соответствующие критериям (4.80)- (4.82) алгоритмы с зкспоненциальным взвешиванием информации могут быть записаны в форме [15б~: ь,. (1+1) = и,. (й)+тфс)Р„Я)е,. (х)Д(х®)), 1 Р И -1)р(хИ))р'(хЖ))Р Ж -1) Р„(й) = — Р„(й — 1) а " ац 'И)+ ~р'(х(й))Р,Ж -1)~р(х(1о)) (4.84) где п(й) зависит от принятого критерия и имеет вид: для класса невырожденных распределений е при (е,. (й)( < е„ т1(А) = ! ° е,(Й)( в противном случае, (4.85) (здесь е, — малая неотрицательная величина), )~ для класса распределений с ограниченной дисперсией (4.86) ту(й) =1, ) для класса приблизительно нормальных распределений 1 при )еу(й)( <Е,, п(ус) = Е, /еу (Ус)! в противном случае.
(4.87) Выражения (4.84), (4.85) соответствуют рекуррентному алгоритму наименьших модулей, (4.84), (4.86) — экспоненциально взвешенному методу наименьших квадратов, (4.84), (4.87) — адаптивному робастному алгоритму, вобравшему в себя высокий уровень устойчивости метода наименьших модулей и высокую скорость сходимости метода наименьших квадратов. В ряде практических ситуаций о возмущениях нет вообще никакой информации, кроме их принадлежности некоторому ограниченному интервалу (4(Ус)( < г(А), Ус = 0,1,2, (4.88) Более того, эти возмущения могут иметь регулярный детерминированный характер или искусственную природу типа преднамеренных помех.
Ясно, что даже оптимальные значения синаптических весов и у в этом случае не позволяют получить на выходе нейросети точное значение у,.(Ус)=сУ,(Ус), а могут лишь задать некоторый интервал 1157-1661 уу (ус) — г(ус) < ь,' ср(х(ус)) < суу (ус) + п(у ). (4.89) Несложно заметить, что неравенство (4.89) определяет в пространстве синаптических весов пару гиперповерхностей, между которыми и лежат настраиваемые параметры иу(й). Последовательность обучающих сигналов ау(0),су,(1),...,а',(Ж) порождает Уч'+1 пару гиперплоскостей, которые высекают в этом пространстве некоторую область (политоп) У1, Это и есть область уточняемых параметров, при этом все точки, принадлежащие этой области, равноправны в том смысле, что среди них невозможно выделить наилучший вектор весов, хотя для удобства можно использовать некоторый центр области О„.
Очевидно, что результатом обучения будет не традиционная точечная оценка, а интервальная, что в ряде случаев бывает весьма удобно. Первый и очевидный путь решения задачи состоит в нахождении решения системы %+1 линейных неравенств (4.89), однако поскольку количество вершин политопа У) растет значительно быстрее чем 68 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ й =0,1,...,М,..., с вычислительной точки зрения этот подход представляется малоэффективным Альтернативный подход состоит в аппроксимации политопа О„, полученного в й -й момент времени, эллипсоидом (1))тР-~(~)( (1~)) <1 (4.90) чей центр и,.(Й) и симметрическая положительно определенная матрица Р(й) настраиваются так, чтобы Р, был как можно «ближе» к )Э,. Поскольку и,(й) и РЯ содержат (6+ 1) + (Ь+ 2)(6+ 1)/2 настраиваемых параметров, идея использования эллипсоидов по сравнению с политопами представляется более предпочтительной.