Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 41
Текст из файла (страница 41)
Каждый из сплайн-нейронов и) управляется соответствующим ему нейроном Кохонена в ~ так, что в каждый момент обучения 1с настраивается только сплайн-нейрон, соответствующий нейрону-победителю Кохонена. Настройка такой сети осуществляется путем минимизации критерия Е(1с) = — ((у(lс) — Я(7с) ! 1 2 115.13) Несложно заметить, что в этом случае может быть использована процедура обучения (15.9) в форме < м,~(1+1) = и~(1с)+т~„11с)и,(Е)(~(И) — и~(й)), 1=1,2,...,Ь; (15.14) 1~„(/с+1) = у„(1с)+х),(1с)и(Ус),"(~„(1с)ń— у„(А')), р =1,2,...,л+и, при этом обученная сеть может работать в нескольких различных режимах одновременно: восстановления прямого оператора Г: Х вЂ” э У, восстановления обратного оператора Г ':У вЂ” э Х, а также как авто- и гетероассоциативная память.
279 по синаптическим весам ~,"., и и,~, что автоматически приводит к необходимости применения обратного распространения ошибок, а следовательно, к снижению скорости обучения. Однонаправленные сети встречного распространения обладают единственным преимуществом перед прочими сетями, восстанавливающими отображение у = Г(х), — высокой скоростью обучения, однако если фактор времени не является определяющим, эти ИНС явно проигрывают другим по точности аппроксимации. Вместе с тем уникальными свойствами восстановления не только Г: Х вЂ” э У, но и обратного отображения Г ~: У вЂ” ~ Х обладают двунаправленные (полные) сети встречного распространения, архитектура которых приведена на рис. 15,5.
Данная сеть имеет л+ и входов и столько же выходов, которые могут быть разбиты на секции, и фактически представляет собой комбинацию двух однонаправленных сетей с общим слоем Кохонена. Обучение этой сети аналогично настройке однонаправленной структуры с той лишь разницей, что на первом этапе кластеризации подвергается полная выборка х(1), у(1); х(2), у(2):...; х(У), у(М), каждый элемент которой может быть представлен в виде составного вектора 41с) = хЖ) О+ уЖ) = (х Ж) у (1с)) Нейронные сети встречного распространения обеспечивают высокое качество обработки информации в условиях интенсивных помех ~71, обладают достаточным быстродействием, хотя иногда могут быть критичны к выбору числа нейронов Ь в слое Кохонена. х,(й) х,(й) х,(А.) х,(/с) х„(й) х„(й) У,® у,(й у,(/с у„,(й) у,„(/с Нулевой слой ; 'Слой Кохонена ~ Слой Гроссберга и + и рецепторов ~ Й нейронов ', и+ и нейронов ! ! Рис.
15.5 — Двунаправленная (полная) нейронная сеть встречного распространения 280 16 АНСАМБЛИ НЕЙРОННЫХ СЕТЕЙ 16 АНСАМБЛИ НЕЙРОННЫХ СЕТЕЙ В предыдущих разделах было рассмотрено множество искусственных нейронных сетей, отличающихся друг от друга архитектурами, типом образующих их нейронов, критериями и алгоритмами обучения, начальными условиями, способами организации обучающих выборок, при этом можно заметить, что зачастую одна и та же задача могла бы быть решена с помощью различных ИНС, выбор единственной и «наилучшей» из которых обычно не подкрепляется строгими формальными соображениями. Качество решения конкретной поставленной задачи [эмуляции, прогнозирования, распознавания образов, обратного моделирования, управления и т.п.) может быть существенно повышено с помощью ансамблей (комитетов, смесей, банков) нейросетей [4, 9, 33, 317-322), в которых одни и те же данные параллельно обрабатываются несколькими ИНС, выходные сигналы которых далее некоторым образом комбинируются в объединенную оценку, превосходящую по качеству результаты, получаемые с помощью локальных сетей, входящих в ансамбли (см.
рис. 16.1). х(7с) у (й) Рис. 16.1 — Ансамбль нейронных сетей На практике наибольшее распространение получили два подхода к объединению сетей в ансамбли: модульный [4~ и основанный на взвешенном усреднении [318] и хотя содержательно они достаточно отличаются друг от друга, их объединяет то, что оба они используют линейную комбинацию выходных сигналов своих членов в той или иной форме [9~.
Модульный подход имеет достаточно эвристический характер в отличие от более математически строгого взвешенного усреднения, однако и здесь остается элемент субъективизма, связанный с выбором членов ансамбля. Эта задача обычно решается с помощью тех или иных эвристик, хотя и имеются более или менее строгие результаты, основанные на генетическом программировании [320) или постепенном наращивании сложности сетей-членов ансамбля [41. 281 у (й) = ~~1 и!у,®) = у(7с)и!, (16.1) где и = (~!,, и „..., в „)' - вектор неизвестных весовых коэффициентов, определяющих близость сигналов у, (й) к обучающему сигналу Н(~) и отвечающих условию несмещенности 133) (16.2) у(7с) = (у,(/с), у (Й),..., у„(/с)) — (тх6)— вектор, составленный из единиц.
Вектор весовых коэффициентов и может быть найден с помощью метода неопределенных множителей Лагранжа, для чего следует ввести ф х и) — матрицу обучающих сигналов, (й х !!й) — матрицу выходных сигналов ансамбля: матрица, ń— 16х1)— д (1) туг) г11) у! (1) ут 1)) у,' 1г) у,"12) у„' 12) (16.3) г)(й) = У(А) = д (l~) т ®) г1®) ут 11~) (/с х т) -матрицу ошибок е = в(~) у1®у ох (16.4) и функцию Лагранжа 282 В настоящем разделе мы подробно остановимся на адаптивном подходе к объединению нейросетей-членов ансамбля 1303-3091, предназначенному для работы в реальном времени в темпе поступления новых данных и позволяющему автоматически выявлять «наилучшие» локальные сети, наибольшим образом приспособленные для решения конкретной задачи. Пусть сигнал, подлежащий обработке, задан в форме в — мерной временной последовательности х(й), й = 1,2,..., а выходной сигнал l -того члена ансамбля есть >л — мерная последовательность у!(й), 1 =1,2,...,6.
Введем в рассмотрение объединенную оценку 16 АНСАМБЛИ НЕЙРОННЫХ СЕТЕЙ 1 7 ( ст т)+~( тЕ 2 — — 1т(1Э(1с) — У(1с)1 Оиь) (О(1с) — 1'(1с)! Оии)+1(ь Š— 1)— = — ~~~ )с1(р) — у(р)и!(! + Ць' ń— 1). гр, (16.5) ~1„,1(и',А) =~~1 ( — у (р)с1(р)+ у (р) у(р)ь)+ХЕ„=О, р=! дЦи,1)1д1с = ьт ń— 1 = О (16.6) позволяет получить искомый вектор весов в виде Ет и =ь' +Р(й) " Е„, Ет Р(1с)Е„ (16.7) где — ! Р(1с) = ~' у ( )у(р) р=! (16.8) ь' = Р(1с)~' у (Р)с1(Р) = Р(1с)т(1с ) р=! ь — оценка стандартного метода наименьших квадратов. С тем, чтобы оценить свойства полученного вектора весов (16.7), перепишем это выражение в несколько иной форме. С учетом того, что последовательность ошибок может быть представлена в виде е(/с) = с1(1с) — у(1с)и = с/(й)Е~и: — у(й)и = (с1(И)Е~ — т(1с))и = и(1с)и: (16 9) лагранжиан (16.5) можно переписать в форме 1,(и, ~) — !!" и!тт,т(р)!!(Р)и, + ~„(итЕ 1) — ьт)т(1с)ит+ ~(!ртЕ 1) р=! 283 Здесь 1„, — (!т! х т) — единичная матрица; Ои — символ тензорного произведения; 1 — неопределенный множитель Лагранжа.
Решение системы уравнений Куна-Таккера после чего, решая систему уравнений с ~7,,Циг, Л) = Ъ'(1т)и'+ ХЕ„= О, 31 (и, ЦдХ = и т ń— 1 = О, (16.11) получаем и =1т Я)Е„(Е,~У Я)Е„) 1 = — Е~1т '(й)Е„, (16.12) при этом функция Лагранжа (16.10) в седловой точке имеет значение (16.13) Рассмотрим далее произвольную пару векторов а и Ь и запишем неравенство Коши-Шварца в форме !Ь)г 1 т1,,г1У)1,, г1У)У г 111;г1У) т11; г1У)Ь г ~ (16.14) г =(а У(Й)а)(Ь т' (Й)Ь). 1т г (й)а Ъ' г(й)Ь Введем также (Ьх1) — вектор Е„„образованный нулями, кроме ! — го элемента, который равен единице, и перепишем (16.14) в виде 1Ет )г <1 т 1 -)1 т -~1®) (16.15) откуда следует 1 ( и„т1т)(Е 1т ' т1т) ) (16,16) или ® ) ~ ~ ~ т ~ 1 ), 1 ) ~ ~ г ~ ~ ~, 1 ) ~ ~ г ) 1 Е т 1 т ь Е ь где г„(й) — диагональный элемент матрицы ~'(й). Из (16.17) следует, что объединенный выходной сигнал у (1т) не уступает по точности наилучшему из локальных выходов у,(1т), сформированному / — той сетью, входящей в ансамбль.
16 АНСАМБЛИ НЕЙРОННЫХ СЕТЕЙ С тем, чтобы обеспечить обработку информации в реальном времени, выражение (16.7) следует представить в рекуррентной форме, которая с помощью формулы Шермана-Моррисона-Вудбери приобретает вид г ® 1)(У,(® 1)~>®) т ® 1))-~ т(1+1) (1+1))-тУ,(®) г(Ус+ 1) = г(й)+ у'(Ус+1)сУ(й+ 1), (16.18) и (1+1) = Р(1+1)г(1+1), *(® 1) Р(У~ 1, (~тР(У 1)~ )-~(1 У г "(1 1))г с и(Ус+1) = и(Ус) — УУ„.(И)К„У(к,Х), 1(Ус+1) = 1ф)+гУ (й)дУ.(и,А)/д1, (16.19) или для конкретной функции (16.5)— и (1+1) = и(Ус)+тУ„,(й)(У' (Ус)е„,(й) — ХЯ)К„), ~(У + 1 ~(У )+ (У )( 7'(У )У, 1) (16.20) где е„(Ус) = сУ(Й) — у (Й) = сУ(Ус) — уМи Ю. (16.21) Процедура Эрроу-Гурвица сходится к седловой точке лагранжиана при достаточно общих предположениях о значениях параметров шага гу (й), гу (й), однако для сокращения времени настройки, можно попытаться эти параметры оптимизировать. Домножим слева первое соотношение (16.19) на у(й) и вычтем обе части полученного выражения из д(й), т.е.














