Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 25
Текст из файла (страница 25)
На рис. 4.35 приведена простейшая нейронная сеть, использующая конкурентное обучение и имеющая всего один слой нейронов. У1 х, у) х„ Рис. 4.35 — Простейшая конкурентная сеть Особенностью данной сети является то, что кроме прямых связей, передающих информацию со входа на выход через синаптические веса и „, в 157 ней присутствуют поперечные (латеральные) связи, по которым и происходит соревнование, в результате чего «побеждает» только один нейрон. Формально процесс конкуренции может быть представлен в форме 1 , если и, (н)х(~с) > и'„(/с)х(Й) для всех р ~ 1, у,.(к) = О в противном случае, где (4.435) при этом в каждый момент времени й настраивается только нейрон-победитель с помощью алгоритма известного как правило обучения Т.
Кохонена [31: ж ,(Й)+п(lс)(х(Й) — и,(Й)), если 1 — тый нейрон победил, и,.(1+1) = (4.436) и,. (/с) в противном случае. Алгоритм (4.436) достаточно близок к правилу обучения входной звезды и в процессе настройки также «подтягивает» вектор синаптических весов нейрона-победителя и, (й) к текущему входному образу х(й).
Рис. 4.36 иллюстрирует решение задачи кластеризации с помощью простейшей конкурентной ИНС, приведенной на рис. 4З5, обучаемой алгоритмом (4.436). ер А Клас ер С Рис. 4.36 — Кластеризация на основе конкурентного обучения 158 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ < и т (/с)х(1с) > и1 (й)х(7с), и, (Й)х(Й) > и ~ (Й)х(Й), (4.437) который и настраивает свои параметры с помощью правила Кохонена, «подтягивая» и;(Й) к х(Й) на расстояние пропорциональное параметру шага фас) . Конкурентное обучение лежит в основе ряда нейросетей, получивших достаточно широкое распространение в задачах обработки информации и интеллектуального анализа данных. 159 Видно, что текущий нормированный вектор х(й) ближе всего к вектору синаптических весов и;(1с), в результате чего «побеждает» третий нейрон 5 ФУНКЦИОНАЛЬНО СВЯЗАННЫЕ СЕТИ В предыдущих разделах в качестве примера многослойной нейронной сети с прямой передачей информации от входа к выходу был рассмотрен трехслойный персептрон, но персептронами, естественно, не ограничивается все множество возможных многослойных архитектур.
В качестве достаточно распространенной структуры можно назвать функционально связанную нейронную сеть 128, 90~, обладающую определенными преимуществами перед многослойным персептроном. Дело в том, что в персептронных системах входы каждого нейрона предварительно линейно взвешиваются, после чего их сумма преобразуется с помощью нелинейной функции активации. В сети может быть несколько слоев, но только наличие нелинейности в нейронах обеспечивает необходимые аппроксимирующие свойства. Эти же нелинейности создают существенные проблемы в процессе обучения, связанные с низкой скоростью сходимости и наличием локальных минимумов целевой функции.
Один из возможных способов избежать использование нелинейного обучения состоит в расширении входного пространства и последующем линейном комбинировании новых переменных. При этом сеть будет обладать нелинейными аппроксимирующими свойствами, а обучаться — с помощью линейных алгоритмов. Именно эта идея положена в основу функционально связанной сети, архитектура которой приведена на рис. 5.1.
х, х„ Рис. 5.1 — Функционально связанная нейронная сеть Скрытый слой расширяет входное пространство с помощью некоторого нелинейного преобразования вектора х=(х,,х„...,х,)' так, что происходит отображение входов в новое пространство повышенной размерности 160 5 ФУНКЦИОНАЛЬНО СВЯЗАННЫЕ СЕТИ х~ Я' -+(~,(х),~~,(х),...,Д„(х)) ~ Р', п<6. (5.1) Выходной слой образован и адаптивными линейными ассоциаторами и реализует отображение расширенного пространства в выходное ~р(х)е к — Ф у=(у1,у~,...,ущ) е к, ш<Ь (5.2) так, что у, = и,„+ ~Г и „гр, (х), ~' = 1,2,..., иг. (5.3) Л П П у, =и,, +~,и„х, +~~,~Г и... х, х, +" 1~ — — 1 ~ =~) (5.4) П П ~г +~ ~" ~~ и...х,.х,,...х,. =и,.~(х), г~ 1 ь (1 в основе которого лежит полиномиальное разложение Колмогорова-Габора ~2451.
Опираясь на теорему Стоуна-Вейерштрасса ~2461, можно показать, что при достаточно высоких степенях сигналов х,, может быть достигнута сколь угодно высокая точность аппроксимации, при этом для настройки синаптических весов полиномиальной сети может быть использован любой из линейных алгоритмов обучения. Основным недостатком данной сети является большое число настраиваемых параметров, определяемое значением (л. +1 — 1)! Ь= л.(г - 1).
' (5.5) которое при 1 > 3 приводит к так называемому «проклятию размерности» [311. Несложно видеть, что при использовании кубического расширения для двадцати входов, число синаптических весов достигает значения 1270 1247), что действительно вызывает серьезные проблемы со скоростью обучения даже у оптимальных по быстродействию алгоритмов. 161 Важно, что каждая из функций у, (х) зависит только от входного сигнала и используемого функционального расширения и не содержит свободных параметров, что выгодно отличает функционально связанные сети от радиально-базисных. На практике используется достаточно большое число различных функций гр,(х), например, (х, — х ), «1птх,, сов як,, ехр( — х, ), 1апйх,, ехр( — х, )х, и т.п., хотя наибольшее распространение получило полиномиальное расширение, давшее название подклассу полиномиальных нейронных сетей. Данные сети реализуют преобразование Для сокращения количества настраиваемых параметров с успехом может быть использован метод группового учета аргументов (МГУА), предложенный А.
Г. Ивахненко [2481 и положенный в основу так называемой МГУА-сети. На рис. 5.2 приведен пример МГУА-сети с четырьмя входами, одним выходом, и нейронами Ж-А, которые являются М-адалинами. Схема М-А нейрона показана на рис. 5.3. х, Рис. 5.2 — МГУА — нейронная сеть х, Рис. 5.3 — й -адалина 162 5 ФУНКЦИОНАЛЬНО СВЯЗАННЫЕ СЕТИ В отличие от традиционных нейросетей с фиксированной архитектурой МГУА-сеть имеет переменную структуру, которая может «разрастаться» в процессе обучения. Каждый нейрон сети - )У -адалина представляет собой адаптивный линейный ассоциатор с двумя входами и нелинейным препроцессором, образованным тремя стандартными блоками умножения, и вычисляет квадратичную комбинацию вида 2 у ио +и1х' +иих +113х х +и4х + и1х (5.6) Процесс обучения МГУА-сети состоит в ее конфигурировании, начиная со входного слоя, настройке синаптических весов каждого нейрона и увеличении количества слоев для достижения требуемой точности аппроксимации.
Число нейронов первого слоя сети определяется размерностью входного вектора п и не превышает значения 0.5п(п — )) — количества сочетаний из п по 2. Каждый нейрон настраивается с помощью любого из алгоритмов обучения с учителем, рассмотренных в подразделе 4.3, хотя на практике чаще всего используется процедура Качмажа-Уидроу-Хоффа (4.15) в форме (5.7) 163 где и =(и„,и„и „и:„и'„и,)"; гр(й) =(1„х,.(й),х,".И),х,.(й)х„Ж),х„'(й),х„(Ус))'. После предъявления сети всей обучающей выборки оценивается точность (остаточная дисперсия) каждого нейрона и формируется группа из нейронов, дающих ошибку ниже некоторого априори заданного порога.
Именно выходы этой группы являются входами второго скрытого слоя. Далее с помощью той же обучающей выборки настраиваются нейроны второго слоя при «замороженных» весах первого и опять формируется группа, обеспечивающая наилучшую точность. Процесс наращивания слоев и настройки синаптических весов продолжается до тех пор, пока точность не перестанет увеличиваться. Лучший нейрон последнего слоя полагается выходным нейроном сети в целом. МГУА-сеть обеспечивает высокую точность аппроксимации при сравнительно небольшом количестве настраиваемых параметров, однако обучаться может только в пакетном режиме (в случае априорно заданной обучающей выборки). Еще одним представителем функционально связанных сетей является обобщенная регрессионная ИНС, предложенная Д.
Ф. Шпехтом [2491 и решающая задачи нелинейного регрессионного анализа на основе непараметрического подхода (75-781. На рис. 5.4 приведена схема обобщенной регрессионной сети с л входами и и — выходами, осуществляющая нелинейное отображение вида Рис. 5.4 — Обобщенная регрессионная ИНС Данная сеть подобно трехслойному персептрону содержит три слоя обработки информации, однако в качестве активационных функций использует радиально-базисные конструкции в первом скрытом слое. Второй скрытый слой содержит т+1 нейронов, и из которых являются адаптивными линейными ассоциаторами, а (т +1)-й — стандартным блоком суммирования . Выходной блок сети образован т блоками деления.
Обучение обобщенной регрессионной ИНС представляет собой комбинированный процесс самоорганизации центров в первом скрытом слое, например, с помощью алгоритмов, рассмотренных в 4.7.7, и обучения с учителем синаптических весов линейных ассоциаторов с помощью процедур из подраздела 4З. Существенной особенностью данной сети является то, что число нейронов первого слоя Ь жестко не фиксируется и может изменяться в процессе обучения. Первый входной вектор обучающей выборки х(1) образует центр первого нейрона первого слоя х(1) = с, =(сп,с„,...,с,„) .
Следующий входной вектор х(2) сравнивается с с„и если расстояние между ними превышает 164 5 ФУНКЦИОНАЛЬНО СВЯЗАННЫЕ СЕТИ о~. ~(й) = ~ и'„(й)~О,. (х(1О)), / = 1,2,...,т, (5.9) г'=О Ь а на выходе сумматора ~~~ появляется сумма ~) гр,. (х(1О)) . ~'=О Выходной слой производит нормирование выходного вектора так, что ~ ь „(Й)~О,. (х(/с)) у,(й) = '=" „, гр,(хЖ)) =1, ~ ю,(хЖ)) (5.10) к=О исключая тем самым влияние переменного числа узлов слоя образов на конечный результат.
Реализуя идеи нелинейной параметрической регрессии, обобщенные регрессионные сети являются, пожалуй, наиболее гибкими и перспективными в классе функционально связанных ИНС. 165 некоторый заранее заданный порог, становится центром второго нейрона первого слоя с„. Эта процедура повторяется до исчерпания всей обучающей выборки, причем каждый новый вектор х(й) сравнивается со всеми ранее сформированными центрами с,,с„с„.... Таким образом формируется первый скрытый слой, называемый также слоем образов, синаптические веса которого есть по сути параметры центров радиально-базисных функций. Заметим также, что параметры рецепторных полей данных сетей не настраиваются, а задаются априорно, определяя в значительной мере обобщающие свойства ИНС.














