Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 27
Текст из файла (страница 27)
Далее производится обучение нейронов второго каскада при «замороженных» синаптических весах й'"'(М) первого. На рис. 7.1 «замороженные» веса показаны в виде заштрихованных сумматоров. Среди л, нейронов-кандидатов выбирается один нейрон-победитель, у которого параметр корреляции [61 174 7 КАСКАДНО-КОРРЕЛЯЦИОННЫЕ НЕЙРОННЫЕ СЕТИ 17.1) г~'' = ~~ (0~~" 1й) — о~~ ]~(е~,"1й) — е~~'), 0 =1,2,...,л,. 17.2) В случае достижения требуемой точности процесс наращивания каскадов завершается и выходной сигнал последнего каскада 1на рис. 7.1.
— 0'") принимается в качестве выходного сигнала сети в целом. В качестве основных отличительных особенностей каскадно- корреляционных сетей следует отметить следующее: )~ эти сети не требуют предварительного задания ни архитектуры, ни количества нейронов в каскадах; ~ нейроны в сеть добавляются по мере необходимости, образуя не скрытые слои, а каскады, каждый из которых в качестве входных сигналов использует входы сети и выходы предыдущего каскада; ~ обучение не связано с концепцией обратного распространения ошибок, что позволяет существенно сократить время настройки; ~ за счет «замораживания» синаптических весов сформированных ранее каскадов сокращаются вычислительные затраты на обучение.
Процедуру обучения каскадно-корреляционных сетей можно существенно упростить, добавляя к предыдущему каскаду не группу нейронов-кандидатов, а один единственный обобщенный формальный нейрон типа 11.8), настраивая не только его синаптические веса, но и характеристики активационной функции. К недостаткам данных сетей следует отнести возможность обучения только в пакетном режиме при наличии заранее заданной обучающей выборки. 175 (здесь о„' ' и е,"' - средние значения выходного сигнала и ошибки) является максимальным.
Именно этот нейрон с «замороженными» весами И" '1М) образует второй каскад, в то время как «проигравшие» нейроны изымаются из сети. Далее оценивается точность аппроксимации, обеспечиваемая вторым каскадом, и в случае необходимости формируется команда из и, кандидатов третьего каскада, среди которых выбирается победитель с максимальным значением 8 ВЕРОЯТНОСТНЫЕ НЕЙРОННЫЕ СЕТИ Вероятностные нейронные сети, введенные Д. Ф.
Шпехтом [2551, также относятся к ИНС с прямой передачей информации и по архитектуре являются «ближайшими родственниками» радиально-базисных и обобщенных регрессионных сетей, рассмотренных в третьем и пятом разделах. Данные сети предназначены для решения задач байесовской классификации (распознавания образов на основе байесовского подхода) (47, 95, 96, 2561, в основе которой лежит знаменитая формула Байеса Р(у 1х) Р(х) Р(х~ у) = Р(у) (8.1) Смысл этого выражения состоит в том, что для события х с известной вероятностью Р(х), условная вероятность Р(х~у) может быть вычислена на основе так называемой апостериорной вероятности Р(у ~х) и вероятностей событий Р(х) и Р(у) . С позиции задачи классификации здесь у интерпретируется как возможный класс, в который может попасть классифицируемый образ, а х рассматривается как собственно входной вектор- образ, Идея байесовской классификации состоит в том, что для каждого входного образа можно принять решение на основе выбора наиболее вероятного класса из тех, которым мог бы принадлежать данный образ.
Это решение, однако, требует оценки функции плотности вероятностей для каждого класса, восстанавливаемой на основе анализа данных из обучающей выборки, которая, в свою очередь, должна быть задана заранее. Данное обстоятельство ограничивает процесс обучения вероятностных сетей только пакетным режимом.
Формальным признаком классификации является то, что класс с наиболее плотным распределением в области нового предъявленного образа х(А) будет иметь преимущество по сравнению с другими классами. Точно так же будет иметь преимущество и класс с высокой априорной вероятностью или высокой ценой ошибки классификации 12561.
Так для двух возможных классов А и В в соответствии с байесовским правилом выбирается класс А, если 147, 257~ (8.2) Р~ Сх Рх (х) > Р~С~Рц (х), 176 где Р— априорная вероятность; С вЂ” цена ошибки классификации; р(х) функция плотности вероятностей. Оценки стоимости ошибок классификации С, и С определяются конкретной задачей 147, 2561, в связи с чем чаще всего они выбираются одинаковыми для всех классов.
Априорные вероятности Р, и Р„также в общем случае неизвестные, обычно заменяются частотой появления 8 ВЕРОЯТНОСТНЫЕ НЕЙРОННЫЕ СЕТИ соответствующих образов в обучающей выборке, а вот с оценкой плотностей р (х) и р,(х) и возникают основные проблемы. Для восстановления этих функций наибольшее распространение получили оценки Парзена [73, 74, 95), использующие весовые функции (потенциальные функции [72~, ядра [9,75-793)), имеющие центр в точках, соответствующих образам с известной классификацией из обучающей выборки. И хотя байесовские методы классификации известны достаточно давно, их параллельная нейросетевая реализация позволила обеспечить более высокое быстродействие процессам обработки информации, связанным с распознаванием образов, диагностикой и т.п. На рис, 8.1.
приведена схема вероятностной нейронной сети, предназначенной для разбиения предъявляемых в-мерных векторов-образов на два класса А и В. х, Рис. 8.1 — Вероятностная нейронная сеть Данная сеть состоит из входного слоя, первого скрытого, именуемого слоем образов, второго скрытого, называемого слоем суммирования, и выходного слоя, образованного в данном случае одним нейрономкомпаратором. Исходной информацией для синтеза сети является обучающая выборка образов, образованная «пакетом» л -мерных векторов х(1), х(2),..., х(М) с известной классификацией, причем место конкретного образа в пакете значения не имеет. Предполагается также, что М векторов относятся к классу А, М вЂ” к классу В, т.е. (8.3) 177 Количество нейронов в слое образов равно й (по одному нейрону на каждый обучающий образ), а их синаптические веса определяются значениями компонент этих образов так, что (8.4) и,, =х,.(у), 1=1,2,...„п; у'=1,2,...,й, или в векторной форме иу = х(у) =(х,(у),х,(у),...,х„(у)) .
(8.5) о~~" (й) = ФЦх(й) — ку ),о'у, (8.6) чаще всего в форме (8.7) где параметр о' - задает ширину, у =1(А),2(А),...,У,(А),(М„+1)~В),...,М(В). Заметим также, что для упрощения численной реализации входные векторы рекомендуется предварительно нормировать, например, с помощью (4.398), а вместо колоколообразной функции активации использовать более простое преобразование ~7) т ~у~) о',"~Ус) =ехр 2 (8.8) Слой суммирования образован двумя элементарными сумматорами (в общем случае по одному на каждый класс), которые просто суммируют выходы нейронов слоя образов (8.9) 178 Очевидно, что обучение в данном случае сводится к одноразовой установке весов, что делает его чрезвычайно простым.
Каждый из нейронов слоя образов вычисляет взвешенную сумму входных сигналов и преобразует ее с помощью нелинейной активационной функции так, что на выходе нейронов первого скрытого слоя появляется сигнал 8 ВЕРОЯТНОСТНЫЕ НЕЙРОННЫЕ СЕТИ Суммы (8.9) и являются парзеновскими оценками неизвестных плотностей вероятностей р„(х) и р„(х), В выходном нейроне сети, реализующем по сути элементарную операцию сравнения вычисленных значений р,, (хИ)) и р (х®)), определяется принадлежность предъявляемого образа х(й) классу А или 0. После того как сеть построена, остается определить значение параметра ширины о, которое для нормированных входов выбирается достаточно произвольно в интервале от нуля до единицы [7~, после чего можно приступать к собственно решению задачи классификации, предъявляя ИНС образы х(й), й > М с неизвестной принадлежностью. Главным достоинством вероятностных нейросетей являются простота проектирования и обучения.
Основной их недостаток определяется резким ростом числа нейронов в первом скрытом слое при большой по объему обучающей выборке. 179 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ В предыдущих разделах были рассмотрены нейронные сети с прямой передачей информации, в которых сигнал распространяется и обрабатывается в одном направлении — от входа к выходу ИНС, а последовательность, в которой предъявляются обучающие образы, в общем случае не имеет значения. Здесь мы рассмотрим второй важный класс ИНС вЂ” рекуррентные нейронные сети (см. рис. 2.3 б), имеющие замкнутые петли обратной связи в своей топологии.
В этих сетях на первый план выступает фактор времени: входные сигналы в ИНС должны быть заданы в форме временной последовательности, автокорреляционные свойства которой выявляются и анализируются в процессе обработки. В рекуррентных сетях в основном используется два способа организации обратной связи: локальная обратная связь на уровне отдельных нейронов и глобальная, охватывающая сеть в целом, хотя возможны и промежуточные варианты. Так, если в качестве базового строительного блока рекуррентной сети принять многослойный персептрон, то локальная обратная связь организуется на уровне отдельного слоя, глобальная связывает нейроны выходного слоя со входами сети, однако при этом возможны варианты связи от скрытого слоя ко входному или от скрытого к предыдущему скрытому слою. В настоящее время сформировалось два больших класса рекуррентных сетей: сети, реализующие отображение «вход-выход» с учетом временного фактора, и сети ассоциативной памяти.















