Круглов В.В., Борисов В.В. - Искусственные нейронные сети (ИНС) Теория и практика (778918), страница 55
Текст из файла (страница 55)
Выходной сигнал выходной звезды представляет собой статистическую характеристику обучающего набора. Входные и выходные звезды могут быть взаимно соединены в сети любой сложности. У| Уз ум У, Рис. ПЛ 7. Сеть ОмаГаг 347 4) Области применения. Рассмотренная конфигурация может быть использована как компонент нейронных сетей для распознавания образов. 5) Недостатки. Каждая звезда в отдельности реализует слишком простую функцию. Вычислительные воэможности нейронных сетей, составленных из таких эвезд, ограничены.
б) Преимущества. При решении практических задач выходные звезды могут быть использованы для построения простых быстро обучаемых сетей. 7) Модификации. В моделях выходных звезд могут быть использованы различные алгоритмы изменения с течением времени величин нормирующих коэффициентов обучения. П.1.17. Сеть радиального основания (Раг1)а! Ваяв Емлс1роп и!еЬуог)г) 1) Название.
Рад!а! Васцэ Еипсбоп )чеЬаогК (РВЕ)ч). Другое название Сеть радиальных базисных функций. 2) Авторы и история создания. Под парадигмой РВЕ)ч' понимается архитектура, предложенная Мооду и Оагкеп в 1989 г. К классу ЙВЕИ относят также вероятностные и регрессионные нейронные сети. 3) Модель. В общем случае под термином Рад)а! Вав)в Еипс)!оп )че)ч~огК понимается нейронная сеть, которая содержит слой скрытых нейронов с радиально симметричной активационной функцией, каждый из которых предназначен для хранения отдельного эталонного вектора (в виде вектора весов).
Для построения РВЕ)ч необходимо выполнение следующих условий Во-первых, наличие эталонов, представленных в виде весовых векторов нейронов скрытого слоя. Во-вторых, наличие способа измерения расстояния входного вектора от эталона. Обычно это стандартное евклидово расстояние В-третьих, специальная функция активации нейронов скрытого слоя, задающая выбранный способ измерения расстояния. Обычно используется функция Гаусса, существенно усиливающая малую разницу между входным и эталонным векторами.
348 Другими словами, выходной сигнал эталонного нейрона скрытого слоя у, — это функция (гауссиан) только от расстояния р, ами между входным и эталонным вектор р, = ~~х,-с„), у, = ехр ум где Х = (х,, ..., хв) — входной вектор; С, = (сь, св) — весовой вектор Рго эталонного нейрона скрытого слоя; Я, о; — параметры активационной функции; ~ — число эталонов. Обучение слоя образцов-нейронов сети подразумевает предваритепьное проведение кластеризации для нахождения эталонных векторов и определенных эвристик для определения значений и,. Нейроны скрытого слоя соединены по полносвязной схеме с нейронами выходного слоя, которые осуществляют взвешенное суммирование.
Для нахождения значения весов от нейронов скрытого к выходному слою используется линейная регрессия. В общем случае активационные функции нейронов скрытого слоя могут отражать законы распределения случайных величин (вероятностные нейронные сети) либо характеризовать разпичные аналитические зависимости между переменными (регрессионные нейронные сети).
4) Обпвсгпи применения. Распознавание образов, кпассификация. 5) Недостагпки. Заранее должно быть известно число эталонов, а также эвристики дпя построения активационных функций нейронов скрытого слоя. 6) Преимущества. Отсутствие этапа обучения в принятом смысле этого слова. 7) Модификации. В моделях ВВГ)ч могут быть использованы различные способы измерения расстояния между векторами, а также функции активации нейронов скрытого слоя. П.1.18.
Нейронные сети, имитирующие отжиг (йецга! ЙеЬягог!св вкпб 8!гпц!агент Аппеа!!пц Тга!и!пя А!Яог!1)эгп) )) Название Йеига) ЙеЬиогкз тг1(п В)пш1а(ед Аппеа1~пд Тга)п)пд А19оп()нп (нейронные сети, обучаемые по методу имитации отжига). 349 2) Авторы и история создания. В 50-е годы была разработана математическая модель отжига металла, согласно которой металл в процессе кристаллизации из жидкой фазы проходит через ряд состояний, характеризующихся различным значением энергии.
Атомы металла стремятся к состоянию минимума энергии. При высоких температурах атомы могут совершать движения, приводящие к переходу в состояния с большими значениями энергии В процессе постепенного охлаждения металла достигается глобальный минимум энергии. Алгоритм имитации отжига — вариант итеративного решения оптимизационных задач, в соответствии с которым, как и в реальных условиях отжига, разрешаются шаги, повышающие значения функции ошибки (энергии). На основе этой математической модели в 80-е годы был создан алгоритм оптимизации, обладающий высокой эффективностью при обучении нейронных сетей.
3) Модель. Алгоритм имитации отжита может быть использован для обучения как многослойных, так и полносвязных сетей. При этом функции активации сети не обязательно должны быть непрерывно дифференцируемыми. В качестве функции ошибки можно использовать среднеквадратическое отклонение. Используются градиентный и стохастический алгоритмы имитации отжига В градиентном алгоритме на каждой итерации вычисляется направление антиградиента адаптивного рельефа и делается шаг заданной величины.
В процессе обучения величина шага уменьшается. Большие значения шага на начальных итерациях обучения могут приводить к возможному возрастанию значения функции ошибки. В конце обучения величина шагов мала и значение функции ошибки уменьшается на каждой итерации. При обучении нейронной сети на основе стохастического алгоритма имитации отжига совершаются шаги по адаптивному рельефу в случайных направлениях. Пусть на итерации М система находится в точке Я адаптивного рельефа, характеризующейся значением энергии Е.
При этом шаг из точки 3 в точку 3' со значением энергии Е' (Е' > Е), приводящий к увеличению значения функции ошибки (энергии) на величину Л = Е' — Е), допускается с заданной вероятностью. Критерии останова функционирования сети: ° функционирование многослойных сетей без обратных связей заканчивается после получения выходных сигналов нейронов последнего слоя; 350 ° для сетей циклического функционирования (полносвязных, многослойных с обратными связями и др.); останов после К итераций; останов после прекращения изменения выходных сигналов; ° достижение некоторого заданного значения функции ошибки. Характеристики сегли.
Типы входных и выходных сигналов — любые. Размерности входа и выхода — любые, ограничения связаны с заданной скоростью обучения (медленная сходимость для сетей большой размерности). Емкость сети в общем случае не определена. Тип передаточной функции — любая, ограниченная по области значений. Количество синапсов и смещений сети ограничено скоростью обучения. Для сетей с числом синапсов порядка нескольких сотен алгоритм имитации отжига очень эффективен.
Для программно реализованных на персональном компьютере сетей с десятками тысяч настраиваемых параметров процесс обучения по методу отжига длится катастрофически долго 4) Области применения. С помощью алгоритма имитации отжига можно строить отображения векторов различной размерности. К построению таких отображений сводятся многие задачи распознавания образов, адаптивного управления, многопараметрической идентификации, прогнозирования и диагностики. 5) Недостатки. Низкая скорость сходимости при обучении нейронных сетей большой размерности. 6) Преимущества.
«Тепловые флуктуации», заложенные в алгоритм, дают возможность избегать локальных минимумов. Показано, что алгоритм имитации отжига может быть использован для поиска глобального оптимума адаптивного рельефа нейронной сети. 7) Модификации. Алгоритмы имитации отжига различаются структурами нейронных сетей, дпя обучения которых они используются, а также правилами, в соответствии с которыми допускаются шаги, увеличивающие энергию системы. Модифицированные алгоритмы имитации отжига используются также для решения задач комбинаторной оптимизации.
351 П.1.19. Однослойный персептрон (8)пц)е (.ауег Регсер1гоп) 1) Название. Ьпй(е (.ауег Регсер1гоп (однослойный персептрон). 2) Авторы и история создания Разработан Ф. Розенблаттом в 1959 г. 3) Модель. Однослойный персептрон способен распознавать простейшие образы. Отдельный персептронный нейрон вычисляет взвешенную сумму элементов входного сигнала, вычитает значение смещения и пропускает результат через жесткую пороговую функцию, выход которой равен +1 или -1 в зависимости от принадлежности входного сигнала к одному из двух классов.
Персептрон, состоящий из одного нейрона, формирует две решающие области, разделенные гиперплоскостью. Уравнение, задающее разделяющую гиперплоскостью (прямую — в случае двухвходового персептронного нейрона), зависит от значений синаптических весов и смещения. Классический алгоритм настройки персептрона, предложенный Розенблаттом, заключается в следующем. ШАГ 1.Инициализация синаптических весов и)(0) () = 1, ..., И) и смещения Ь некоторыми малыми случайным числами. ШАГ 2. Предъявление персептрону нового входного вектора к = (х,, хи) и требуемого выходного сигнала б.
ШАГ 3. Вычисление выходного сигнала персептрона: у(() = г(™~я,(()х,я-ь . ~,=1 ' ШАГ 4. Настройка значений весов персептрона: в,((+ 1) = и,(Г) ~- г)(и — у(())х,((), г = 1,...,И. где г)- коэффициент скорости обучения (О< и < 1). Если решение правильное, веса не модифицируются. ШАГ 5. Переход к шагу 2. Характеристики сети.
Тип входных сигналов — бинарные или аналоговые (действительные). Размерности входа и выхода ограничены при программной реализации только возможностями вычислительной системы, на которой моделируется нейронная сеть, при аппаратной реализации — технологическими воэможностями. Емкость сети совпадает с числом нейронов. 4) Области применения: Распознавание образов, классификация. 352 5) Недостатки. Простые разделяющие поверхности (гиперппоскости) дают возможность решать лишь несложные задачи распознавания.
б) Г)реимущества. Программные ипи аппаратные реализации модели очень просты. Простой и быстрый алгоритм обучения. 7) Модификации. Многослойные персептроны дают возможность строить бопее сложные раэдепяющие поверхности и поэтому находят более широкое применение при решении задач распознавания. П.2. Алгоритмы обучения нейронных сетей Процесс обучения нейронной сети может рассматриваться как настройка архитектуры и весов связей дпя эффективного выпопнения поставленной задачи. Обычно итеративная настройка весов связей осуществляется в соответствии с обучающей выборкой. Свойство сети обучаться на примерах делает их более привпекатепьными по сравнению с системами, которые следуют системе правил функционирования, сформулированной экспертами.
Дпя организации процесса обучения, во-первых, надо иметь модель внешней среды, в которой функционирует нейронная сеть. Эта модель определяет парадигму обучения. Во-вторых, необходимо понять, как модифицировать весовые параметры сети. Существуют три парадигмы обучения; с учителем, без учителя (самообучение) и смешанная. В первом случае на каждый входной пример существует требуемый ответ. Веса настраиваются таким образом, чтобы выходы сети как можно более близкие к требуемым ответам. Более «жесткий» вариант обучения с учитепем предполагает, что известна толька критическая оценка правипьности выхода нейронной сети, а не сами требуемые значения выхода.