Круглов В.В., Борисов В.В. - Искусственные нейронные сети (ИНС) Теория и практика (778918), страница 51
Текст из файла (страница 51)
При использовании многослойного персептрона в качестве классификатора требуемый выходной сигнал (б,, ..., г(н) состоит из нулей за исключением одного единичного элемента, соответствующего классу, к которому принадлежит текущий входной сигнал. ШАГ 3. Вычисление текущего выходного сигнала. Текущий выходной сигнал определяется в соответствии с традиционной схемой функционирования многослойной нейронной сети. ШАГ 4. Настройка синаптических весов.
Для настройки весовых коэффициентов используется рекурсивный алгоритм, который сначала применяется к выходным нейронам сети, а затем проходит сеть в обратном направлении до первого слоя. Синаптические веса настраиваются в соответствии с формулой; игт = ((ч1) = игт(() -Ф- гГд,х„ где ик (1) — вес от нейрона / или от элемента входного сигнала ) к нейрону / в момент времени Г, х, — выход нейрона ~' или рй элемент входного сигнала, р — коэффициент скорости обучения; о — значение ошибки для нейрона /. 325 Если нейрон с номером) принадлежит последнему слою, то.
А, = у,11 — у Нсг, — у,), где дк у, — соответственно требуемый и текущий выход )'-го нейрона. Если )-й нейрон принадлежит одному из слоев с первого по предпоследний, то: б, = х,(~- х~йй~ у х, где)'-й нейрон принадлежит предыдущему слою, а индекс )г пробе- гает все нейроны последующего слоя. Смещения нейронов Ь настраиваются аналогичным образом. 4) Области применения. Распознавание образов, классификация, прогнозирование, синтез речи, контроль, адаптивное управление, построение экс- пертных систем 5) Недостатки. Многокритериальная задача оптимизации в методе обратно- го распространения рассматривается как набор однокритериаль- ных — на каждой итерации происходят изменения значений пара- метров сети, улучшающие работу лишь с одним примером обу- чающей выборки. Такой подход существенно уменьшает скорость обучения. Классический метод обратного распространения относится к алгоритмам с линейной сходимостью.
Для увеличения скорости сходимости необходимо испольэовать матрицы вторых производ- ных функции ошибки. б) Преимущества. Обратное распространение — первый эффективный алго- ритм обучения многослойных нейронных сетей. Один из самых популярных алгоритмов обучения, с его помощью решены и ре- шаются многочисленные практические задачи. 7) Модификации. Модификации алгоритма обратного распространения связа- ны с использованием различных функций ошибки, различных про- цедур определения направления и величины шага: функции ошибки: ° интегральные функции ошибки по всей совокупности обу- чающих примеров; ° функции ошибки целых и дробных степеней; процедуры определения величины шага на каждой итера- ции.
° дихотомия; 326 ° инерционные соотношения, например, кк„ = (Е + 1) = и „ (Е) + я ~, х, в а (ГН„ (Г) — в „ (Е - 1)) где а — некоторое положительное число, меньше единицы; ° отжиг, процедуры определения направления шага ° с использованием матрицы производных второго порядка (метод Ньютона и др ); ° с использованием направлений на нескольких шагах (партан метод и др.).
П.1.6. Сеть встречного распространения (СомпЕег Ргораяат(оп Метууойс) 1) Название. Соил(ег Ргора9ааоп йеЬюгК (сеть встречного распространения). Другое наэввние. Неся(-й~е!зеп йеигосогприГег. 2) Авторы и история создания. Разработаны Р. Хехт-Нильсенем (Оппгегэ((у о( Сай(огп!а, Зал Оведо) в 1986 г. 3) Модель В сети встречного распространения объединены две нейропарадигмы: самоорганиэующаяся карта Кохонена и звезда Гросс- берга Считается, что в мозге именно соединения модулей различной специализации позволяют выполнять требуемые вычисления.
В процессе обучения сети встречного распространения входные векторы ассоциируются с соответствующими выходными векторами. Эти векторы могут быть двоичными или непрерывными. После обучения сеть формирует выходные сигналы, соответствующие входным сигналам. Обобщающая способность сети дает возможность получать правильный выход, когда входной вектор неполон или искажен.
В режиме обучения на вход сети подается входной сигнал и веса корректируются, чтобы сеть выдавала требуемый выходной сигнал. Слой Кохонена функционирует по правилу «победитель получает все». Для данного входного вектора только один нейрон этого слоя выдает логическую единицу, все остальные — нули Выход каждого нейрона Кохонена является просто суммой взвешенных элементов входных сигналов 327 Выходы нейронов слоя Гроссберга также являются взвешенными суммами выходов нейронов слоя Кохонена.
Однако каждый нейрон слоя Гроссберга выдает величину веса, который связывает этот нейрон с единственным нейроном Кохонена, чей выход отличен от нуля. На этапе предварительной обработки входных сигналов осуществляется нормализация входных векторов. На этапе обучения слой Кохонена классифицирует входные векторы в группы схожих. Это достигается с помощью такой подстройки весов слоя Кохонена, что близкие входные векторы активируют один и тот же нейрон данного слоя.
Какой именно нейрон будет акгивироваться при предъявлении конкретного входного сигнала, заранее трудно предсказать, так как слой Кохонена обучается без учителя. Затем задачей слоя Гроссберга является получение требуемых выходов. Обучение слоя Гроссберга — зто обучение с учителем. Выходы нейронов вычисляются как при обычном функционировании.
Далее каждый вес корректируется лишь в случае, если он соединен с нейроном Кохонена, имеющим ненулевой выход. Величина коррекции веса пропорциональна разности между весом и требуемым выходом нейрона Гроссберга. В режиме функционирования сети предъявляется входной сигнал и формируется выходной сигнал. В полной модели сети встречного распространения имеется возможность получать выходные сигналы по входным и наоборот. Этим двум действиям соответствуют прямое и обратное распространение сигналов. 4) Области применения. Распознавание и восстановление образов (ассоциативная память), сжатие данных (с потерями), статистический анализ. 5) Недостатки. Сеть не дает возможности строить точные аппроксимации. В этом она значительно уступает сетям с обратным распространением ошибки. Слабая теоретическая проработка модификаций этой сети.
6) Преимущества. Сеть встречного распространения проста. Она дает возможность извлекать статистические характеристики из множеств входных сигналов. Кохоненом показано, что для полностью обученной сети вероятность того, что случайно выбранный входной вектор (в соответствии с функцией плотности вероятности входного множества) будет ближайшим к любому заданному весовому вектору, равна 1)), l - число нейронов Кохонена. 328 Сеть быстро обучается Время ее обучения по сравнению с обратным распространением может быть в 100 раз меньше. По своим возможностям строить отображения сеть встречного распространения значительно превосходит однослойные персептроны. Сеть полезна для приложений, в которых требуется быстрая начальная аппроксимация.
Сеть дает возможность строить функцию и обратную к ней, что находит применение при решении практических задач. 7) Модификации. Сети встречного распространения могут различаться способами определения начальных значений синаптических весов. Так, кроме случайных значений из заданного диапазона, мо~ут быть использованы значения в соответствии с известным методом выпуклой комбинации. Для повышения эффективности обучения применяется добавление шума к входным векторам. Еще один метод повышения эффективности обучения — наделение каждого нейрона «чувством справедливости».
Если нейрон становится победителем чаще, чем 1/l, то ему временно увеличивают порог, предоставляя, тем самым, возможность обучаться и другим нейронам. Кроме метода аккредитации, при котором для каждого входного вектора активируется лишь один нейрон Кохонена, может быть использован мвпюд интерполяции, при использовании которого группа нейронов Кохонена, имеющих наибольшие выходы, может передавать свои выходные сигналы в слой Гроссберга. Этот метод повышает точность отображений, реализуемых сетью.
П.1.6. Ое!1а Ваг ОеНа сеть 1) Название. Оейа Ваг Оейа йеГ««огк (ОВО). 2) История создания. Алгоритм Оейа Ваг Оейа создан Якобсом с целью ускорения обучения сети за счет использования эвристического подхода Алгоритм использует предыдущие значения градиента функции, на основе которых осуществляются изменения в пространстве весов с помощью ряда эвристических правил. Опыт показывает, что размерности пространства весов могут значительно различаться с точки зрения общей поверхности ошибки.
Якобс предложил ряд эвристик, суть которых в том, что каждый вес должен изменяться в соответствии с индивидуальной скоро- 329 стью обучения, так как размер шага обучения для одного веса не всегда подходит в качестве шага обучения для всех весов Более того, этот размер может со временем изменяться. Первые эвристики по изменению индивидуальных шагов обучения нейронов были введены Кестеном Он предложил, что если последовательные изменения веса имеют противоположные знаки, то значит данный вес осциллирует, и, следовательно, скорость обучения должна быть уменьшена.
Позднее Садирис ввел следующее правило: если серия последовательных изменений веса имеет одинаковые знаки, то скорость обучения должна быть увеличена. 3)Модель. Изменение веса на последующем шаге. в(Е+1) = в(Е) ч аЯд(Е). Расчет среднего изменения градиента на шаге Е: д,„(Е) = (1 — солках)дЯ ~ д(Š— 1) солкех. Расчет изменения скорости обучения на шаге г Егь если дк (Š— 1)дв(Е) > О, г(а(Е) = К,а(Е), если д,„(Е -1)д„(Е) < О, если д,„(Е - 1) д,„(Е) = О, где е(Е) — ошибка обучения на шаге Е; и(Е) — значение веса; дв(Е)— изменение веса; а(Е) — коэффициент скорости обучения; еЕа(Е) — изменение скорости обучения, д(Е) — градиент изменения веса, д,(Е)— взвешенное среднее изменение градиента; сопкех — фактор выпуклости весов; Ее„ вЂ” константа увеличения скорости обучения; Ег,— константа уменьшения скорости обучения.