Хайкин С. - Нейронные сети (778923), страница 192
Текст из файла (страница 192)
Это, в свою очередь, приводит к сушсственному улучшению производительности обучения в терминах скорости сходимости и качества решения [864). Полное описание алгоритма 0ЕКР В табл. 15.3 представлено полное описание алгоритма РЕКЕ, основанного на формулах (15.73) — (15.76) и (15.80). В эту таблицу также включены подробности инициализации этого алгоритма. Нам остается только привести некоторые заключительные комментарии относительно расширенного фильтра Калмана. Алгоритм РЕКЕ (см. табл. 15.3) относится к семейству всех возможных процедур обучения с сохранением информации ((п(оппабоп-ргезегч(п8!еаппп8 ргоседпге), к числу которых принадлежит и алгоритм бЕКЕ Как правило, ожидается, что РЕКР достигнет производительности алгоритма СЕКР, но не сможет превзойти ее. С другой стороны, алгоритм РЕКР менее требователен к вычислительным мощностям, чем СЕКР.
Вопреки этому вычислительному преимушеству, современные вычислительные ресурсы и объемы памяти сделали алгоритм СЕКР доступным для некоторых практических задач, особенно в области пакетного обучения (о(Р-1ше 1га)шп8) рекуррентных сетей. Вычислительная сложность В табл. 15.4 сравнивается вычислительная сложность трех алгоритмов обучения, описанных в этой главе: обратного распространения во времени, рекуррентного обучения в реальном времени и несвязной расширенной фильтрации Калмана.
15.11. Компьютерное моделирование В этом эксперименте мы вернемся к моделированию нелинейных временных рядов, которые рассматривались в разделе 13.5. Этот временной ряд определяется частотно- модулированным сигналом: х(п) = в(п(п + в1п(п )), и = О, 1, 2,... Для моделирования будем использовать две различные структуры.
966 Глава 15. Динамически управляемые рекуррентные сети ТАБЛИЦА 15.3. Полный алгоритм ПЕКЕ Инициализация Присваиваем синаптическим весам рекуррентной сети малые значение, выбираемые из некоторого равномерного распределения. Присваиваем диагональным элементам матрицы ковариации Щп) (характеризующей искусственно добавляемый шум процесса оз(п)) значения из интервала [10 в, 10 з). Присваиваем К(0, 1)=б 1, где 5 — некоторое малое положительное число. Вычисления -! д Г(п) = ~~ С,(п)К,(п, п — 1)Ст(п) + К(п) а=1 Св(п) = К;(п,п — 1)Ст(п)Г(п), а(п) = й(п) — й(п)п — 1), Ф!(и + Цп) = Фв(п/п — 1) + С,(п)а(п), К,(п+1,п) = К,(п,п — 1) — Сч(п)С!(п)К!(п,п — 1) +Щп), где в третьей строке й(п!и — 1) — реальный выходной вектор сети у(п), сгенерированный в ответ на входной вектор н(п) Примечание. Прн д = ! (т.е.
црн отсутствии неевязноетн) алгоритм РЕКЕ становится глобальным алгоритмом расширенной фнльтрацнн Квлмвнв (бЕКР). ° Рекуррентный многослойный персе~трон (гесштец! пш!01ауег регсер1гоп — КМ1.Р), который состоит из одного входного узла, первого скрытого слоя с десятью рекуррентными нейронами, второго скрытого слоя с десятью нейронами и одного линейного выходного нейрона. ° Сеть прямого распространения со сфокусированной задержкой во времени (!ппе 1аййед Теед(огьчагд пег!яогк — ТЬР! 1), которая состоит из памяти с задержкой по времени с двадцатью отводами и многослойного персептрона с десятью скрытыми и одним линейным выходным нейроном. Персептрон КМЬР имеет чуть больше синаптических весов, чем фокусированная ТЬР)ь), однако для его хранения требуется в 2 раза меньше памяти (10 рекуррентных узлов против 20 элементов). Персептрон ВМЬР обучается с помощью алгоритма РЕКЕ Сеть ТЬР)Ч обучается с использованием двух версий расширенного фильтра Калмана: алгоритма ОЕКР (т.е.
глобальной версии) и алгоритма 1)ЕКР (т.е. его несвязной версии). Характеристики этих двух алгоритмов приведены ниже. 15.11. Компьютерное моделирование 967 ТАБЛИЦА 15.4. Сравнение вычиспитепьной мощности различных алгоритмов обу- чения рекуррентных сетей о' — количество состояний Иг — количество сииаптических весов Ь вЂ” длина последовательности обучения 1. Алгоритм ВРТТ (обратиого распространения во времени): Время 0(67,+Я,) Требования к памяти 0(67.~-Я,) 2. Алгоритм КТК1.
(рекурреитиого обучения в реальном времени): Время 0(И'ззЬ) Требования к памяти 0(И'о) 3. Алгоритм РЕКЕ (иесвязиый расширенной фильтрации Калмаиа): Алгоритм РЕКЕ одинаково затратеи (по времени и пространству) при вычислении производных алгоритмами КТКЬ и ВРТТ. При использовании последнего требования ко времени и к объему памяти умножаются иа р, где р — количество выходов сети, по сравнению со стандартными затратами ВРТТ, в котором вычисляется одно слагаемой скалярной ошибки. Алгоритм РЕКЕ требует времени 0(рзИг + р2"~,)га) и обьем памяти 0(~ ~, к~), где д — количество групп; к, — количество нейронов в группе г.
В предельном случае, когда д = 1 (т.е. существует одна группа) и алгоритм сводится к бЕКЕ, время составит 0(р6'з), а объем памяти — 0(И~з) ° ОЕКР б — параметр, используемый для инициализации матрицы ковариации ошибок К(п, п — 1), равен 0,01. К(п) — матрица ковариации погрешности измерения т(п): К(0)=100 в начале обучения, а затем постепенно снижается до К(п) =3 в конце обучения.
9(п) — матрица ковариации искусственного шума процесса ш(п): Я(0)=10 ~ в начале обучения, затем постепенно снижается до фп) = 10. а в конце обучения. Отжиг матриц К(п) и фп) имеет эффект увеличения параметра скорости обучения по мере продвижения обучения. ° РЕКЕ д — количество групп равно 21 для КМ1.Р и 11 — для фокусироваииого ТЬРХ. Все остальные параметры такие же, которые используются для бЕКЕ Обучение осуществляется иа последовательности, состоящей из 4000 образов.
Для КМЬР используются подмножества, состоящие из 100 примеров, при атом в ходе процесса обучения обрабатывается 30000 таких подмножеств. Каждая точка данных 968 Глава 15. Динамически управляемые рекуррентные сети из множества 4000 примеров обрабатывается примерно 750 раз. В фокусированном Т(.РХ каждая точка множества обучения тоже обрабатывается около 750 раз. В обоих случаях тестирование осуществляется на 300 точках данных. На рис. 15.14 показан график одношагового прогнозирования у(п), вычисленного персептроном КМ(.Р, обученным алгоритмом ПЕКЕ.
На этом же рисунке показан график фактического сигнала у(гг). Этн два графика трудно отличить друг от друга. На рис. 15.! 5, а показана ошибка прогнозирования е(п) = у(п) — у(п) алгоритма ВМЕР. Соответствующие ошибки прогнозирования, полученные фокусированной сетью Т(.РХ, обученной алгоритмами бЕКР и 13ЕКР, показаны на рис. 15.15, б и в. Сравнивая полученные результаты между собой и с результатами, полученными в разделе 13.5, можно сделать следующие выводы. 1.
Наиболее точное моделирование в смысле среднеквадратической ошибки было получено персептроном ВМЕР, обученным алгоритмом РЕКЕ Дисперсия ошибки прогнозирования, вычисленная на 5980 примерах, составила 1, 1839 х 10 4. 2. Для фокусированной Т(.РХ наиболее точное моделирование в смысле средне- квадратической ошибки было получено при обучении алгоритмом бЕКЕ Прн использовании этого обучения дисперсия ошибки прогнозирования составила 1,3351 х10 4, в то время как при обучении ПЕКŠ— 1,5871х10 ~.
Оба результата получены с использованием 5980 примеров. 3. Для сети ТЕРЛ, обучаемой стандартным алгоритмом обратного распространения, дисперсия ошибки прогнозирования составила 1, 2 х 10 з (см, раздел 13.5). Эта величина на порядок хуже показателей, полученных с помощью алгоритмов ОЕКР и ПЕКР. Превосходство в производительности расширенного алгоритма фильтрации Калмана над алгоритмом обратного распространения получено благодаря свойству сохранения информации (1п1оппаг(оп-ргезеглп8) первого.
15.12. Обращение в нуль градиентов в рекуррентных сетях При практическом применении рекуррентных сетей особого внимания может потребовать нроблема обращения градиенгнов в нуль (ташз)пп8 8гаг)(елгз ргоЫеш), которая связана с обучением сетей желаемому отклику в настоящем, который зависит от входных данных в далеком прошлом [121), [469). Эта проблема возникает по следующей 15.12. Обращение в нуль градиентов в рекуррентных сетях 989 1,5 0,5 -0,5 -1,5 ' 0 50 100 150 200 250 300 Время, л Рис. 15.14. Наложение графиков фактическою (сплошнвя линия) и прогнози- уемого !пунктирная линия) сигналов в данном компьютерном моделировании.