Хайкин С. - Нейронные сети (778923), страница 194
Текст из файла (страница 194)
Для идентификации системы будем использовать две нейронные сети: одну для работы с уравнением процесса (15.85), а вторую — для работы с уравнением измерения (15.86) (рис. 15.17). Очевидно, что состояние х(п) можно рассматривать как задержанную на один шаг версию х(п+ 1). Обозначим х(л+ 1) оценку состояния х(п+ 1), полученную первой нейронной сетью (на рис. 15.17, а она обозначена цифрой 1). Эта сеть работает с объединенным входом, состоящим из входного сигнала н(п) и состояния х(п), и дает на выходе х(п + 1). Оценка х(п+ 1) вычитается нз фактического состояния х(п+ 1), из чего получается вектор ошибки: е,(п+ 1) = х(п+ 1) — х(л+ 1). Здесь х(п+ 1) играет роль желаемого отклика.
Предполагается, что доступно фактическое состояние х(п). Вектор ошибки ег(п+ 1), в свою очередь, используется для коррекции синаптических весов нейронной сети 1 (см. рис. 15.17, а) с целью минимизации функции стоимости, основанной на векторе ошибки ег(п + 1) в некотором статистическом смысле. Вторая нейронная сеть (обозначенная цифрой 11 на рис. 15.17, б) работает с фактическим состоянием х(п) неизвестного объекта и дает на выходе оценку у(л) фактического выходного сигнала у(п). Эта оценка вычитается из у(п), в результате чего получается второй вектор ошибки: е11(п) = у(п) — у(л), где у(п) играет роль желаемого отклика.
Вектор еп(п) используется затем для коррекции синаптических весов нейронной сети П с целью минимизации Евклидовой нормы вектора ошибки еп(п) в некотором статистическом смысле. Две нейронные сети, показанные на рис. 15.17, работают синхронно и дают на выходе решение в пространстве состояний задачи системной идентификации (774). Такая модель называется последовательно-параллельной моделью идентификации (вепеа-рагайе! '1деп11йса11оп шоде1) в признание того факта, что модель идентификации получает фактическое состояние неизвестной системы (а нс фактическое состояние 16.13. Системная идентификация 975 Неизвестная Вхоя а(н) ошибки е,(я + 1) а) Неизвестная снесена Состоя н х(я) ошибки ен(я) б) Рис.
16.17. Решение задачи идентификации систем с помощью модели а пространстве состояний модели идентификации) (см. рис. 15.17, а). В свете обсуждения, представленного в конце раздела 15.9, эту форму обучения можно рассматривать как усиление учителем. Последовательно-параллельная модель идентификации, показанная на рис. 15.17, а, противоположна параллельной модели идентификации (рага11е! 1деп(1йсайоп пюде1), в которой состояние х(п), подаваемое в нейронную сеть 1, заменяется его оценкой х(п).
Эта оценка получается из собственного выхода нейронной сети х(п + 1) путем пропускания последнего через оператор единичной задержки з '1. Практическое превосходство этой альтернативной модели обучения состоит в том, что нейросетевая модель работает в том же режиме, что и неизвестная система, т.е. в режиме, в котором сама нейронная сеть будет работать после обучения. Отсюда следует, что модель, полученная в результате параллельного обучения, скорее всего покажет более хорошую 976 Глава 16. Динамически управляемые рекуррентные сети динамику, чем модель сети, полученная в результате последовательно-параллельного обучения. Однако недостаток параллельной модели состоит в том, что ее обучение обычно продолжается дольше, чем последовательно-параллельной (см.
раздел 15.9). В частности, в нашей конкретной ситуации оценка состояния х(п), используемая в модели параллельного обучения, обычно не так точна, как фактическое состояние х(п), используемое в последовательно-параллельном режиме обучения.
Модель в терминах "вход-выход" Далее предположим, что доступен только выход неизвестного объекта. Для того чтобы упростить представление, рассмотрим систему с одним входом и одним выходом. Пусть выход системы в дискретный момент времени и обозначается как у(п), а ее вход — как и(п). Тогда, выбирая для работы модель ЫАВХ, модель идентификации примет следующую форму: у(п + 1) = ф(у(п),..., у(п — а + 1), и(п),..., и(п — а + 1) ), где д — порядок неизвестной системы. В момент времени и+ 1 известны 9 последних значений входного сигнала и д последних значений выходного. Выход модели у(п+1) представляет собой оценку фактического выхода у(п+1). Оценка у(п+1) вычитается из у(п + 1), в результате чего получается сигнал ошибки: е(п + 1) = у(п + 1) — у(п + 1).
Здесь величина у(п+ 1) играет роль желаемого отклика. Ошибка е(п+ 1) используется для коррекции сннаптических весов нейронной сети с целью минимизации ошибки в некотором статистическом смысле. Модель идентификации, представленная на рис. 15.18, имеет последовательно-параллельную (т.е. усиленную учителем) форму, так как фактический выход системы (а не выход модели идентификации) замкнут на вход модели.
15.14. Адаптивное управление на основе эталонной модели Еще одним важным приложением рекуррентных сетей является создание системы управления с обратной связью (ГеедЬаск сопгго1 зуз1еш), в которой состояние объекта нелинейно объединяется с применяемым управлением [861], [863]. Структура этой системы существенно усложняется и другими факторами, такими как наличие неизмеряемых и случайных возмущений, возможность неуникальности операции обращения, а также присутствие ненаблюдаемых состояний объекта. 16.14.
Адаптивное управление на основе эталонной модели 977 Фактический в и(л и(л- и(л- у(л- у(л- Рис. 15.18. Решение ЫАЙХ задачи системной идентификации у( Хорошо подходящей стратегией управления таким объектом с помощью нейронной сети является адаптивное управление на основе эталонной модели [шоде! геб егепсе ат[арнуе соп(го! — М[[АС)'~. В этой модели предполагается, что конструктор знаком с сущностью рассматриваемой системы [7731. На рис. 15.19 показана блочная диаграмма такой системы. Для учета того, что динамика объекта неизвестна, в ней используется адаптивность.
Блок управления, или контроллер (соппо[[ег), и объект и детальное описание адаптивного управления на основе модели содержится в [о (О!. 978 Глава 15. Динамически управляемые рекуррентные сети е,(е) г(л) е,(л+ () Рис. 15.19. Адаптивное управление на основе эталонной модели с использованием прямого управления формируют систему с собственной обратной связью, образуя внешне рекуррентную (ех(егпа11у гесштеп() сеть. Объект получает от блока управления входной сигнал н,(п), а также внешнее возмущение ив(п). Соответственно объект развивается во времени как функция описанного входного сигнала и собственного состояния х (п). Выход объекта, который обозначается как ур(п + 1), является функцией от хр(п). Выход блока управления представляет собой вектор сигнала управления: п,(п) = 1,(х,(п), у„(п), г(п), «), где х,(п) — собственное состояние блока управления; « — вектор параметров, доступный для коррекции. Вектор-функция 1',(ч .
ч ) определяет динамику блока управления. Желаемый отклик й(п+ 1) объекта формируется на выходе устойчивой эталонной модели (ге(егепсе люде!), который образуется в ответ на эталонный сигнал (гегегепсе) г(п). Желаемый отклик (1(п + 1), таким образом, является функцией эталонного сигнала г(п) и собственного состояния х„(п) эталонной модели: (1(п + 1) = Гз(х„(п), г(п)).
Вектор-функция 1з(ч ) определяет динамику эталонной модели. Пусть ошибка на выходе (оп(рп( еггот, т.е. разность между выходами объекта и эталонной модели, обозначается следующим образом: е,(п + 1) = (1(п + 1) — у„(п + 1). 15.15. Резюме и обсуждение 979 Нашей целью является такая коррекция вектора параметров зз, чтобы Евклидова норма ошибки выхода е,(п) была минимизирована для момента времени и. Метод управления, используемый в МКАС-системе (см. рис.
15.19), назван лрямым в том смысле, что для идентификации параметров объекта не предпринимается никаких действий, но при этом напрямую корректируются параметры блока управления для улучшения производительности системы. К сожалению, пока не существует точных методов настройки параметров блока управления, основанных на ошибке выхода [774], поскольку между блоком управления и ошибкой на выходе находится неизвестный обьект. Чтобы обойти эту сложность, можно прибегнуть к непрямому управлению (1пд!гесг соп!го1) (рис.
15.20). В этом, последнем, методе для обучения блока управления используется двухшаговая процедура. 1. Для вывода оценок дифференциальных соотношений выхода объекта к его входу, предыдущего выхода объекта и предыдущих внутренних состояний объекта обсчитывается модель объекта Р (которая обозначается Р). Для обучения нейронной сети идентификации обьекта используется процедура, описанная в предыдущем разделе.
Таким образом, полученная модель Р называется моделью идентификаиии (1деппбсапоп пюде(). 2. Для получения оценок динамических производных выхода объекта по отношению к вектору настраиваемых параметров блока управления вместо самого объекта используется полученная на предыдущем шаге модель идентификации Р. При непрямом управлении внешне рекуррентная сеть (ех!егла1!у гесштепг пеь чогк) состоит из блока управления и модели идентификации Р, представляющей соотношение "вход-выход" объекта. Применение рекуррентной сети к созданию блока управяения в общей структуре рис. 15.20 было продемонстрировано на ряде примеров задач управления [861), [863). В качестве рекуррентной сети, использованной в этом исследовании, выступает рекуррентный многослойный персептрон, аналогичный описанному в разделе 15.2.
Обучение этой сети осуществлялось алгоритмом ПЕКЕ, описанным в разделе 15.11. Однако обратите внимание, что для управления холостым ходом двигателя в качестве модели идентификации выбиралась линейная динамическая система, так как оказалось, что применяемое управление (в соответствующим образом выбранных интервалах) монотонно влияет на скорость двигателя. 15Л5. Резюме и обсуждение В этой главе речь шла о рекуррентных сетях, которые используют глобальную обратную связь (81оЬа! ГеедЬаск), применяемую к статическому (не имеющему памяти) многослойному персептрону.
Применение обратной связи позволяет нейронным се- 980 Глава 15. Динамически управляемые рекуррентные сети е(п) + 1) кйк+ )) Рис. 16.20. Адаптивное управление на основе эталонной модели, использующее непрямое управление посредством модели идентификации тям представлять состояния, что делает их удобным инструментом в различных приложениях обработки сигнала и управления. В класс рекуррентных сетей с глобальной обратной связью входят следующие основные архитектуры сетей. ° Сети нелинейной авгорегрессии с внешними входами (ВАКХ). В них используется обратная связь между выходным и входным слоями. ° Полносвязные рекуррентные сети с обратной связью между скрытым и входным слоем. ° Рекуррентный многослойный персептрон, содержащий больше одного скрытого слоя, с обратными связями между каждым из расчетных слоев и входным слоем.