1626435586-15eceb6ba43f688400eaeb312dc6d98a (844237), страница 20
Текст из файла (страница 20)
В этом разделе мы хотим более основательно эассмотреть последнюю задачу, а также связать использование методов стохастической аппроксимации с решением задач идентификации. Таким образом, мы будем заниматься изучением динамического варианта рассмотренного выше алгоритма стохастической аппроксимации. Необходимо найти управление п(к) или п(7) и вектор параметров р, минимизирующие функционал э1 — е ,7=8~07(х(7с~)]+О,]х(йе)]+ Я <у(х(Ь), р(к), и(й), я]~ з=м (5.2Л) при ограничениях х(й+ 1) — ф (х (й) Р(й) п(й) ~ (й) й] р(й-]- 1) — р (й) (5.2.2) В непрерывном случае необходимо минимизировать с р-р(е,~*(ее-р-е.~*(еэе~рР(ее р(р), е), е|ее], ре (5.2.3) удовлетворив при этом ограничению в виде системы дифференциальных уравнений х=1]х(7), п(7), р(~), ь(~), 7], Р= О.
(5.2.4) здесь ь (рр) и ь (7) — случайные процессы. используются функции штрафа и уравнения ограничений иэ раздела 4.3 (формулы (4.3ЛЗ) — (4.3Л5) для дискретного случая и формулы (4.3.30) — (4.3.32) для непрерывного случая), с той лишь разницей, что учитывается наличие случайных процессов ь(й) или Ь (7), отражающих входной шум и ошибку измерений и используется операция вычисления математического ожидания по реализациям ь.
Поставленная задача является достаточно сложной задачей идентификации и оптимального управления разомкнутым объектом. В общем случае получить аналитическое.решение этой задачи чрезвычайно трудно. Часто $38 стохлстичкскля аппгоксимлция ~гл. з где ь — это случайная величина с иавестной плотностью вероятности р (~). Для того чтобы минимизировать (5.2.5), положим У = ~ О(п, ь) рЯ)д~, С (5.2.6) 60 — р(Ра~ = ж~~'" ~'~ = О. (5.2.7) ЯО Аналитическое решение (5.2.7) часто оказывается невоа- можным, поэтому попробуем воспользоваться итератив- ным алгоритмом (5.2.8) где К' — последовательность положительных чисел.
Градиент ОО(дп является случайным вектором и состоит из оказывается, что рекомендации по управлению разомкнутой системой не столь удобны, как рекомендации по управлению объектом с замкнутой обратной связью. В одном частном случае, когда система линейна, помехи аддитивны, функция штрафа квадратична по управлению и состояниям и нет идентифицируемых параметров, справедлива теорема отделимости или принцип достоверной эквивалентности, принадлежащий в теории оптимального управления Калману (см.
Сейдж, [ИО)). В этом случае оптимальное управление в замкнутой системе сводится к использованию оптимального линейного регулятора, на вход которого поступает выходной сигнал оптимального линейного фильтра. Возможности решения аадачи идентификации и управления стохастическим объектом будут научены сначала для простых ситуаций, в том числе и для рассмотренных в предыдущем разделе. Найденные закономерности будут использованы при исследовании более сложных задач. Сначала рассмотрим задачу отыскания экстремума (чаще всего минимизации) функции штрафа Х = Ж (О (и, ~)), (5.2.5) сФоххлс1кчйсйкая лййгоксимлййя 1зб двух компонент: одной, связанной с зависимостью О от в, и второй, возникающей из-за случайного шума Удобно записать ~ + т~ = К(8') + т«, (5.2.9) аа' ( да' где т' — представляет случайную компоненту градиента и, по определению, имеет нулевое математическое ожидание, что нетрудно увидеть, взяв математическое ожидание от левой и правой частей (5.2.9).
Используя два последних уравнения, получим пог = и' — К'(8 (О') + т'). (5.2.10) Следует понимать, что фактически вычисления основаны на использовании (5.2.8). Однако в аналитических исследованиях удобнее опираться на формулу (5.2.10). Располагая последовательностью градиентов д8/дп', » = 1, 2,..., мы надеемся, что для достаточно больших 1 пол сходится к тому же пределу, что и и', т.
е. 1па н»м = 11ш и'. Переходя к пределу в (5.2.10), приходим к требованию ИшК' = О, «ов (5.2.11) так как в противном случае процесс, определяемый (5.2.10), не сойдется к какому-либо постоянному значению. Это справедливо, даже если я (О') = О, что означает, по крайней мере в среднем, равенство нулю дО/дп. Но составляющая помехи т«не нуль, и это уводит последовательность п«от оптимальных значений. Естественно, последовательность К«не должна слишком быстро сходится к нулевому пределу, иначе К (8') не «успеют» вывести последовательность и' в окрестность оптимального значения.
Одновременно с этим средний эффект влияния помехи т«должен с увеличением 1 уменьшаться так, чтобы прошлые помехи не скааывались на ошибке вычислений. В основополагающих работах по стохастической аппроксимации показано, что первое из этих требований 140 стохАстичкская АппгокснмАция ~гл. з математически выражается как (5.2.12) Так как т' имеют нулевое среднее, понятно, что О ;5', К'т» =О. з 1 Для того чтобы устранить влияние помехи, необходимо потребовать выполнения неравенства О ~~~~~ (К')з(и;')'( со для всех Е.
ь=т Можно показать, что ато условие выполнено, если СО ~~'~~ (К')з ( оо, ~=1 (5.2.13) з помеха т'имеет конечную дисперсию У„' = тат(т4) ~(Ь(оо. (5.2.14) Примером последовательности К~, удовлетворяющей тре- бованиям (5.2.11) — (5.2 13), может служить последова- тельность К~ = й(1. (5.2.15) К сожалению, в теории стохастической аппроксимации не имеется рекомендаций по выбору константы к, кроме требования ее положительности.
Теория оптимальной фильтрации, которая рассматривалась в главах 2 и 3, мы еще вернемся к ней в главе 7, утверждает, что выбор й определяется относительной величиной входных шумов системы и ошибок измерений, причем в общем случае зта характеристика должна быть представлена в матричной форме. Ограничения на выбор К' не являются неожиданными, достаточно вспомнить о замечаниях предыдущего раздела, стохАстичвскАя АппРОксимАция касающихся. связи между стохастической аппроксимацией и теорией оптимальной фильтрации. Строгие доказательства принадлажат Киферу и Вольфовицу [75), Блуму [19[ и Кушнеру [84). Доступное инженерное изложение теории стохастнческой аппроксимации можно найти у Хо и Ньюболда [53[.
Теперь хотелось бы обобщить полученные результаты для того, чтобы научиться решать стохастические задачи на экстремум с ограничениями в форме равенств. Итак, необходимо найти экстремум (минимум) У =с (О(х, и)) (5.2Л6) при дополнительном условии 1(х, и, в) =О. (5.2.17) Допустим, что можно определить вероятностное распределение возможных значений ~ = ~~ в виде набора вероятностей Р„г = 1, 2,... Ат е). Рассмотрим экстремальную аадачу с функцией штрафа Р = О (х, и) и ограничением (5.2.18) 1(х, и, ьг) = О. Так как ~' предполагается известным, эта задача является простейшей статической задачей оптимизации.
Чтобы найти оптимальное решение, введем гамильтониан (см. главу 3 Сейджа [116), Брайсона и Хо [24) ХХг = О (х, и) + А,т[(х, и, ~г) (5.2Л9) и решим следующую систему уравнений: дНг дН' дН' †„ = О, — = О, — = О. (5.2.29) дн ' дх Эта частная задача, когда ~ = ~', возникает с вероятностью Р». Таким образом, решение исходной задачи эквивалентно решению набора детерминированных задач для разных ~г с усреднением детерминированных решений по е) Если ~ — непрерывная случайг ая величина, то возникающие труяности носят чисто техничсскьй характер, н, как мы увидим, могут быть легко преодолены.
* 142 стохлстичкская Аппгокснмьцня [ГЛ. Ь распределению вероятностей Р,. Решение исходной экстремальной задачи (5.2.16), (5.2.17) сводится к решению следующей системы уравнений, которая дает необходимые условия оптимальности: И И ~~~ Р; — = О; ~ч~ ~Р; — = О. (5.2.21) да 1=1 1(х,п,ь) = О; Если ~ обладает непрерывным распределением, то (5.2.21) преобразуется к виду 1(х,п,ь) = О, или 1(х,п,~) = О, Ж~ — ае ~ = О, 8~ — ~ =О. (5.2.22) У = Ж (8 (х, и)), 1(х, и, 4) = О. Выберем начальное управление и' и реализацию Ь' в соот- ветствии с плотностью вероятности р (ь).
Состояние х» определяется из уравнения 1 (х', п~, ~~) = О. Для изме- нения управлений используется уравнение дН/дх' = О. Затем повторяют вычисления с новой реализацией Схема вычислений такова: 1) выбрать и', 2) взять одну из реализаций ~', 3) решить уравнение 1 (ха, и', ~~) = О относительно ха, К сожалению, из-за наличия нелинейностей и математических оя<иданий система уравнений (5.2.22) часто не поддается непосредственному решению. Вместо етого займемся поиском градиентных методов итеративного решения (5.2.22). В данном случае метод стохастнческой аппроксимации очень похож на градиентный метод решения статических аадач. Минимизируется функция штрафа (5.2.16) при ограничении (5.2.17) стохАстичкскАЯ Аппгоксимхцня ыз 4) решить относительно Ло уравнение — ~- — ' - — и-о.
дн~ де1(х, и ) а(~ (хх «~ ~о) дхО дх ах 5) определить градиент дН дд (х, и ) дтт (хХ, и~, ~~) аО а' + ди' + ' ' Ло, 6) используя алгоритм стохастической аппроксимации, построить новое приближение пмх = и' — Х' — =- и' — К' ~ — + — Л'1. аоо г аео агот ди диО дио Пример 5.2.[. Рассмотрим задачу отыскания линейного фильтра, минимизирующего Х = 8(~х(() — х(()ф [Х(()), для стационарной линейной системы с некоррелирован- ными входными шумами и ошибками намерений х = Гх(()+ то((), е (от(()) = О, сот(хт((), оо(т)) = = Ч"акр (8 т)( « =Нх(()+ т((), е'(т(()) = О, сот(т((),т(т)) = = %с„бр (( — т). Хорошо известно, что решение этой задачи определяется следующей системой уравнений (Сейдж И161, Хо и Брайсон [501; Сейдж и Мелса И271): х Рх (() + оо (() [ в (() — Нх (()], х ((о) = Ж (х ((о)), дг (() = У, (о) Н Ч1 1 у-„= РУ-„(()+ У-„«) Рт — Ч-,(() Н'Р„-'НУ-, (()+ Р' ((), Чх ((о) = таг (х ((о)).
Предположим, что выход фильтра наблюдается достаточно долго для того, чтобы закончились переходные процессы. Допустим также, что мощности шумов являются 444 стохАстичвскАя АппРОксимАция [ГЛ. 5 случайными по ансамблю и известны только их средние значения Ж (Ч"з ) = Чсю> Ж (Ч"т) = Ч"т Очевидны три метода конструирования фильтров: 1.
Можно построить субоптимальный фильтр х, = Вх, +.Ж, [з(~) — Нх(8)], Л, = Е,Н'Ч~-,', б = РЕ, + Е,Р~ — Е,Нт'Ч „'НЕ, + Ч„, являющийся стационарным фильтром Калмана, на который поступает помеха со средней для ансамбля интенсивностью. 2. Можно построить субоптимальный адаптивный фильтр х,=Рх,(1)-~ Л,Р)[зР) — Н (С)], Л Р) Е НтЧР-тД Ег = Рйт(1) + Еэ(1)р — ЕА(Е) Н Чет НЕА(й) + ЧГ~р(Ю).
В этом случае для оценки параметров помех используются подходящие адаптивные алгоритмы о ценив ания (Сейдж и Хуса, [123]). Для многих задач это решение практически неприемлемо, так как приводит к слишком сложным вычислительным процедурам. 3. Вместо фильтра пункта 1 можно использовать фильтр той же сложности реализации х = гх(й) + Л'з [х(й) — Нх(Г)], где Л', — константа, которая выбирается так, чтобы минимизировать ошибку оценивания с учетом случайности (по ансамблю) параметров Чг и Ч'„.