Kim D.P. Teoriya avtomaticheskogo upravleniya. T. 2. Mnogomernye, nelinejnye, optimal'nye i adaptivnye sistemy. (950615), страница 69
Текст из файла (страница 69)
е. строго детерминированных систем управления не бывает. Однако при анализе и синтезе рассматриваются детерминированные модели ввиду их простоты по сравнению со стохастическими моделями, когда случайные воздействия не оказывают существенного влияния. 10.5.1. Стохастическое оптимальное управление и уравнение Беллмана.
Уравнение объекта и критерий оптимальности имеют вид (10.81а) х = г(хд и, д) + Ъсо(с), х(со) = х д = и (д, э (дд ), д, ) + ( д ( , , д ) дд~ , до (10.81б) где хо гауссова случайная величина, Ъго(1) гауссов белый шум, хо и Ъго(1) не коррелированы; белый шум имеет следующие характеристики: М(1Уо(1)) = 0, М(Ъо(1)Ъго'(1')) = Ь(1)Ь(1 — 1'). Пусть требуется определить управление объекта (10.81а) с обратной связью, доставляющее минимум критерию оптимальности (10.81б). Такое управление называетгя стохастическим оптимальным управлением. Итак, рассматривается задача стохастического оптимального управлонияд в которой шум объекта является гауссовым белым шумом и входит в уравнение аддитивно; ограничение на гсравый конец траектории отсутствует, фазовый вектор наблюдается полностью и без помех.
В этой задаче х(с) является марковским процессом (так как случайное воздействие является белым шумом), и вся информация, которая может быть использована при определении характеристики будущего состояния, содержится в х(д). Поэтому оптимальное управление должно быть функцией только от текущего состояния и, быть может, текущего времени. Управление и = п(х(1),1) считается допустимым, если функция ц(1) = ц(х(с), с) кусочно непрерывна и принимает значения из допустимого множества Сь Кроме того, предполагается, что при допустимом управлении уравнение х = Г(х, ц(х, 1), 1) при каждом фиксированном х(1о) = х имеет Единственное решение на интервале (го, Гу). Функции уо(х ц 1) д г(х и с) и Щ(г) предполагаются непрерывными.
398 Гл. 10. Анализ систем и синтез оптимальньм систем управления Постаточное условие оптимальности [54]. Если существует скалярная функция Я(х,1), обладающая непрерывными частными производными дБ/д1, дЯ/дх, дзЯ/дх ., и допуслаимов управление п*(х,1) удовлетворяет уравнению дд 1 дзЯ 1 дд шш (/с(х,ц,1)+ — г"(х,ц,2)+ — 2 до ) = — —, щбеш( дх ' ' 2 ' дх,дх, дг ' но=1 (10.82а) где 53 элементы матрицы Яо, при граничном условии Б(х(су), Гу) = дс(х(су), 11). (10.82б) то это управление является сгаохастическим оптппмальным управлением (для задачи (10.81)). Уравнение (10.82а) называется уравнением Бвллмана (дпя задачи стохастическго оптимального управления), а функция Я(х,1) функцией Белл, мани Если множество Ц открыто и минимум в левой части уравнения (10.82а) достигается в стационарной точке, уравнение Белпмана можно представить в виде /о(х,ц;1) + — Г(х,п,1) + — ~ уц = — —., (10.83а) дд 1 два дд дх ' ' 2 0 да,дх дг' из=1 — (/о(х,ц,ь) + — Г(х,ц,у)) = О.
(10.83б) Обычно уравнение Беппмана записывают, используя след матрицы. Следом (шнуром) матрицы называют сумму элементов ее главной диагонали. Например, след (,п х п)-матрицы А = [о, ] (обозначение ФгА ипи Яр А) определяется так: ФгА = 2 ан. ь=1 Непосредственным вычислением можно убедиться, что имеет место равенство и из=1 Поэтому уравнение Беллмана (10.82а) обычно записывают в виде дЯ шш (/о(х,п,1) + — Г(х,п,1) + — ьг(ьго // = — —. щЬ~ЕО,( ' ' дх ' ' 2 дхдхИ дГ Вывод уравнения Беппмана можно найти в [54]. Здесь он не рассматривается.
10.5.2. Стохастическая оптимальная линейная система при полной информации о состоянии. Пусть уравнение объекта и критерий оптимальности имеют вид х = Ах+ Вц+ Ъ'о, х(1о) = х, 10.б. Стохастические оптимальные системы 399 с = м[ (ьРч рг+ 1 $ (со*(с (ся азл[. $10.84я ~о Здесь Ъ'о гауссов белый шум, хо гауссова случайная величина; Ъ"о и хо не коррелированы и имеют следующие характеристики: Мх' = х", М[(х' — х')(х' — хо)т] = Р,, М[17 (1)) = О, М[17 (1)Ъ"Д (У)) = Ь (1)б(1 — 1'); матрицы А, В, Ц и Л, вообще говоря, являются функциями времени, Л -- положительно определенная матрица, Я, Ро, Яо - - положительно полуопределенные матрицы, объект стабилизируем.
Требуется найти оптимальное управление объекта (10.84а) с обратной связью, обеспечивающее минимум функционалу (10.84б), при условии, что фазовый вектор доступен точному измерению. Теорема 10.4. Стохастическое оптимальное управление с обратной связью для объекта (10.84а) при критерии оптимальности (10.846) имеет вид п= — Л В Кх, (10.85а) где К симметрическая матрица, которая определяется из матричного уравнения Риккати КА АтК + КВЛ вЂ” 1ВтК г) при граничном условии (10.85в) К(17) = Е. Оптимальный закон управления (10.85) совпадает с оптимальным законом управления (9.74), (9.75) в детерминированном случае. Таким образом, случайное воздействие на объект и случайное начальное условие не влияют на оптимальный закон управления, если имеется полная информация о фазовом векторе.
Показательство. Уравнение Беллмана (10.83) в данном случае принимает вид т т 1 / д~Я 1 дЯ х 1;)х+ и Лп+ — (Ах+ Вп) + — 1г (9о ) = —— ах 2 ( дхдх) дс ' 2п Л+ —  — О. т дЯ дх Из второго уравнония полученной системы находим и = — — Л 'Вт( — ) . (10.86) Подставив это выражение в первое уравнение, получим 1аЯ, тгаЯ т аЯ 1 Г д'Я1 аЯ х Цх — — — ВЛ В [ — ) -~- — Ах+ — ьг (Яо ) = — —.
4 дх [а) д 2 (, дд) ас' Решение этого уравнения будем искать в виде функции Я=х К(1)х+Ц,(1), (10.87) 400 Гл. КЬ Анализ систем и еииелез оптилеальнььг еиьтпем рпрлеленил где Л [1) — — симметрическая матричная функция, Же[1) — — скалярная функция. Подставим (10.87) в указанное уравнение: хт Я вЂ” КВЛ 'В" К + КА + А К)х + 1тЯеК) = — хз Кх — йе. Это равенство возможно, если ~е — КВЛ 'ВтК+КА+АтК= — К, Ф [ЪК) = — Ж,.
Первое уравнение совпадает с уравнением Риккати (10.85б). Подставив (10.87) в [10.86), получим оптимальное управление (10.85а). Граничное условие [10.82б) принимает вид х [ьу)К(гЕ)х[еу) + Й(1Е) = х (еу)Рх[ьу). Это равенство возможно, если К(1,) = Р, йз(ГЕ) = О. Таким образом, и граничное условие [10.85в) получено. Теорема доказана. 10.5.3. Стохастическая оптимальная линейная система при неполной информации о состоянии. Принцип разделения. Постановка задачи. Пусть уравнения объекта и наблюдения и критерий оптимальности имеют вид х = Ах+ Вп+ Ъ'о, х(1о) = хе, [10.88а) у = Сх+ Ъ"„, [10.88б) ез з =и [* ьле ил +)ь ~ез зь (ея ззл], ееьь ) ~а Здесь Ъее, Ъе„.. гауссовы белые шумы, хс .
гауссова случайная величина; Ъ'с, Ъ"„и хе не коррелированы и имеют следующие характеристики: Мх' = х', М[[х' - х')[х' - х')т] = Ре, М[Ъ'о[1)! = 0 М[Ъго[1)Ъ'ео(ЕЕ)] = ЯоЯб[1 — Е ); М [ЪГ„[1)] — О, М [ЪГ„(1) Ъ'~(1')] — Ло [1) б(1 — 1'); матрицы А, В, ьЕ и Л, вообще говоря, являются функциями времени, Л, Ле -.
положительно определенные матрицы, ЕЕ, Еьс, Щ— положительно полуопределенные матрицы. Требуется найти управление и = п1у(т), Го < т < 11, 1о < 1 < 1Е, при котором критерий оптимальности [10.88в) принимает минимальное значение. Эта задача отличается от задачи стохастического оптимального управления с полной информацией тем, что в данном случае управле- 10.5. Стохастические оптимальные системы 401 ние формируется на основе информации, получаемой путем обработки измеряемой с помехой выходной переменной.
Теорема 10.5. Стохастическое оптимальное управление с обратной связью для объекта (10.88а), (10.88б) при критерии оптимальности (10.88в) имеет вид В- ВтК„- (10.89а) где К -- симметрическая матрица, которая определяется из матричного уравнения Риккати АтК+ КВК вЂ” 1ВтК (10.89б) при граничном условии К(17) = Г; (10.89в) х "- оптимальная оценка, которая определяется с помо~лью узильтра Калмана — Бьюси: х = Ах+ Впз- К~(у — Сх), х(1о) = х, (10.90а) Ко РСт — 1 (10.905) Р АР+РАт РС Я ~СР+С~о, Р(йо) =Ро (10.90в) Оптимальный закон управления (10.89) совпадает с оптимальным законом управления (9.74), (9.7ое) в детерминированном случае и со стохастическим оптимальным управлением (10.85) при полной информации лишь с тем отличием, что в законе управления (10.89а) используется нс сам фазовый вектор, а его оценка, которая получается на выходе фильтра Калмана — Бьюси.
Таким образом, при неполной информации стохастически оптимальный регулятор состоит из оптимального фильтра (фильтра Калмана — Бьюси) и детерминированного оптимального регулятора Ъ'в Рис. 10.7. Стохастичесяая оптимальная система при неполной информации (рис. 10.7). Этот результат известен как принцип разделения )29), или принцип стохастической зквивалентпности ~13). В соответствии с этим принципом задача синтеза стохастической оптимальной системы 26 Д.П. Кнм 402 Гл. 10.