М.И. Зеликин - Однородные пространства и уравнение Риккати в вариационном исчислении (1998) (1155773), страница 14
Текст из файла (страница 14)
Для присоединенной задачи минимизации второй вариации граничные условия нулевые: Ь = Ь, = =О. Отметим, что з этой задаче никаких ограничений на значения управляющей функции и(г) не накладывается. Для того чтобы вывести уравнение Риккати для линейно квадратичной задачи оптимального управления, нам понадобится аналог уравнения Гамильтона — Якоби, который в теории оптимального управления называется уравнением Беллмана (точнее было бы называть его уравнением Гамильтона — Якоби в форме Айзекса — Беллмана).
Уравнение Беллмана. Состояние системы (2.17), (2.18) в момент времени г характеризуется фавовым вемтором Ь и реализовавшимся к моменту времени Г значением минимизируемого функционала 1'(и( ), Ь( )) = — ((Ри, и) + 2(4ХЬ, и) + (Х4Ь, Ь))лЕ. Как и при выводе уравнения Гамильтона — Якоби, рассмотрим семейство оптимальных задач, отвечающих множеству различных начальных состояний (г, Ь, 1') управляемой системы (2.17), (2.18). Обозначим через о(4, Ь) минимальное значение функционала Ь Х," = — ((Ри и) + 2(Я Ь, и) + (В Ь, Ь) )Г1 З, 2 4 4 которое можно получить на решениях системы (2.11) с граничны- ми условиями Ь(4) = Ь, Ь(Г,) = Ь,.
Очевидно, что функция Я(4, Ь) не зависит от 1,'. Введение функции о неявно подразумевает, что решение линейно квадратичной задачи оптимального управления сущест- вует для любых начальных значений (е, Ь). Доказательство суще- ствования решении линейно квадратичной зяцачи можно найти, например, в [93[.
Предположим, что функция Я(Г, Ь) — гладкая. Обозначим через й(), й() оптимальное управление н оптимальную траек- торию, отвечающие исходному начальному состоянию (ГВ, Ь,О) управляемой системы. Ле мм а 2.2. Имеет место тохдество (2.20) Йзо йо)=й(з Ь(з))+14" Ь). Доказательство. Покажем, что та часть оптимальной траектории Ь(.), которая начинается в точке Ь(г), является оптимальной траекторией по отношению к реализовавшемуся Ф к моменту Г новому начальному состоянию (~, Ь(г), 1, ), Действительно, если бы значение Я(е, Ь(г)) было меньше, чем 1,'(й, Ь), н достигалось иа некоторой траектории Ь(.), определенной на ВВ глАВА 2. УРАВНЕНИЕ РИККАТИ В ВАРИАЦионнпм иСчиСлении $2.
уРАВнение РНККАТН для 3АдАчи с диФФеРенциАльными связями 67 интервале (2, 2,), то составная траектория Ь= Ь, на интервале (ГВ, $), Ь= Ь, на интервале (2, $,) давала бы функционалу (2.18) значение, меньшее чем Я(ге, й ), что противоречит определению функции Я. П Дифференцируя равенство (2.20) по 2, получаем дЯ дЯ вЂ” 1 — + — (аЬ+ Ьй)+ — ((Рй, й) + 2(1вЬ, й) + (ЛЬ, Ь)) =О. (2.21) дз дй 2 Пусть теперь в системе, которая находится в состоянии (2, Ь), на интервале времени (2, 2+ 6) выбрано произвольное по- стоянное управление о. Решение системы (2.17), в которую под- ставлено и = е, с начальными условиями (2, Ь(2)), будем обозна- чать через Ь( ). Тогда к моменту времени 2+ б система переходит в состояние (2+ 6, Ь(2+ б), 1,'+ ~(и, Ь(.))), где Ь(2+ 6) = Ь(2) + (о(2)й(2)+ Ь(2)и)6+ о(6).
(2.22) Начиная с момента 2+ б, будем использовать оптимальное управление, отвечающее полученному начальному состоянию. Тогда функционал примет значение 1 + (э, Ь) + Я(2+ 6, Ь(2+ 6)), которое должно быть не меньше, чем минимальное значение функционала: 7,'+'(и, Ь)+ Я(2+ 6, Ь(2+ 6)) ) Я(2 Ь(2)) (2.23) Разделив неравенство (2.23) на 6 и переходя к пределу при 6 — ++О, получаем дЯ дЯ - 1 — + — (ай+ Ьй) + — ((Ри, о) + 2(ьв Ь, и) + (Л Ь, Ь) ) )~ О. (2 24) дг дй 2 Соотношения (2.20) и (2.24) можно объединить, записав их в виде одной формулы ~дЯ дЯ ппп ~ — + — (ай+ Ьи)+ и ~дт дй +-((Ри, и) + 2(ЯЬ, и) + (ЛЬ, Ь)) = 0 (2.25) 1 2 Уравнение (2.25) называется уравнением Беллмана. Краевое условие для уравнения Беллмана имеет вид (2.26) Я(г„й) = О. В том случае, когда матрица Р(2) положительно определена при всех значениях 2 (усиленное условие Лежандра), минимум в уравнении (2.25) достигается в единственной точке и=й г,й,— (2.27) Подставив это минимизирующее значение и в формулу (2.25), мы получаем дифференциальное уравнение в частных производных первого порядка.
По теореме Коши — Ковалевской решение уравнения (2.25) с краевым условием (2.26) определено в некоторой окрестности плоскости 2 = 2, пространства переменных (2, Ь). Т е о р е м а 2.2 (достаточное условие оптимальности). Предположим, что матприиа Р(2) положитпелъно определенная. Пустпь Я(2, Ь) — гладхое решение уравнения (2.25), определенное на нехотпором отхрытом множестве й, содержащем плосхостпь 2 = с„и удовлетпворяющее храевым условиям (2.26). Предположим тпахже, что для хаждой начальной точхи (го, Ь ) хй тпраехтории системы (2.17) при управлении и=й(2, Ь), полученном по фунхиии Я(2, Ь) с помощью формулы (2.27), определены и остпаютпся в областпи й на всем интервале времени (ге, 2 ). Тогда Я(2, Ь) является минимальным значением фунхиионала (2.18), а фунхиия й(2, Ь) яеляетпся оптпималъным управлением для всех точен областпи й.
До к азате л ьс т Во. Для любой начальной точки (ге, Ь ) Е Й рассмотрим произвольное управление й(). Пусть Ь() — соответствующее решение системы (2.17) с начальными условиями (ГВ, й ). В силу уравнения Беллмана (2.25) имеем, что функция Я(2 ь(2))+Тч(Й ) ь()) является неубывающей функцией от переменного 2. Следовательно, Я(2, й(2,)) + 7,'(й(.), й(.)) ) Я(те, Ь ).
(2.28) 88 ГЛАВА К УРАВНЕНИЕ РИККАТИ В ВАРиАЩЮНнОМ ИСЧИСлении 89 $ 3. уРАВнение РиккАТН и мнОГООБРАзие ГРАссмАнА Правая часть неравенства (2.28) равна 1„'(й(), Ь()), поэтому, краевое условие д(Ф„ Ь) = 0 приводит к неравенству 1»,'(й( ) Ч )) > 1~'(й( ) М )). Управление, определяемое формулой (2.27), линейно завидя' сит от Ь и —. Подставив это минимизирующее значение и дЬ в формулу (2.25), мы получаем дифференциальное уравнение в частных производных первого порядка с квадратичной по Ь, дд — правой частью. Поэтому его решение можно искать в вн- дЬ де квадратичной формы д = (И'(Г)Ь, Ь)/2.
В результате, как и для обычного уравнения Гамильтона — Якоби, для матрицы И'($) мы получаем дифференциальное уравнение с квадратичной правой частью (уравнение Риккати). Продолжимость решения этого уравнения с краевым условием И'(Ф1) =0 на весь интервал [гр, 811 дает в силу теоремы 1 решение линейно квадратичной задачи. Если линейно квадратичная задача получена как Вторая вариация некоторого функционала, то краевые условия в этой задаче нулевые. Поэтому функционал Х на решениях линейной системы (2.17) с нулевыми краевыми условиями становится однородным.
Поэтому, если на каком-то решении х(г) функционал 1: принимает отрицательное значение, то !п11 = †на множестве ЛЬ(г), Л б К+. Следовательно, имеет место альтернатива: 1 либо существует решение ИГ(1) уравнения Рнккати, определенное на всем отрезке [го, 11], и тогда функционал Х положительно определен; либо решение ИГ(г), с краевым условием ИГ(11) = 0 уравнения Риккати на отрезке [Го, 11[ уходит в бесконечность. В этом случае 1п( Х = — ОО. у 3. Уравнение Рнкнатн и многообрааие Грассмана Третий, наиболее существенный для дальнейшего подход к уравнению Риккати связан с важным геометрическим объектом, который называется многообразием Грассл«ана.
Напомним, что й-мерным топологичесиим л«нагообразивм М называется топологическое пространство, каждая точка х которого имеет окрестность ХХ„ гомеоморфную открытому множеству У, с К". Множество О, н соответствующий гомеоморфнзм ~р; У, — + 7,' называется нартой на многообразии М. Координаты точек р(у), при у е О, называются лоиальными координатами в этой карте, Если в точке х заданы две системы локальных координат, (У,, у«) и (ХГ, у,.), то можно рассмотреть функции перехода д, = ~р,(у.): К -+ К, определенные на -1. »» множестве у,.(ХХ1 Г1 У,).
Отображения р,, ~р,. в этой конструкции присутствуют в некотором смысле незримо: явными аналитическими формулами задаются только функции перехода д,,. Для того чтобы д», могли быть получены нз каких-либо отображений р,, необходимо потребовать выполнения естественного «цепного условия«с для всех точек у Е У,. П С,. и 1Х» Выполнено равенство д;,д,» = дпс Для того чтобы определить гладкое многообразие, надо потребовать, чтобы все функции д»х имели один и тот же класс гладкости, т. е, удовлетворяли одному из следующих возможных условий: — Ь раз непрерывно дифференцируемы, С»; — бесконечно диффереицируемы, С вЂ аналитическ, С"; †алгебраическ, С .
Набор карт, покрывающих М, вместе с соответствующими функциями перехода называется атласам. Два атласа называются зививалентными, если их объединение снова является атласом. Класс эквивалентных атласов задает на М структуру гладкого многообразия. Класс гладкости функций перехода называется илассом гладиости данного многообразия. Многообразие Грассмаиа. Многообразием Грассмана С„(К~") называется множество, точками которого служат и-мерные линейные подпространства К Для того чтобы определить структуру многообразия на С„(КЕ"), рассмотрим карту ХХ, которая строится следующим образом.