Понтрягин Л.С. - Математическая теория оптимальных процессов (4-е издание) (955115), страница 12
Текст из файла (страница 12)
Рассмотрим теперь задачу с закрепленным време. нем и подвижными концами хо, х!. Обозначим через оо ЗАЛЛЧА С ЗАКРЕ>1ЛГННЫМ ВИЯМГНЕМ и 51 многообразия (в пространстве х', ..., х"), на которых должны выбираться концевые гочки хы х>. Тогда в пространстве переменных х', хз, ..., х", х"+' мы также получаем задачу с подвижными концами. Именно, концы (хм1е) и (хь1,) искомой траектории должны находиться соответственно на многообразиях Яе и Ль причем Я; состоит из точек вида (х, !>), где х ~ 5ь 1= О, 1, Рассматривая условия трансверсальности (теорема 3) для многообразий Ям Й1 и, как н прежде, отбрасывая координату х"+', мы находим, что теорема 3 остается справедливой (в гой же формулировке) и дает рсшепие задачи с подвн>кными концами в случае закрепленного времени.
Таким образом, теоремы 1 и 3 остаются верными и для задачи с закрепленным временем, если в формулировке теоремы 1 отбросить второе из соотношений (17). Обратимся, в частности, к случаю, когда (в задаче с закрепленным временем) правый конец совершенно свободен. Иначе говоря, рассмотрим задачу: найти такое допустимое управление и(!), !ч(!(!ь чтобы соответствующая траектория (см.
(75)), начинающаяся в мо. мент !е из начального положения хы осуществляла минимум значений функционала (76); момент т> фиксирован, положение точки х(1~) можст быть произвольным. Это — задача с подвижным правым концом, причем многообразие 5~ совпадает со всем пространством Х псремсппых х', хз, ..., х". Поэтому л ю бой вектор этого пространства является касательным к многообразию 5ь и условие трансверсальности дает нам ~р~(!>) = ~рг(1~) = = ...
= ч>„(1,) = О. Отсюда следует, что Ч>очи О, и потому иы можем принять >ре — 1. Итак, ~р(1,) = = ( — 1, О,..., О), и мы получаем следуюп1у>о теорему. Теорема 7. Для того чтобы допустимое управление и(т), !ч ( 1(1ь и соответствующая ей траектория х(т) (см. (75)) давали решение оптимальной задачи (75), (76) с закрепленным левым концом хч и свободным правым концом (моменты времени 1ы 1, заданы), необходимо существование такой ненулевой непрерывной вектор-функции ф(!) =(фе(1,),>~,(!),,~р (!) ), соответствующей функциям и(1) и х(1) (см.
(77)), что! [гл 1 ПРИНЦИП МАКСИМУМА 80 1' для всех 1, !з < 1 < Еь функция ЖЦ(1), х(Х), Е, и) переменного и~ И достигает в точке и = иЯ макси- мула Я (ф (!), х (1), 1, и (!)) = М (ф (!), х (!), !); 2' Ф В = ( — 1, О, ..., О). 9 9. Связь принципа максимума с методом динамического программирования В этом параграфе мы вкратце коснемся связи, существующей между прнппнпом максимума и методом динамического программирования Р.
Беллмапа. Метод динамического программирования был разработан для нужд оптимального управления процессами, имеющими гораздо более общий характер, чем процессы, описываемые системами дифференциальных уравнений. Поэтому ме~од динамического программирования носит более универсальный характер, чем принцип максимума. Однако, в отличие от последнего, этот метод не имеет строгого логического обоснования во всех тех случаях, когда им можно с успехом пользоваться как ценным эвристическим средством. Нас, естественно, интересует вопрос о применимости метода динамического программирования к оптимальной задаче, сформулированной в 9 2.
Обоснование метода динамического программирования, данное Беллманом, предполагает, что к естественным условиям задачи (см. нашу теорему 1) добавляется еще одно существенное требование — требование дифференцируемости определяемой ниже функции в(х). Это предположение не вытекает нз постановки задачи и представляет собой ограничение, которос, как мы увидим ниже, не выполняется даже в самых простых примерах. После того как это предположсние сделано, метод динамического программирования приводит к некоторому уравнению в частных производных„которое мы будем называть уравнением Беллмана. Это уравнение (при некоторых дополпительнгях условиях) эквивалентно гамильтоновой системе (14), (15) н условию максимума (16), (17).
ч ч) метод динамического пгоггкммнгов~ния в( Здесь мы приведем изложение метода динамического программирования и покажем его связь с принципом максимума. Для простоты рассмотрим только задачу об оптимальных быстродействиях. Фиксируем некоторую точку х1 пространства Х и пусть и(г), гь ( г ( Гь — оптималыюе управление, переводящее (в силу закона движения (5)) фазовую точку нз некоторого положения хьенХ в положение х,, а х(()— соответствующая оптимальная траектория. Время оптимального перехода (1 — (ь из точки хь в точку х| мы обозначим через Т(х,). (Точка х| в обозначении времени перехода не участвует, так как она меняться не будет.) Таким образом, функция Т(хь) определена на множестве ьг всех тех точек пространства Х, нз которых возможен оптимальный переход в точку х,.
Дополнительное предположение, обычно используемое для обоснования метода динамического программирования (и которое мгл здесь такзсе примем), заключается в том, что множество й открыто в пространстве Х и функция Т(х) имеет непрерывные частные производные по координатам ~очки х. Вместо функции Т(х) обычно вводят функцию в(х) = — Т(х). Так как х((), (ь ( Г < (ь — оптимальная траектория н так как каждый кусок оптимальной траектории также является оптимальной траекторией, то для любого Гь ~ Г ~ (ь имеет место соотношение ы (х (()) = — Т (хь) + ( — (ь. Следовательно, л 1 (х((), и(г)) = а ! вм (х (()) лх" (() лм (х (г)) =Х дх" м л( а Пусть теперь о — произвольная точка области управления У.
Рассмотрим движение фазовой точки из положения х(() под воздействием постоянного управления, рав- пгинпип мккспмкмл !гл ! 82 л Вм(х(!)) ~о( (~) о) ц у дхх я-! или л (х(г), о)(~1, о~К (82) а Соотношения (80) и (82) показывают, что л зпр ~ „~'(х(1), о)=1, а-! причем верхняя грань достигается при о = и(г). Так как через каждую точку х ~ Й проходит оптимальная траектория, ведущая в точку хь то мы приходим к выводу, что Функция е!(х) удовлетворяет в области й следу!ои1ел!у неклассическому уравнени!о с частными производными, которое мы назовел! уравнением Беллмана; л зпр ~~ 1" (х, и) = 1; и~о а ! (83) ного о. ь1ерез бесконечно малый промежуток времени Ж ) О фазовая точка будет находиться в положении х(1)+ Нх, где вектор Ых = (Нх!,...
„с(х") определяется соотношениями с(х!=~'(х(1), о)Ж, !=1, ..., и. (81) Рели теперь мы из точки х(1)+ Их будем оптимальным образом двигаться в точку х!, то затратим на это врсмя, равное Т(хЯ+ с1х). Таким образом, общее время, затраченное при таком способе движения на перев!ещение из точки х(1) в точку х!, равно Т(х(1) + Лх) + ай Это время не может быть меньше, чем время оптимального перехода Т(х(1)), г. е. выполнено соотношение Т(х(1) + дх+ + д( ) Т(хЯ ), или, что то же самое, а(х(1)+ ах) — !в(х(т))(Л. В силу (81) последнее неравенство переписывается в виде Ф И метод динлмичгского пгогьлымиговкния вз а д (х, и) = ~~ — „)' (х, и), а-! (84) стояшая в (83) под знаком верхней грани, имеет непрерывные первые производные по х', ..., х".
Из метода динамического программирования непосредственно следует (см. (80) и (83)), что если и(!) — оптимальное управление, переводяшсс фазовую точку из положения хь в положение хь а х(!) — соответствуюшая оптимальная траектория, то при фиксированном г, сь(г' функция д(х, и(()) персмепного хе Х достигает в точке х = х(!) максимального значения (равного единице) Из этого вытекает, что де(х (!), и (!)) =О, ! =1, ..., и, ль(Е~(1!. дх! Учитывая вид функции д(х,и) (см. (84)), мы получаем отсюда соотношения а=! д!а(х(!)) дг!(х(!), и(!)) дха дх' а- ! при этом верхняя грань достигается для некоторого и ~ (/ (а именно, для значения оптимального управления в момент выхода из точки х), а функция со(х) неположительна и обращается в нуль только в точке х!.
Это и есть метод динамического программирования в применении к рассматриваемой задаче. Теперь мы покажем, каким образом из метода динамического программирования может быть выведен принцип максимума; прн этом выводе функцию м(х) мы будем предполагать да а жд ы нспрерывно дифференцируемой. В силу этого предположения функция ПРИНЦИП МАКСИМУМА !ГЛ ! выполняющиеся вдоль оптимальной траектории. Далее, мы имеем л а-! л д 1'дм)х(1))) дх (и и ('да!(х(1))) 1' дх \, дх! I д1 д! (. дх! а ! и соотношения (85) переписываются в виде с! 1'да!!х(!))) чл д)а(х(1), а(!)) да!(хщ) д1 (.
дх .У ~-' дх! дх а ! 1=1,..., п. Такиы образом, вдоль всякой оптимальной траектории величины !р!(1) =, !'=1, ..., П„(86) дх! удовлетворя!от линейной системе дифференциальных уравнений л "'|;(!) т д) (х(1),и(!)),Р 11) !=(, ..., и. (8» T а ! Кроме того, уравнение Беллмана (83) в силу соотношения (80) записывается в виде л \ ~ Ф,(1)1" (х(1), и(1))= зцр Х !Ра(1)1~(х(1), и)= К (88) а ! иа У «-! Соотношения (87), (88) совпадают с принципом максимума, а соотношение (86) указывает в явном виде связь величин ф,(1) с функцией а!(х).
Отметим еще, что, как следует из (88), оптимальные движения всегда можно осуществить таким образом, чтобы вдоль оптимальных траекторий выполнялось равенсгво И (ф (1), х (1), и (1)) (89) А Э! мГТОл лиихмичГГкОГО ИРОГРАммиРОИАния в5 Все эти выводы, напомним, получены при условии двукратной дифференцируемости функции а!(х). Без этого дополнительного предположения доказательство соотпоше!Пи! (89) теряет силу. Отметим, что во всех примерах, рассмотренных в ~ 5, функция а!(х) не имеет первых производных, в точках, лежащих на линиях переключения (это устанавливается непосредственными подсчетами).
Так как ири этом каждая о!Мимальпая траектория в течение некоторого отрезка времени проходит вдоль линии переключения, то предположснис о дифферепцируемостп функции а!(х) не выполняется ни на одной траектории. Таким образом, даже в самых простейших примерах предположения, необходимые для вывода уравнения Беллмана, не выполняются. ГЛАВА 2 ДОКАЗАТЕЛЬСТВО ПРИНЦИПА МАКСИМУМА й 1й. Допустимые управления Здесь мы дадим точное определение класса допустимогх управлений (ср. $ !) и опишем наиболее важные из этих классов. Область управления Сг будем представлять себе произвольным множеством г-мерного векторного пространства Е„*).