Kim D.P. Teoriya avtomaticheskogo upravleniya. T. 2. Mnogomernye, nelinejnye, optimal'nye i adaptivnye sistemy. (950615), страница 53
Текст из файла (страница 53)
К числу вырожденных задач относятся линейные задачи максимального быстродействия для которого не выполняется условие нормальности. Если обнаружится, что внутри интервала ~еэ, Еу) имеется конечный отрезок времени ры гг) такой, что на нем вдоль соответствующих управлению п*1г) траектории х*1г) и сопряженной функции гр*(1) выполняются тождества дН(ф*, х*, и, Е) = 0 (9.41~) дгг' или ЕЯ*, х', н*, и, г) = НЯэ*, х', и*, 1) — НЯ', х*,. н, 1) = О, (9416) то оптимальное управление называют вырожденным в классическом смысле в слу~ае (9.41а) или вырожденным в смысле принципа максимума в случае (9.416).
Вообще говоря, условия (9.41а) и (9.41б) не всегда выполняются одновременно. В случае вырожденных задач оптимальное управление нельзя найти только из условий (9.41а) или (9.41б). Требуются дополнительные условия. Одним из необходимых дополнительных условий для вырожденных скалярных управлений являются неравенства ( 1) ~ ге При использовании этого условия производится последовательное дифференцирование производной дН/дп по времени, пока в одной из производных не появится и, что и даст возможность найти оптимальное управление. Показано, что при в последовательных дифференцированиях управление может появиться лишь при четном в = 2к. Такого рода вырожденные задачи встречаются, в частности, когда гамильтониан линейно зависит от и. Пример 9.6.
Определить оптимальное управление и оптимальную траекторию в следующей задаче оптимального управления: ~о х=и, ~и~(1, х(0)=4, х(10)=0., у=~х е11 — ггпш о Р е ш е н и е. Гамильтониан, сопряженное уравнение и условие стационарности гамильтониана имеют вид г ' дН Н = гги — х, у) = — — = 2х, дх 20 д.П. Кин 306 Гл. у. Методы теории опгпимального управления В соответствии с принципом максимума и" = з>6п>)>. Если на каком-либо отрезке времени интервала [О, 10] функция >р11) обращается в нуль, то управление будет вырожденным.
Допустим, что такой отрезок существует. Для такого отрезка справедливы соотношения дН 4дН 42 дн — =у>=0, — — =у>=2х=О, —,,— =2х=2и=О, ди ' ое ди ' ого ди откуда для вырожденного управления получаем и* = О. Таким образом, оптимальное управление может принимать только граничные значения: — 1 или 1, когда ф ф О, и нуль, когда ф = О. Одним из управлений, удовлетворяющих этому условию, является управление — О < 1 < 1>, О, П <1~(10.
Проинтегрировав уравнение объекта при этом управлении с учетом граничных условий, получим Из условия непрерывности траектории следует х<1>) = 4 — 1> — — О, откуда 1> = 4. Таким образом, решением рассматриваемой задачи является - 1, О < 1 < 4,, /4 — 1, О < 1 < 4> О, 4(1<10> < О, 4<1<10. То, что среди различных вариантов сразу удалось «угадать» оптимальное управление, объясняется тем, что при его выборе неявно использовалась физическая сущность задачи <граничные условия). 9.3.5.
Особые задачи. Как отмечалось, в функции Понтрягина и <гамильтониане) Х = 2 ф>7> сопРЯженнУю кооРдинатУ фо обычно >=о выбирают равной >го = — 1. Однако встречая>тся задачи, в которых оптимальным управлению и траектории соответствует ф>о = О. Такие задачи называются особенна. Примером особых задач мо> ут быт> некорректно сформулированные задачи оптимального управления, например, такие, у которых решения не зависят от критерия оптимальности или имеется только одно возможное допустимое управление. Для последних задач не существует возможности выбора наилучшего решения, и сама постановка задачи оптимального управления становится бессодержательной.
Пример 9.7. Найти решение следующей задачи оптимального управления: <»~ < 1, х<0) = О, х<1) = 1,,7 = — / Я вЂ” и' д1 — > ппп. о ае. Метод динамического программирования 307 Р е ш е н и е. Функция Понтрягина и сопряженное уравнение имеют вид ОН Н = — фо Ъ'1 — из+ йзи, 4~е — — — — — — О. дх Из последнего уравнения находим фз = С. В соответствии с принципом максимума если и (1) оптимальное управление и х'(е) оптимальная траектория, то Н(х', и', ф*) > Н(х*, и, ед*), причем фо = сопз1 < О. Возможное допустимое управление это кусочно непрерывная функция, удовлетворяющая ограничению ~ и~ < 1 и переводящая изображающую точку из начального положения х(0) = 0 в конечное положение х(1) = 1 за время 1е = 1.
Такое управление единственно, и оно равно и11) = 1. Так как других допустимых управлений нет, то оно и должно быть решением задачи: ее*(е) = 1. При этом Н(х', и', ер") = = фе — — С, и по принципу максимума должно выполнятся неравенство С ) — 16о Зее1 — ия + Си при допустимом управлении, т.е. при ~ и(1) ~ < 1. При еро = 0 это неравенство выполняется. Однако при еро = — 1 нельзя подобрать такое С, при котором данное неравенство выполняется. Следовательно,в данной задаче оптимальному решению соответствует уз* = О. 9.4.
Метод динамического программирования Линамическим программированием называют разработанный Р. Беллманом в начале 50-х годов прошлого столетия метод оптимизации многошаговых процессов различной природы. Основу динамического программирования как метода оптимизации составляют [8, 19]: 1) принцип оптимальности; 2) инвариантное погружение, т.
е. включение исходной задачи в семейство аналогичных задач; 3) функциональное уравнение, получаемое на основе принципа оптимальности и инвариантного погружения. 9.4.1. Инвариантное погружение и функциональное уравнение. Основная идея метода динамического программирования заключается в следующем. Вместо того чтобы решать исходную задачу, ее включают в некоторое семейство задач оптимизапии (инвариантное погружение).
При этом может оказаться, что между отдельными задачами существуют простые соотношения и среди задач семейства найдется такая, которая легко решается. Тогда, используя решение последней и соотношение, связывающее отдельные задачи семейства, т. е. функциональное уравнение, получают решение исходной задачи. 20* 308 Гл. у. Методы теории оптимального управлении Проиллюстрируем сказанное на простейшем примере [19[. Пусть требуется найти минимум функции 1'(х) специального вида: 1(х) = 2 1,(х,) -+ шш г=1 Здесь С" — прямое произведение областей (множеств) Сг определения функций 1((х()( С"=С(хСзх...хСи; х;ЕС(, 1=1,2,...,п. Рассмотрим семейство задач т 1(т((х(т1) = ~~ уг(х,) — > ппп х( (ЕС г=1 (9.42) (в=1,2, Эту функцию называют функцией Беллманш Очевидно, справедливо следующее соотношение: [(,.„( „(+ К о(*(([ = х( г(ЕС'" Ег 'Г (,=1 — [(.»(*.»(+ -' К(лге([ х егЕО нг ( х( (ЕО ' (=1 Но второе слагаемое в последнем выражении есть Во„поэтому полу- чаем следующее функциональное уравнение; В Ч1 = ШШ [~„гт((Хо,т() + В„,[, ,.ге со,.г( ИЛИ, таК КаК В даННОМ СЛуЧаЕ Вт НЕ Залнент От Хгг(Е(г Вт.(.1 (ПЛ( 1ог-~-1~ Ет-(-1) + Вго х("'Е ' ( Е С '" ( г (9.43) причем В( — — ппп 11(х().
х(ЕО( Уравнение (9.43) называют уравнением Беллмвна. Решая его с учетом последнего условия, получим В(, Вз,..., Вп и х1, хг,..., х„'. Решением исходной задачи являются В„и х* = (х( хг ... х*„)т. где х('"г = (х( хз ... х )т и С™ = С, х Сг х .. х С . ИсходнаЯ задача погружена (инвариантное погружение) в построенное семейство задач в том смысле, что она входит в это семейство как частный случай при ш = и. В задаче (9.42) параметр т можно рассматривать как дискретное время. Введем в рассмотрение функцию Вго = пш( 7 Ях(). х( (ео г=1 У.1. Метод динамического программирования ЗО9 Как видно, метод динамического программирования сводит задачу минимизации скалярной функции от п переменных к и задачам минимизации скалярных функций от одной переменной. В результате при числовом решении задачи существенно сокращается объем вычислении.
действительно, пусть С, [! = 1,2.....,п) — конечные множества и каждое из них состоит из ! точек. Тогда при решении исходной задачи методом перебора без использования метода динамического программирования потребуется рассмотреть!" вариантов, а с использованием метода динамического программирования всего !.и вариантов. При использовании уравнения (9.43) вычисление Вт происходит в направлении возрастания аргумента, т.е. в прямом «времени», поэтому это уравнение называют прямым уравнением Белллвана в отличие от обратного уравнения Беллглана, при использовании которого вычисление Вп, производится в направлении убывания времени.
Зля получения обратного уравнения Беллмана произведем инвариантное погружение исходной задачи в семейство задач г[х! г) = ~ ~у,[хв) -+ шш, ггв = п,п — 1,..., 1, х~ ~еб ' в=т где х„)т., С'"тСтхСтв,х...хСп, Х т[Хт Хт,1 -(т) При т = 1 имеем ![х) = !!М[к). Введем функцию Беллмана Ят т пйп ~~ Яхв). х( 1еб В=т Очевидно. имеем [г - э ° -в-г '" г,я )[, .
ец„,,! х=-т или гпш [)т з(хн, .з) + Бв1). т . ~во„, Последнее уравнение есть обратное уравнение Белллвана. 9.4.2. Принцип оптимальности. В рассмотренном простейшем примере вывод уравнения Беллмана основывался на очевидных соотношениях. В более сложных случаях при выводе уравнения Беллмана используется принцип оптимальности. В общем виде этот принцип формулируется следующим образом. Оптима ьная стратегиа [поведение) обладает телв свойством, что, каковы бы ни были начальное состояние и решения на начальном этапе, решения на последуюивелв этапе должны составлять оптиглальную стратегию относительно состояния, которое получается в реэультагпе принятия решений, на начальном этапе.
з«о Гл. у. Методы теории опгнимального управления В задачах оптимального управления оптимальность определяется функционалом (критерием оптимальности) 1(п(«), х(«)), состояние фазовым вектором х(«), стратегия это управление и(«) на всем интервале [«о, «у], решение это выбор конкретного управления. Зля задачи оптимального управления справедлив принцип оптимальности, если она обладает марковским свойством.
По определению задача оптимального управления обладает марковским свойспшом, если после выбора управления на начальном интервале [«о, «'], каково бы оно ни было, на величину критерия У(п(«), х(«) ) на конечном интервале [«', «у] оказывают влияние выбор управления на этом интервале и значение фазового вектора в конце начального интервала, т. е, х(«'). Чтобы сформулировать принцип оптимальности применительно к задачам оптимального управления, рассмотрим задачу х = «(х, п, «), п(«) Е «уб х(«о) = х, х(«у) Е Ху; (9.44а) (9.44б) 1 = уо(х(«у)., «у) + /уо(х, п, «) г«« — + пйп. (9.44в) принимает меньшее значение, чем при управлении и*[«'.