XV Ванько В.И., Ермошина О.В., Кувыркин Г.Н. Вариационное исчисление и оптимальное управление (1081425), страница 39
Текст из файла (страница 39)
Покажем, что ни в одной точке линии переключений АОВ функция Беллмана, р(хпх2) не имеет частных производных. Возьмем на дуге ОА произвольную точку С(хсм х2~), т.е, х~ —— .с 2 = — (х$)2. Так как функция р выше линии АОВ (или правее, что то же самое) задается формулой (8.47), то для вычисления правосторонней производной по х~ мы должны использовать именно эту формулу: Нр с с (х1+О,хз) = х~ (хс)с Х2 хс+ '2 2 траекторию, составляя ее из В дуг двух парабол из семейств х " (8.43), (8.45), как это дела.- лось ранее (см. 7.5). Построенная траектория должна со- О л единять начальную точку х с началом координат (рис.
8.3). А Теперь можно вычислить вре- мя движения вдоль построенРис. 8.3 ной оптимальной траектории и получить конкретный вид функции Беллмана (см. задачу 7.6). Для точки х выше лпиип, переключеппс1 АОВ имеем 8.4. Связь с принципом максимума А левосторонняя производная вычисляется с использованием представления (8.48). Но при этом р(хна) =2 — х~+ — — хз — — 2ъ х~ — х1 — хз, и мы видим, что левосторонней конечной производной в точке зц = хс) не сУществУет, так как фУнкциЯ У = чих не дифференцируема в точке О.
Можно так же показать, что частная производная по хз имеет в точках линии переключения аналогичный разрыв. Приведенный пример показывает, что условия Беллмана о существовании у функции Беллмана непрерывных частных производных нарушаются даже в простейших ситуациях. Поэтому вопрос о применимости метода динамического программирования к задачам оптимального управления с ограничениями на управление требует дополнительного обоснования.
8.4. Связь метода динамического программирования с принципом максимума В 8.2 уравнение Беллмана получено как необходимое условие оптимальности упраеления и, значит, в определенном смысле перекликается с принципои максимуми Покажем, каким образом на основе метода динамического программирования можно получить условия принципа максимума. Рассмотрим задачу онтцмального управления с закован деижения (8.1), целевьсн функционалом (8.10)., фиксированными начальным (8.11) и конечным (8.24) состояниями.
Время Т процесса считаем неизвестным. В качестве вектора и(с) управлений выбираем кусочно непрерывные вектор-функции со значениями из области управления Г Е К", являющейся замкнутым выпуклым множеством. 302 8. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАгММИРОВАНИЯ Согласно принципу динамического управления Беллмана. для оптимального процесса (х*(г),и*®) найдется такое решение д(х) уравнения Беллмана пйп ~~~(хги) + ~ ~'(хги)] = О, (8.49) гг(т)ен дтпл г=1 хя = ~~(х,и)г4~г х = (хег х)г р(х) = и„+ р(х). о Используя эти обозначения, преобразуем уравнение Беллмана: пйп(~г, ~'(хги)) = О, гья или, с учетом очевидного тождества — пппг' = тпах( — Р), шах( — ~г, )'(х,и)) = О.
гг= В (8.50) Заметим, что функции ~'(х,гл) не зависят от хе. Введем обозначения — г=О,п. дц (8.51) дх;' что и'(1) = й(х*(1),ягайло(х*(1))), где йгх,ягаг4н) — — значение, при котором достигается минимум в правой части уравнения (8.49). Покажем, что из уравнения (8.49) следует существование некоторого вектора Ф, который удовлетворяет соотношениям принципа максимума. Пусть р(х) — фглнкдил Беллмглнгг, которая соответствует оптимальному процессу (х'(й)ги*(й)).
Введем следующие обозначения: 8.4. Связь с принципом ггаксиггукга Полагая п Нг',Ф.,х,и) = ~~г ф ~"(х,и) = (Фг У(х,и)), а=о где Ф = (аког ф1г ..., г)г„); у" = ()~г у', ..., ~'") г можно запи- сать уравнение Беллмана в следующем виде: шах(Ф, у1 = шахН(Ф,х,и) = О. иьсг г ) аеп сгф; дН аг дх, ' г = О, и. (8.52) Потребуем, чтобы функция Беллмана р~х) имела непрерывные производные второго порядка. Тогда функция г(* ") = К вЂ . ФУ'(* "г) дгг' — г хг г.=-о (8.53) имеет непрерывные производные первого порядка. Оказывается, что для оптимаяьносо процесса (х®г и(~)) при фиксированном 1 Е ~Ог Т1 функция д(х,и(1)) переменного х достигает в точке х = хф максимального значения, равного нулю. Это следует из уравнения Беллмана (8.50). При этом под равенством х = х(1) мы понимаем выполнение двух соот- ношений Введенные нами сопряженные переменные гр.; и функция Нонтряенна Н (ср.
с (7.7) ) получены пока чисто формальным преобразованием из уравнения Беллмана. Покажем, что Ф удовлетворяет сопряженной системе 304 8. МЕТОД ДИНАМИНЕСИОГО ПРОГРАММИРОВАНИИ Так как Функция д(ж,и(1)) достигает максимума в точке х11), то дд1ж,и) =О, 1О=О,и, 4Е[О,Т]. 18.54) дхд ж=*о гг=-гг(г) Учитывая, что дд ~1 дз1г, д1г д1' 1 к = О,п, дхт ~- ( дх;дхя дх, дхд I ' г=О из 18.54) получаем соотношение ( — 1'1х,и)) = г=Π— й = О, п, 18.55) г1хг дхь г=.О которое выполняется на оптимальном процессе (ха, где). Так как дг( д* ) ~'г ддд ) дг ~''г д д ) то соотношение 18.55) преобразуется к виду дд) г=О или, с учетом обозначений 18.51), 305 д.8.5 Оптимяяьняя вгявяяивация Итак, дН вЂ” — — Й=О,п.
Ж д*ь' Уравнения (8.52) были получены в предположении, что функция Ьеллмана р имеет непрерывные производные второго порядка. Это, конечно, не всегда так. Поэтому проведенные рассуждения носят иллюстративный характер и не могут всерьез рассматриваться как обоснования принципа максимума. Скорее они говорят о том, что принцип максимума и принцип динамического программирования имеют пересекающиеся „сферы влияния".
При отсутствии ограничений на управление, когда все функции являются гладкими, оба принципа работают. Но каждый принцип имеет область, в которой соперник конкурировать нс может: уравнение Беялмана получено при дополнительных предположениях, а принцип максимума хуже приспособлен для решения задач дискретного характера. Дополнение 8.1. Оптимальная стабилизации Пусть для исходной системы у = у(1.,у,и) (8 56) при заданном управлении и = и(г) и заданном начальном условии у(11) = у построена траектория у = ~р(г), т.е.
решена соответствующая задача Коши. Такое движение назовем невозяяущенным движением. Рассмотрим еще одно управление и = и(1) и соответствующую этому управлению траекторию у = ф(1), которую назовем возмущенным движением. Задача сгпабилизаиии невозму~ценного движения у =~р(~) состоит в выборе такой поправки Ьи(Р) = о(~) — и(~), при которой движение ф(1) устойчиво. Положим т(г) = ф(1) — ~р(г) и вместе с Ьи(г) подставим в уравнения движения (8.56): т = ф — ~р = у(г,~р+ ж,и+ зи) — У(1,<р,и).
306 8. МЕТОД ДИНАМИНЕСКОГО НРОГРАГИМИРОВЛНИЯ Считая траекторию у[1) и управление и(1) фиксированными, получаем уравнения х = г'1г,х,Ьи), (8.57) (8.58) которые называют уравнениями еозмун4енноео дензсенил. Предположим, что выполняются следующие условия: 1) все компоненты вектора состояния х в любой момент Времени извес гны; 2) по траектории х(1) можно восстановить вектор управления Ьи(1), который можно рассматривать как функция> времени и текущего состояния Ьи11, х): 3) управление Ьи(1зх) должно обеспечивать асимптотическую устойчивость невозмущенного движения х(1) = 0; 4) Ьи(1,0) = 0; 5) вектор-функция и(1,х) определена и непрерывна в области 0: 1>0,]х ](Л,у=1,п, где х=(хы х2, ...,.
х„); 6) правые части уравнений (8.57) удовлетворяют условиям теоремы Коши о существовании и единственности решения системы обыкновенных дифференциальных уравнений [УП1] при любых начальных условиях в области 11; 7) на вектор управления и нет ограничений, т.е. его компоненты могут принимать любые сколь угодно большие значения, вектор-функция г'(1, х,и) определена при любом значении и. Задача опгпимальной сгпабилизации невозмушенного движения состоит в следующем. Пусть выбран критерий качества стабилизации, который может отражать такие требования к процессу стабилизации, как его монотонность, минимизация объема используемых ресурсов и т.п. Этот критерий будем представлять как некоторый функционал вида 307 д.8.
Н Оптимальная стабилизация Требуется найти такое управление Яги = и*(~, х), которое обеспечивает асимптотическую устойчивость невозмущенного движения х(~) = О в силу уравнения х = Е(1, х, Ьи(1, х)) и которое среди всех управлений, также обеспечивающих асимптотическую устойчивость невозмущенного движения, придает целевому функпибнилу (8.58) наименьшее значение, .т.е. для любого управления сзи(~,.х), решающего задачу стабилизации, неравенство 1~х*, Ьи ) ( 1~,х, Ьи) (8.59) выполняется при любых начальных условиях из области В, = ((й, хд, ..., х„): Х ) О, /х ! (е,у =1, п)1, где х*(1) и х(1) — — траектории системы при заданных начальных условиях и управлениях Ьи' и Ьи соответственно. Начальные условия х(1п) = х~ играют роль начального возмущения, а асимптотическая устойчивость означает, что начальное возмущение в процессе движения компенсируется за счет управления.