XV Ванько В.И., Ермошина О.В., Кувыркин Г.Н. Вариационное исчисление и оптимальное управление (1081425), страница 35
Текст из файла (страница 35)
91) При Се < 0 в левой части полученного равенства сумма двух неположительных слагаемых. Поэтому равенство верно, 270 7. ПРИНЦИП 7ИЛ КСИ7ИУМЛ когда каждое из этих слагаемых равно нулю, и мы приходим к выводу., что фз(1) = О на всем отрезке ~1'., ~").
Итак, функция фя (1) обращается в нуль либо в единственной изолированной точке, либо на одном отрезке [1',1"1. Так как и*® = я1дп~з(1), то управление и*(1) имеет не более одной перемены знака. Такое управление относится к одному из двух следующих типов: и (~) = и (1)= Значение ~' соответствует моменту времени, когда л2(~) обращается в нуль, а значение г" — — любое на отрезке )г'., 1з). Теперь уже не составляет труда найти оптимальное управление и оптимальные траектории для конкретных начальных условий (х), и,',). Наличие участка особого управления нс изменит вид фазовых кривых, так как на таком участке фазовая точка не перемещается, а стоит на месте. Фазовые кривые будут те же, что и на рис. 7.9 (см.
7.5). Но оптимальным фазовым кривым, пересекающим ось Охи соответствует бесконечно много оптимальных процессов, каждый из которых получается „вклеиванием" участка особого управления в момент достижения указанной оси. Длина участка может быть произвольной. Такое,.вклеивание" не меняет значение целевого функционала. Существование особого режима приводит к тому, что рассматриваемая задача при некоторых краевых условиях имеет бесконечно много решений. 271 Вопросы и эадатп Понятие особого управления впервые ввел Л.И. Розоноэр*, и это послужило началом целого направления в теории оптимального управления.
Вопросы и задачи 7.1. Решите следующие задачи оптимального быстродействия: а) х1(11) = хя(11) = О; х1(19) = — 1, хз(19) = О, 1хз =и, )и) < 1; б) . ' х1(11) = хз(11) = О, т1(19) = — 2, хз(19) = О., (хз = — х1+и, )и! < 2; в), ' х1(11) =О, хя(11) =4, х1(19) =хя(19) =О; (хз = — х1+и, г) .' Я " х1(1~) = хя(11) = 2, х1(19) = б, хз(19) = — 2, 1 хя = х1+ из, (и1( < 2, )из( < 2; д) .
' х1(Х~) = — 2, хя(11) = 2, х1(19) = 2, (хз =х1+и2, хз(89) = — 10, (и1) < 2, )иг) < 2. 7.2. Решите зада гу оптимального быстродействия с правым подвижным концом < х1(11) =4, хя(11) = 3 (х~(19)1 + (хз(гз)] =4 Хо = — Х1+и, (и) <1. *См. Роэоноэр Л.й'. (1959 г.), а также: Габасов Р., Кириааова М.Ф. 272 т. ЦРинцип мАксимумА 7.3. Решите следующие зада 1и оптимального управления с фиксированным временем; а) хя1п1пг — 11п1п, х=и, х(н) =х( — н) =О, ~и~ <1; б) (,ии + х)Ж -1ппп, х = и, х(4) = О, ~и~ < 1.
о 7.4. С помощьк1 принципа максимума запишите полную систему необходимых условий в следующих задачах оптимального управления (х~, х2, х~„х2~, Т заданы): | ( а;-(,г(тО' О, (" ."' ь,ОО= .,', ( т2 = х1+ 2и, о ,(О) =,', И < 1: 1/ К ОО'--в. ("=" ( т2 21+и~ о .тя(Т) = х~2, )и) < 1. 7,5. Исследуйте на наличие особого режима задачу оптимального управления (х1, х2, 12 заданы): с, Г (х1) а + 1п1п ° т~ (О) х1 х2(О) т2 ( х2 = — и, о х1(12) = х2(12) = О, (и) ~ (1. 7.6. В задаче о быстрейшей остановке движущейся точки в заданном месте вычислите минимальное время движения из т произвольной точки х1 = (х'„х.') в начало координат х2 = = (О, О) .
273 Вопросы и задачи 7.7. Найдите оптимальное управление и*(1), оптимальную траекторию аз*(с) и время Т в задаче Т Г 11+ ~и()сЮ вЂ” зппп, ~ .~ '2' г1(0) =12, О г2(0) = г1(Т) = и2(Т) = О, (зз) < 1. 7.8. Найдите оптимальное управление и*(т) и оптимальную траекторию яз'(с) в следующих задачах оптимального управления: а) тзгй — зппп, .~ 2' и~(0)+ из(1) = О, 1 г2 о г2(0)+сс211) = О, )и! < 2; б) г21зт) — «ппп, . ' ' го(0) =г2(0) =О, ~и~ <1, 1 и2 = "'з+в~ 1Е [О, 2зг]. 8. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Одновременно с принципом максимума Понтрягина и независимо от него в теории оптимального управления коллективом американских ученых во главе с Р.
Беллманом был разработан метод динамичесного программирования. Этот метод более универсален, чем метод, использующий принцип максимума. Он был разработан для нужд оптимального управления процессами более общего характера, чем процессы, описываемые системами дифференциальных уравнений, и позволяет решать большой круг задач оптимального управления дискретными системами, т.е. системами которые описываются разностными уравнениями.
В этой главе мы обсудим основныс идеи динамического программирования. 8.1. Принцип оптимальности В основе метода динамического программирования лежит сформулированный Р. Беллманом принцип оптимальностпи. Этот принцип верен для тех систем, последующее движение которых полностью определяется их состоянием в текущий момент времени. К таким системам относятся, например, управляемые системы, т.е. системы, которые описываются системой дифференциальных уравнений ж = у(в,и)., (8.1) т т т гдет=(хь ...,ж„); у=(зь ..., .(а), :и=(иь ...,и„) .
Состояние такой системы описывается точкой т фазового пространства, а движение это некоторая траектория ж(1) в 275 8,Ь Принцип ццтимяльяосля фазовом пространстве (фазовая траектория). Принцип оптимальности также распространяется на дискретные системы, которые описывая>тся конечно-разностными уравнениями. В таких системах роль времени играет дискретный параметр. Принцип оптимальности отражает важнейшие особенности задач оптимального управления.
Его суть можно объяснять по-разному. Ввиду его важности приведем несколько формулировок. Первая формулировка. Если управление оптимально, то, каковы бы ни были первоначальное состояние системы и управление системой в начальный момент времени, последующее управление оптимально относительно состояния, которое система примет в результате начального управления.
Указанное свойство одно из основных для процессов марковского типа, т.е. процессов, будущее поведение которых полностью определяется состоянием и управлением в настоящее время. Вторая формулировка. Оптимальное управление в любой момент времени не зависит от предыстории системы и определяется только состоянием системы в этот момент и целью управления. Под целью управления в данном случае понимается требование, которому должна удовлетворять система, движение которой определяется управлением. Это может быть приведение системы в заданное состояние или обеспечение определенных условий движения в течение заданного периода времени. Еще один вариант принципа оптимальности дадим для задачи оптимального управления с фиксированным временем и свободным правым концом. Пусть закон движения описывается автономной системой дифференциальных уравнений (8.1), причем заданы начальный 11 и конечный 1я моменты времени, а также начальное состояние х(1~) = х'.
Целевой функционал 276 8. МЕТОД ДИНАГИИНЕСКОГО НРОГРАМГИИРОВАНИЯ определим следующим образом: С2 1[х,и) = Т (х,и)Ж. (8.2) Третья формулировка. Начиная с любого момента времени с' И [с1,1г[, участок оптимальной траектории х*(с), 1 е Е [1м 1г[ от точки х*(1~) до точки х*(1з) также является оптималь- хдИ) х иду) ной траекторией (рис. 8.1). ) Другими словами, каково бы ни было положение точки х'(с') х! = хдб) на оптимальной фазовой траек- О тории, ее участок от точки х'(с') (участок 2 на рис.
8.1) тоже являРис. 8.1 ется оптимальной траекторией. Что же касается участка 1 оптимальной траектории до точки х*(с'), то можно утверждать, что этот участок есть оптимальная траектория, когда точка х*(с') = х' является фиксированной (как, например, в многоточечных задачах управления), т.е. когда по условию задачи допустимая траектория обязательно должна проходить через точку х'. Если же задана только начальная точка х"'(1~ ) = х, то участок 1 оптимальной траектории сам по себе может и не быть оптимальной траекторией, т.е, может не доставлять максимум функционаяу ,У1[х,и[ = Т (х,и)й в задаче со свободным правым концом. Таким образом, важно иметь в виду.
что принцип оптимальности относится к последующему за данным состоянием движению системы, но может нарушаться для движения, предшествующего данному состоянию. 277 8Л. Принцип оптимальности Принцип оптимальности в третьей формулировке для некоторого класса задач уже обсуждался в качестве свойства оптимальных траекторий (см. 7.1). Отметим еще одну особенность оптимального управления, вытекающую из принципа оптимальности: выбор оптимального управления определяется лишь состоянием системы в текущий момент времени. Если в какой-то период времени управление было неоптимальным,то последствия этого в будущем исправить уже нельзя.
Пример 8.1. Рассмотрим простейший вариант дискретной задачи распределения ресурсов и покажем, как можно использовать принцип оптимальности. Производственно-экономический процесс состоит в следующем. Некоторая на шльная сумма денег я = х~ затрачивается на приобретение оборудования двух типов А и В, с помощью которого организуется производство. Пусть на оборудование типа А выделена сумма им О < и~ < хм тогда за определенное время его эксплуатации будет получен экономический эффект д(и~).
Оставшаяся сумма х~ — и~ пойдет на приобретение оборудования типа В, которое за тот же период времени даст экономический эффект 6(х~ — и~). К концу срока эксплуатации суммарный экономический эффект составит В~(хми~) =9(и~)+6(х~ — и~). По истечении срока эксплуатации оборудование реализуют, за оборудование типа А выручают сумму аим О < а < 1, а за оборудование типа В - — сумму б(х~ — и~), О < б < 1.