Лекции по ОУ (1050564), страница 10
Текст из файла (страница 10)
гамильтониан не достигает на оптимальном управлениисвоего максимума [5]. И все же при определенных условиях принцип максимума имеет место и в дискретном случае. Далее приведем формулировку принципа максимума для некоторых дискретных задач оптимального управления.Рассмотрим следующую задачу оптимального управления с закрепленным левым концом:x(t + 1) = f ( x(t ), u (t )), t = 0, K, T − 1 ,x(0 ) = x0 ,u (t ) ∈ U ,J ( x, u ) =(3.5.1)(3.5.2)(3.5.3)T −1∑ f (x(t ), u(t )) + Φ(x(T )) → min .0(3.5.4)t =0Предполагается, что функции f ( x, u ), f 0 ( x, u ) и Φ ( x ) непрерывны и имеют непрерывные частные производные по всем своим переменным, множествоU ограничено и замкнуто.
Как и в непрерывном случае, введем в рассмотрениефункцию Гамильтона:H ( x, u , ψ ) = (ψ, f ( x, u )) − f 0 ( x, u ) .50Пусть u = {u (0 ), u (1),K , u (T − 1)} – некоторое дискретное управление,x = {x(0 ), x(1),K , x(T )} – соответствующая этому управлению дискретная траектория при начальном условии x(0 ) = x0 . Паре ( x, u ) поставим в соответствиеразностную систему для вспомогательных переменных ψ(t ) = (ψ1 (t ),K , ψ n (t )) :Tψ(t ) = −∂H ( x(t ), u (t ), ψ(t + 1)), t = 0, K, T − 1,∂xкоторая называется сопряженной для системы (3.5.1), а переменныеψ1 (t ), K, ψ n (t ) – сопряженными переменными.
Кроме этих понятий понадобится понятие множества достижимости для дискретных систем.Определение 3.5.1. Множеством достижимости за один шаг системы(3.5.1) при ограничении (3.5.3) называется множество всех состояний x(1) впространстве E n , в которые можно перевести точку a за один шаг с помощьюдопустимых управляющих воздействий u (0 ) :{}R1 = x(1) ∈ E n : x(1) = f (a, u (0 )), u (0 ) ∈ U .1. Пусть в задаче (3.5.1) – (3.5.4) функция f 0 ( x, u ) = 0 , т.е. будем рассматривать задачу минимизации конечного состояния:x(t + 1) = f ( x(t ), u (t )), t = 0, K, T − 1 ,x(0 ) = x0 ,u (t ) ∈ U , t = 0,K , T − 1 ,J ( x, u ) = Φ ( x(T )) → min .(3.5.5)(3.5.6)(3.5.7)(3.5.8)Теорема 3.5.1.
Пусть ( xˆ , uˆ ) – решение задачи (3.5.5) – (3.5.8) и пустьмножества достижимости за один шаг системы (3.5.5) выпуклы при любомa ∈ E n . Тогда выполняется условие максимума:∀t = 0, K , T − 1 H ( xˆ (t ), uˆ (t ), ψ(t + 1)) = max H ( xˆ (t ), v, ψ(t + 1)) ,где ψ(t ) – решение сопряженной системыψ(t ) = −v∈U∂H ( xˆ (t ), uˆ (t ), ψ(t + 1))∂x(3.5.9)при граничном условии∂Φ ( xˆ (T )).(3.5.10)∂x2. Пусть в задаче (3.5.5) – (3.5.8) дискретная система линейна по управлению, т.е.
имеем задачу:ψ(T ) = −x(t + 1) = f ( x(t )) + B( x(t ))u (t ), t = 0,K, T − 1 ,x(0 ) = x0 ,u (t ) ∈ U , t = 0,K , T − 1 ,51(3.5.11)(3.5.12)(3.5.13)J ( x, u ) = Φ ( x(T )) → min ,(3.5.14)где B( x(t )) – матрица размерности n × m .Теорема 3.5.2. Пусть ( xˆ , uˆ ) – решение задачи (3.5.11) – (3.5.14,) и пустьмножество U в условии (3.5.13) выпукло. Тогда выполняется условие∀t = 0,K, T − 1 max(ψ(t + 1), B( xˆ (t ))v ) = (ψ(t + 1), B( xˆ (t ))uˆ (t )) ,v∈U(3.5.15)где ψ(t ) – решение задачи (3.5.9) – (3.5.10).Эта теорема вытекает из предыдущей, поскольку в предположении выпуклости множества U множества достижимости на каждом шаге будут выпуклы.
Кроме того, условие (3.5.15) означает условие максимума, так как вданном случае гамильтониан имеет вид:H ( x, u, ψ ) = (ψ, f ( x )) + (ψ, B( x )u ) .Первое слагаемое в правой части не зависит от u (t ) , поэтому оно не влияет наточку максимума.3. Рассмотрим задачу, линейную по переменным состояния:x(t + 1) = A(u (t )) x(t ) + ϕ (u (t )), t = 0,K, T − 1 ,x(0 ) = x 0 ,u (t ) ∈U , t = 0,K, T − 1 ,J ( x, u ) = (a, x(T )) → min ,(3.5.16)(3.5.17)(3.5.18)(3.5.19)где A(u (t )) – матрица размерности n × n , a – n -вектор.
Выпишем для этой задачи гамильтониан:H ( x, u , ψ ) = (ψ, A(u )x ) + (ψ, ϕ(u )) .Следовательно, сопряженная система имеет видψ(t ) = − AT (u (t ))ψ (t + 1) ,(3.5.20)ψ(T ) = −a .(3.5.21)Теорема 3.5.3. Если ( xˆ , uˆ ) – решение задачи (3.5.16) – (3.5.19), то выполняется условие максимума:max H ( xˆ (t ), v,ψ (t + 1)) = H ( xˆ (t ), uˆ (t ),ψ (t + 1)), t = 0,K, T − 1 ,v∈Uгде ψ(t ) – решение системы (3.5.20) с начальным условием (3.5.21).4. Для системы, линейной по управлению, рассмотрим суммарный критерий качества, т.е.
имеем задачу:x(t + 1) = f ( x(t )) + B( x(t ))u (t ), t = 0,K , T − 1 ,x(0 ) = x0 ,(3.5.22)(3.5.23)52u (t ) ∈U , t = 0,K, T − 1 ,J ( x, u ) =T −1∑ f 0 (x(t ), u (t )) → min .(3.5.24)(3.5.25)t =0Функция Гамильтона в данном случае имеет видH ( x, u , ψ ) = (ψ, f ( x )) + (ψ, B( x )u ) − f 0 ( x, u ) .Теорема 3.5.4.
Пусть в задаче (3.5.22) – (3.5.25) множество U выпукло,функция f 0 выпукла по совокупности переменных x, u . Тогда если ( x̂, û ) – оптимальная пара, то выполняется условие∀t = 0,K, T − 1 max[(ψ(t + 1), B( xˆ(t ))v ) − f 0 ( xˆ(t ), v)] = (ψ(t + 1), B( xˆ(t ))uˆ(t )) − f 0 ( xˆ(t ), uˆ (t )) ,v∈Uгде сопряженные переменные ψ (t ) удовлетворяют системеψ(t ) = −∂H ( xˆ (t ), uˆ (t ), ψ(t + 1)), t = 0,K, T − 1∂xс граничным условиемψ(T ) = 0 .3.6. Примеры решения задач оптимального управленияс помощью принципа максимумаПрименим изложенную теорию к решению нескольких задач вида (3.2.1)– (3.2.4). Так как принцип максимума дает необходимые условия оптимальности, то, применяя его, мы можем в общем случае найти лишь управления, «подозрительные» на оптимальные.
Однако в рассматриваемых задачах найденныеуправления будут действительно оптимальны, так как в этих случаях условияпринципа максимума будут не только необходимы, но и достаточны.Пример 1. Задача с закрепленным левым концом без ограничений науправление:dx= − x(t ) + u (t ),dtx ( 0) = x 0 ,t ∈[0, T ],T1J ( x, u ) = ( x 2 (t ) + u 2 (t )) dt + bx (T ) → min,20∫53здесь x(t ), u (t ) – скалярные функции, b – числовой коэффициент. В данном1случае U = E 1 , f = − x + u , f 0 = ( x 2 + u 2 ), g 0 = bx(T ).
Как было показано в2п. 3.3, для задачи с закрепленным левым и свободным правым концом множитель λ 0 =1, а так как f – скалярная функция, то функция Гамильтона рассматриваемой задачи имеет вид11H ( x, u , ψ) = ψ ( − x + u ) − x 2 − u 2 .22Найдем точку максимума функции H по u . Поскольку ограничения науправление нет, можно воспользоваться необходимым условием экстремума –∂Hравенством нулю производной:∂u∂H ( x, u , ψ)= ψ −u = 0 .∂uТаким образом, функция H ( x, u , ψ) достигает своего максимума приu = ψ.(3.6.1)∂2H= − 1 < 0.∂u 2Запишем уравнение (3.2.15) краевой задачи принципа максимума для нашего случая:Это действительно точка максимума, посколькуdx= − x(t ) + ψ (t ).dtДалее, так каквид∂H ( x, u , ψ)= − ψ − x, то сопряженное уравнение (3.2.16) имеет∂xdψ= ψ (t ) + x (t ).dtНаконец, условием трансверсальности, согласно (3.3.12), (3.3.13), будет условиеψ (T ) = − b.Теперь составим краевую задачу принципа максимума:dx= − x (t ) + ψ (t ) ,dt(3.6.2)dψ= x (t ) + ψ (t ) ,dt(3.6.3)54x (0) = x0 ,(3.6.4)ψ (T ) = − b .(3.6.5)Найдем общее решение системы первых двух уравнений.
Для этого приведем ее к одному уравнению 2-го порядка. Продифференцируем уравнение(3.6.2):d 2xdx dψ=− +.2dt dtdtПодставим сюда выражение дляdψиз (3.6.3):dtdxd 2x= − + x(t ) + ψ (t ) .2dtdt(3.6.6)Теперь из (3.6.2) выразим ψ (t ) :ψ (t ) =dx+ x(t )dt(3.6.7)и подставим в (3.6.6). Получим:dxdxd 2x= − + x (t ) + + x (t ) = 2 x (t ).2dtdtdtТем самым мы исключили переменную ψ (t ) из уравнения (3.6.2) и пришли куравнению 2-го порядка:d 2x− 2 x (t ) = 0 .dt 2(3.6.8)Это линейное, однородное уравнение с постоянными коэффициентами.Его характеристическое уравнение λ 2 − 2 = 0 имеет два различных действительных корня: λ1 = 2 , λ 2 = − 2 , поэтому общее решение уравнения (3.6.8) имеетвидx (t ) = c1e 2t + c 2 e − 2t ,где c1 , c 2 – произвольные постоянные.Подставим найденную функцию x (t ) и ее производную в (3.6.7). Получим:ψ (t ) = c1 2 e2t− c2 2 e −2t+ c1 e2t+ c2 e −2t= c1 ( 2 + 1) e2t+ c 2 (− 2 + 1) e −Таким образом, найдено общее решение системы (3.6.2), (3.6.3):x (t ) = c1e2t+ c2 e −552t,(3.6.9)2t.+ c 2 (1 − 2 ) e −2tψ (t ) = c1 (1 + 2 ) e2t.(3.6.10)Осталось найти постоянные c1 , c 2 , для чего воспользуемся краевыми условиями (3.6.4), (3.6.5).
Имеемx(0) = c1 + c2 = x0 ,ψ (T ) = c1 (1 + 2 ) e+ c 2 (1 − 2 ) e −2T2T=−b .Из этих двух равенств легко найти c1 , c2 :c1 =c2 = −x0 (1 − 2 ) + b e2 T1 − 2 − (1 + 2 ) e 2x0 (1 + 2 ) e 22T2T+be1 − 2 − (1 + 2 ) e 2,2T2T.Подставим найденные постоянные в (3.6.9), (3.6.10). После преобразования получим формулы для оптимальной траектории xˆ (t ) и оптимального управленияuˆ (t ) (так как согласно (3.6.1) uˆ (t ) = ψ (t ) ):xˆ (t ) = x0 euˆ (t ) = x02t(1 − 2 ) + (1 + 2 ) e 21 − 2 − (1 + 2 ) e 2e2t−e2 ( 2T −t )2 − 1 + ( 2 + 1) e 22T2 (T − t )2T− be+ be2Te2Te2t2t− e−2t1 − 2 − (1 + 2 ) e 22T(1 + 2 ) + e − 2 (1 − 2 )2 − 1 + (1 + 2 ) e2T,.Пример 2. Задача с закрепленным левым концом и ограничением науправление:dx⎡ 7π ⎤= u (t ),t ∈ ⎢0; ⎥,dt⎣ 4⎦x(0) = 0,⎡ 7π ⎤t ∈ ⎢0; ⎥,⎣ 4⎦u (t ) ≤ 1,7π4J ( x, u ) =∫ x(t ) sin t dt → min .0Здесь x(t ), u (t ) – скалярные функции.
Рассматриваемая задача являетсячастным случаем задачи (3.2.1) – (3.2.4), в которой U=[–1,1],f = u, f 0 = x sin t , g 0 = 0. Так же, как и в предыдущем примере, множительλ 0 = 1 . Составим гамильтониан:56H ( x, u , ψ, t ) = ψ u − x sin t.При фиксированном t это линейная функция по u . На отрезке [−1, 1] она достигает максимума в концевых точках, в зависимости от знака коэффициента ψ ,а именно, если ψ > 0 , максимум достигается в точке u = 1 , если же ψ < 0 , томаксимум достигается в точке u = −1 (рис.3).HHψ>0–1ψ<001u–101uРис. 3Таким образом, для оптимального управления uˆ (t ) имеем⎧ 1, если ψ (t ) > 0 ;uˆ (t ) = ⎨⎩− 1, если ψ (t ) < 0 .(3.6.11)При ψ = 0 функция H ( x, u , ψ, t ) от u не зависит, и условие максимума (3.2.9)не дает никакой информации об оптимальном управлении.∂H ( x, u , ψ, t )Так как= − sin t , то сопряженное уравнение имеет вид∂xdψ= sin t.dt(3.6.12)Согласно (3.6.11), система уравнений (3.2.15), (3.2.16) краевой задачи принципамаксимума распадается на две системы:⎧ dx⎪ dt = 1,⎪⎪ dψ⎨ = sin t ,⎪ dt⎪ψ (t ) > 0,⎪⎩⎧ dx⎪ dt = −1,⎪⎪ dψ⎨ = sin t ,⎪ dt⎪ψ (t ) < 0.⎪⎩(3.6.13)Сюда нужно присоединить начальное условие x(0) = 0 и условие трансверсальности:⎛ 7π ⎞ψ⎜ ⎟ = 0.⎝ 4 ⎠57(3.6.14)Уравнение (3.6.12) для сопряженного переменного ψ (t ) не зависит от состояния x(t ) , поэтому можно найти его решение, удовлетворяющее условию(3.6.14).
Общее решение уравнения (3.6.12) имеет видψ (t ) = − cos t + C ,где C – произвольная постоянная. Найдем ее из условия (3.6.14):7π⎛ 7π ⎞ψ⎜ ⎟ = − cos+ C = 0,4⎝ 4 ⎠отсюдаC = cos7ππ⎞π2⎛= cos ⎜ 2π − ⎟ = cos =.44⎠42⎝Таким образом, получили:2⎡ 7π ⎤, t ∈ ⎢0; ⎥ .2⎣ 4⎦Теперь найдем промежутки времени, на которых ψ (t ) отрицательна иположительна. Это легко сделать, используя график функции ψ (t ) (рис. 4).ψ (t ) = − cos t +ψ(t)10π4π2π7π 2π4t–1Рис. 4Пунктирной линией на рис. 4 обозначен график функции ψ (t ) = − cos t ,сплошной линией – график функции ψ (t ) = − cos t +2.
Из графика видно, что2⎛ π 7π ⎤⎡ π⎞при t ∈ ⎢0; ⎟ ψ (t ) < 0 , а при t ∈ ⎜ ; ⎥, ψ (t ) > 0. Следовательно, для опти⎝4 4 ⎦⎣ 4⎠мального управления получим:⎧⎡ π⎞1,еслиt−∈⎪⎢⎣0; 4 ⎟⎠ ,⎪uˆ (t ) = ⎨⎪ 1, если t ∈ ⎛⎜ π ; 7 π ⎤ .⎪⎩⎝ 4 4 ⎥⎦58πуправление uˆ (t ) не определено. Это точка разрыва оптималь4ного управления.При t =Осталось найти оптимальную траекторию xˆ (t ) . Сначала рассмотрим уча⎛ π⎞сток ⎜ 0; ⎟. Здесь ψ (t ) < 0 , поэтому, согласно (3.6.13), оптимальная траектория⎝ 4⎠dx= −1.