Лекции по ОУ (1050564), страница 12
Текст из файла (страница 12)
Пусть, двигаясь по оптимальной траектории, мы пришли в момент времени t1 в точку x1 фазового пространства. Если примем x1 за начальную точку и будем решать ту же задачу,начиная с момента t1 , т.е. задачу (4.1.4) – (4.1.6), то можно показать, что оптимальная траектория для нее совпадает с первоначальной.Теорема 4.1.2. Функция Беллмана задачи (4.1.1) – (4.1.3) удовлетворяетследующим рекуррентным соотношениям:⎡tk +1⎤T2ψ k ( x k ) = min ⎢ ( x (t ) Mx(t ) + u k )dt +ψ k +1 ( x(t k +1 ))⎥ , k = 0,1, ..., N − 1 ,uk ⎢⎥⎦⎣ tk∫ψ N ( xN ) = 0 ,где x(t ) – решение на отрезке [t k , t k +1 ] задачи Коши:67(4.1.13)(4.1.14)dx= Ax(t ) + bu k , t k ≤ t ≤ t k +1 ,dtx(t k ) = xk .(4.1.15)(4.1.16)Доказательство.
Обозначим через I k ( xk , uk ) функционал в квадратныхскобках (4.1.13):t k +1I k ( xk , u k ) =∫ (xT(t ) Mx(t ) + u k2 )dt +ψ k +1 ( x(t k +1 )) .tkПо определению функции Беллмана имеемTψ k +1 ( x(t k +1 )) = min J k +1 = minu∈U k +1u∈U k +1∫ (xT(t ) Mx(t ) + u 2 (t ))dt .tk +1Пусть минимум в правой части равенства достигается на паре ( ~x , u~ ) , т.е.Tψ k +1 ( x(t k +1 )) =∫ ( ~xT(t ) M~x (t ) + u~ 2 (t ))dt .tk +1Возьмем произвольные u k = const и построим управление:t k ≤ t < t k +1 ,⎧u k ,u (t ) = ⎨~⎩u (t ), t k +1 ≤ t ≤ T .Этому управлению будет соответствовать траектория:t k ≤ t < t k +1 ,⎧ x(t ),x (t ) = ⎨~⎩ x (t ),t k +1 ≤ t ≤ T .По свойству минимума имеемT∫ψ k ( xk ) ≤ [ x T (t ) Mx (t ) + u 2 (t )]dt =tktk +1∫TT= [ x (t ) Mx(t ) +tku k2 ]dt+∫ [~xT(t ) M~x (t ) + u~ 2 (t )]dt =tk +1t k +1=∫[xT(t ) Mx (t ) + uk2 ]dt + ψ k +1 ( x (t k +1 )) = I k ( xk , uk ) .tkТаким образом, при любом u k = const68ψ k ( xk ) ≤ I k ( xk , u k ) ,а это означает, чтоψ k ( xk ) = min I k ( xk , uk ) .ukТеорема доказана.Определение 4.1.2.
Рекуррентные соотношения (4.1.13), (4.1.14) называются уравнением Беллмана. Задача (4.1.13), (4.1.14) – задачей Коши – Беллмана.Покажем теперь, как с помощью уравнения Беллмана можно построитьоптимальную траекторию и оптимальное управление. Учитывая (4.1.14), дляψ N −1 ( x N −1 ) имеемTψ N −1 ( x N −1 ) = minu N −1∫ (xT(t ) Mx(t ) + u N2 −1 )dt ,(4.1.17)t N −1где x(t ) – решение на отрезке [t N −1 , T ] задачи Коши:dx= Ax(t ) + bu N −1 ,dtx(t N −1 ) = x N −1 .Пусть минимум в правой части (4.1.17) достигается на управлении u N −1 .Очевидно, что оно будет зависеть от переменной x N −1 : u N −1 = u N −1 ( x N −1 ) . Найдяu N −1 = u N −1 ( x N −1 ) , вычислим ψ N −1 ( x N −1 ) и перейдем к ψ N −2 :t N −1ψ N −2 ( x N −2 ) = minuN −2∫ (xT(t ) Mx(t ) + u N2 −2 )dt + ψ N −1 ( x(t N −2 )) .tN −2Найдя управление u N −2 = u N −2 ( x N −2 ) , на котором достигается минимум вправой части последнего равенства, вычислим ψ N −2 ( x N −2 ) и т.д.
Таким образом, мы можем последовательно определить функции Беллмана ψ N −1 ( x N −1 ) ,ψ N −2 ( x N −2 ) , …, ψ1 ( x1 ) , ψ 0 ( x0 ) как функции переменных x N −1 , x N −2 , …, x1 , x0соответственно. Одновременно получим последовательность управленийu N −1 ( x N −1 ) , u N −2 ( x N −2 ) , …, u1 ( x1 ) , u 0 ( x0 ) ,(4.1.18)доставляющих минимум в (4.1.13). Далее возьмем в качестве x0 вектор а из условия (4.1.2) и обозначим u 0 (a ) = uˆ 0 .
Рассмотрим на отрезке [0, t1 ] задачуКоши:69dx= Ax(t ) + buˆ 0 ,dtx ( 0) = a .Обозначим решение этой задачи xˆ 0 (t ) . Вычислим xˆ0 (t1 ) , а затем из (4.1.18)u1 ( xˆ 0 (t1 )) . Обозначим: xˆ 0 (t1 ) = xˆ1 , u1 (xˆ1 ) = û1 . На отрезке [t1 , t 2 ] найдем решениеxˆ1 (t ) задачи Коши:dx= Ax(t ) + buˆ1 ,dtx(t1 ) = xˆ1 .Вычислим xˆ1 (t 2 ) , а затем u 2 ( xˆ1 (t 2 )) из (4.1.18). Обозначим xˆ1 (t 2 ) = xˆ 2 ,u 2 ( xˆ 2 ) = uˆ 2 .
Теперь перейдем к отрезку [t 2 , t3 ] и т.д. На k-м шаге мы должнырешить задачу Коши:dx= Ax(t ) + buˆ k , t ∈ [t k , t k +1 ] ,dtx(t k ) = xˆ k ,где xˆ k = xˆ k −1 (t k ) , uˆ k = u k ( xˆ k ) .В результате проделанных вычислений получим последовательности:xˆ 0 = a, xˆ1 , ..., xˆ N ,uˆ 0 = u 0 (a), uˆ1 = u1 ( xˆ1 ), ..., uˆ N −1 = u N −1 ( xˆ N −1 ) ;xˆ 0 (t ), xˆ 2 (t ), ..., xˆ N (t ) .(4.1.19)(4.1.20)Последовательность (4.1.19) можно рассматривать как кусочнопостоянное управление uˆ (t ) , которому соответствует, согласно построениям,траектория xˆ (t ) , определенная в (4.1.20).Теорема 4.1.3.
Кусочно-постоянное управление uˆ (t ) , определенное в(4.1.19), и соответствующая ему траектория xˆ (t ) являются оптимальнымидля задачи (4.1.1) – (4.1.3).Доказательство. Рассмотрим вспомогательные функции, определенныеформулойtk +1∫Rk (u k ) = [ x T (t ) Mx(t ) + u k2 ]dt + ψ k +1 ( x(t k +1 )) − ψ k ( xk ) , k = 0, 1, ..., N − 1 , (4.1.21)tkгде xk , x(t ) определяются следующим образом. Для R0 (u0 ) : x0 = a , x(t ) – решение задачи Коши:dx= Ax(t ) + bu 0 , 0 ≤ t ≤ t1 ,(4.1.22)dt70x ( 0) = a .Для R1 (u1 ) : x1 = x(t1 ) – значение в момент t1 решения задачи (4.1.22), x(t ) –решение задачи Коши:dx= Ax(t ) + bu1 , t ∈ [t1 , t 2 ] ,dtx(t1 ) = x1 .Для Rk (u k ) имеем xk – значение в момент t k решения соответствующей задачиКоши, x(t ) – решение задачи Коши:dx= Ax(t ) + bu k , t k ≤ t ≤ t k +1 ,dtx(t k ) = xk .Из построения последовательностей (4.1.19), (4.1.20) следует, чтоmin Rk (u k ) = R(uˆ k ) .uk(4.1.23)Просуммируем функции Rk (u k ) по k от 0 до N − 1 .
Согласно (4.1.21) будемиметьN −1∑ R (ukk =0k)=N −1 ⎡tk +1∑ ⎢⎢ ∫ [ xT(t ) Mx(t ) +k =0 ⎣ tku k2 ]dt⎤+ ψ k +1 ( x(t k +1 )) − ψ k ( xk )⎥ =⎥⎦T∫= ( x T (t ) Mx(t ) + u 2 (t ))dt + ψ1 ( x(t1 )) − ψ 0 ( x0 ) + ψ 2 ( x (t 2 )) − ψ1 ( x1 ) + ... +0+ ψ N ( x (t N )) − ψ N −1 ( x N −1 ) .Здесь u (t ) – кусочно-постоянное управление: u (t ) = u k (t ) , t k ≤ t < tk +1 ,x(t ) – соответствующая ему траектория. Таким образом, для произвольного кусочно-постоянного управления u (t ) получим:TN −1∑ R (ukk =0k)∫= [ x T (t ) Mx(t ) + u 2 (t )]dt − ψ 0 ( x0 ) ,0илиJ ( x, u ) =N −1∑ R (ukk)+ ψ 0 ( x0 ) .k =0Если в качестве u (t ) взять uˆ k (t ) , то будем иметь71J ( xˆ , uˆ ) =N −1∑ R (uˆkk)+ ψ 0 ( x0 ) .k =0Следовательно,J ( x, u ) − J ( xˆ , uˆ ) =N −1∑[ R (ukk)− Rk (uˆ k )] .k =0На основании (4.1.23) получим:J ( x, u ) − J ( xˆ , uˆ ) ≥ 0 .Значит, ( xˆ , uˆ ) – оптимальная пара для задачи (4.1.1) – (4.1.3).Теорема доказана.4.2.
Метод динамического программированиядля нелинейных системРассмотрим следующую задачу оптимального управления:dx= f ( x(t ), u (t ), t ), t ∈ [t 0 , t1 ] ,dtx(t 0 ) = x0 ,u (t ) ∈ U ,(4.2.1)(4.2.2)(4.2.3)t1J ( x, u ) = F ( x(t ), u (t ), t ) dt + Φ( x(t1 ) ) → min .∫(4.2.4)t0Здесь ∀t ∈ [t 0 , t1 ], x(t ) ∈ E n , u (t ) ∈ E m , U ⊂ E m – заданное множество,f ( x, u , t ) – та же, что в п.1.3, F ( x, u , t ), Φ ( x) – непрерывные по совокупностисвоих аргументов функции, управления u (t ) – кусочно-непрерывные функции.Зафиксируем на отрезке [t 0 ,t1 ] момент времени τ и рассмотрим вспомогательную задачу, определенную на отрезке [τ,t1 ] :dx= f ( x(t ), u (t ), t ) ,dtx(τ) = y ,u (t ) ∈ U ,(4.2.6)(4.2.7)J ( x, u ) = F ( x(t ), u (t ), t ) + Φ( x(t1 ) ) → min ,(4.2.8)τ(4.2.5)t1∫τ72где y – произвольный n -вектор, u (t ) – кусочно-непрерывные функции, задан-ные на отрезке [τ,t1 ] .
Очевидно, критерий качества J τ , а следовательно, и егоминимальное значение зависит от точки τ и вектора y .Определение 4.2.1. Функцияψ( y, τ) = min J τ ( x, u )u∈Uназывается функцией Беллмана для задачи (4.2.1) – (4.2.4).Приведем без доказательства формулировки основных теорем.Теорема 4.2.1. (Принцип оптимальности). Если ( xˆ (t ), uˆ (t ) ) – решениевспомогательной задачи (4.2.5 – -(4.2.8), то имеет место соотношение:τ + Δτψ ( y , τ) =∫ F (xˆ (t ), uˆ (t ), t )dt + ψ(xˆ (τ + Δτ), τ + Δτ) .τТеорема 4.2.2.
Пусть функция ψ ( y, τ) непрерывно дифференцируема пообеим переменным. Тогда она удовлетворяет уравнению в частных производных:minu∈U⎤⎡⎛ ∂ψ( y, τ)⎞ ∂ψ ( y, τ),f(y,u,)F(y,u,)⎜τ⎟++τ⎥=0⎢⎜⎟y∂∂τ⎝⎠⎦⎣(4.2.9)и краевому условию:ψ( y, t1 ) = Φ ( y ).(4.2.10)Уравнение (4.2.9) называется уравнением Беллмана, задача (4.2.9), (4.2.10)– задачей Коши – Беллмана.Таким образом, в динамическом программировании существенную рольиграет предположение о непрерывной дифференцируемости функции Беллмана, что выполняется далеко не всегда.