Лекции по ОУ (1050564), страница 7
Текст из файла (страница 7)
Легко показать, что для вектор-функций справедливаформула интегрирования по частям:t1dv ⎞⎛⎜ u (t ), ⎟dt = (u (t ), v(t ))dt ⎠⎝t0∫t1t0t1⎛ du⎞− ⎜ , v(t )⎟dt ,⎠⎝ dtt0∫где u (t ), v(t ) ∈ E n . Действительно, если запишем скалярное произведение в координатах и воспользуемся свойством определенного интеграла, то получим:t1dv ⎞⎛⎜ u (t ), ⎟dt =dt ⎠⎝t0∫n t1∑∫i =1 t0dvui (t ) i dt =dtt1⎡⎤duit1⎢ui (t )vi (t ) t −vi (t )dt ⎥ =0dt⎢⎥⎦i =1 ⎣t0n∑∫t1⎛ du⎞= (u (t ), v(t )) t − ⎜ , v(t )⎟dt.0⎝ dt⎠t0t1∫Используя полученную формулу, подсчитаем:t1t1dt1⎞⎛⎞⎛ dψ, Δx(t )⎟dt =⎜ ψ(t ), Δx(t )⎟dt = (ψ (t ), Δx(t )) t0 − ⎜dt⎠⎝⎠⎝ dtt0t0∫∫t1⎛ dψ⎞= (ψ (t1 ), Δx(t1 )) − (ψ (t 0 ), Δx(t 0 )) − ⎜, Δx(t )⎟dt.⎝ dt⎠t0∫Отсюда, учитывая условия (3.1.7) и (3.1.9), будем иметьd⎛ ∂ϕ( x(t1 ))⎞⎛⎞⎛ dψ⎞, Δx(t1 )⎟ .Δx(t )⎟dt = −⎜⎜ ψ (t ), Δx(t )⎟dt + ⎜dt⎝⎠⎝ dt⎠⎝ ∂x⎠t0t0t1∫t1∫Лемма доказана.Таким образом, в результате варьирования управления изменяется траектория системы (3.1.1), (3.1.2), при этом приращение траектории связано с решением сопряженной системы формулой (3.1.10).
Рассмотрим теперь изменениекритерия качества (3.1.4), получающееся в результате изменения управления.Пусть опять u , u~ – два допустимых управления, x, ~x – соответствующие траектории, удовлетворяющие (3.1.1), (3.1.2). ОбозначимΔJ ( x, u ) = J (~x , u~ ) − J ( x, u ) .Эта разность называется приращением критерия качества.Теорема 3.1.1. Для приращения критерия качества задачи (3.1.1) – (3.1.4)справедлива формула31t1ΔJ ( x, u ) = − (ψ(t ), B(u~ (t ) − u (t )))dt + o( Δx(t1 ) ) ,∫(3.1.11)t0где ψ(t ) – решение сопряженной системы (3.1.8) с начальным условием (3.1.9).означает евклидову норму ( a = (a, a ) , a ∈ E n ) , функция о(а)o( a )⎯a⎯⎯→ 0 .определяется следующим образом:→0aДоказательство.
Так как ϕ( x ) – дифференцируемая функция n переменных, то для нее имеет место формула ТейлораЗдесь⎛ ∂ϕ( x )⎞ϕ( x + Δx ) = ϕ( x ) + ⎜, Δx ⎟ + o( Δx ) .⎝ ∂x⎠Следовательно,⎛ ∂ϕ( x(t1 ))⎞ΔJ ( x, u ) = ϕ(~x (t1 )) − ϕ( x(t1 )) = ⎜, Δx(t1 )⎟ + o( Δx(t1 ) ),⎝ ∂x⎠откуда по лемме 3.1.1:t1t1d⎛ dψ⎞⎛⎞ΔJ ( x, u ) = − ⎜, Δx(t )⎟dt − ⎜ ψ(t ), Δx(t )⎟dt + o( Δx(t1 ) ).dt⎝ dt⎠⎝⎠t0t0∫∫Приращение Δx(t ) удовлетворяет системе (3.1.5), а вектор сопряженныхпеременных – системе (3.1.8), поэтому будем иметьt1∫()ΔJ ( x, u ) = − − A ψ (t ), Δx(t ) dt −Tt0t1=t1∫ (ψ(t ), AΔx(t ) + BΔu(t ))dt + o( Δx(t ) ) =1t0t1t1t0t0∫ (A ψ(t ), Δx(t ))dt − ∫ (ψ(t ), AΔx(t ))dt − ∫ (ψ(t ), BΔu(t ))dt + o( Δx(t ) ).t0T1Так как матрица A вещественная, то для любых n -векторов y, z имеет()место равенство ( z , Ay ) = AT z , y . Следовательно, два первых слагаемых в последнем выражении для ΔJ ( x, u ) взаимно уничтожатся, и мы получим:t1ΔJ ( x, u ) = − (ψ(t ), BΔu (t ))dt + o( Δx(t1 ) ).∫t0Учитывая, что Δu (t ) = u~ (t ) − u (t ) , получим формулу (3.1.11).Теорема доказана.Замечание.
Если ϕ( x ) – выпуклая функция, то для приращения критериякачества имеет место оценка:32t1ΔJ ( x, u ) ≥ − (ψ (t ), B(u~ (t ) − u (t )))dt.∫t0Это неравенство непосредственно вытекает из (3.1.11), поскольку для выпуклойфункции остаточный член формулы Тейлора неотрицателен, то естьo( Δx(t1 ) ) ≥ 0 .Доказанную теорему можно сформулировать иначе, если использоватьпонятие гамильтониана.Определение 3.1.2. Функцией Гамильтона, или гамильтонианом системы(3.1.1) называется функция H ( x, u , ψ, t ) , которая получается при скалярном умножении вспомогательного вектора ψ на правую часть уравнения (3.1.1), т.е.H ( x, u, ψ,) = (ψ, Ax ) + (ψ, Bu ) .(3.1.12)Поскольку x, ψ ∈ E n , u ∈ E m , то гамильтониан является функцией 2n + m переменных.Теорема 3.1.2.
Приращение критерия качества задачи (3.1.1) – (3.1.4)удовлетворяет формулеt1ΔJ ( x, u ) = − [H ( x(t ), u~(t ), ψ(t )) − H ( x(t ), u (t ), ψ(t ))]dt + o( Δx(t1 ) ) ,∫(3.1.13)t0где ψ(t ) – решение сопряженной системы (3.1.8), удовлетворяющей условию(3.1.9).Доказательство. Пусть ψ(t ) – решение сопряженной системы (3.1.8) сусловием (3.1.9). К подынтегральной функции в (3.1.11) прибавим и вычтемвыражение (ψ (t ), Ax(t )) . Получим:ΔJ ( x, u ) = −t1∫ [(ψ(t ), Bu~(t )) − (ψ(t ), Ax(t )) + (ψ(t ), Ax(t )) − (ψ(t ), Bu(t ))]dt +t0t1+ o( Δx(t1 ) ) = − [H ( x(t ), u~ (t ), ψ(t )) − H ( x(t ), u (t ), ψ(t ))]dt + o( Δx(t1 ) ).∫t0Теорема доказана.До сих пор рассматривались произвольные вариации управления. Однакопри доказательстве принципа максимума особую роль играют вариации управления специального вида, так называемые игольчатые вариации.Определение 3.1.3.
Вариация Δu (t ) управления u (t ) называется игольчатой, если она определена следующим образом:⎧ 0, если t ∉ [ τ, τ + ε )Δu (t ) = ⎨⎩v − u (t ), если t ∈ [ τ, τ + ε ), v ∈U ,33где τ – внутренняя точка отрезка [t0 ,t1 ], ε – сколь угодно малое положительноечисло, причем, τ + ε < t1 (рис. 1).Рассмотрим возмущенное управление u~ (t ) = u (t ) + Δu (t ) , где Δu (t ) –игольчатая вариация. Из определения игольчатой вариации следует, что u~ (t )везде, кроме полуинтервала [τ, τ + ε ) , совпадает с u (t ) , а на [τ, τ + ε ) принимаетпостоянное значение v из множества U (рис. 2):⎧u (t ), t ∉ [τ, τ + ε ),u~ (t ) = ⎨⎩v ∈U , t ∈ [τ, τ + ε ).Очевидно, что если u (t ) допустимо, то и u~ (t ) допустимо.
Проследим теперь, как изменяется траектория при игольчатом варьировании управления. Какбыло показано ранее, приращение траектории Δx(t ) удовлетворяет уравнению(3.1.5) и начальному условию (3.1.7). Рассмотрим Δx(t ) отдельно на трех участках: [t0 , τ ), [τ, τ + ε ), [τ + ε, t1 ].u~ (t )Δuvu (t )u (t )t0t0ττ+εt1t0t0Рис. 1ττ+εt1Рис. 2Если t ∈ [t0 , τ ) , то Δu (t ) = 0 , поэтому для Δx(t ) имеем уравнениеdΔx(t ) = AΔx(t ) .dt(3.1.14)При нулевом начальном условии это уравнение имеет единственное решениеΔx(t ) ≡ 0 .(3.1.15)Если t ∈ [τ, τ + ε ) , то Δu (t ) = v − u (t ) , поэтому для Δx(t ) будем иметь уравнениеdΔx(t ) = AΔx(t ) + B(v − u (t )) .dt34(3.1.16)Так как Δx(t ) – непрерывная функция на отрезке [t0 ,t1 ], то за начальное условиедля уравнения (3.1.16) возьмемΔx(τ ) = 0 ,(3.1.17)что совпадает со значением Δx(t ) на предыдущем участке.
Если t ∈ [τ + ε , t1 ], тоΔu (t ) = 0 , и, следовательно, здесь Δx(t ) удовлетворяет уравнению (3.1.14) приначальном условии, совпадающим с решением задачи Коши (3.1.16), (3.1.17)при t = τ + ε .Лемма 3.1.2. Приращение траектории системы (3.1.1), вызванное игольчатой вариацией управления, при всех t ∈ [t0 ,t1 ] удовлетворяет оценкеΔx(t ) ≤ kε ,(3.1.18)где ε > 0 , k – постоянная величина, не зависящая от ε .Доказательство.
Для t ∈ [t0 , τ ) оценка (3.1.18) очевидна, поскольку здесьΔx(t ) ≡ 0 . Пусть t ∈ [τ, τ + ε ) , тогда для вычисления Δx(t ) , как только что говорилось, имеем задачу Коши (3.1.16), (3.1.17). Запишем ее решение по формулеКошиtΔx(t ) = e A(t − s ) B(v − u (s ))ds .∫(3.1.19)τНепосредственно из определения интеграла Римана вытекает неравенствоΔx(t ) ≤t∫τ eA(t − s )B(v − u (s )) ds .(3.1.20)Используя свойство согласованности норм [8], получим оценку подынтегральной функции:e A(t − s ) B(v − u (s )) ≤ e A(t − s ) ⋅ B ⋅ v − u (s ) .(3.1.21)Из определения экспоненциала следует, что на всем отрезке [t0 , t1 ] функцияe A(t − s ) ограничена, т.е. существует постоянная k1 , такая, чтоe A(t − s ) ≤ k1 .(3.1.22)Кроме того, так как множество U ограничено, то существует постоянная k 2 ,такая, что при всех s ∈ [τ, t ]v − u (s ) ≤ k 2 .(3.1.23)Норма матрицы B конечная величина, поэтому на основании (3.1.21) – (3.1.23)мы получим, что существует постоянная k3 , не зависящая от ε , и такая, чтоe A(t − s ) B(v − u (s )) ≤ k3 , s ∈ [τ, t ], t ∈ [τ, τ + ε ] .35Используя одно из основных свойств определенного интеграла, будем иметьt∫eτA(t − s )tB(v − u (s )) ds ≤ k3 ds = k3 (t − τ ) ≤ k3ε .∫τТеперь отсюда и из (3.1.20) можно записать оценку для Δx(t ) на участке[τ, τ + ε] :Δx(t ) ≤ k3ε .(3.1.24)Получим аналогичную оценку на отрезке [τ + ε,t1 ] , где Δx(t ) удовлетворяетуравнению (3.1.14) и начальному условию, равному значению Δx(t ) на концеотрезка [τ, τ + ε] , то есть Δx(τ + ε ) .
По формуле Коши имеемΔx(t ) = e A(t − (τ + ε ))Δx(τ + ε ) .Используя оценку для экспоненциала (3.1.22), а также оценку (3.1.24) дляΔx(τ + ε ) , получим:Δx(t ) ≤ k1k 3ε = k 4 ε ,где k 4 = k1k3 . Выберем k = max{k3 , k 4 } . Тогда для всех t ∈ [t 0 , t1 ] будет иметь место (3.1.18).Лемма доказана.Теорема 3.1.3. (Принцип максимума). Если ( xˆ (t ), uˆ (t )) – оптимальнаятраектория и оптимальное управление задачи (3.1.1) – (3.1.4), то существуетTвектор-функция ψ(t ) = (ψ1 (t ),K, ψ n (t )) , которая удовлетворяет сопряженному уравнениюdψ= − AT ψ(t ) ,(3.1.25)dtкраевому условию∂ϕ( xˆ (t1 ))(3.1.26)ψ(t1 ) = −∂xи такая, что выполняется условие максимума:H ( xˆ (t ), uˆ (t ), ψ(t )) = max H ( xˆ (t ), v, ψ(t ))v∈Uпри всех t ∈ [t0 ,t1 ].Доказательство. Пусть ( xˆ (t ), uˆ (t )) – решение задачи (3.1.1) – (3.1.4) (оптимальная пара) и пусть ψ(t ) – решение системы (3.1.25) с краевым условием(3.1.26).
Возьмем произвольное v ∈ U и образуем игольчатую вариацию согласно определению 3.1.3:⎧0, t ∉ [τ, τ + ε ),Δuˆ (t ) = ⎨⎩v − uˆ (t ), t ∈ [τ, τ + ε ),36где τ ∈ (t 0 , t1 ) . Тем самым получим возмущенное управление u~ (t ) = uˆ (t ) + Δuˆ (t ) ,которое является допустимым, а так как ( xˆ (t ), uˆ (t )) оптимальная пара, то выполняется неравенствоΔJ ( xˆ (t ), uˆ (t )) = J (~x , u~ ) − J ( xˆ , uˆ )≥ 0,(3.1.27)x (t ) – траектория, соответствующая управлению u~ (t ) .
Согласно теоремегде ~3.1.2 о приращении критерия качества, будем иметьt1ΔJ ( xˆ , uˆ ) = − [H ( xˆ (t ), u~(t ), ψ(t )) − H ( xˆ (t ), uˆ (t ), ψ(t ))]dt + o( Δxˆ (t1 ) ) .∫t0)Возмущенное управление u~ (t ) везде, кроме [τ, τ + ε] , совпадает с u (t ) , поэтомуΔJ ( xˆ , uˆ ) = −τ +ε∫ [H (xˆ(t ), v, ψ(t )) − H (xˆ(t ), uˆ(t ), ψ(t ))]dt + o( Δxˆ(t ) ).1τОбозначимH ( xˆ (t ), v, ψ(t )) − H ( xˆ (t ), uˆ (t ), ψ(t )) = Δ v H ( xˆ (t ), uˆ (t ), ψ(t )) .Известно, что гамильтониан является непрерывной функцией по t на оптимальном управлении. Следовательно, справедлива теорема о среднем:τ +ε∫ Δ H (xˆ(t ), uˆ(t ), ψ(t ))dt = Δ H (xˆ(θ ), uˆ(θ ), ψ(θ )) ⋅ ε ,vvτгде θ ∈ [τ, τ + ε ] .