Лекции по ОУ (1050564), страница 8
Текст из файла (страница 8)
Итак, для приращения критерия качества получим следующуюформулу:ΔJ ( xˆ , uˆ ) = −Δ v H ( xˆ (θ ), uˆ (θ ), ψ(θ ))ε + o( Δxˆ (t1 ) ) .(3.1.28)Рассмотрим теперь тождествоΔ v H ( xˆ (θ ), uˆ (θ ), ψ(θ )) ⋅ ε = Δ v H ( xˆ (τ ), uˆ (τ ), ψ(τ )) ⋅ ε ++ [Δ v H ( xˆ (θ ), uˆ (θ ), ψ(θ )) − Δ v H ( xˆ (τ ), uˆ (τ ), ψ(τ ))] ⋅ ε.Второе слагаемое в выражении справа является величиной o(ε ) . В самом деле,если устремим ε к нулю, то θ будет стремиться к τ , а так как гамильтонианнепрерывен по t , то выражение в квадратных скобках будет стремиться к нулю.Таким образом, будем иметьΔ v H ( xˆ (θ ), uˆ (θ ), ψ(θ )) ⋅ ε = Δ v H ( xˆ (τ ), uˆ (τ ), ψ(τ )) ⋅ ε + o(ε ).(3.1.29)Теперь покажем, что величина o( Δxˆ (t1 ) ) является величиной o(ε ) . Дейст)вительно, согласно лемме 3.1.2 Δx (t1 ) ≤ k ⋅ ε .
Поэтому имеем37o( Δxˆ (t1 ) ) k ⋅ o( Δxˆ (t1 ) ) k ⋅ o( Δxˆ (t1 ) )=≤.εk ⋅εΔxˆ (t1 ))Устремим ε к нулю. При этом Δx (t1 ) будет стремиться к нулю. Но приo( Δxˆ (t1 ) )o( Δxˆ (t1 ) )Δxˆ (t1 ) → 0→ 0 . Поэтому в целом будем иметь→ 0 при)Δx (t1 )εε → 0 , т. е.o ( Δ xˆ (t 1 ) ) = o (ε ) .(3.1.30)Очевидно, сумма бесконечно малых величин есть бесконечно малая величина,поэтому, объединяя (3.1.28) – (3.1.30), получим:ΔJ ( xˆ , uˆ ) = − Δ v H ( xˆ (τ ), uˆ (τ ), ψ(τ ))ε + o(ε ) ,где v – произвольный вектор из множества U , τ – произвольная точка из(t0 ,t1 ), ε – достаточно мало.
Отсюда и из неравенства (3.1.27) следует справедливость следующего неравенства:− Δ v H ( xˆ (τ ), uˆ (τ ), ψ(τ ))ε + o(ε ) ≥ 0 ,илиΔ v H ( xˆ (τ ), uˆ (τ ), ψ(τ ))ε − o(ε ) ≤ 0 .(3.1.31)Поделим (3.1.31) на ε и устремим ε к нулю. Получим:Δ v H ( xˆ (τ ), uˆ (τ ), ψ(τ ))ε ≤ 0 .Так как τ – произвольная точка из (t 0 ,t1 ) , v – произвольный вектор из множества U , то отсюда следует условие максимума.Теорема доказана.3.2.
Принцип максимума для нелинейных системРассмотрим задачу оптимального управления для нелинейной системыдифференциальных уравнений с функционалом Больца:dx= f ( x(t ), u (t ), t ), t ∈ [t 0 , t1 ],dtg j ( x(t0 ), x(t1 )) = 0, j = 1, K , s ,u (t ) ∈ U , t ∈ [t0 , t1 ] ,J ( x, u ) =t1∫ f (x(t ), u(t ), t )dt + g (x(t000), x(t1 )) → min .(3.2.1)(3.2.2)(3.2.3)(3.2.4)t0Будем считать моменты времени t0 ,t1 фиксированными, управление u (t )– кусочно-непрерывным, u (t ) ∈ E m , x(t )∈ E n .
Правая часть уравнения (3.2.1) –38заданная вектор-функция f = ( f1 ,K , f n ) , g j ( j = 0,1,K , s ), f 0 – заданные скаTлярные функции, U – заданное множество пространства E m . Будем предполагать, что функции f j ( x, u , t ), ( j = 0,1, K, n ) имеют частные производные∂f j, (i = 0,1,K , n ) и непрерывны вместе с этими производными по совокупности∂xiсвоих аргументов, функции g j ( x, y ), ( j = 0,1, K , s ) имеют частные производные∂g j ∂g j,, (i = 0,1, K, n ) и непрерывны вместе с этими производными по сово∂xi ∂yiкупности своих аргументов. Введем обозначения:T∂f j∂f j ⎞⎛ ∂f j ∂f j⎟ ,,,K ,= ⎜⎜∂x ⎝ ∂x1 ∂x2∂xn ⎟⎠T∂g j∂g j⎛ ∂g j ∂g j,,K ,= ⎜⎜∂x ⎝ ∂x1 ∂x2∂xn⎞⎟⎟ ,⎠∂g j⎞⎟⎟ ,⎠∂g j⎛ ∂g j ∂g j,,K ,= ⎜⎜∂y ⎝ ∂y1 ∂y 2∂y nj = 0,1,K, n,j = 0,1,K, n,Tj = 0,1,K, n,∂f1 ⎤⎡ ∂f1K⎢ ∂x∂xn ⎥∂f ⎢ 1⎥= ⎢ K K K ⎥.∂x⎢ ∂f n K ∂f n ⎥⎢ ∂x1∂xn ⎥⎦⎣Как и в линейном случае, при выводе принципа максимума Понтрягинадля нелинейной задачи важную роль играют понятия сопряженной системы ифункции Гамильтона.Определение 3.2.1.
Сопряженной системой для задачи (3.2.1) – (3.2.4)будем называть систему линейных обыкновенных дифференциальных уравнеTний относительно переменных ψ(t ) = (ψ1 (t ),K, ψ n (t )) :n ∂f ( x (t ), u (t ), t )∂f ( x(t ), u (t ), t )dψ ijψ j (t ) + λ 0 0=−, i = 1,K, n ,∂dtxx∂iij =1∑(3.2.5)где λ 0 – некоторая постоянная.
Если воспользоваться введенными обозначениями, систему (3.2.5) можно записать в векторной форме:n ∂f ( x(t ), u (t ), t )∂f ( x(t ), u (t ), t )dψj,=−ψ j (t ) + λ 0 0dt∂x∂xj =1∑(3.2.6)или в матричной форме:∂f 0 ( x(t ), u (t ), t )dψ⎡ ∂f ( x(t ), u (t ), t )⎤()= −⎢ψt+λ.0⎥⎦dt∂x∂x⎣TОпределение 3.2.2. Функцией Гамильтона, или гамильтонианом, для задачи (3.2.1) – (3.2.4) будем называть функцию39H (x, u , ψ, t , λ 0 ) = (ψ, f ( x, u , t )) − λ 0 f 0 ( x, u , t ) =n∑ψjf j ( x, u , t ) − λ 0 f 0 ( x, u , t ) ,j =1где ψ = (ψ1 ,K, ψ n ) , λ 0 – вспомогательные переменные.Легко подсчитать:T∂H ( x, u , ψ, t , λ 0 )=∂xin∑∂f j ( x, u , t )ψj∂xij =1− λ0∂f 0 ( x, u , t ), i = 1, K , n .∂xiИспользуя это выражение для производных функции H ( x, u , ψ, t , λ 0 ) , запишемсопряженную систему (3.2.5) с помощью гамильтониана:∂H ( x(t ), u (t ), ψ (t ), t , λ 0 )dψ i=−, i = 1,K, n ,dt∂xi(3.2.7)или в векторном виде∂H ( x(t ), u (t ), ψ(t ), t , λ 0 )dψ=−,dt∂x(3.2.8)T∂H ⎛ ∂H ∂H∂H ⎞⎟ – вектор-градиент функции H .где= ⎜⎜,,K,∂x ⎝ ∂x1 ∂x2∂xn ⎟⎠Приведем без доказательства формулировку принципа максимума длярассматриваемой задачи [9].Теорема 3.2.1.
(Принцип максимума). Пусть ( xˆ (t ), uˆ (t )) – решение задачи(3.2.1) – (3.2.4). Тогда существуют числа λ 0 ≥ 0, λ1 ,K, λ s , одновременно не рав-ные нулю, и вектор-функция ψ(t ) = (ψ1 (t ),K , ψ n (t )) такие, что:1) ψ(t ) является решением сопряженной системы (3.2.7) при x(t ) = xˆ (t ) ,u (t ) = uˆ (t ) ,2) в каждой точке t ∈ [t0 ,t1 ], являющейся точкой непрерывности оптимального управления û (t ) , функция H ( xˆ (t ), u , ψ(t ), t , λ 0 ) по переменной u достигает своего максимума на множестве U при u = uˆ (t ) , т. е.Tmax H ( xˆ (t ), u , ψ (t ), t , λ 0 ) = H ( xˆ (t ), uˆ (t ), ψ (t ), t , λ 0 ), t ∈ [t 0 , t1 ],u∈U(3.2.9)3) выполняются условия:ψ(t 0 ) =s∑λjj =0ψ(t1 ) = −∂g j ( xˆ (t 0 ), xˆ (t1 )),∂x∂g j ( xˆ (t 0 ), xˆ (t1 ))s∑λj∂yj =0(3.2.10).Условие (3.2.9) называют условием максимума, условия (3.2.10) – условиями трансверсальности.40Сформулированная теорема дает необходимые условия оптимальности, иодно из них – условие максимума, согласно которому функция Гамильтона достигает своего максимума на оптимальном управлении.
В связи с этим теоремупринято называть принципом максимума.Простейшая задача терминального управления, рассмотренная в п.3.1,является частным случаем задачи (3.2.1) – (3.2.4). Поэтому доказанная теорема3.1.3 есть следствие теоремы 3.2.1. В самом деле, для задачи (3.1.1) – (3.1.4)f = Ax + Bu, f 0 = 0, g 0 = ϕ( x(t1 )) . Отсюда следует, что функция Гамильтона, составленная для простейшей задачи по определению 3.2.2, совпадает с функцией(3.1.12), сопряженная система (3.2.8) также совпадает с (3.1.8).
Ниже будет показано, что для задач с закрепленным левым и свободным правым концом множитель λ 0 = 1 и условия трансверсальности состоят из одного равенстваψ(t1 ) = −∂g 0 ( x(t0 ), x(t1 )).∂yУчитывая вид функции g 0 , получим:ψ(t1 ) = −∂ϕ( x(t1 )),∂xчто совпадает с условием (3.1.26) теоремы 3.1.3.Схема решения задач оптимального управления с помощью принципа максимума.
Решение ЗОУ с помощью теоремы 3.2.1 начинается с составления функции Гамильтона H ( x, u , ψ, t , λ 0 ) . Эту функцию рассматривают какфункцию m переменных u = (u1 , u2 , K, um ) , принимая остальные переменные запараметры. При каждом наборе параметров ( x, ψ, t , λ 0 ) решают задачу максимизации:H ( x, u , ψ, t , λ 0 ) → max .(3.2.11)u∈UСледует заметить, что эта задача может оказаться весьма сложной, и очень часто ее решение в явном виде найти не удается. Однако в некоторых случаях эторешение все же можно выписать в явном виде. Предположим, что решение(3.2.11) найдено, и этим решением является функцияu = u ( x, ψ , t , λ 0 ) .(3.2.12)Подставим эту функцию в правые части уравнений (3.2.1) и (3.2.8) и составимсистему дифференциальных уравнений:⎧ dx⎪⎪ dt = f ( x(t ), u ( x, ψ, t , λ 0 ), t );⎨⎪ dψ = − ∂H ( x(t ), u ( x, ψ, t , λ 0 ), ψ(t ), t , λ 0 ) .⎪⎩ dt∂x41(3.2.13)Так как x(t ), ψ(t ) – n -векторы, то это система 2n уравнений с 2n неизвестными.
Ее общее решение содержит 2n произвольных постоянных c1 , c2 ,K, c2 n .Для их определения имеются 2n равенств – это условия трансверсальности(3.2.10). Однако в условия трансверсальности входят неизвестные параметрыλ 0 , λ1 ,K, λ s , которые сами подлежат определению. Таким образом, всего мыимеем 2n + s + 1 неизвестных. Для их нахождения к уравнениям (3.2.13) и условиям трансверсальности следует добавить равенства (3.2.2) из условия задачи иусловие нормировкиs∑λ2i= 1,(3.2.14)i =0которое вытекает из следующих рассуждений.Как видно из определения 3.2.2, функция Гамильтона обладает следующим свойством:H ( x, u , αψ , t , αλ 0 ) = αH ( x, u , ψ, t , λ 0 ) ,где α может быть любым положительным числом.
Это означает, что еслифункция u ( x, ψ, t , λ 0 ) доставляет максимум функции H ( x, u, ψ, t , λ 0 ) , то она будет доставлять максимум и функции H ( x, u , αψ, t , αλ 0 ) . Далее очевидно, еслиλ 0 , λ1 ,K, λ s одновременно не обращаются в ноль, и λ0 ≥ 0 , то этими же свойствами обладают и параметры αλ 0 , αλ1 ,K, αλ s (α > 0 ) . Наконец, условия трансверсальности, как легко видеть, выполняются одновременно для набораλ 0 , λ1 ,K, λ s , ψ1 , ψ 2 ,K, ψ n и для набора αλ 0 , αλ1 ,K, αλ s , αψ1 , αψ 2 ,K, αψ n . Извышесказанного следует, что если некоторый набор λ 0 , λ1 ,K, λ s , ψ1 , ψ 2 ,K, ψ nудовлетворяетусловиямтеоремы3.2.1,тоинаборαλ 0 , αλ1 ,K, αλ s , α ψ1 , αψ 2 ,K, α ψ n будет удовлетворять этим же условиям прилюбом α > 0 .
Следовательно, теорема 3.2.1 определяет величины λ 0 , λ1 ,K, λ s ,ψ1 , ψ 2 ,K , ψ n с точностью до положительного множителя. Обычно этот множи-тель выбирается так, чтобы евклидова норма вектора (λ 0 , λ1 ,K, λ s ) была единичной. Отсюда вытекает условие нормировки (3.2.14). Если в каких-то задачахудается показать, что λ 0 ≠ 0 , то вместо (3.2.14) выбирают условие λ 0 = 1.Таким образом, для нахождения 2n + s + 1 неизвестных мы имеем столькоже условий, которые вместе с уравнениями (3.2.13) составляют следующуюкраевую задачу:Tdx= f ( x(t ), u ( x, ψ, t , λ 0 ), t ) ,dt(3.2.15)∂H ( x(t ), u ( x, ψ, t , λ 0 ), ψ(t ), t , λ 0 )dψ,=−dt∂x(3.2.16)42ψ(t 0 ) =s∑λj∂g j ( x(t 0 ), x(t1 ))∂xj =0ψ(t1 ) = −s∑λj,∂g j ( x(t 0 ), x(t1 ))∂yj =0(3.2.17),g j ( x(t0 ), x(t1 )) = 0, j = 1, K, s ,s∑λ2j= 1,(3.2.18)(3.2.19)(3.2.20)j =0λ0 ≥ 0 .(3.2.21)Задача (3.2.15) – (3.2.21) называется краевой задачей принципа максимума.