В.В. Александров, С.С. Лемак, Н.А. Парусников - Лекции по механике управляемых систем (1158263), страница 24
Текст из файла (страница 24)
Болтянскому, где на основе принципа максимума сформулированы достаточныеусловия оптимальности задачи управления с функционалом Больца.Пример 24.1. Применим теорему 28 для решения задачи стабилизации вертикального положения перевернутого маятника, установленного на движущейся тележке.При этом предположим, что ускорение тележки ограничено: |u1 (t)| u+ , и имеются датчики, поставляющие точнуюинформацию о положении y1 = ϕ и скорости y2 = ϕ̇. Тогдаоказывается возможным решить задачу для любого начального положения, принадлежащего некоторому множеству, т.е.построить оптимальный синтез системы управления данноймеханической системой.Примем для простоты изложения ω 2 = 1, u+ = 1. Тогда линеаризованные уравнения в отклонениях примут видẋ1 = x2 ,ẋ2 = x1 + u1 ,|u1 (t)| 1 .(24.3)Поскольку H = ψ1 x2 +ψ2 (x1 +u1 ), получим u01 = sign ψ2 , где функция171x2Γ01−101x1-1XРис.
24.1. Синтез оптимального быстродействия.ψ2 определяется системойψ̇1 = −ψ2 ,ψ̇2 = −ψ1 .Так как характеристическое уравнение для сопряженной системыимеет действительные корни ±1, то решение ψ2 (t) есть линейная комбинация двух экспонент, и, следовательно, оптимальное по быстродействию управление u01 (t) может иметь не более одного переключения. Полученный качественный вид оптимального управления позволяет осуществить оптимальный синтез на фазовой плоскости. Дляэтого построим сначала траектории системы (24.3) при u1 ≡ 1 и приu1 ≡ −1 .Эти траектории являются либо прямыми, проходящими через особые точки, либо гиперболами, описываемыми уравнениямиx22 = (x1 ± 1)2 + c1 .Среди траекторий выделим две полугиперболы, приводящие изображающую точку в начало координат.Очевидно, что для любой точки, расположенной на линии Γ0 , описываемой уравнениями*x2 = x21 − 2x1 при x1 < 0 ,*x2 = − x21 + 2x1 при x1 > 0 ,172задача оптимального синтеза решена, так как построено управление,приводящее систему из этой точки в начало координат.
Как легко показать, любое другое управление, приводящее систему из этой же точки в начало координат, не удовлетворяет принципу максимума, так какимеет более одного переключения. Аналогично строятся траектории,приводящие изображающую точку в начало координат, если она расположена в открытой полосе X. При этом оптимальное управлениебудет иметь одно переключение.Таким образом, при наличии ограничения на управление оптимальный синтез осуществим только на открытой полосе X.
Легко показать, что из любой точки (xk , x2 ) ∈ X вообще невозможно попастьв начало координат, т.е. X — область управляемости системы (24.3)при ограничениях на управление. Здесь следует отметить, что при отсутствии ограничений на управление областью управляемости является вся фазовая плоскость, так как эта система полностью управляема (см. лекцию 3).Отметим вторую особенность построенного оптимального синтеза— нелинейную зависимость оптимального управления от отклоненийв области X:%⎧x21 + 2x1 и x1 > 0+1, если x2 ≤ −⎪%⎪⎨2илиx2 < %x1 − 2x1 и x1 < 0(24.4)u01 (x1 , x2 ) =2⎪−1,еслиx>−2⎪% x1 + 2x1 и x1 > 0⎩илиx2 ≥ x21 − 2x1 и x1 < 0 .Для того чтобы на практике осуществить построенный оптимальныйсинтез u01 (x1 , x2 ), необходимо иметь датчики по положению и скорости, которые в течение всего времени управления [0, t0k ] давали бы точную информацию об отклонениях x1 (t), x2 (t).2.
Метод динамического программирования Беллмана как достаточное условие оптимальностиМетод динамического программирования основан на принципе оптимальности, который заключается в следующем: каковы бы нибыли состояние системы и управление в начальный момент времени, последующее управление должно быть оптимальным относительно состояния, в котором будет находиться системав результате предшествовавшего управления. Другими словами,оптимальное управление не зависит от предыстории системы и определяется состоянием системы в данный момент и целью управления— аддитивным функционалом.173Применительно к задаче оптимального управления, сформулированной на лекции 16, принцип оптимальности означает, что для любого момента времени t̃ ∈ [t0 , tk ) на оптимальной фазовой траектории второй ее отрезок — также оптимальная траектория.
Справедливость этого утверждения доказывается методом от противного с учетом единственности оптимальной траектории для задачи оптимального управления со свободным концом траектории, фиксированным временем управления и функционалом видаtk(24.5)f0 (y, u, t) dt.J=t0Управляемая система задана соотношениями:y(t0 ) = y ∗ ,ẏ = f (y, u),u(·) ∈ U = {u(·) ∈ KC 1 [t0 , tk ],u(t) ∈ Ω ⊂ Rs }.(24.6)С помощью принципа оптимальности получим критерий оптимальности синтеза управления для задачи с фиксированным временем и свободным концом траектории. Введем функцию, называемуюфункцией БеллманаS(t, y) = min1tku(·)∈U2f0 (y(τ ), u(τ ), τ ) dτ ,(24.7)tгде ẏ = f (y(τ ), u(τ )), а y(t) = y — начальное условие. Используяпринцип оптимальности, можно вывести уравнение, которому удовлетворяет эта функция.Предположим, что функция S(t, y) существует и непрерывно дифференцируема по t и y.Рассмотрим два состояния (t, y) и (t + Δt, y + Δy).
ИмеемS(t, y) = min1t+Δttkf0 (y(τ ), u(τ ), τ )dτ +u(·)∈Ut2f0 (y(τ ), u(τ ), τ )dτ .t+ΔtВ силу принципа оптимальности последнее соотношение можно переписать в видеt+Δttk12f0 (y, u, τ )dτ +minf0 (y, u, τ )dτ ,S(t, y) =minu(·)∈U [t,t+Δt]t174u(·)∈U [t+Δt,tk ]t+ΔtилиS(t, y) =min1t+Δt2f0 (y, u, τ )dτ +S(t+Δt, y +Δy) , (24.8)u(·)∈U [t,t+Δt]tпричем Δy зависит от управления u на интервале [t, t+Δt]. При маломΔt можно записать∂S∂SS(t + Δt, y + Δy) = S(t, y) +Δt +Δy + o(|Δt|, |Δy|). (24.9)∂t∂yПодставив (24.8) в (24.9), получим при Δt → 0 уравнение∂S∂S+ min{f0 (y, u, t) +f (y, u)} = 0(24.10)u∈Ω∂t∂yс очевидным граничным условием S(tk , y(tk )) = 0.
Функциональноеуравнение (24.10) называется уравнением Беллмана. Его смысл состоит в том, что исходная задача о минимизации функционала по множеству всех допустимых стратегий u(·) ∈ U заменяется минимизациейпо множеству Ω.Поскольку заранее нельзя сказать о существовании функцииS(t, y), а также о ее дифференцируемости, предыдущие рассужденияможно рассматривать как наводящие, позволяющие сформулироватьтеорему о достаточных условиях оптимальности.Теорема 29.
Пусть существуют непрерывно дифференцируемая функция S(t, y), удовлетворяющая уравнению Беллмана(24.10), и управление u0 (t), минимизирующее соответствующую часть этого уравнения. Тогда управление u0 (t) оптимально, т.е. минимизирует функционал J.Доказательство. Пусть S(t, y) — решение уравнения Беллмана сграничным условием S(tk , y(tk )) = 0, u(t) — некоторое управление изU, тогда∂S∂S+f (y, u) + f0 (y, u, t) 0 .∂t∂yВ качестве аргумента y примем решение уравнения ẏ = f (y, u) с выбранным управлением и заданным начальным условием y ∗ , тогда∂SdS∂S+ẏ + f0 (y, u, t) 0 или −f0 (y, u, t) .∂t∂ydtПроинтегрируем последнее соотношение в интервале [t0 , tk ]:tkS(tk , y(tk )) − S(t0 , y(t0 )) − f0 (y, u, τ )dτ .t0175Отсюда с учетом граничного условия следуетJ(u) S(t0 , y(t0 )) .Пусть u0 — управление, на котором достигается минимум выражения∂S∂y + f0 (y, u, t) на множестве Ω.
Тогда из (24.10) следует∂S∂S+f (y, u0 ) + f0 (y, u0 , t) = 0 .∂t∂yПовторяя предыдущие преобразования в этом случае, получимJ(u0 ) = S(t0 , y 0 ), т.е. J(u) J(u0 ), что и доказывает теорему.2.1. Линейная задача с квадратичным критерием качестваРассматривается задача минимизации функционалаtkJ = (x Gx + u N u)dt0при условииẋ = Ax + Bu,где tk — фиксированный момент времени, N , G — симметричныеположительно-определенные матрицы;Решим эту задачу, применяя достаточные условия оптимальностив форме уравнения Беллмана21∂S∂S+ mins x Gx + u N u +(Ax + Bu) = 0(24.11)∂t u∈R∂xс граничным условиемS(tk , y(tk )) = 0.(24.12)Необходимое условие минимума выражения в фигурных скобках имеет вид∂SB = 0,2u N +∂xоткуда ∂S 1u0 = − N −1 B .(24.13)2∂xИщем решение уравнения Беллмана (24.11) в виде квадратичной формы S = x L(t)x, где L(t) 0 — симметричная матрица.
= 2Lx. Подставляя в уравнение (24.11) и используяТогда ∂S∂x(24.13), получимx L̇x + x Gx + x LBN −1 B Lx + 2x L(Ax − BN −1 B Lx) = 0.176Придав выражению 2LA = (LA + A L) симметричный вид, перепишем предыдущее выражениеx (L̇ + G + LA + A L − LBN −1 B L)x = 0,откуда следует уже полученное нами в лекции 20 уравнение Риккати.3. Связь метода динамического программирования с принципом максимумаПредположим, что в задаче (24.5), (24.6) решение S(t, y) уравнения Беллмана (24.10) существует и имеет непрерывные вторые частные производные по всем аргументам, а функции f0 и f — непрерывные частные производные по всем аргументам.
Рассмотрим функцию∂S(t, y) ∂S(t, y)+f (y, u) + f0 (y, u, t).R(t, y, u) =∂t∂yПусть {y 0 (t), u0 (t), t ∈ [t0 , tk ]} — оптимальный процесс.Из уравнения Беллмана следует, что на оптимальной траекториифункция R(t, u0 , y 0 ) ≡ 0, а для произвольной траектории в окрестности (y 0 , u0 ) выполнено R(t, u, y) 0. Необходимым условием минимума функции R на оптимальной траектории y 0 (t) является условие∂R(t, y 0 , u0 )= 0.∂yСледовательно выполнено равенство 2∂ ∂S(t, y 0 )∂ S(t, y 0 )f (y 0 , u0 )++∂t∂y∂y 2∂S(t, y 0 ) ∂f (y 0 , u0 ) ∂f0 (y 0 , u0 )+= 0, (24.14)+∂y∂y∂yпоскольку при наших предположениях результат не зависит от порядка дифференцирования.
В силу уравнений движения первые два слагаемых в (24.14) равны 2∂ S(t, y 0 )∂ ∂S(t, y 0 )f (y 0 , u0 ) =+∂t∂y∂y 2 2∂ S(t, y 0 ) dyd ∂S(t, y 0 )∂ ∂S(t, y 0 )==+.∂t∂y∂y 2dtdt∂yОбозначив∂S(t, y 0 )) ,ψ (t) = −∂y177из уравнения (24.14) получим∂f (y, u)∂f0 (y, u)ψ+ψ̇ = −∂y∂y(24.15)Из граничного условия для функции Беллмана S(tk , y(tk )) = 0 следует ψ(tk ) = 0, а из уравнения Беллмана — что для всех t ∈ [t0 , tk ]функция R(t, y, u) удовлетворяет условиюmin R(t, y, u) = R(t, u0 (t), y 0 (t)),u(t)∈Ωоткуда получим условие максимумаmax H̃(ψ, y, u) = H̃(ψ(t), y 0 (t), u0 (t)),u(t)∈Ωгде H̃ = −f0 (t, y, u) + ψ f (y, u) — расширенная функция Понтрягина в задаче (24.5), (24.6), а ψ(t) — решение сопряженной системы(24.15).178Лекция 25Особые оптимальные управления1. Вариация Келли и необходимые условия оптимальности второго порядкаРассмотрим задачу оптимального управления, где управление скалярно и правые части линейны по управлению.⎧∗⎪⎨ ẏ = f (y) + g(y)u, y(t0 ) = y ,(25.1)u(·) ∈ U = {u(·) ∈ KC |u(t)| ≤ μ}⎪⎩ny(tk ) ∈ M ⊂ R .Функционал задачи терминальныйJ(u) = ϕ0 (y(tk )) → minu(·)∈UСчитаем, что все функции ϕ0 , g, f гладкие.Функцию Понтрягина запишем в видеH = ψ f + ψ gu = H0 (ψ, y) + H1 (ψ, y)u.Рассмотрим оптимальный процесс {y 0 (·), u01 (·), [t0 , t0k ].} Из ПМПследует, что необходимым условием оптимальности является максимум функции Понтрягина на оптимальном решенииmax H1 (ψ(t), y 0 (t)) · u(t) = H1 (ψ(t), y 0 (t)) · u0 (t).|u(t)|≤μНами рассмотрены случаи, когда решение этой задачи достигаетсяв единственной точке u0 (t) и такие случаи будем называть регулярными.Будем говорить, что оптимальный процесс {y 0 (·), u01 (·), [t0 , t0k ]} со˜ ⊂ [t , t0 ], надержит особые участки, если существует интервал (t̃, t̃)0 kкотором H1 (t) ≡ 0.На особом участке условие максимума ПМП становится тривиальным и не работает.Для того, чтобы получить необходимые условия экстремума,Дж.Келли в 1967 г.
предложил новый тип вариации управления («комбинацию» классической и игольчатой вариации), где приращение179управления имеет вид Δu = εδu, но в отличие от классической вариации δu — не любая гладкая функция, а формируется как специальнаяигольчатая в момент времени τ (см. рис. 25.1).Такимобразом,Æпоявляетсявторойпорядок малости по ε.Приращениеªфункционала с точностью до малыхвторого порядка по εзапишем в видеΔJ(u0 ) = εδJ(u0 )+Рис. 25.1. Вариация Келли+δ 2 J(u0 )ε2 +o(ε2 ),где δJ(u0 ) — вариация функционала первого порядка, а δ 2 J(u0 ) —вариация второго порядка.˜ выполнено u0 (t) ∈ int Ω,Допустим , что на особом участке τ ∈ [t̃, t̃]∂Hтогда в силу ПМП выполнено условие ∂u = 0.Используя полученную ранее (лекция 18) формулу для вариацииЛагранжа, получимτtk+ε∂H∂H0δudt = −δudt = 0δJ(u ) = −∂u∂ut0τ −εи из вариации первого порядка ничего получить нельзя.Условие минимума ΔJ(u0 ) ≥ 0 приводит к условиям на вторуювариацию δ 2 J(u0 ) ≥ 0.Можно показать, что отсюда следует∂ d2H(t)≥ 0.1∂u dt2Теорема 30 (необходимое условие Келли).