В.В. Александров, С.С. Лемак, Н.А. Парусников - Лекции по механике управляемых систем, страница 23
Описание файла
PDF-файл из архива "В.В. Александров, С.С. Лемак, Н.А. Парусников - Лекции по механике управляемых систем", который расположен в категории "". Всё это находится в предмете "механика управляемых систем" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 23 страницы из PDF
Напомним, что норма в пространстве C 1 вводится следующим образомyC 1 = max{yC , ẏC },где yC = max |y(t)|.t∈[t0 ,tk ]Сейчас мы будем считать, что управления принадлежат классукусочно-непрерывных функций u(·) ∈ KC[t0 , tk ] и будем рассматри162вать вариации траектории ỹ(·) − y 0 (·)C малые по норме в пространстве C.Определение 21. Процесс {y 0 (·), u0 (·)} — сильный локальнооптимальный процесс, если существует ε > 0 такое, что выполнено неравенство J(u0 ) ≤ J(ũ) для всех ũ ∈ U таких, чтоỹ(·) − y 0 (·)C < ε.Теперь, как в прошломслучае варьировать «во¼все стороны» по вертикалинельзя, поэтому для полу¼ªчения условий минимумапостроимспециальную«игольчатую вариацию»(малую по горизонтали).Пусть τ — некоторая точка непрерывностиu0 (τ − 0) = u0 (τ + 0).Рис. 23.1.
Игольчатая вариацияПостроим управление+u0 (t)∀t ∈ [t0 , τ − α) ∪ [τ, tk ],αu =v∈Ω∀t ∈ [τ − α, τ ),где параметры v ∈ Ω, α > 0 произвольны.Рассмотрим условие минимума ΔJ(u0 ) ≥ 0.Проварьируем траекторию в соответствии вариацией управленияuα . Тогда на отрезке t ∈ [t0 , τ − α] выполнено равенствоy α (t) = y 0 (t)∀t ∈ [t0 , τ − α].В точке τ приращение траектории обозначимΔy(τ ) = y α (τ ) − y 0 (τ ).Разложим решения на малом интервале (τ −α, τ ) по формуле Тейлораy 0 (τ ) = y 0 (τ − α) + αẏ(τ − α) + ō(α) = y 0 (τ − α)++ αf (y(τ − α), u0 (τ − α)) + ō(α)иy α (τ ) = y α (τ −α)+αẏ α (τ −α)+ŏ(α) = y 0 (τ −α)+αf (y(τ −α), v)+ŏ(α).СледовательноΔy(τ ) = α f (y(τ − α), v) − f (y(τ − α), u0 (τ − α)) + o(α).163Поскольку τ — точка непрерывности u0 и f гладкая функция,то прималых α выполненоΔy(τ ) = α f (y 0 (τ ), v) − f (y 0 (τ ), u0 (τ )) + o(α) = αΔf (τ, v) + o(α).(23.2)На промежутке [τ, tk ] используем следующую теорему о дифференцируемости решений системы ОДУ по начальным условиям.Теорема.
Рассмотрим систему ОДУẏ = f (t, y)с начальными условиями y(τ ) = ξ,на отрезке t ∈ [τ, tk ], где y ∈ Y ⊂ Rn , f ∈ C 2 [R × Y ]. Тогдарешение y(t, ξ) допускают непрерывные частные производные∂y(t, ξ).по начальным данным∂ξРешение y(t, ξ) удовлетворяет уравнению∂y(t, ξ) = f (t, y(t, ξ)).(23.3)∂tДифференцируя (23.3) по ξ и пользуясь тем, что для y(t, ξ) ∈ C 2 смешанные производные не зависят от порядка дифференцирования, получим уравнение ∂f (t, y(t, ξ)) ∂y(t, ξ)∂ ∂y(t, ξ).(23.4)=∂t∂ξ∂y∂ξПри фиксированном ξ это уравнение представляет собойлинейноеОДУ относительно неизвестной матрицы Φ(t) = ∂y(t,ξ), удовле∂ξтворяющей уравнению∂f (t, y(t, ξ))dΦ=Φ(t),dt∂yа начальные условия получаются из дифференцирования тождестваy(τ, ξ) = ξ и равны Φ(τ ) = En .Следовательно, матрица Φ(t) — фундаментальная матрица решений уравнения в вариациях (по начальным данным) относительно решения y(t, ξ)∂f (t, y)dx=x.(23.5)dt∂yИзменим начальные условия y(τ ) = ξ + Δξ. Разлагая в ряд Тейлора, получим∂y(t, ξ)Δξ + o(Δξ)y(t, ξ + Δξ) = y(t, ξ) +∂ξ164В нашем случае Δξ = αx(τ ) = αΔf (τ, v) в силу (23.2) и можно записать∂y(t, ξ)y(t, ξ +Δξ) = y(t, ξ)+αΔf (τ, v)+o(α) = y(t, ξ)+αx(t)+o(α)∂ξгде x(t) — решение уравнений в вариациях (23.5) с начальным условием x(τ ) = Δf (τ, v).
Тогда для приращения траектории выполненосоотношениеΔy(t) = αx(t) + o(α)при t ∈ [τ, tk ].Если записать сопряженную к (23.5) систему∂f (t, y)dψ=−ψ,dt∂y(23.6)то для решений прямой и сопряженной систем выполненоd (ψ x) ≡ 0 =⇒ ψ (t)x(t) = const .dtНа лекции 18 доказано, что в рассматриваемом случае условие трансверсальности принципа максимума Понтрягина фигурирует как следующее краевое условие для сопряженной системы∂ϕ0 (y 0 (tk ))ψ (tk ) = −.(23.7)∂yРассмотримΔJ =∂ϕ0 (y(tk ))Δy(tk ) + o(|Δy(tk )|.∂yПерепишемΔJ(u0 ) = −αψ (tk )x(tk ) + o(α) ≥ 0.Поскольку α > 0 произвольно, то ψ(tk )x(tk ) ≤ 0.
Но тогда дляt ∈ [τ, tk ] выполнено неравенствоψ (t)x(t) ≤ 0 =⇒ ψ (τ )f (y(τ ), v) − ψ (τ )f (y(τ ), u0 (τ )) ≤ 0,откуда[H(ψ(τ ), y 0 (τ ), v) − H(ψ(τ ), y 0 (τ ), u0 (τ ))] ≤ 0∀v ∈ Ω, τ ∈ T,где T = {τ ∈ [t0 , tk ] таких, что u (τ − 0) = u (τ + 0)}.Значит выполнено условие максимума функции Понтрягина00max H(ψ(τ ), y 0 (τ ), v) = H(ψ(τ ), y 0 (τ ), u0 (τ ))v∈Ω(23.8)165Осталось показать стационарность гамильтониана вдоль оптимальной траектории H(t) = H(ψ(t), y 0 (t), u0 (y 0 (t0 ), t)).Функции ψ и y 0 непрерывные, а u0 может быть разрывна, но наоптимальной траектории функция H непрерывна. Докажем это.
Рассмотрим неравенства, выполненные в силу условия (23.8):H(ψ(t + Δt), y 0 (t + Δt), u0 (t − Δt))−− H(ψ(t − Δt), y 0 (t − Δt), u0 (t − Δt)) ≤≤ H(t + Δt) − H(t − Δt) ≤≤ H(ψ(t + Δt), y 0 (t + Δt), u0 (t + Δt))−− H(ψ(t − Δt), y 0 (t − Δt), u0 (t + Δt))При Δt → 0 получим, что H(t + 0) − H(t − 0) → 0, откуда следуетнепрерывность H.H(t ) − H(t):Аналогичные оценки верны для отношения разностиt − tH(ψ(t ), y 0 (t ), u0 (t)) − H(ψ(t ), y 0 (t), u0 (t))+t − tH(ψ(t ), y 0 (t), u0 (t)) − H(ψ(t), y 0 (t), u0 (t))+≤t − tH(t ) − H(t)≤≤t − tH(ψ(t ), y 0 (t ), u0 (t )) − H(ψ(t ), y 0 (t), u0 (t ))≤+t − tH(ψ(t ), y 0 (t), u0 (t )) − H(ψ(t), y 0 (t), u0 (t ))+t − tОтсюда следует (при t → t)dH∂H dy∂H dψ∂H dψ ∂H dy+≤≤+∂ψ dt∂y dtdt∂y dt∂ψ dtСистемы уравнений, как прямая (23.1), так и сопряженная (23.6) могут быть представлены в форме∂H∂Hψ̇ = −ẏ =,(23.9)∂y∂ψпоэтому∂H dψ∂H dy+= 0.∂ψ dt∂y dtСледовательно,166ddt H= 0 и H = const .Следует отметить, что функция Понтрягина H(ψ, y, u) не является функцией Гамильтона (как ее иногда ошибочно называют) с точки зрения классической механики.
Она превращается в функцию Гамильтона, если из условия принципа максимума (23.8) найти неявнуюфункцию u0 (t, y, ψ) и подставить в функцию Понтрягина. При этомуравнения (23.9) принимают вид канонической гамильтоновой системы.
Сопряженные переменные ψ аналогичны импульсам фазовых переменных в классической механике.Следовательно, вдоль оптимальной траектории термин гамильтониан H(t) имеет право на существование.Следствие 4. Если {y 0 (·), u0 (·), [t0 , t0k ]} — оптимальный процесс,то существует ψ(t) — решение сопряженной системы (23.6) cкраевым условием (23.7) такое, чтоmax H(ψ(t), y 0 (t), v) = H(ψ(t), y 0 (t), u0 (t)) = const ,v∈Ωt ∈ [t0 , t0k ].2.
Задача быстродействияРассмотрим задачу быстрейшего попадания фазовой точки в начало координат+ẏ = f (y, u),y(t0 ) = 0,(23.10)u(·) ∈ U,y(tk ) = 0,Функционал представляет собой время движенияJ(u) = tk − t0 → min .u∈UХотим попасть в начало координат, т.е. конечное многообразие имеетвид M = {y(tk ) = 0}. Чтобы свести к формулировке задачи, представленной на лекции 16, введем дополнительную координату⎧⎪⎨ ẏ0 = 1,ẏ = f (y, u),(23.11)⎪⎩u(·) ∈ UФункционал J(u) = ϕ0 (ỹ(tk )) = y0 (tk ) → minu(·)∈U , где ỹ — расширенный вектор состояния ỹ = (y0 , y ) .Конечное многообразие примет видM̃ = {(γ0 , 0, . .
. , 0),γ0 ∈ R+ }.Из условия трансверсальности принципа максимума следует∂ϕ0 (ỹ(t0k ))0ψ̃(tk ) + λ0⊥ M̃ ,(23.12)∂ ỹ167где сопряженные переменные удовлетворяют системе⎧⎪⎨ ψ̇0 = 0, .∂f (y, u)⎪⎩ ψ̇ = −ψ∂yТогда условие ортогональности в (23.12) запишется, как равенствонулю скалярного произведения(ψ0 + λ0 )γ0 + ψ (t0k ) · 0 = 0 ⇒ ψ0 = −λ0 , ≤ 0 = const .Если ψ ≡ 0, то из условия ПМП равенства нулю гамильтонианаH̃(t) ≡ 0 следует, что ψ0 = 0, λ0 = 0 — нулевая пара, что противоречит ПМП.Следствие 5.
Если {y 0 (·), u0 (·), [t0 , t0k ]} — оптимальный по быстродействию процесс, то существует нетривиальное решениесопряженной системы ψ ≡ 0 такое, чтоmax H(ψ(t), y 0 (t), v) = H(ψ(t), y 0 (t), u0 (t)) = const ≥ 0.v∈Ω168Лекция 24Достаточные условия оптимальностиуправляемой системы1. Достаточность принципа максимума для линейных системДля линейной задачи быстродействия принцип максимума Понтрягина является не только необходимым, но и достаточным условиемоптимальности. Ограничимся для простоты системами с одним управлениемẋ = Ax + bu ,(24.1)где начальные условия x(0) = c = 0, ограничения на управляющие воздействия удовлетворяют условиям u1 (t) ∈ [μ, ν], причем μ <0, ν > 0, и терминальное условие x(tk ) = 0 — приход в начало координат. Рассмотрим задачу быстродействияtk → min .u(·)∈UПредположим, что система является полностью управляемой, т.е.
выполнено условие det(b, Ab, . . . , An−1 b) = 0.Пусть {x0 (·), u01 (·), [0, t0k ]} — управляемый процесс, удовлетворяющий принципу максимума. Следовательно, существует нетривиальное решение сопряженной системыψ̇ = −A ψ.(24.2)Функция Понтрягина имеет вид H = ψ Ax + ψ bu. Следовательно,решение (24.2) удовлетворяет условиюψ (t)bu01 (t) = max ψ (t)bu1 0.μu1 νНеравенство следует из условия максимума функции Понтрягина H ивключения 0 ∈ (μ, ν).Предположим теперь, что существует управляемый процесс{x̃(·), ũ1 (·), [0, t̃k ]}, позволяющий привести систему (24.1) из начальной точки x̃(0) = x0 (0) = c в начало координат x̃(t̃k ) = 0 за меньшеевремя t̃k < t0k , чем управление u0 .
Напомним, что x0 (t0k ) = 0.Рассмотрим выражение169ψ (t̃k )x0 (t̃k ) = ψ (t̃k )x0 (t̃k ) − ψ (t̃k )x̃(t̃k ) == (ψ (t̃k )x0 (t̃k ) − ψ (0)x0 (0)) − (ψ (t̃k )x̃(t̃k ) − ψ (0)x̃(0)),Поскольку ψ(t) и x(t) дифференцируемы, получимt̃k0ψ (t̃k )x (t̃k ) =d 0(ψ x ) dt −dtt̃k0d (ψ x̃) dt.dt0Ноd 0(ψ x ) = ψ̇ x0 + ψ ẋ0 = −ψ Ax0 + ψ (Ax0 + bu01 ) = ψ bu01 ,dtdаналогично dt(ψ x̃) = ψ bũ, откуда следуетt̃k0ψ (t̃k )x (t̃k ) =ψt̃k(t)bu01 (t) dt0−ψ (t)bũ1 (t)dt =0t̃k[ψ (t)bu01 (t) − ψ (t)bũ1 (t)]dt ≥ 0,0так как в силу принципа максимума H(ψ, x0 , ũ) ≤ H(ψ, x0 , u0 ).С другой стороныψ (t̃k )x0 (t̃k ) = ψ (t̃k )x0 (t̃k ) − ψ (t0k )x0 (t0k ) =0tk=−ψ (t)bu01 (t)dt ≤ 0 ,t̃kпоскольку подинтегральное выражение неотрицательно при всех t.Из последних двух неравенств следует, что ψ (t̃k )x0 (t̃k ) = 0.Так как подынтегральная функция неотрицательна, то получимψ (t)bu01 (t) = max ψ (t)bu1 ≡ 0 ∀ t ∈ (t̃k , t0k ) .μu1 νПоскольку (ψ bu1 ) линейна по u1 , максимум функции Понтрягинадостигается на концах отрезка [μ, ν], а так как по условию μ < 0,ν > 0, полученное тождество возможно лишь в случае, когдаψ (t)b ≡ 0 ∀ t ∈ (t̃k , t0k ).Продифференцировав последнее тождество (n − 1) раз, получим однородную систему алгебраических линейных уравнений относительноψ(t)ψ (t)b = 0, ψ (t)Ab = 0, ..., ψ (t)An−1 b = 0 .170Так как ψ(t) — нетривиальное решение системы (24.2), то основной определитель алгебраической системы равен нулю, т.е.
выполненоравенство det(b, Ab, ..., An−1 b) = 0, что противоречит условию полнойуправляемости динамической системы (24.1). Получили противоречиепредположению, что t̃k < t0k .Следовательно, управляемый процесс, удовлетворяющий принципу максимума, является оптимальным по быстродействию. Достаточность доказана.Теорема 28.
Для задачи линейного быстродействия в случаеполностью управляемой системы принцип максимума является необходимым и достаточным условием оптимальности (глобального минимума функционала).Известны ли еще, кроме только что представленной, задачи, длякоторых можно сформулировать достаточные условия оптимальности? Ответ положителен.Ниже мы рассмотрим задачу оптимизации с фиксированным временем и интегральным функционалом, для которой справедлив принцип оптимальности Р. Беллмана, из которого выводятся достаточныеусловия оптимальности.Кроме этого в дополнении к лекции 24 приведена формулировка регулярного синтеза оптимального управления по В.Г.