Сотсков А.И., Колесник Г.В. Оптимальное управление в примерах и задачах (2002) (1249284), страница 6
Текст из файла (страница 6)
Функция Понтрягина будет иметь вид:35u2 + x 2H = – λ0+ ψ u,2а лагранжиан задачи запишется какu2 + x 2+ ψ u + μ(x – c).L = H + μ(x – c) = – λ02Видно, что в вырожденном случае (λ0 = 0) функция Н является линейнойпо u, поэтому ее максимум достигается на конечных u только при ψ(t) ≡ 0. Нотогда и μ ≡ 0 (в силу (3.6)), что противоречит условиям теоремы. Поэтомудалее можно положить λ0 = 1.Из условия (а) теоремы вытекает, чтоu*(t) = ψ(t).Сопряженная функция ψ(t) является решением следующего уравнения:ψ& = x – μ,μ ≥ 0,μ(x – c) = 0.Подставляя данные выражения в основную систему, получим, что х(t)удовлетворяет следующему дифференциальному уравнению:x&& = x – μ, x(0) = 1.Из условия дополняющей нежесткости, при x(t) > c μ(t) = 0, и х(t)удовлетворяет уравнениюx&& = x, x(0) = 1,общим решением которого являетсяx(t) = Aet + Be–t.Далее, в силу непрерывности сопряженной функции ψ(t), в первой точкеконтакта траектории x(t) с фазовым ограничением τ выполнено условие:ψ(τ –) = ψ(τ +) ⇒ x& (τ –) = x& (τ +) (так как u*(t) = ψ(t)),откуда следует, что x& (τ) = 0.Таким образом, начальное условие, условие выхода на фазовоеограничение и условие непрерывности сопряженной функции дают системууравнений для определения параметров A, B и τ:x(0) = A + B = 1x(τ) = Aeτ + Be–τ = cx& (τ) = Аеτ – Ве–τ = 0.Решая данную систему, получаем:36А=1 ± 1 − c2;2B=1 m 1 − c2;2τ = lnc1 ± 1 − c2.Далее необходимо показать, что коснувшись ограничения x(t) = cтраектория останется на нем.Заметим, что x&& ≥ 0 при всех t.
Поэтому траектория x(t) выпукла вниз.Допустим, что она сошла с ограничения. Тогда далее до конца x(t) > c,причем правый конец свободен. Следовательно, ψ(t1 ) = 0. Получаем, чтоψ(τ) = ψ(t1) = 0, тогда как ψ(t) строго возрастает вне ограничения.Противоречие показывает, что допущение неверно.2. [3] Найти оптимальное потребление с(t) в модели Рамсея:TJ(c, s) = ∫ U ( c )e −αt dt → max; Т – фиксировано;0U' > 0;U'' < 0;s& = ρs – c; s(0) = s0;U(0) = 0;s(T) = sT;с ≥ 0;при ограничении на величину сбережений s(t):s(t) ≥ a > 0; ∀t ∈ [t0, t1]Р е ш е н и е .
Наряду с функцией Понтрягина задачи, имеющей видH = λ0U(c )e–αt + ψ(ρs – c),выпишем лагранжиан:L = H + μ(s - a).Функция Понтрягина достигает максимума при конечных значениях с(t)только при ψ(t) > 0. Нетрудно видеть, что в этом случае она являетсявогнутой по c(t) (рис. 3.1), и условие максимума дает следующий вид0cc*(t4)Н(t1)Н(t2)Н(t3) Н(t4)Рис. 3.137оптимального управления⎧0,при U ' ( 0 ) ≤ ψ (t )e αt−1αtαt⎩(U ' ) (ψ (t )e ), при U ' ( 0 ) > ψ (t )eс*(t) = ⎨Уравнение для сопряженной переменной имеет вид:ψ& = – ρψ – μ,μ(s – a) = 0,μ ≥ 0.Так как концы фазовой траектории s(t) закреплены, то граничные условиядля ψ(t) неопределены.Рассмотрим два случая:1.
Пусть α < ρ. Покажем, что в этом случае s*(t) > a ∀ t ∈ [0, T].Предположим, что s*(τ) = a для некоторого τ ∈ [0, T]. Так как c*(t)непрерывна в точке τ иs& * = ρs* – c*,то s*(t) – непрерывно-дифференцируема в точке τ. Кроме того, в силуфазового ограничения τ – точка минимума траектории s*(t) на [0, T], поэтомуs& *(τ) = 0.
Вычислим &s& *(τ) :&s& *(τ) = ρ s& *(τ) – c& *(τ) = – c& *(τ),где c& *(τ) может быть найдено из соотношения U'(c(t)) = ψ(t)eαt как− ψ& (t )e αt − αψ (t )e αtψ (t )( ρ − α )e αt + μ (t )e αtc& *(τ) == –.U ' ' ( c(t ))U ' ' ( c(t ))(3.9)Так как α < ρ и U'' < 0, то c& *(τ) > 0, откуда следует, что &s& *(τ) < 0.
Этопротиворечит тому, что τ – внутренняя точка минимума траектории s*(t).Таким образом, при α < ρ траектория s*(t) не имеет внутреннихминимумов, а следовательно, не выходит на фазовое ограничение s(t) = a(рис. 3.2).2. Рассмотрим теперь случай α > ρ. Из (3.9) следует, что в этом случае надограничением s(t) = a нет внутренних максимумов. Это означает, что μ(τ) = 0,c& *(τ) < 0 и &s& *(τ) > 0 в любой точке τ ∈ [0, T], такой, что s& *(τ) = 0 и s(t) > a.Траектории s(t) в этом случае могут выходить на фазовое ограничение иливсе время оставаться выше его, описывая выпуклую кривую, в зависимостиот начальных условий и Т (рис.
3.3).На отрезке [t1, t2] имеем s& *(τ) = 0 и s(t) ≡ a. Тогда c(t) ≡ ρα > 0.Из условия максимума Н по с(t):38s0 1s1(t)sT1s0s(t)s0 2sTsT2aaТ0s2(t)0tt1t2ТtРис. 3.3Рис. 3.2U'(ρα) = ψ(t)eαt,откудаψ(t) = U'(ρα)e– αt.Тогда– αtψ& = – α U'(ρα)e.С другой стороны, из сопряженной системы:– αtψ& = – ρψ – μ = – ρ U'(ρα)e– μ.Из последних двух равенств получаем выражение для множителяЛагранжа μ:μ(t) =(α – ρ) U'(ρα)e– αt > 0.Определим моменты выхода и схода с фазового ограничения t1 и t2.Из условий непрерывности фазовой переменной s(t) и сопряженнойпеременной ψ(t) в точке t1 имеем:ψ(t1–) = ψ(t1+),s(t1–) = s(t1+),t1(3.10)t1− ρτгде s(t1 ) = e (s0 – ∫ e c(τ )dτ ) = eρt1(s0 – ∫ e − ρτ (U ' ) −1 (ψ 0 e (α − ρ )τ )dτ ); s(t1+) = a;–ρt1– ρt1ψ(t1 ) = ψ0e–0– α t1; ψ(t1 ) = U'(ρα)e+0.Для определения момента t2 воспользуемся краевым условием:s(T) = eгде ψ(t2) = U'(ρα)e– αt2.ρ(T – t2)T(a – ∫ e − ρτ (U ' ) −1 (ψ (t 2 )e (α − ρ )τ )dτ ) = sT(3.11)t239Таким образом, соотношения (3.10) и (3.11) позволяют определить всепараметры оптимальной траектории s*(t).Заметим, что специфика этой простой задачи позволила в явном видевыписать вид сопряженной функции ψ(t) на границе s(t) = a, а затемнезависимо определить параметры ψ0, t1 и t2.
Неразрешимость соотношений(3.10) и (3.11) относительно t1 и t2 говорит о том, что оптимальная траекторияs*(t), если она существует, не выходит на фазовое ограничение s(t) = a (т.е.соответствует случаю s1(t) на рис. 3.3). В этом случае параметры фазовойтраектории отыскиваются аналогично задаче без фазовых ограничений.Краевое условие будет иметь видs(T) = eρ(T – t2)T(s0 – ∫ e − ρτ (U ' ) −1 (ψ 0 e (α − ρ )τ )dτ ) = sT0откуда может быть получена константа ψ0.Подставив ее в выражения для с*(t) и s*(t):с*(t) = (U') –1(ψ0e(α – ρ)t);Tρts*(t) = e (s0 – ∫ e − ρτ c * (τ )dτ ).0получимявныйвидоптимального процесса.Если задача нахождения ψ0 вданномслучаетакженеразрешима, то исходнаязадача является неразрешимой,например, если отсутствуютдопустимыетраектории,переводящиесистемуизсостояния s0 в sT.Построим фазовый портретдвижения системы в осях (s, c).Дляэтоговоспользуемсявыражением (3.9) для c& (t).Подставив в негоψ(t) = U'(c(t))e– αt,получим:cα<ρα<ρα>ρα>ρα<ρα>ρasTs0sРис.
3.440c& (t) =(α − ρ )U ' ( c(t )) − μ (t )e αt;U ' ' ( c(t ))s& (t) = ρs(t) – c(t).На рис. 3.4 приведены соответствующие данной системе фазовыетраектории.Упражнения1. Определить минимум функционала3J(u, x) = ∫ 2 x 1dt ,0x& 1 = x2,x& 2 = u, x1(0) = 2, x2(0) = 0,| u | ≤ 2,при фазовом ограниченииx1(t) ≥ α,α ≤ 0.2. Найти максимум функционала3J(u, x) = – ∫ xdt ,0x& = u, x(0) = 1, x(3) = 1,при фазовом ограниченииx(t) ≥ 0.| u | ≤ 1,3. Проанализировать с помощью принципа максимума с фазовымиограничениями, а также построить и прокомментировать фазовыедиаграммы в координатах (s, c) для следующей задачи оптимальногоуправления:TJ(c, s) = ∫ ln(1 + c )e− βtdt → max, Т – фиксировано,0s& = ρs – c, s(0) = s0,s(T) = sT,с ≥ 0,s ≥ a > 0.Рассмотреть случаи β > ρ и ρ > β.414.
Динамическое программирование и уравнение Беллмана.Принцип Беллмана дает достаточные условия оптимальности процесса взадаче оптимального управления. Он базируется на следующем ключевомфакте:Если кривая x*(t) является оптимальной траекторией в задаче управлениядинамической системой на отрезке времени [t0, T], с некоторымначальным условием x(t0) = x0, то для любого момента времени τ ∈ [t0, T]оптимальным решением задачи управления системой на отрезке времени[τ, T] с начальным условием x(τ) = x*(τ) будет являться участок той жесамой траектории x*(t) (см. рис. 4.1).Рассмотрим задачу оптимального управления в виде:t1J(x(⋅), u(⋅)) = ∫ F (t , x (t ), u (t ))dt + Ф0(t1, x(t1)) → max.(4.1)t0x& ( t ) = f ( t , x ( t ), u ( t )) , x(t0) = x0,(4.2)u(t) ∈ Ut,(4.3)и пусть J* – значение функционала на оптимальном ее решении (x*(t), u*(t)).Теперь для произвольного момента времени τ ∈ [t0, T] и произвольнойточки фазового пространства у положим в задаче (4.1) – (4.3) t0 = τ, x(τ) = у.Функцию J*(τ, у), равную значению функционала на оптимальном решениитакой задачи, будем называть функцией Беллмана или функцией выигрыша.Отметим, что J* = J*( t0, x0).оптимальная траектория на [τ, T]Исследуем теперь изменениефункции J*(t, x) с течениемвремени вдоль оптимальной x*(T)траектории системы, то есть,x*(τ)при x = x*(t).Рассмотрим малое приращеx*(t)ние времени dt.