Сотсков А.И., Колесник Г.В. Оптимальное управление в примерах и задачах (2002) (1249284), страница 3
Текст из файла (страница 3)
Здесь W - реальное богатствопотребителя, которое прирастает с темпом r, это фазовая координата. Частьего потребитель тратит на потребление c - это управление, а другая частьидет на приращение богатства. Для определенности будем считать, что β < r,а также, что W0 ert > WT.Функция Понтрягина H и сопряженная система имеют вид:H = ψ0 ce–β t + ψ1 (rW – c),ψ& 1 = – rψ1 ,где ψ0 = const ≥ 0 и одновременно ψ0 и ψ1 не обращаются тождественно вноль. Уравнение можно сразу проинтегрировать: ψ1(t) = ψ1(0) e-rt . Условиемаксимума H по с дает соотношение:(ψ0 e-β t – ψ1(0) e-rt) с → max по c: 0 ≤ c ≤ 1.Отсюда заключаем, что если ψ1(0) ≤ 0, то получаем режим c ≡ 1, которыйбудет оптимальным при некотором достаточно высоком W(0)max.
Если нашеW0 меньше, то отрицательное ψ1(0) не годится, значит ψ1(0) > 0. В этомслучае, если ψ0 = 0, то реализуется режим c ≡ 0, который также будетоптимальным при некотором достаточно низком W(0)min. Если наше W0выше, то нулевое ψ0 не годится, значит ψ0 > 0. В таком случае его можносчитать равным 1, воспользовавшись тем, что сопряженный вектор ψ = (ψ0,ψ1) определен с точностью до положительного множителя. Условиемаксимума H по с запишем в более удобном виде:(1 – ψ1(0) e-(r – β) t) с → max по c: 0 ≤ c ≤ 1.Отсюда видно, что режимы, для которых W(0)min < W(0) < W(0)maxпроходят с переключением: ψ1(0) > 1, c(t) = 0 на начальном отрезке, затем внекоторый момент t наступает равенство: ψ1(0)e-(r – β) t = 1 и затем c(t) =1 доконца интервала управления.То, что описанные режимы действительно доставляют максимумфункционалу, следует из вогнутости функции Понтрягина по совокупностифазовой координаты и управления, W и c, такая теорема будет доказанавпереди.
Картина фазовых траекторий представлена на рисунке.Аналогичный анализ можно провести для случая, когда β > r. Тогдапереключения будут с с = 1 на с = 0. Результаты приведены на рисунке 2.2.15β<rWmaxβ>rWmaxc=1c=1WTW0WTc=0c=0Wmin0c=1W0c=0Wmint0Tt0t0TtРис. 2.2.4. За д а ч а о п т и м а л ь н о г о у п р а в л е н и я с о с в о б о д н ы мп р а в ы м к о н ц о м . Рассматривается модель потребителя:Tmax ∫ ce – β tdt + Φ(WT)0W& = rW – c, t ∈ [0, T].Граничные условия имеют вид: W(0) = W0, WT – свободно, ограничение наобъем мгновенного потребления с: 0 ≤ c ≤ 1.
Функция Φ – определена идифференцируема на R+ , Φ' > 0, Φ'' < 0. Для определенности будем считать,что β < r.Функция Понтрягина H и сопряженная система имеют вид:H = ψ0 ce-β t + ψ1 (rW – c),ψ& 1 = – rψ1,с граничным условием (условием трансверсальности)ψ1(T) = ψ0Φ'(WT),где ψ0 = const ≥ 0 и одновременно ψ0 и ψ1 не обращаются тождественно вноль. Отсюда следует, что ψ0 > 0, ψ1 > 0. Положим ψ0 = 1. Сопряженноеуравнение можно проинтегрировать: ψ1(t) = ψ1(0) e – rt .Тогда условиетрансверсальности принимает вид:Условие максимума H по с дает соотношение:(1 – ψ1(0) e–(r–β )t) с → max по c: 0 ≤ c ≤ 1.Возможны следующие режимы:16ψ1(0) e–(r --β )t > 1 ⇒ c = 0,ψ1(0) e–(r –β )t < 1 ⇒ c = 1.При этом возможно не более одного переключения с режима c = 0 нарежим c = 1.
В частности, при t = T , учитывая условие трансверсальности,можно разбить терминальное множество {(t, W): t = T, W ≥ 0} на плоскости(t, W) на две части:Φ'(WT) eβT > 1, где с = 0 иΦ'(WT) eβT < 1, где с = 1.Точка WT* : Φ'(WT*) eβT = 1 разграничивает эти области. Из условиямаксимума H по c видно, что если W(T) = WT*, то при всех t < T c(t) = 0.Этому режиму соответствует траектория W(t) = W0*ert. В силу вогнутости Φнеравенство Φ'(WT) eβT > 1 сохранится для всех начальных условий W0 < W0*.Таким образом для всех W0 < W0* получаем экстремали W(t) = W0 ert суправлением с ≡ 0.При W0 > W0* возможно переключение. Построим кривую переключения вкоординатах (t, W). На оси t = T кривая начинается в т.
WT*. Чтобыопределить ее при t < T заметим, что момент переключения t находится изусловия:ψ1(0) e–(r – β )t = 1.Выразим ψ1(0) из условия трансверсальности и подставим в последнееуравнение. Получим:Φ'(WT) erT e–(r –β )t = 1 илиlnΦ'(WT) + r(T – t) + β t = 0.(2.12)Зная, что при WT > WT* на последнем участке траектории c = 1проинтегрируем уравнение W& = rW – 1 в пределах от t до T, считая, чтоW(T) = WT , а в момент t имеем X :W(T) e – rT – X e – rt = (e – rT – e – rt)/r , илиW(T) = e rT (X e – rt + (e – rT – e – rt)/r ).Подставим это выражение для W(T) в уравнение (2.12):lnΦ'(r –1 – (r –1 – X) er(T – t )) + rT – (r – β) t = 0.(2.13)Неявная функция X(t) из соотношения (2.13) описывает кривуюпереключения. Легко проверить, что кривая X(t) убывает ( с темпом,большим, чем r) c ростом t от t = 0 до t = T.
Любая траектория, начинающаяся17β<rW(t)X(t)терминальноемножествоW0 = 1/rc=1c=1c=0W0 'c=1W T*c=0W0c=0W0*T0tРис. 2.3.с W0 < X(0) переключается с c = 0 на c = 1 на кривой X(⋅). На этом задачасинтеза оптимального управления завершена.Полученные результаты проиллюстрированы на рисунке 2.3.5. З а д а ч а н а б ы с т р о д е й с т в и е . Имеется динамическая система,характеризуемая координатой х и скоростью v. Параметром управленияявляется ускорение системы, выбираемое из отрезка [–1, 1]. Требуется заминимальное время Т перевести систему из начального состояния (x0, v0) всостояние (0, 0). Фиксируем время начала процесса.
Время окончания,очевидно, свободное.Р е ш е н и е . Запишем условие задачи в формальном виде:T → min;x& = v; x(0) = x0; x(T) = 0;v& = u; v(0) = v0; v(T) = 0;| u | ≤ 1.Функционал задачи может быть преобразован к интегральному виду:T– ∫1dt → max.0I. Выпишем условия принципа максимума:18H = – λ0 + ψ1v + ψ2u → max ;uψ& 1 = −∂H= 0;∂xψ& 2 = −∂H= –ψ1; H( t1) = 0.∂vТак как и правый и левый конец фазовой траектории – закрепленные, тоусловия трансверсальности на сопряженные функции отсутствуют.Так как функция Понтрягина линейна по u, то максимум Н можетдостигаться только на концах отрезка изменения управления (заисключением случая, когда ψ2 = 0).
Таким образом оптимальное управлениеимеет вид⎧sgn ψ 2 (t ), ψ 2 (t ) ≠ 0u*(t) = ⎨⎩ [−1, 1], ψ 2 (t ) = 0где запись [–1, 1] означает, что u(t) в этом случае не определяется из условийпринципа максимума.Из сопряженной системы могут быть найдены ψ1(t) и ψ2(t):ψ1(t) = с; ψ2(t) = ct + d.Кроме того, λ0 = ψ2u |t=T . Видно, что в зависимости от значенийпостоянных интегрирования с и d может иметь место несколько различныхтипов поведения ψ2(t):а).
с ≡ 0. В этом случае ψ2(t) = d. Тогда u*(t) = sgn d – постоянна на [0, T].б). с < 0. Тогда ψ2(t) – убывающая линейная функция. При этом знак ψ2(t)может изменяться не более одного раза, причем только с '+' на '–'. Такимобразом:⎧ 1, t ∈ [0,τ ),(2.14)u*(t) = ⎨⎩− 1, t ∈ (τ ,T ]где τ ∈ [0, T] – момент переключения управления. u(τ) может бытьопределено произвольным образом, так как переопределение функции водной точке не повлияет на значение интегрального функционала.в). с > 0. Рассуждая аналогично предыдущему случаю, получим, чтооптимальное управление может иметь вид:⎧− 1, t ∈ [0,τ ).u*(t) = ⎨⎩ 1, t ∈ (τ ,T ](2.15)Вырожденный случай возможен только при ψ2(T) = 0.
Это происходит,когда начальные состояния (x(0), v(0)) переводятся в точку (0, 0) управлениемu* ≡ +1 или u* ≡ –1.19vxРис. 2.4Таким образом, выделены все возможные типы управлений при различныхзначениях сопряженных функций. Рассмотрим теперь поведение системы дляэтих управлений.а).
u(t) = 1. Тогда основная система имеет вид:x& = v; v& = 1,откуда получаем:v(t) = t + c1; x(t) =t2+ c1t + c2.2Построим фазовую диаграмму поведения системы. Для этого выразим x(t)через v(t):x(t) =1t2t2+ c1t + c2 = ( + c1t + c12) – с12 + c2 = v(t)2 + d1222Таким образом возможные фазовые траектории системы в этом случаепредставляют собой семейство квадратичных парабол, ориентированныхвправо (см. рис. 2.4).Движение системы вдоль этих траекторий будет происходить снизу вверх(т.к. v – возрастающая функция от t).Видно, что достижение конечной точки (0, 0) при помощи управленияu(t) ≡ 1 возможно только для некоторых начальных условий, а именно, точек,лежащих на нижней ветви параболы x0 =1 2v0 (выделена жирным на рис.
2.4).2б). u(t) = – 1. В этом случае:x& = v;v& = – 1,t2v(t) = – t + c3; x(t) = – + c3t + c4.220vv0u = –1u=1x0xРис. 2.5Выражая x(t) через v(t) аналогично предыдущему случаю, получаем:1t2t2x(t) = –+ c3t + c4 = – ( – c3t + c32) + с32 + c4 = – v(t)2 + d2222Фазовые траектории системы при u(t) = – 1 представляют семействоквадратичных парабол, ориентированных влево, движение вдоль траекторийпроисходит сверху вниз.
Достижение конечной точки при u(t) ≡ – 1 возможно12только для точек, лежащих на верхней ветви параболы x0 = – v02.Таким образом, для точек, лежащих на линии переключения⎧ 1 2⎪ 2 v0 , v0 ≤ 0x0 = ⎨ 1⎪− v02 , v0 > 0⎩ 2оптимальное управление будет постоянным на всем отрезке [0, T]: u*(t) ≡ sgnx0. Здесь мы имеем вырожденный случай λ0 = 0.Для точек, лежащих над данной кривой, оптимальное управление будетиметь вид (2.15). Действительно, в противном случае система будетперемещаться под действием управления u(t) = 1 вправо вверх, и никогда недостигнет начала координат.Аналогично, для точек, лежащих ниже линии переключения управлениебудет иметь вид (2.14).Определим момент переключения управления τ.