Сотсков А.И., Колесник Г.В. Оптимальное управление в примерах и задачах (2002) (1249284), страница 4
Текст из файла (страница 4)
Пусть начальноесостояние (x0, v0) находилось над линией переключения (см. рис. 2.5). Тогдатраектория движения системы на отрезке времени [0, τ] описываетсяуравнениями:21v(t) = v0 – t; x(t) = –t2+ v0t + x0.2С другой стороны, на отрезке [τ, T] система движется под действиемуправления u(t) = 1 и конечное ее состояние равно (0, 0). Тогда:v(t) = t – T; x(t) =t 2 +T22– Tt.Тогда из условий непрерывности фазовой траектории в момент времени τv0 – τ = τ – T; –τ22+ v0τ + x0 =τ 2 +T 22– Tτ.Решая эту систему относительно переменных τ и Т, получаем:τ = v0 +v022+ x 0 ; T = v0 + 2v022+ x0 .Моменты переключения и окончания управления для начальных условий,лежащих ниже линии переключения, определяются аналогичным образом.II.
Приведем также решение, использующее функцию Лагранжа. Врассматриваемой задаче она имеет следующий видTL = ∫ψ 1 (t )(v − x& ) + ψ 2 (t )( u − v& )dt − λ0T + λ1 ( x ( 0 ) − x 0 ) + λ2 ( v( 0 ) − v0 ) + λ3 x (T ) + λ4 v(T ) .0Необходимые условия оптимальности состоят в том, что ∃ λ0, λ0, …, λ4,ψ1(t), ψ1(t), такие, что выполнено:а). Уравнение Эйлера для лагранжиана L = ψ 1 (t )(v − x& ) + ψ 2 (t )( u − v& ) :−dL x& + L x = 0 ;dt−dL v& + L v = 0 ,dtчто приводит к сопряженной системе:ψ& 1 = 0; ψ& 2 + ψ1 = 0.Условия трансверсальности по х для терминантаФ(x(0), x(T), v(0), v(T), T) = − λ0T + λ1 ( x ( 0 ) − x 0 ) + λ2 ( v( 0 ) − v0 ) + λ3 x (T ) + λ4 v(T ) :ψ1(0) = – λ1Ф'х(0) = – λ1; ψ1(T) = – λ3Ф'х(T) = – λ3;ψ2(0) = – λ2Ф'v(0) = – λ2; ψ2(T) = – λ4Ф'v(T) = – λ4;b).
Оптимальность лагнажиана L по u (выписаны только слагаемые,зависящие от u):⎧sgn ψ 2 (t ), ψ 2 (t ) ≠ 0u * (t ) = ⎨max {ψ 2 (t )u}⇒.u∈[ −1,1]ψ 2 (t ) = 0⎩ [−1,1],с). Стационарность функции Лагранжа по Т:22L 'T = 0⇒ − λ0T + λ3 x& (T ) + λ4 v&(T ) = 0.Видно, что условия (а) и (b) соответствуют условиям принципа максимумаи приводят к аналогичным решениям. Условие (с) возникает для задач снефиксированным временем окончания процесса и представляет собойдополнительное уравнение для определения оптимального Т.6.Ещеоднамодельповеденияпотребителя.Рассматривается динамическая модель потребителя, максимизирующегодисконтированную полезность от потребления U(с) на фиксированномотрезке времени [0, T]:maxT∫U(c)e-β t dt.(2.16)0Выбор потребления c подчиняется бюджетному ограничениюk& + b& + с = f(k) + rb, t∈[0, T],(2.17)при граничных условиях k0 + b0 = W0, и условии на правом концеk(T) + b(T) ≥ WT,(2.18)где T, r и β –фиксированные положительные числа.Дифференциальное ограничение (2.17), записанное в реальных переменных, означает, что в каждый момент времени потребитель выбирает, кудавкладывать выпуск производства f(k), которым он владеет: инвестировать вкапитал k& , инвестировать в актив b& , приносящий поток процентного доходаrb, или пустить в потребление с.
В начале планового периода реальноебогатство потребителя (k0 + b0) составляет W0, а в конце потребитель хочет,чтобы его реальное богатство (k(T) + b(T)) было не меньше определеннойвеличины WT.Предполагается, что функции U и f определены на R+,дифференцируемы,возрастают.причемU'(0) = f'(0) = ∞,вогнутыимонотонноР е ш е н и е . Проанализируем эту задачу, как задачу оптимальногоуправления, с помощью принципа максимума. Для этого приведемограничение (2.17) к нормальной форме, введя новую переменную u = k& .Тогда дифференциальные связи будут иметь вид:k& = u,b& = f(k) + rb – с – u.23Как фазовые координаты k и b (запас капитала и актива), так и управленияс и u, являются неизвестными функциями времени.Рассмотрим случай, когда на изменение c и u не накладывается никакихограничений.
По смыслу задачи с не может быть отрицательным, т.к. в этомслучае не определена полезность потребителя U. Отрицательное uдопустимо, и соответствует проеданию капитала. Предположим, что решениезадачи в этом случае существует.Запишем функцию Понтрягина:H = ψ0U(c)e–β t + ψ1 u + ψ2 (f(k) + rb – c – u) .Тогда сопряженная система имеет вид:ψ& 1 = – ψ2 f'(k),ψ& 2 = – ψ2 r.Максимизируя H по c и u получаем уравненияψ0U'(c)e–β t = ψ2,ψ1 = ψ2(2.19)(здесь мы воспользовались существованием решения).Отсюда следует, что ψ0 ≠ 0 (обратное приводит к обнулению вектораψ = (ψ0, ψ1, ψ2), что противоречит предположению о существовании решенияи принципу максимума).
Так как вектор ψ определен в условияхоптимальности с точностью до положительного множителя, то можноположить ψ0 = 1. Кроме того, так как U' > 0, заключаем, что ψ1 = ψ2 > 0. Изсопряженной системы получаем, чтоf'(k(t)) = r ∀ t∈[0, T],(2.20)откуда находим k(t) ≡ k* .Сопряженная система сводится к одному уравнениюψ&1 = −ψ 1 r,которое имеет решение ψ1(t) = ψ2(t) = ψ1(0) e–rt . ТогдаU'c = ψ1(0) e(β – r)t,откуда можно выразить с = С(t, ψ1(0)).Заметим, что из вогнутости функции U следует, что с убывает, если β > r, ивозрастает, если β < r.Ограничения на левом и правом концах дают нам условиятрансверсальности:ψ1(0) = ψ2(0) и ψ1(T) = ψ2(T),указывающие, что вектор (ψ1(T), ψ2(T)) должен быть коллинеарен градиентуограничения k(T) + b(T) ≥ WT.
Это равенство уже обеспечено условиями (2.19).24Кроме того, так как ψi > 0, то из условия дополняющей нежесткости направом конце следует, что концевое ограничение выполняется со знакомравенства:k(T) + b(T) = k* + b(T) = WT .Тогда значения актива b(t) на концах:b(0) = W0 – k*, b(T) = WT – k* .Полученные значения b(0) и b(T) позволяют найти ψ1(0).
Для этогорассмотрим исходное ограничение задачиb& = rb + [f(k0) – C(t, ψ1(0)], b(0) = W0 – k* .(2.21)Проинтегрируем его от 0 до t:b(t) = ert (W0 – k* +t∫[f(k0) – C(τ, ψ1(0)]dτ.0При t = T получаем соотношение для нахождения ψ1(0)T∫[f(k0) – C(t,ψ1(0)] e–rtdτ = (WT – k*)e–rt – (W0 – k*).(2.22)0Затем находим с(t) = С(t,ψ1(0)) и b(t) по формуле (2.21).Мы установили, что с(t) ведет себя монотонно. Осталось исследоватьповедение функции b(t).
Обозначим A(t) = f(k0) – c(t).Предположим, что функция b(t) имеет стационарную точку t*: b& (t*) = 0.Выясним характер экстремума в точке t*. Вычислим ее первую и вторуюпроизводные:t*b& (t*) = r ert* [ b0 + A(t) e–rt dt ] + A(t*) = 0,∫0b&& (t*) = r2 ert* [b0 +t*∫A(t) e–rt dt ] + A& (t*) + r A(t*) =0= – r A(t*) + A(t*) + r A(t*) = A& (t*).Таким образом, если β > r, то c(t) убывает, а A(t) возрастает, следовательно,b&& (t*) > 0, то есть, t* – точка минимума b(t) и, очевидно, единственная. Еслиже β < r, то t* – единственная точка максимума b(t).
Если внутри нетстационарной точки, то b(t) изменяется монотонно.Поведение b(t) изображено на рисунках 2.6 и 2.7.Выписанные выше условия принципа максимума являются необходимыми.Предположим, что уравнения (2.20) и (2.22) имеют решения, по которымопределяются переменные k*, b*(t), c*(t) и u*(t). Мы утверждаем, что это иесть решение исходной задачи. Это следует из того, что функция Понтрягина25b(t)c( t )b(T)f(k*)Tt0tt0TtTtРис.
2.6. Случай β > rb(t)c( t )b(T)f(k*)t0Ttt0Рис. 2.7. Случай β < rвогнута по совокупности переменных k, b, c, u (вспомним, что ψ1 и ψ2положительны). Это свойство является достаточным условием того, чтонайденная из принципа максимума экстремаль является решением задачи.Рассмотрим теперь более сложный случай.7. М о д е л ь п о в е д е н и я п о т р е б и т е л я с о г р а н и ч е н и я м и н ау п р а в л е н и е . Рассматривается та же модель, что и в примере 4:maxT∫U(c)e-β t dt,0k& = u,b& = f(k) + rb – с – u,t∈[0, T].Граничные условия теперь имеют вид:26k(0) = k0, b(0) = b0, k(T) + b(T) ≥ WT,где k0 > 0, b0 > 0, WT > k0 + b0.Задано ограничение на управление u: | u | ≤ 1, означающее, что росткапитала, как и его преобразование в потребительский продукт, не можетбыть мгновенным.
Для определенности будем считать, что β > r.Функция Понтрягина H и сопряженная система имеют тот же вид, что и впредыдущем случае:H = ψ0U(c)e–β t + ψ1 u + ψ2 (f(k) + rb – c – u) .ψ&1 = −ψ 2 f ' ( k )ψ& 2 = −ψ 2 rУсловие максимума H по с и u дает соотношенияψ0U'(c) e–β t = ψ2 ,(ψ 1 − ψ 2 )u → max .u:|u | ≤1Отсюда заключаем, что ψ0 можно считать равным 1,ψ2(t) = ψ2(0) e–rt,с = С(t,ψ2(0)),и, кроме того,u = sgn(ψ1 – ψ2),где при ψ1 = ψ2 значение u∈[–1, 1].Условие трансверсальности на правом конце дает: ψ1(T) = ψ2(T) ≥ 0,причем, очевидно, неравенство выполняется строго.Рассмотрим закон изменения разности (ψ1(t) – ψ2(t)):.(ψ 1 − ψ 2 ) = ψ2(0) e(β – r)t (r – f'(k(t))).(2.23)Пусть k* – такое, что r = f'(k*).
Покажем, что:• при k0 < k* применяется управление u = 1, пока k(t) < k*,• при k0 > k* применяется управление u = –1, пока k(t) > k*,• при k0 = k* применяется управление u = 0, пока k(t) = k*.Пусть k0 < k*. Утверждаем, что тогда ψ1(0) >ψ2(0).
Допустим обратное, т.е.ψ1(0) ≤ ψ2(0). Так как f'(k0) > f'(k*) = r, а фазовая переменная k(t) непрерывна,то в окрестности точки t = 0 разность (ψ1(t) – ψ2(t)) убывает в силу (2.23), аu = –1. Уменьшение капитала приведет только к дальнейшему уменьшениюотрицательной разности (ψ1(t) – ψ2(t)) и сохранению управления u = –1. Такаятраектория (ψ1(t), ψ2(t)), будучи продолженной до t = T, не удовлетворяетусловию трансверсальности на правом конце: ψ1(T) = ψ2(T). Поэтому, еслиоптимальная траектория существует, а мы это предполагаем, то ψ1(0) > ψ2(0).27Управление u = 1 применяется до тех пор, пока (ψ1(t) – ψ2(t)) > 0, при этом(ψ1(t) – ψ2(t)) убывает. Представляются две возможности, согласующиеся сусловием трансверсальности: разность достигает нуля либо в момент t = T,либо при некотором t = t* < T.В первом случае получаем экстремаль:b(t) = ert (b0 +k(t) = k0 + t,t∫[f(k0 + τ) – C(τ,ψ2(0))]dτ,0где ψ2(0) находится из условия b(T) = WT – (k0 + T).При этом k(T) = k0 + T ≤ k*.
Действительно, если k(t') = k* при t' < T, то наотрезке [t', T] разность (ψ1(t) – ψ2(t)) будет возрастать и условиетрансверсальности не будет выполнено.Во втором случае ψ1(t*) = ψ2(t*), t* < T. Мы утверждаем, что в этотмомент и капитал достигает значения k(t*) = k0 + t* = k*.