А.В. Фурсиков - Курс лекций по вариационному исчислению (1156151), страница 6
Текст из файла (страница 6)
. . , n) для некоторого xe ∈ A.nPПредположим, что в найденном λ оказалось λ0 = 0. Тогда L(bx, λ) = 0 >λj fj (ex) — противоречие с в). j=0172. Задачи оптимального управленияНаша основная цель — доказать принцип максимума Понтрягина. Пока что рассмотрим задачу, внешнепохожую на задачу управления, но исследовать её мы будем в постановке Лагранжа.Как обычно, T = [t0 , t1 ].2.1. Задача ЛагранжаZt1 J(x, u) = f t, x(t), u(t) dt → inf,t0ẋ(t) = ϕ t, x(t), u(t) ,g(x0 , x1 ) = 0,(1)где f ∈ C1 (T × Rn+m ); ϕ ∈ C1 (T × Rn+m ; Rn ); g ∈ C1 (R2n ; Rk ). Функции f , ϕ и g заданы.
Неизвестнымиявляются функции x : T → Rn и u : T → Rm , которые ищутся в классе C1 (T ) и C(T ) соответственно. Концыотрезка интегрирования t0 и t1 фиксированы.Определение. Назовём пару (x, u) допустимой, если выполнены условия задачи (1). Множество допустимых пар обозначим через A.Определение. Мы пишем (bx, ub) ∈ locmin, если (bx, ub) ∈ A и существует ε > 0 такое, что для всех (x, u) ∈ A,таких что kx − xbkC1 + ku − ubkC < ε, выполнено J(bx, ub) 6 J(x, u).Аналогично определяется locmax и locextr.Составим функцию ЛагранжаL(x, u, λ0 , p, ν) :=Zt1t0λ0 f (t, x, u) + p(t), ẋ − ϕ(t, x, u) dt + ν, g(x0 , x1 ) ,(2)где λ0 ∈ R, p ∈ C(T ; Rn ), ν ∈ Rk .Здесь самое сложное — условие ẋ = ϕ.
Поскольку при каждом t имеется равенствоẋ(t) = ϕ(t, x(t), u(t)), то мы должны были быP«написать бесконечное число множителей Лагранжа и просуммировать их»:pt (ẋ(t) − ϕ(t)), вместо этого мы написали интегралtR`´p(t) ẋ(t) − ϕ(t) .Проведем некие неформальные рассуждения. Принцип Лагранжа утверждает, что если есть решение задачис условиями, то найдутся множители Лагранжа, такие что функция Лагранжа имеет в соответствующей точкеb0 , pb и νb, такие чтобезусловный экстремум. В нашем случае это означает, что если (bx, ub) ∈ locextr, то найдутся λ(bx, ub, pb, νb) будет решением задачиb0 , x, u, p, ν) → extr,L(λ(3)b0 .
Важно, что экстремум здесь понимается не в смысле локального максимума или минипри фиксированном λмума, а в смысле стационарности функции, то есть равенства нулю производной. Примем без доказательства,что принцип Лагранжа применим к нашей задаче: найдутся λ0 ∈ R, p ∈ C1 (T ; Rn ) и ν ∈ Rk , такие что при всехh и w выполнено ′ ′Lx(·) (bx, ub, λ0 , p, ν), h = 0,Lu(·) (bx, ub, λ0 , p, ν), w = 0.(4)Совершенно неясно, почему можно взять p ∈ C1 .Из первого равенства, точно так же, как и в выводе уравнений для задачи Больца (разница только в том, чтотам extr понимался как локальный максимум или минимум, но на доказательство это не влияет), мы получаемdнеобходимые условия на xb. Запишем уравнение Эйлера − dtLẋ + Lx = 0:−ṗ + λ0 fx′ (t, xb, ub) − p(t), ϕ′x (t, xb, ub) = 0.(5)Поскольку p(t) и ϕ′x суть векторы-столбцы, то скалярное произведение (p, ϕ′x ) можно записать как (ϕ′x )⊤ p.Поэтому перепишем уравнение Эйлера в следующем виде, который называется сопряженным уравнением:⊤ṗ + ϕ′x (t, xb, ub) p = λ0 fx′ (t, xb, ub).(6)Запишем условие трансверсальности:p(ti ) = (−1)i (gx′ i )⊤ ν,18(i = 0, 1).(7)Рассматривая производную L′u , получаем уравнение⊤λ0 fu′ (t, xb, ub) − ϕ′u (t, xb, ub) p = 0.(8)Попробуем получить те же уравнения, исходя из принципа Лагранжа для гладких задач с ограничениямитипа равенств.
Напомним, что нами рассматривалась задача(f (x) → inf,(9)F (x) = 0.Предполагалось, что X и Y — банаховы пространства, U ⊂ X — открытое подмножество, f : U → R и F : U →Y — отображения, строго дифференцируемые в точке xb. Теорема 1.19 утверждала, что в случае замкнутостимножества Im F ′ (bx) для такой задачи справедлив принцип Лагранжа.Теорема 2.1. Пусть (bx, ub) ∈ locextr для задачи (1), и выполнены условия гладкости f, ϕ, g ∈ C1 .
Тогда1найдутся λ0 ∈ R, p ∈ C (T ; Rn ), ν ∈ Rk , такие что (λ0 , p, ν) 6= 0 и справедливы уравнения (6), (7), (8). Мы наметим лишь план доказательства. Будем сводить всё к общей теореме 1.19. В нашем случаеX := C1 (T ; Rn ) × C(T ; Rm ), то есть x ∈ X соответствует паре функций: x ↔ (x, u). Далее, возьмём Y :=:= C(T ; Rn ) × Rk , U := X,f (x ) := J(x, u),(10)01F (x ) := ẋ − ϕ(t, x, u), g(x , x ) .(11)Отображения f и F строго дифференцируемы, так как в выражениях для F и f участвуют лишь операторНемыцкого, операторы взятия производной и интегрирования, дельта-функция и гладкие функции g и ϕ.Проверим замкнутость образа Im F ′ (bx ):(12)F ′ (bx )(h, w) = ḣ − ϕ′x (t, xb, ub)h − ϕ′u (t, xb, ub)w, gx′ 0 h(t0 ) + gx′ 1 h(t1 ) .Оператор F ′ имеет вид F ′ (·) = A(·), B(·) , где A действует в C(T ; Rn ), B действует в Rk .
Покажем, что отображение A сюръективно (отсюда автоматически последует замкнутость Im A). Действительно, для всякой функцииψ(t) ∈ C(T ; Rn ) уравнение hA, (h, w)i = ψ(t), или, что то же самое,ḣ − ϕ′x (t, xb, ub)h − ϕ′u (t, xb, ub)w = ψ(t)(13)L(x , λ, y ∗ ) = λf (x) + hF (x ), y ∗ i(14)имеет решение, как следует из теоремы существования из курса ОДУ. Далее, поскольку Rk конечномерно, тоB Ker A замкнуто.
По лемме о замкнутости образа, Im F ′ тоже будет замкнут.Итак, все условия теоремы 1.19 выполнены, и мы можем сделать вывод: существует ненулевая пара (λ0 , y ∗ ) ∈∗∈ R × C(T ; Rn ) × Rk , такая что для функции Лагранжа в общей формебудет выполнено условие стационарностиL′x (bx , λ0 , y ∗ ) = 0,откудаL′x (bx , λ0 , y ∗ ) = 0,L′u (bx , λ0 , y ∗ ) = 0.(15)(16)Разберемся с условием стационарности по x. Оно эквивалентно тому, что при всех h имеемλ0 fx′ (bx )h + hy ∗ , Fx′ (bx )hi = 0.(17)Перепишем это условие по-другому. По теореме Рисса, любой линейный непрерывный функционал ξ на C[a, b]Rbимеет вид hξ, f (t)i = f (t) dµ(t), где µ(t) — функция ограниченной вариации, а интеграл понимается как интеaграл Римана – Стилтьеса.
Отсюда следует, что y ∗ можно представить в видеn ∗ Xy , (f (t), r) =Zt1fi (t) dµi (t) + (ν, r),(18)i=1 t0где f = (f1 , f2 , . . . , fn ). Далее, из условия стационарности можно вывести, что меры dµi (t) будут иметь C1 -гладкую плотность, то есть найдется p(t) ∈ C1 (T ; Rn ), для которогоZt1t0fi (t) dµi (t) =Zt1t019pi (t)fi (t) dt.(19)Это доказывается с помощью аналога леммы Дюбуа – Реймона, который мы не будем здесь приводить. Подставляя полученное представление для y ∗ в (17), получим, что при всех hZt1′λ0 fx′ (t, xb, ub)h(t) + p(t), ḣ − ϕ′x (t, xb, ub)h(t) dt + ν, gx(th(ti ) = 0.i)(20)t0Далее идут те же рассуждения, что и в задаче Больца: применение леммы Дюбуа – Реймона и интегрированиепо частям.Условие стационарности по u исследуется аналогично. 2.2.
Задачи оптимального управленияРассмотрим пример задачи оптимального управления.Zt1 J(x, u) = f t, x(t), u(t) dt → inf,t0ẋ(t) = ϕ t, x(t), u(t) ,g(x0 , x1 ) = 0,u(t) ∈ U при всех t.(21)Функции f, ϕ и g предполагаются гладкими, U — некоторое замкнутое множество.Кстати, контрольный вопрос к читателю: а где используется замкнутость множества U ?Концы отрезка интегрирования t0 и t1 , в принципе, могут быть подвижны, но мы остановимся на случаефиксированных t0 и t1 . Как и раньше, xi = x(ti ) (i = 0, 1).
Важно, что теперь мы ищем x и u не среди гладкихфункций, а среди кусочно-гладких и кусочно-непрерывных соответственно. Дело в том, что гладких решенийобычно не существует, а на практике x получается кусочно-гладкой функцией, u — кусочно-непрерывной. Итак,мы рассматриваемx(t) ∈ KC1 (T ; Rm ), u(t) ∈ KC(T ; Rm ).(22)Для полноты картины напомним, что мы называем функцию кусочно-непрерывной на отрезке, если этот отрезокможно так разбить на более мелкие отрезки, что на каждом из полученных интервалов функция уже будетнепрерывной, а в точках разбиения допускаются только разрывы первого рода (то есть должны существоватьконечные пределы справа и слева).Замечание. В литературе для кусочно-непрерывных функций встречается (более правильное) обозначениеPC (от англ. piecewise-continuous).
Однако мы будем придерживаться обозначения KC.Определение. Пара (x, u) ∈ KC1 ×KC называется допустимой (или управляемой), если (x, u) удовлетворяетусловиям задачи (21): ẋ = ϕ, g(x0 , x1 ) = 0 и u(t) ∈ U для всех t.Определение. Пара (bx, ub) называется решением, или оптимальным процессом, а ub называется оптимальным управлением), если (bx, ub) допустима, и существует ε > 0, такое что для любой допустимой пары (x, u)неравенство kx − xbkC < ε влечёт J(bx, ub) 6 J(x, u).Главное отличие этого определения от предыдущих — то, что u уже не должно быть близко к ub, а можетбыть любым.Общий смысл задач оптимального управления примерно таков: некий (физический) процесс с траекторией x(t) описываетсядифференциальными уравнениями и другими соотношениями.
В эти уравнения и соотношения входит параметр (управление) —функция u. Реализацию процесса x и управление u мы можем выбирать в заданных пределах (множество U ) как захотим. Приэтом нужно минимизировать заданный функционал. Пример: как следует управлять ракетой, чтобы она в фиксированный моментвремени достигла заданной точки с заданной скоростью, израсходовав минимум топлива. Если x — положение ракеты, u — вектортяги ракеты (считаем массу ракеты единичной), g — поле тяготения, то получается задача оптимального управления8 t1Z>>>>|u| dt → inf,><t0(23)>>> ẍ = u + g,>>:x(ti ) = xi , ẋ(ti ) = vi , i = 1, 2.Составим функцию ЛагранжаL(x, u, λ0 , p, ν) =Zt1t0λ0 f (t, x, u) + p(t), ẋ − ϕ(t, x, u) dt + ν, g(x0 , x1 ) .20(24)Из того, что (bx, ub) является оптимальным процессом, сразу следует, что (bx, ub) доставляет локальный минимум в задаче Лагранжа.