Громов Ю.Ю. и др. - Специальные разделы теории управления, оптимальное управление динамическими системами (955108), страница 9
Текст из файла (страница 9)
Это снижаетценность необходимого условия (45), так как для негладкой функции V(t, x) трудно сохранить необходимость его в полномобъеме.5.3. Ослабленное необходимое условиеУточненное необходимое условие для основной задачи оптимального координатного управления на основе принципаоптимальности, частично свободное от требования непрерывной дифференцируемости функции V(t, x), формулируется следующим образом.Формулировка задачи. Пусть краевые условия имеют видx(t 0 ) = x 0 ; q(t1 , x(t1 )) = 0 .(52)Минимизируемый функционал имеет видt2J [t 0 , x 0 , u] = Φ (t1 , x(t1 )) + ∫ f 0 (t , x, u)dt(53)t1и определен на траекториях системы (41) с управлениемu(t ) ∈ U m (t , x) .Закон управления v(t, x) считается допустимым, если u(t) = v(t, x(t)), v(t , x(t )) ∈ U m (t , x) , и является кусочнонепрерывным.Если управление u = u*(t), t0 ≤ t ≤ t1 доставляет минимум функционалу J, то ему соответствует оптимальная траекторияx*(t).Пустьt1V (t0 , x 0 ) = min Φ (t1 , x(t1 )) + ∫ f 0 (t , x, u)dt =u∈U m t0= Φ(t1 , x*(t1* )) +t1*∫ f 0 (t, x (t ), u (t )) dt .**(54)t0Тогдаt1V (t 0 , x 0 ) ≤ Φ (t1 , x(t1 )) + ∫ f 0 (t , x(t ), u(t ))dt ,t0где u(t) произвольно.Необходимые условия.
Предполагается, что искомое оптимальное управление u* = v*(t, x) существует. Тогда можно установить необходимые условия для основной задачи оптимального координатного управления.Пусть в области G пространства состояний X n выполняются следующие условия.1. Для x ∈ G в момент t функцияn∂V∂VH t , x,, u = f 0 (t , x, u) + ∑f i (t , x, u)∂∂xi =1 xiимеет абсолютный минимум по u, т.е.
min H = H * (t , x, Vx ) при u * = v * (t , x) = u * (t , x, Vx )uпо всем допустимымu(t ) ∈ U m (t , x) , где Vx = ∂V ∂x – градиент V(t, x).2. Решение x(t) системы (41) существует и является непрерывной функцией для всех допустимых u(t ) ∈ U m (t , x) .3. Функция f 0 (t , x, u) непрерывна по t.4. Функция Vt (t , x) = ∂V ∂t непрерывна по t и x; вектор-функции Vx (t , x) и f(t, x, u) либо непрерывны по t и x, либоимеют равные левый и правый пределы для скалярного произведения Vx f вдоль любой траектории x(t) системы (41):lim [Vx (t , x)f (t , x(t )), u(t ))] = lim [Vx (t , x)f (t , x(t ), u(t ))] .t →t 0 + 0t →t 0 − 05.
Существует оптимальное движение для каждого начального x0 ∈ G в некоторое состояние, удовлетворяющее условию q(t1 , x1 ) = 0 , и причем такое, что траектория не выходит из G.6. Каждая точка в G, не удовлетворяющая условию q(t, x) = 0, имеет окрестность, целиком лежащую в G.Тогда функция V(t, x) в области G удовлетворяет уравнению Гамильтона–Беллманаили dV min + f 0 (t , x(t ), u(t )) = 0 ,u∈U m dt u(55) ∂V (t , x)min + Vx (t , x)f (t , x, u) + f 0 (t , x, u) =mt∂u∈U ∂V (t , x)=+ min H (t , x,Vx (t , x), u) =∂tu∈U m∂V (t , x)=+ H * (t , x, Vx (t , x)) = 0∂t(55')с граничным условиемV (t , x) = Φ(t , x)(55")на гиперповерхности q(t, x) = 0.Здесь обозначеноH * (t , x, Vx (t , x)) = min H (t , x, Vx (t , x), u) ;u∈U m dV dt – полная производная вдоль траектории, реализуемой под действием управления u.uТак как при известной функции V(t, x)u * = arg min H = u * (t , x,Vx (t , x)) = v * (t , x) ,u∈U mто найденное решение V(t, x) уравнения (55) одновременно дает решение проблемы синтеза оптимального закона управления.Замечания. dV 1.
Требование 4 влечет за собой непрерывность функций и V(t, x) по времени t. dt u2. Когда Vt , Vx и fi непрерывны по t и x, уравнение (55) представляет собой уравнение Гамильтона–Якоби.Общая последовательность действий, которой целесообразно придерживаться при решении задачи синтеза оптимального закона управления методом динамического программирования, представлена в табл. 2.2. Последовательность действий при использовании метода динамического программированияШагПоследовательность действий1Образуется функция H, в которой сопряженные переменные λ i заменяются на компоненты вектора ∂V (t , x) ∂V (t , x)∂V (t , x) dV , т.е.= grad xV (t , x) = Vx = ,,...,∂x2∂xn dx ∂x1H (t , x, u,Vx ) = Vxf (t , x, u) + f 0 (t , x, u)2Минимизируется H (t , x, u,Vx ) по u ∈ U m и находится явнаязависимость управления u* от компонент вектора Vx :u * = u * (x, Vx , t ) = arg min H (t , x, u, Vx )u∈U m3Находится минимальное значение H* путем подстановки вH значения u * (t , x, Vx ) :H * (t , x,Vx ) = H (t , x, u * (t , x, Vx ),Vx )4Решается дифференциальное уравнение в частныхпроизводных Гамильтона–БеллманаH * (t , x, Vx ) +∂V=0∂tс соответствующим граничным условием для функцииV(t, x) V (t , x) = Φ (t , x) на гиперповерхности q(t, x) = 05Подставляя результаты шага 4 в выражение для u * (t , x, Vx ) ,получаем закон управления с обратной связью∂V (t , x) u * = v * (t , x) = u * t , x,∂x 5.4.
Сводка общих процедур метода динамическогопрограммирования для вычисления оптимального законауправления u* = v*(t, x)П р и м е р 2. Синтез оптимального закона управления для линейной системы с квадратичным критерием качества. Проблема аналитического конструирования оптимальных автопилотов.Пусть нестационарная линейная система описывается векторным линейным дифференциальным уравнениемx& = A(t )x + B (t )u + Cf (t )(I)с начальным условиемx(t 0 ) = x;t 0 ≤ t ≤ t1 ,(II)где t1 – фиксировано; t 0 , x 0 – известные величины (которые, однако, специально не выбираются), и пусть критерий качества имеет вид1 Tx1 R1x1 +2t1 l T (t ) x(t ) + l T (t )u +23dt .+ 1 T+ (x Q(t )x + x T N (t )u + u T N T (t )x + u T P (t )u)t0 2J [u] = l1T x1 +∫(III)Здесь x = ( x1 , x2 , ..., xn )T ; f = ( f1 , ..., f n )T ; C, A(t) – матрицы размерности n × n; u = (u1 , ..., u m )T , x1 = x(t1 ) ; B(t), N(t) – матрицы размерности n × m; R1 , Q(t ) – положительно полуопределенные симметричные матрицы размерности n × n; P(t) –положительно определенная симметричная матрица размерности m × m; P(t) – известная функция времени; l1 , l 2 (t ) , l1 , l 2 (t )– n-мерные векторы; l 3 (t ) – m-мерный вектор.Напомним, что симметричная матрица Q называется положительно полуопределенной, если все ее собственные значения неотрицательны или если соответствующая ей квадратичная форма неотрицательна, т.е.
xT Qx ≥ 0 для всехx = ( x1 , x2 , ..., x n )T ≠ 0 . Для того чтобы матрица Q была положительно полуопределенной, необходимо и достаточно, чтобывсе главные (а не только угловые!) миноры были неотрицательны: i i ... i p ≥ 0 (1 ≤ i1 < i2 < ... < i p ≤ n; p = 1, n) .Q 1 2 i1 i2 ... i p Предполагается, что на значения управляющего вектора u не накладывается каких-либо ограничений, а матрицы Q(t),N(t), P(t) таковы, что выполняется условиеQ(t ) − N (t ) P −1 (t ) N T (t ) ≥ 0(это условие гарантирует отсутствие сопряженных точек в данной задаче).Необходимо найти закон управления с обратной связьюu* = v*(x, t),минимизирующий критерий J[u].
Заметим, что значения вектора фазовых координат x при t = t1 не заданы (т.е. рассматриваемая задача относится к числу задач оптимального управления со свободным правым концом).Пусть V(t, x) – минимальное значение критерия качества J[u] при движении системы (I) из произвольной начальнойточки (t, x) (нижний индекс «0» опущен) на отрезке времени [t , t1 ], t ≤ t1 :J * = J minV (t , x) = min J [u] .uПри решении задачи методом динамического программирования целесообразно руководствоваться последовательностью действий, изложенной в сводке общих процедур (см.
табл. 2). В соответствии с табл. 2 составляем функциюH (t , x, λ , u) (гамильтониан) для данной задачиH (t , x, λ , u) = f 0 (t , x, u) + λ T f (t , x, u) = l T2 x + l T3 u ++1 T(x Qx + xT Nu + u T N T x + u T Pu) + λ T ( Ax + Bu + Cf )2и заменяем сопряженный вектор λ T на градиент Vx (t , x) (градиент∂V (t , x)= Vx (t , x) функции V (t , x) считается вектором∂xстрокой) функции V(t, x) по x:H (t , x,Vx , u) = l T2 x + l T3 u +1 T(x Qx + 2xT Nu + u T Pu) + Vx ( Ax + Bu + Cf ) .2Дифференциальное уравнение Гамильтона–Беллмана (45) в данном случае имеет вид1 TTTTT∂Vl 2 x + l 3 u + (x Qx + 2x Nu + u Pu) + + min 2=0,u∂t+ Vx ( Ax + Bu + Cf )(IV)где функция V(t, x) удовлетворяет граничному условию (55"):V (t1 , x) = l 1T x +1 Tx R1x .2(V)Поскольку, по предположению, P(t) – положительно определенная матрица, то минимум H (t , x, Vx , u) достигается встационарной точке, где∂H= 0.∂uu* = arg min H (t , x, Vx , u) = − P −1[l 3 + N T x + B T VxT ] .(VI)uПодставляя теперь полученное выражение для u* в (VI), находим окончательный вид основного дифференциальногоуравнения динамического программирования (в данном случае это будет дифференциальное уравнение Гамильтона–Якоби,так как u* найдено из условия стационарности H):∂V11+ Vx Ax − Vx BP −1l 3 − Vx BP −1 N T x − Vx BP −1B T VxT +∂t2211+ VxCf + l T2 x − l T3 P −1l 3 − l T3 P −1 N T x − l 3 P −1B T VxT +221 T1 T+ x Qx − x NP −1 N T x = 0.22(VII)Доказано, что в линейных системах с квадратичным критерием качества при сделанных предположениях относительноматриц Q(t), P(t), N(t), R1 решение уравнения (VII) с краевым условием (V) существует и его можно искать в видеV (t , x) =1 Tx R (t )x + q T (t )x + r (t ) ,2(VIII)где R(t) – симметричная матрица размерности n × n; q(t) – n-мерный вектор; r(t) – скаляр.Частные производные функции V(t, x), записанной в форме (VIII), имеют вид∂V (t , x) 1 T &= x R (t )x + q& T (t )x + r&(t ) ;∂t2(IX)T∂V (t , x) ∂V (t , x) VxT (t , x) = = xT R + qT .(X) = R(t )x + q(t );x∂x∂Подставляя выражения (IX) и (X) в уравнение (VII) и учитывая, что:1) при одновременном умножении произвольной матрицы М слева и справа на вектор x имеет место соотношение11Tx Mx = xT ( M + M T )x (т.е.