В.В. Александров, С.С. Лемак, Н.А. Парусников - Лекции по механике управляемых систем, страница 22
Описание файла
PDF-файл из архива "В.В. Александров, С.С. Лемак, Н.А. Парусников - Лекции по механике управляемых систем", который расположен в категории "". Всё это находится в предмете "механика управляемых систем" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 22 страницы из PDF
. . , rn (t)) являются функциями, ограниченными по нормеr(t)Lp ≤ η0 и что решения системы (22.3) существуют в окрестностиневозмущенного (при y(t0 ) и r(t) ≡ 0) движения y ∗ (t) ≡ 0.Определение 20. Невозмущенное движение y ∗ (t) устойчиво припостоянно действующих возмущениях, если для любого ε > 0существуют η1 (ε) и η2 (ε) такие, что всякие решения y(t) системы (22.3), удовлетворяющие при t = t0 неравенствам |y(t0 ) −y ∗ (t0 )| < η1 (ε), удовлетворяют при t > t0 неравенствам|yi (t) − yi∗ (t)| < εдля всех рассматриваемых функций r(t), удовлетворяющихнеравенству r(t)Lp < η2 (ε).Теперь рассмотрим управляемую систему для частного случая аддитивных возмущений, которые ограничены по L2 норме:wL2 ≤ 1,ẋ = Ax + Bu + Cw,где∞w2L2=x(0) = 0,(22.4)w (t)w(t)dt.0Будем искать управление в виде обратной связи u = Kx, минимизирующее функционал∞(x Gx + u N u)dt → min(22.5)J = supw2L ≤12K0Обозначим матрицу замкнутой системы Ak = A + BK.
Тогда задачуможно переписать так:ẋ = Ak x + Cw,∞J=supw2L ≤12w2L2 ≤ 1,x(0) = 0,x (G + K N K)xdt(22.6)(22.7)0Определим множество достижимости в момент времени T какD(T ) = {x(T ) x(t) — решение (22.6) при некотором w: w2L2 ≤ 1}.156Объединение множеств достижимости для T ≥ 0 называется простомножеством достижимости0D(T ).D=T ≥0Теорема 25. Если пара (Ak , C) управляема, то множество достижимости системы (22.6) представляет собой эллипсоидD(T ) = {x :x W −1 (T )x ≤ 1},где матрица W (T ) имеет видTW (T ) =eAk t CC eAk t dt.0Если матрица Ak устойчива,то множество достижимости D имеетвидD = {x :x W −1 x ≤ 1},где W > 0 — граммиан управляемости (относительно возмущений w):∞W = eAk t CC eAk t dt.0( Матрица W является решением уравнения Ляпунова Ak W +W Ak =−CC .)Оценку для функционала (22.5) можно получить, используя следующую теорему.Теорема 26.
Если матрица Ak гурвицева, а пара (Ak , C) —управляема и при некотором γ > 0 уравнение Риккати1P Ak + A(22.8)k P + 2 P CC P + G + K N K = 0γимеет решение P > 0, то выполнено неравенствоJ(w) ≤ γ 2 .Доказательство.Рассмотрим квадратичную форму V (x) = x P x. ТогдаV̇ = (Ak x + Cw) P x + x P (Ak x + Cw).Допустим, что выполнено неравенствоV̇ ≤ −x (G + K N K)x + γ 2 w w.(22.9)157Учитывая, что V (x(0)) = 0, проинтегрируем неравенство (22.9) и перейдем к пределу при T → ∞ (это возможно,т.к. Ak устойчивая):∞∞2w wdt,0 ≤ − x (G + K N K)xdt + γ00откуда следуетJ(w) ≤ γ 2 .(22.10)Неравенство (22.9) выполнено, если для любых пар x, w (включаяи решения системы) выполнено неравенство 2 x (P Ak + Ak P + G + K N K)x + x P Cw + w C P x − γ w w ≤ 0.Это неравенство выполнено, если матрица квадратичной формы отрицательно определена, т.е.P Ak + APCk P + G + K NK≤ 0.CP−γ 2 EmПоследнее неравенство с помощью леммы 2 лекции 21 эквивалентноквадратичному матричному неравенству1P Ak + Ak P + 2 P CC P + G + K N K ≤ 0,γкоторое имеет решение P > 0, если уравнение Риккати имеет положительно определенное решение.Замечание 17.
Можно показать, что supw и оценка сверху дляфункционала J достигаются, т.е. если (при фиксированном K)существует решение задачи:γmin = min{γ, для которых ∃ решение P > 0 уравнения (22.8)},2то maxw J = γmin.3. Стабилизация линейной стохастической системыРассмотрим теперь случай, когда в управляемой системе аддитивные постоянно-действующие возмущения представляют собой случайный процессẋ = Ax + Bu + Cw,(22.11)где w — белый шум единичной интенсивности, т.е. M [w(t)] = 0, аM [w(t)wT (τ )] = Em δ(t − τ ). Введем обозначения: вектор q = Cw и158◦◦TQ = CC — симметричная матрица. Пусть известна M [x(0)x (0)] =Px (0) = P 0 — матрица ковариаций в начальный момент времени.Сначала примем предположение, что в нашем распоряжении полная информация о случайных отклонениях x(t).Рассмотрим задачу выбора управления u(·), минимизирующегофункционалtk TTx Gx + uT N u dt] → min,(22.12)J = M [x (tk )Sx(tk ) +u(·)0где S, N, G — симметричные положительно определенные матрицы, аtk < ∞ фиксировано.Постановка задачи похожа на детерминированный случай q ≡ 0.Как мы знаем, в детерминированном случае решение находится в виделинейной обратной связи u0 = −Kx, где K = N −1 B T L, L — симметричная матрица, являющаяся решением уравнения Риккати:L̇ + LA + AT L + G − LBN −1 B T L = 0,L(tk ) = S.(22.13)Наводящие рассуждения: поскольку M [q(t)] = 0, то в среднем траектории ведут себя так как при q ≡ 0.
Отсюда решение стохастическойзадачи вроде бы должно быть таким, как и детерминированной, которая была рассмотрена на лекции 20.А можно ли сделать вывод, что вообще не нужно рассматриватьстохастическую систему, а ограничиться детерминированным случаем? Этот вывод сделать нельзя, поскольку в детерминированном случае управление в виде обратной связи и программное дают одно и тоже значение критерия качества. Действительно, проинтегрировав систему с u = Kx, получим зависимость x(t) и, следовательно, и u0 (t),которое дает то же значение функционала качества.
В стохастическомслучае это не так, что показывает следующий пример.Пример 22.1. Рассмотрим случайный процесс с двумя состояприниниями. Начальное x0 — дискретная случайная xвеличина,0 1мающая значения 0 или 1 с вероятностью 12 : p0 12 21 .Динамика процесса описывается уравнением x1 = x0 + u0 .Хотим минимизировать функционал J(u0 ) = M [x21 ] → min. Программное управление u0 = − 12 + c = const .1 11 11M [x21 ] = (− + c)2 + ( + c)2 = + c2 =⇒2 22 2411при c = 0, u00 = − .=⇒ J 0 =42159Управление с обратной связью даетu00 = −x0 =⇒ J 0 = 0.Как видим, в стохастическом случае управление с обратнойсвязью строго лучше программного.Вернемся к задаче о линейном регуляторе с квадратичным критерием. Действительно, можно показать, что в этом случае оптимальноерешение есть u0 = Kx и оно полностью совпадает с детерминированным оптимальным стабилизатором.
Этот результат есть следствиелинейной обратной связи и квадратичного критерия качества. Он выражает «робастность» оптимального детерминированного решения кдействию постоянно-действующих возмущений. Разница только в величине функционала качества. В стохастической задаче функционалвсегда больше, чем в детерминированном случае. Покажем это.Критерий качества (22.12) можно переписать в видеtkJ = Tr[SPx (tk ) + (G + K T N K)Px (t)dt],(22.14)0где Px (t) — матрица ковариаций.Pnx = M [xx ], а Tr —операция взятие следа матрицы: Tr aij = i=1 aii — сумма диагональных элементов.
При выводе (22.14) использовалось свойство операции Tr:для векторов a, b справедливы равенства a b = Tr[ab ] = Tr[ba ].Можно показать, что оптимальное значение критерия качествавычисляется по формулеtk0J = Tr[L(0)Px (0)] + Tr[QL(t) dt].(22.15)0Первое слагаемое Tr[L(0)Px (0)] = M [x (0)L(0)x(0)] совпадает созначением функционала в детерминированном случае.
В стохастическом варианте добавляется второе слагаемое. Поскольку Q ≥ 0, аL(t) > 0, то второе слагаемое положительно и тем больше, чем больше величина Q.3.1. Совместная задача оценивания и управления стохастической системой Рассмотрим теперь случай, когда нет полной информации о состоянии стохастической системыẋ = Ax + Bu + q,(22.16)z = Hx + r.160Здесь q — белый шум M [q(t)q T (τ )] = Qδ(t − τ ), r — белый шумM [r(t)rT (τ )] = Rδ(t − τ ), M [x(0)rT (s)] = 0, M [q(t)rT (s)] = 0,M [x(0)q T (s)] = 0.В рассматриваемом случае управление надо формировать по оценке u = K x̃, где коэффициенты обратной связи выбираются таким образом, чтобы минимизировать функционал (22.14).Таким образом оценка и управление в рассматриваемой задачесвязаны. Управление влияет на оценку и наоборот. Тот факт, что этизадачи можно разделить указанным выше способом составляет содержание теоремы разделения.Пусть x̃ — оптимальная оценка координат x, доставляемая линейным оценивателем видаx̃˙ = Ax̃ + Bu + K̃(z − H x̃),K̃ = P H R−1 ,Ṗ = AP + P A + Q − K̃RK̃ ,(22.17)0P (0) = P .Здесь P = M [Δx(t)Δx(t) ], Δx = x − x̃ — ошибка оценки.Теорема 27 (Разделения).
Для задачи о стохастическом регуляторе с неполными наблюдениями оптимальным являетсяуправление u0 = −N −1 B T Lx̃, где L — решение уравнения Риккати (22.13), а x̃ — линейная оценка по измерению z(τ ), τ ∈[0, t] с минимальной среднеквадратичной ошибкой, определяемая фильтром Калмана (22.17).Замечание 18. Теорема содержит два утверждения.
Первое заключается в том, что оптимальное управление можно строить как функцию оптимальной оценки x̃, т.е. что задачи оценивания и управления можно разделить. Это следует из линейности динамической системы и гауссовости распределений x, x̃.Второе утверждение заключается в том, что оптимальные коэффициенты обратной связи в управлении по неполнымданным совпадают с коэффициентами в управлении по полнымданным для этой же системы, а именно u0 = −N −1 B T Lx̃ (какбудто x̃ есть точное значение x). Это так называемый принцип стохастической эквивалентности.
Это есть следствиеквадратичности функционала качества. Для линейных системс не квадратичным критерием принцип разделения может выполняться, а принцип стохастической эквивалентности нет,т.е. оптимальное управление будет отличаться от решения пополным данным.161Лекция 23Игольчатая вариация и необходимоеусловие сильного локального минимума1. Доказательство принципа максимума ПонтрягинаРассмотрим частный случай задачи оптимального управления —задачу с фиксированным временем движения и свободным правымконцом траектории+ẏ = f (y, u), y(t0 ) = y ∗ ,t ∈ [t0 , tk ],(23.1)u(·) ∈ U = {u(·) ∈ KC u(t) ∈ Ω ⊂ Rs }.Функционал качества управления возьмем терминальный: J(u) =ϕ0 (y(tk )) → min .u(·)∈UПусть {y 0 (·), u0 (·)}— оптимальный процесс.На лекции 18 доказана формула приращения функционала в случае, когда управления кусочно-гладкие u0 (·) ∈ KC 1 [t0 , tk ] и оптимальное управление принимает значения внутри допустимого множества u0 (t) ∈ int Ω:tk ΔJ(u ) = −0∂Δu H(u0 )0Δy + Δu H(u ) dt−∂yt0tk−ō2 (|Δy(t)|)dt + ō1 (|Δy(tk )|)t0При этом оптимальная траектория получалась гладкой y(·) ∈C 1 [t0 , tk ].