Диссертация (1150745), страница 7
Текст из файла (страница 7)
к. рекомендуемая теоремой 4 сетка для построения функции uявн (x)бесконечно уплотняется.В настоящей главе рассмотрим регулятор «предиктор-корректор» в некоторой окрестности нуля BR . Имеет место линейное приближение системы (1.1) иквадратичное приближение весовых функций ` и `T в функционале (1.2):x(k + 1) = Ax(k) + Bu(k),(3.1)T −1 X2220I (x , u(·)) =x k + 1, x , u(·) M +ku(k)kN + x T, x0 , u(·) MT . (3.2)0k=046Оптимальный регулятор в линейно-квадратичной задаче, как известно, — линейный, а оптимальное значение функционала — квадратичная функция начального условия.Ниже рассмотрены и охарактеризованы с точки зрения субоптимальностии устойчивости два варианта управления в области BR :1.
Линейный регулятор, оптимальный в линейно-квадратичном приближении оптимизационной задачи.2. Решение задачи приближенного динамического программирования аналогично предыдущей главе, но с квадратичной, а не просто равномернойаппроксимацией функции Беллмана.3.1Оптимальное управление влинейно-квадратичной задачеВ качестве введения сформулируем некоторые известные результаты, касающиеся оптимального управления в линейных системах с квадратичным функционалом качества.3.1.1Построение оптимального управления безограниченийТеорема 5.
[10] Если положительно определенная матрица Pk являетсярешением уравнения РиккатиPk−1 = AT Pk A − (AT Pk B + N )(B T Pk B)−1 (B T Pk A + N T ) + Mс условиемPT = MT ,то оптимальное управление для линейной системы (3.1) с квадратичнымфункционалом (3.2) без учета ограничений имеет вид линейной обратной свя-47зиk = 0, 1, .
. . , T − 1,u(k) = Kk x(k),гдеKk = −(N + B T Pk B)−1 B T Pk A.Чтобы построить оптимальное управление и оптимальное движение в видеuопт (k, x0 ) = S(k)x0 ,xопт (k, x0 ) = R(k)x0 ,можно использовать следующую теорему.Теорема 6. [8; 25] Если существует решение Q системы линейных алгебраических уравненийгдеΦ=то ETO E Φ = O,Q−1T−1 TAT− A−1 MA + BNBM −BN(3.3)−1T−1 TATA−1B, EO N BS(k) Φk .=EOQR(k)−1TЕсли матрица Q существует, то она определяет матрицу R(1), которая ответственна за отображение x0 7→ xопт (1, x0 ).
Спектр матрицы R(1), таким образом,позволяет судить об устойчивости замкнутой системы: имеет место следующийфакт.Следствие 1. Пусть существует решение Q системы (3.3). Система(3.1), замкнутая регулятором «предиктор-корректор» с функционалом (3.2)без учета ограничений, экспоненциально устойчива тогда и только тогда,когда все собственные числа матрицы OR(1) = E O Φ Q48по модулю меньше единицы.3.1.2Оптимальное управление, ограниченное по нормеПусть в отсутствие ограничений система (3.1), замкнутая регулятором «предиктор-корректор» без ограничений, экспоненциально устойчива. Предложимспособ оценивания области устойчивости при наличии ограничений с помощьюпрямого метода Ляпунова. Для примера рассмотрим ограничение в виде эллипсоида:U = u : kuk2C 6 p ,где C — положительно определенная (m × m)-матрица, p > 0.
Очевидно, что,вообще говоря, не при всяких начальных условиях решение может быть устремлено к 0 при ограниченной величине управления.Будем использовать метод функций Ляпунова: пусть V — положительноопределенная (n × n)-матрица, g — положительное число, x0 — любой векториз областиx ∈ Rn : kxk2V 6 g ,x1 — решение x(1) системы (3.1), замкнутой регулятором «предиктор-корректор» с функционалом (3.2), с начальным условием x(0) = x0 и ограничениемu ∈ U . Если величина 1 2 0 2x − x VV(3.4)отрицательно определена при всех x0 из указанной выше области, то эта областьявляется оценкой снизу требуемой области асимптотической устойчивости.Рассмотрим произвольную положительно определенную матрицу W размером n × n.
Поскольку спектр матрицы R(1) в силу устойчивости системы безограничений лежит внутри единичного круга, уравнениеRT (1)V R(1) − V = −Wотносительно матрицы V имеет положительно определенное решение. Далеебудем под матрицей V понимать именно такое решение.49Допустим, что известна положительная величина β такая, что при всех xиз областиX = x ∈ Rn : kxk2V 6 β p̃ ,где p̃ > p, вектор u = S(k)x принадлежит областиU = u ∈ Rm : kuk2C 6 p̃при всех k = 0, 1, .
. . , T − 1. Например, можно взятьβ=λmin (V ).max kS(k)k2 λmax (C)k=0,1,...,T −1Очевидно, что в силу линейного характера связи u и x нет необходимости выбирать число β зависимым от p̃.Когда p̃ = p, приращение (3.4) отрицательно определено при x0 ∈ X бла-годаря тому, что x1 = R(1)x0 , а матрица V выбрана так, как указано выше.Станем увеличивать число p̃ и потребуем, чтобы величина (3.4) оставалась отрицательной при всех x0 ∈ ∂X, где∂X = x ∈ Rn : kxk2V = β p̃ .Если x0 ∈ ∂X, то соответствующая оптимальная последовательность u(k) =S(k)x0 может быть как допустима, так и нет.
В первом случае разность (3.4)отрицательна. Если же S(k)x0 — не допустимая последовательность, то использоваться в управлении будет последовательность û(k), наилучшая из допустимых. Если определить векторû(0) û(1) ,û = ...û(T − 1)то, согласно правилу множителей Лагранжа, он удовлетворяет равенству2 0∂I (x , u) ∂ kukC̄ = −µ ,∂u∂u u=ûu=û50где µ – некоторое положительное число иC CC̄ = ...C.Вычислив градиенты, это уравнение можно записать в видеM x0 + N û = −µC̄ û.В то же время известно, что0S(0)x S(1)x0 0 = O.Mx + N ...0S(T − 1)xСледовательно,0S(0)x0 S(1)x − û = µN −1 C̄ û....0S(T − 1)xИспользуя условия2 S(0)x0 0 S(1)x = p̃,...0S(T − 1)x kûk2C̄ = p,C̄выводим оценкуsû(0) − S(0)x0 6pe − p.λmin (C)Применение управления û(0) приводит к значениюx1 = R(1)x0 + B û(0) − S(0)x0 .51Поэтому разность (3.4) допускает оценку 1 2 0 2 x − x = R(1)x0 + B û(0) − S(0)x0 2 − x0 2 6VVVV 0 2T6 − x W + 2x0 RT (1)V B û(0) − S(0)x0 +2+ B û(0) − S(0)x0 V 6√2 kR(1)k βλmax (V ) p pλmin (W )p̃ + pp̃ p̃ − p +6−λmax (V )λmin (V )λmin (C)λmax (V )(p̃ − p).+λmin (C)Теорема 7.
Пусть система (3.1), замкнутая регулятором «предикторкорректор» с функционалом (3.2) без ограничений, экспоненциально устойчива. Тогда если при всех p̃ ∈ [p, p∗ ] верно√λmin (W )2 kR(1)k βλmax (V ) p pλmax (V )−p̃ + pp̃ p̃ − p +(p̃ − p) < 0,λmax (V )λmin (C)λmin (V )λmin (C)то множество x ∈ Rn : kxk2V 6 βp∗ является оценкой снизу областиасимптотической устойчивости системы (3.1), замкнутой регулятором«предиктор-корректор» с функционалом (3.2) при ограничении kuk2C 6 p.3.2Реализация регулятора в квазилинейномрежимеПерейдем к обсуждению реализации регулятора в окрестности BR . Рассмотрим два способа:1.
Линейная обратная связь, полученная решением линейно-квадратичнойзадачи оптимального управления.2. Решение приближенной задачи динамического программирования аналогично нелинейному режиму, но с квадратичной аппроксимацией функции Беллмана.Для каждого варианта получим условие устойчивости и оценку субоптимальности управления. При этом потребуются следующие вспомогательные результаты.52Лемма 9.
Пусть непрерывно дифференцируемая функция Λ(x, u) обладаетсвойствамиΛ(x, u) − kxk2 − uT Lxu x − kuk2 6 MΛ kxk3 + kuk3 ,LxL u ∂Λ(x, u) 6 M∂Λ kxk2 + kuk2 ,−2Lu−2Lxuxu ∂uΛ kuk2 6 Λ(x, u) 6 Λ kxk2 + kuk2при всех x ∈ X, u ∈ U (X и U — компактные множества), некоторых положительных константах M∂L , Λ и Λ и матрицах Lu и Lx , причем det Lu 6= 0и существует такое ν > 0, что Bν ⊂ U . Определимu0 (x) = arg min Λ(x, u),u∈UΛ0 (x) = Λ x, u0 (x) ,K = −L−1u Lx .Тогдаku0 (x) − Kxk 6 Mu0 kxk2 ,Λ0 (x) − kxk2 6 MΛ kxk30Pпри всех таких x, чтоsp νTTλmin (Lu Lu )λmin (Lu Lu )kxk < ρ = min s ,s ,2 ,8M1+kKk∂ΛΛΛ4MkKk+∂Λ ΛΛ гдеP = Lx − LTxu L−1u Lxu ,Mu02(1 + 2 kKk2 )= p,λmin (LTu Lu )MΛ0 = MΛ 1 + 4 kKk3 + 2Mu0 kLxu k + Mu20 λmax (Lu )ρ(X) + 4Mu0 ρ3 (X) .53Доказательство. 1) Докажем сначала, чтоsΛku0 (x)k 6kxk .ΛПредположим противное: пусть есть такое x, чтоsΛku0 (x)k >kxk .ΛТогдаΛΛ x, u0 (x) > Λ ku0 (x)k2 > Λ kxk2 = Λ kxk2 > Λ(x, 0).ΛИмеем неравенствоΛ(x, 0) < Λ x, u0 (x) ,что противоречит оптимальности значения u0 (x).
Следовательно, доказываемоенеравенство верно.2) Покажем, что если при некотором µkxk 6µkKk +q ,ΛΛтоku0 (x) − Kxk 6 µ.Предположим противное: ku0 (x) − Kxk > µ. Тогдаku0 (x)k > ku0 (x) − Kxk − kKxk > µ − kKk kxk >qsΛµkKk µΛΛq =q >>µ−kxk > ku0 (x)k .ΛΛΛkKk + ΛkKk + ΛПолучаем противоречие: ku0 (x)k > ku0 (x)k. Значит, ku0 (x) − Kxk 6 µ.3) Заметим, что рассматриваемые значения x удовлетворяютνkxk < ρ 6 q ,ΛΛ54поэтомуku0 (x)k < ν,т. е. оптимальное значение u гарантированно находится внутри допустимогомножества U , так что необходимым условием оптимальности является выполнение равенства∂Λ(x, u) ∂u = 0.u=u0 (x)Рассмотрим оценку ∂Λ(x, u) ∂Λ(x,u) = Lu u + Lx x +>−Lu−Lxux ∂u ∂u ∂Λ(x, u)> kLu u + Lx xk − −Lu−Lxux .