Автореферат (1150744), страница 2
Текст из файла (страница 2)
В ней вводится объектуправления — нелинейная конечномерная система дискретного времениx(k + 1) = f x(k), u(k) ,k = 0, 1, . . . ,(1)где x ∈ Rn , u ∈ Rm . Вводится функционал качестваI (x0 , u(·)) =T−1X` x k + 1, x0 , u(·) , u(k) + `T x T, x0 , u(·) ,(2)k=0где T — некоторое положительное число, называемое горизонтом прогноза, аx(k, x0 , u(·)) — решение системы (1) в момент k при начальном условии x(0) = x0и управлении u(·). Ставится задача оптимального управления(I x0 , u(·) → inf ,u(·)(3)u(·) ∈ U , x k, x0 , u(·) ∈ X ∀k ∈ [0, T ], x T, x0 , u(·) ∈ XT ,где X ⊂ Rn и U ⊂ Rm — множества допустимых состояний и управленийсоответственно, а XT ⊂ Rn — терминальное ограничение.Делаются следующие предположения.Предположение 1. f (0, 0) = 0.Предположение 2.
Функция f допускает выделение линейной части:kf (x, u) − f (x̄, ū) − A(x̄, ū)(x − x̄) − B(x̄, ū)(u − ū)k 6226 Mf kx − x̄k + ku − ūk.Предположение 3. Функция f липшицева:kf (x, u) − f (x̄, ū)k 6 Lf kx − x̄k + ku − ūk .Предположение 4. При любой равномерно ограниченной последовательности u(k) и любом начальном состоянии x(0) система (1) имеет решение x(k),определенное при всех k > 0.Предположение 5.
Функция f (x, u) обратима по x, т. е. существует однозначная функция f −1 (x, u) такая, что f −1 f (x, u), u ≡ x, причем эта функция −1также липшицева: f (x, u) − f −1 (x̄, ū) 6 Lf −1 kx − x̄k + ku − ūk .Предположение 6. Функции ` и `T в (2) положительно определены.6Предположение 7. Функции ` и `T в функционале (2) допускают квадратичное приближение в окрестности нулевого положения равновесия, причемградиенты допускают соответствующее линейное приближение:22 33`(x, u) − kxkM − kukN 6 M` kxk + kuk , ∂`(x, u)22 ∂`(x, u)22− 2M x 6 M∂x ` kxk + kuk , − 2N u 6 M∂u ` kxk + kuk , ∂u ∂x ∂` (x) T232− 2MT x 6 M∂`T kxk .`T (x) − kxkMT 6 M`T kxk , ∂xПредположение 8.
Весовые функции ` и `T в функционале (2) липшицевы:k`(x, u) − `(x̄, ū)k 6 L` kx − x̄k + ku − ūk ,k`T (x, u) − `T (x̄, ū)k 6 L`T kx − x̄k + ku − ūk .2Предположение 9. ` f (x, u), u > ` kxk , где ` > 0.eeПредположение 10. Множества X , XT и U в задаче (3) — связные, компактные и содержат внутри себя начало координат.Предположение 11. ∀x ∈ X ∃u ∈ U : f (x, u) ∈ X .Предположение 12.
При любых x, x̄ ∈ X и ū ∈ U таких, что f (x̄, ū) ∈ X ,существует такое u ∈ U , что f (x̄, u) ∈ X и f (x, u) ∈ X , причем ku − ūk 66 γ kx − x̄k, где γ — некоторая постоянная.Предположение 13. Решение задачи (3) существует при любом x0 ∈ X .Решение задачи (3) обозначается uопт (·, x0 ). Если оно не единственно, тоимеется в виду любое решение. Соответствующее движение — xопт (k, x0 ) =x k, x0 , uопт (·, x0 ) , а значение функционала — Iопт (x0 ) = I x0 , uопт (·, x0 ) .Далее дается следующее ключевое определение.Определение 1.
Регулятором «предиктор-корректор» называется обратная связь u(k) = uопт 0, x(k) .В диссертации рассматривается приближенный регулятор «предиктор-корректор», получаемый аппроксимацией функции uопт (0, x) явной функцией. Оказалось удобным немного по-разному строить приближение обратной связи вблизи положения равновесия и вдали от него, поэтому изучаемый регулятор имеетдва режима функционирования, т. е.
подчиняется разным алгоритмам вблизии вдали от начала координат.1. Нелинейный режим используется вдали от начала координат — там, гдесистема существенно нелинейна.2. Квазилинейный режим используется в окрестности начала координат.7Этим режимам посвящены, соответственно, 2 и 3 главы.Завершается первая глава обзором литературы по теме диссертации (параграф 1.2) и описанием ее структуры (параграф 1.3).Глава 2 называется «Анализ нелинейного режима». В ней регулятор исследуется вдали от положения равновесия — в «существенно нелинейной» областиX \Br , где Br — шар с некоторым радиусом r и центром в нуле.
Значение радиуса r конкретизировано далее — в теоремах 8 и 9 главы 3 при обсужденииквазилинейного режима регулирования. В главе 2 решены две задачи:• оценка области управляемости;• аппроксимация обратной связи uопт (0, x) явной функцией uявн (x).В параграфе 2.1 предложен метод оценки области управляемости оптимизационной задачи (3), т. е.
множества начальных точек x0 , для которых в этойзадаче существует допустимое управление. Метод заключается в приближенииобласти управляемости многогранником и формулируется следующей теоремой.Теорема 2. Выберем многогранное множество R0 , которое вместе с некоторой δ-окрестностью содержится в XT .
Положимε=Lf − 1 δ.(LTf − 1) 2(Lf −1 Lf + 1) + LfВыберем также выпуклые m-мерные многогранникиUs = conv(us1 , us2 , . . . , uscs ),s = 1, 2, . . . , Sтакие, чтоmaxi,j=1,2,...,cs sui − usj 6 ε.Построим последовательность множеств R1 , R2 , . . . , RT по следующему алгоритму:1. Пусть построено Rk .
Разбить Rk на конечное число выпуклых многогранниковWq = conv(w1q , w2q , . . . , wpqq ),q = 1, 2, . . . , Qkтак, чтоmaxi,j=1,2,...,pq qw − wq 6 ε.ij2. При каждом q = 1, 2, . . . , Qk и s = 1, 2, . . . , S вычислитьqsvij= f −1 (wiq , usj )∀i = 1, 2, . . . , pq ,j = 1, 2, . . . , csи построить qsVqs = conv vij: i = 1, 2, . . . , pq , j = 1, 2, . . . , cs .83. Положить[Rk+1 =Vqs ∩ Xq = 1, 2, . .
. , Qks = 1, 2, . . . , Sи повторить алгоритм.Тогда множество RT является оценкой области управляемости в оптимизационной задаче (3) метода управления «предиктор-корректор», т. е. из любойточки x ∈ RT система (1) может достичь терминального множества XTза T тактов при соблюдении ограничений.Теорема 2 основана на идее о том, что систему (1) можно перевести из любойточки выпуклого многогранника в некоторую δ-окрестность выпуклой оболочкиточек, в которые переводятся вершины исходного многогранника. Доказательство существенно опирается на липшицевость правой части системы.В параграфе 2.2 представлен способ приближения обратной связи uопт (0, x)явной функцией uявн (x) вдали от начала координат.
Предлагается строить стабилизирующую ε-субоптимальную обратную связь uявн (x). Субоптимальностьпонимается в смысле следующего определения.Определение 2. Допустимую обратную связь u(x) назовем ε-субоптимальнойпри ε > 0, если при всех x ∈ X выполнено неравенство1` f x, u(x) , u(x) + Iоптf x, u(x) 6 (1 + ε)Iопт (x).PT −2100Здесь Iоптx0 = inf,k=0 ` x k + 1, x , u(·) , u(k) + `T x T − 1, x , u(·)причем нижняя грань определяется на множестве допустимых управляющихпоследовательностей с учетом ограничений.Предложенный метод аппроксимации сформулирован в следующей теореме.Она основана на том факте, что в сделанных выше предположениях функция11 , котоБеллмана Iопт(x) удовлетворяет условию Липшица с константой LIоптрую допустимо определить рекуррентной формулойss+1LIопт= (3γ + 1)Lf 2L` ρ(X ) + LIопт+ 6γL` ρ(U ),s = 1, 2, .
. . , T,Tгде LIопт= 2L`T ρ(X ), ρ(·) — радиус множества.Теорема 4. Пусть обратная связь «предиктор-корректор» u(x) = uопт (0, x)стабилизирует систему (1), причем существуетфункция κ(x)такая, чтопри всех x ∈ XT f x, κ(x) ∈ XT и `T (x) > ` f x, κ(x) , κ(x) + `T f x, κ(x) .Выберем достаточно малое r так, чтобы можно было стабилизироватьсистему (1) в области Br , например, линейным регулятором u = Kx. Выберем функцию uявн (x) = Kx внутри Br , а вне Br построим по следующемуалгоритму.91. Выбрать κ ∈ (0, 1), ε > 0, положитьε min Iопт (x)x∈X \Brq,ρ∗ = minL 1 L + L2Iопт + L` Lf + 1Iопт fκ−1minIопт f x̄, uопт (0, x̄) − Iопт (x̄).LIопт (Lf + 1) x∈X \Br2.
Построить сетку G из конечного числа точек так, чтобы любая точкаобласти X имела хотя бы одну точку из G в своей ρ∗ -окрестности.3. Для каждой точки x̄ ∈ G построить (n + m)-мерный шар с центромx̄, uопт (0, x̄) и радиусом ρ:ε min Iопт (x)x∈Bρ (x̄)q,ρ = minL 1 L + L2Iопт + L` Lf + 1Iопт fκ−1Iопт f x̄, uопт (0, x̄) − Iопт (x̄).LIопт (Lf + 1)4. Построить функцию uявн (x) вне окрестности Br так, чтобы точкаx, uявн (x) при любом x ∈ X находилась хотя бы в одном из построенных шаров.11Здесь LIопт и LIопт— константы Липшица функций Iопт и Iопт.Такое построение всегда возможно. Получаемая обратная связь u(k) == uявн x(k) стабилизирует систему (1) и является ε-субоптимальной.Глава 3 называется «Анализ квазилинейного режима». В ней обсуждается аппроксимация обратной связи «предиктор-корректор» в некоторой окрестности BR начала координат.
Действительно, с приближением к нулю методпредыдущей главы перестает работать, т. к. рекомендуемая теоремой 4 сеткадля построения функции uявн (x) бесконечно уплотняется.Рассматривается линейное приближение системы (1) и квадратичное приближение весовых функций ` и `T в функционале (2):x(k + 1) = Ax(k) + Bu(k),I (x0 , u(·)) =T−1 X x k + 1, x0 , u(·) 2 + ku(k)k2 + x T, x0 , u(·) 2 .NMMTk=0Известно, что оптимальная в линейном приближении обратная связь имеет видu = Kx, гдеK = (N + B T P B)−1 B T P A,(4)10а P — решение соответствующего уравнения Риккати.В главе 3 рассмотрены два варианта управления в области BR : линейный регулятор и регулятор с приближенным динамическим программированием. Соответствующие результаты даны в следующих двух теоремах, где используютсяконстанты I и I из оценки22I ku(0)k + · · · + ku(T − 1)k6 I x, u(·) 62226 I kxk + ku(0)k + · · · + ku(T − 1)k,2а также коэффициенты линейных приближений kuопт (x) − Kxk 6 Muопт kxk ,2kuдин (x) − Kxk 6 Muдин kxk и ∂I (x, u(·))TTT−2L(u(0),...,u(T−1))−2Lxuxu 6∂u(·)2226 M∂I kxk + ku(0)k + · · · + ku(T − 1)k.Доказан следующий результат об устойчивости и субоптимальности регулятора с линейной обратной связью в квазилинейном режиме.Теорема 8.
Пусть матрица K определена равенством (4), радиусы r и Rpтаковы, что r < λmin (V )/λmax (V )ρ иspTTλmin (Lu Lu )νλmin (Lu Lu )ρ < R < min s ,,,s28M∂I 1 + kKkII 4M∂I kKk + II гдеsρ=!λmin (W )λmax (V )1+ 2 − 1 V A + BK 2 V A + BK ,2Mg λmax (V ) 1 + kKkа число ν таково, что Bν ⊂ U . Построим явную обратную связь uявн (x) поалгоритму теоремы 4. Определим регулятор с двумя режимами функционирования(Kxв квазилинейном режиме,u(x) =uявн (x) в нелинейном режимесо следующими правилами переключения между режимами:11• если регулятор находится в нелинейном режиме, а система входит вшар Br , то регулятор переходит в квазилинейный режим;• если регулятор находится в квазилинейном режиме, а система выходит из шара BR , то регулятор переходит в нелинейный режим.Такой регулятор стабилизирует нулевое равновесие системы (1) и является ε-субоптимальной обратной связью.