Диссертация (1150745), страница 4
Текст из файла (страница 4)
указана достаточная плотность сетки,при которой приближенное управление будет стабилизирующими в заданной степени субоптимальным. При этом, как и в [53], используется непрерывность функции Беллмана, доказанная здесьв предположении липшицевости системы и непрерывной зависимости множества допустимых управлений от состояния системы.В результате получается приближенная обратная связь в виде явной функции, в любой наперед заданной степени субоптимальнаяи стабилизирующая. Эти результаты опубликованы в [15; 19; 20;22; 77].• В главе 3 построение приближенной обратной связи продолжается вблизи начала координат.
В этом случае простого равномерного приближения функции Беллмана уже недостаточно. Рассматриваются два варианта управления: линейная обратная связь и решение приближенной задачи динамического программирования с квадратичным приближениемфункции Беллмана.• В главе 4 решается вопрос компенсации вычислительного запаздывания.В линейном случае методом Ляпунова — Красовского доказывается робастность известного в литературе метода компенсации запаздыванияпо отношению к неточностям в модели системы.
В нелинейном случаепредлагается обощение метода компенсации на случай распределенныхзапаздываний, изложенное здесь в случае двух запаздываний. Эти результаты опубликованы в [21; 23; 76; 78].• В главе 5 приведены примеры численной реализации описанного регулятора.21Глава 2Анализ нелинейного режимаНачнем с изучения функционирования регулятора «предиктор-корректор»в существенно нелинейной области X \Br , где r — некоторое положительноечисло, которое подлежит определению далее.
Здесь решаются две задачи: выборгоризонта прогноза T , от которого зависит область управляемости, и аппроксимация оптимальной обратной связи uопт (0, x) явной функцией uявн (x).2.1Оценка области управляемости и выборгоризонта прогнозаВ этом параграфе предлагается оценка области управляемости оптимизационной задачи (1.3), т. е.
множества начальных точек x0 , для которых в этойзадаче существует допустимое управление. Когда устойчивость замкнутой системы гарантирована теоремой 1, область управляемости является также областью притяжения нулевого решения. Очевидно, что область управляемостирасширяется с увеличением горизонта прогноза, поэтому эта задача связанатакже с выбором горизонта T .Предлагаемый ниже способ построения оценки области управляемости в виде многогранных ячеек основан на следующих двух вспомогательных утверждениях.Лемма 1. Рассмотрим конечный набор из p точекv1 , v2 , . . . , vp ∈ Xи некоторое управление u ∈ U . Обозначим wi образ точки vi в системе (1.1)22под действием управления u:wi = f (vi , u),i = 1, 2, .
. . , p,а выпуклые оболочки точек vi и wi — соответственно V и W :V = conv(v1 , v2 , . . . , vp ),W = conv(w1 , w2 , . . . , wp ).Справедлива оценкаmin kf (v, u) − wk 6 Lf −1 Lf + 1w∈Wmax kwi − w1 ki=2,3,...,p∀v ∈ V .Замечание. Смысл леммы в том, что любая точка выпуклого многогранника, натянутого на точки vi , отображается в некоторую окрестность многогранника, натянутого на их образы wi .Доказательство. Представим точку v ∈ V в видеv = v1 +pXi=2αi (vi − v1 ),где αi — неотрицательные коэффициенты, ограниченные условием выпуклостиpXαi 6 1.i=2Рассмотрим точкуw = w1 +pXi=2αi (wi − w1 ) ∈ W .Чтобы доказать лемму, достаточно показать, чтоkf (v, u) − wk 6 Lf −1 Lf + 1max kwi − w1 k .i=2,3,...,p23Справедливы неравенства!ppXXαi (vi − v1 ), u − f (v1 , u) −αi (wi − w1 ) 6kf (v, u) − wk = f v1 +i=2i=2!!pp−1XXαi (vi − v1 ), u − f v1 +αi (vi − v1 ), u +6 f v1 +i=2i=2!!p−1p−2XXαi (vi − v1 ), u − f v1 +αi (vi − v1 ), u ++ f v1 +i=2i=2+ ...
++ f v1 + α2 (v2 − v1 ), u − f (v1 , u) ++66pXi=2pXi=2pXi=2αi kwi − w1 k 6αi Lf kvi − v1 k + kwi − w1 k 6αi Lf −1 Lf + 1 kwi − w1 k ,откуда следует требуемая оценка. Лемма доказана.Лемма 2. Рассмотрим конечный набор допустимых управлений ui (i =1, 2, . . .
, c) таких, чтоconv(u1 , u2 , . . . , uc ) ⊂ U .Пусть множества Vi таковы, чтоf (v, ui ) ∈ W∀v ∈ Vi ,i = 1, 2, . . . , c,где W — некоторое выпуклое ограниченное множество. Обозначим V выпуклую оболочку множеств Vi :V = conv(V1 , V2 , . . . , Vc ).24Тогда справедлива оценкаmin min kf (v, u) − wk 6 Lf −1 Lf + 1 max kw̄ − w̄¯ k + Lf max kui − u1 k¯ ∈Ww̄,w̄u∈U w∈Wi=2,3,...,c∀v ∈ V .Замечание. Смысл этой леммы в том, что если управления ui допустимывместе со своей выпуклой оболочкой и переводят некоторые выпуклые множества Vi внутрь выпуклого множества W , то существуют допустимые управления, которые переводят выпуклую оболочку множеств Vi внутрь некоторойокрестности множества W .Доказательство.
Доказательство аналогично лемме 1. Представим точку v ∈V в видеv = v1 +cXi=2αi (vi − v1 ),где vi ∈ Vi , а αi — неотрицательные коэффициенты, ограниченные условиемвыпуклостиcXαi 6 1.i=2Рассмотрим управлениеu = u1 +cXi=2αi (ui − u1 ) ∈ Uи точкиwi = f (vi , ui ) ∈ W ,w = w1 +cXi=2i = 1, 2, . . . , c,αi (wi − w1 ) ∈ W .Чтобы доказать лемму, достаточно показать, чтоkf (v, u) − wk 6 Lf −1 Lf + 1 max kw̄ − w̄¯ k + Lf max kui − u1 k .¯ ∈Ww̄,w̄i=2,3,...,c25Справедливы неравенства!ccXXαi (vi − v1 ), u1 +αi (ui − u1 ) −kf (v, u) − wk = f v1 +i=2i=2cX− f (v1 , u1 ) −αi (wi − w1 ) 6i=2cX6αi Lf kvi − v1 k + kui − u1 k + kwi − w1 k 66i=2cXi=2αiLf −1 Lf + 1 kwi − w1 k + Lf kui − u1 k ,откуда следует требуемая оценка.
Лемма доказана.На основании лемм 1 и 2 можно предложить следующий способ построенияоценки области управляемости в задаче (1.3).Теорема 2. Выберем многогранное множество R0 , которое вместе с некоторой δ-окрестностью содержится в XT . Положимε=Lf − 1 δ.(LTf − 1) 2(Lf −1 Lf + 1) + LfВыберем также выпуклые m-мерные многогранникиUs = conv(us1 , us2 , .
. . , uscs ),s = 1, 2, . . . , Sтакие, чтоmaxi,j=1,2,...,cs sui − usj 6 ε.Построим последовательность множеств R1 , R2 , . . . , RT по следующему алгоритму:1. Пусть построено Rk . Разбить Rk на конечное число выпуклых многогранниковWq = conv(w1q , w2q , .
. . , wpqq ),q = 1, 2, . . . , Qkтак, чтоmaxi,j=1,2,...,pq qw − wq 6 ε.ij262. При каждом q = 1, 2, . . . , Qk и s = 1, 2, . . . , S вычислитьvijqs = f −1 (wiq , usj )∀i = 1, 2, . . . , pq ,j = 1, 2, . . . , csи построитьVqs = conv vijqs : i = 1, 2, . . . , pq , j = 1, 2, . . . , cs .3. ПоложитьRk+1 =[Vqs ∩ Xq = 1, 2, . . . , Qks = 1, 2, . . . , Sи повторить алгоритм.Тогда множество RT является оценкой области управляемости в оптимизационной задаче (1.3) метода управления «предиктор-корректор», т.
е. излюбой точки x ∈ RT система (1.1) может достичь терминального множества XT за T тактов при соблюдении ограничений.Доказательство. Согласно леммам 1 и 2 из любой точки множества Vqs заодин такт можно достичь νε-окрестности множества Wq , причемν = 2(Lf −1 Lf + 1) + Lf .Значит, из RT за один такт достижима νε-окрестность RT −1 .Рассмотрим произвольный вектор v из νε-окрестности RT −1 . Существуетвектор v̄ ∈ RT −1 такой, чтоkv − v̄k 6 νε.Известно, что из v̄ можно достичь νε-окрестности RT −2 с некоторым управлением ū.
Из липшицевости функции f следует оценкаkf (v, ū) − f (v̄, ū)k 6 Lf νε,что означает: из точки v достижима (Lf + 1)νε-окрестность множества RT −2 ,т. е. эта окрестность достижима из любой точки RT .27Продолжая оценки далее, приходим к выводу, что из RT можно достичьокрестности R0 с радиусомLfT −1+LfT −2LTf − 1+ · · · + 1 νε =2(Lf −1 Lf + 1) + Lf ε.Lf − 1Следовательно, при указанном в теореме выборе ε из RT можно достичь δокрестности R0 , которая по условию содержится в X . Теорема доказана.2.2Построение явной обратной связиОбратимся к задаче аппроксимации решения uопт (0, x) задачи (1.3) явнойфункцией.2.2.1Понятия и обозначения, связанные сдинамическим программированиемПринцип динамического программирования [36] играет центральную рольв построениях и доказательствах настоящего параграфа, поэтому необходимоввести ряд обозначений.Рассмотрим последовательность функционаловIs−s−1 TX00x , u(·) =` x k + 1, x , u(·) , u(k) + `T x T − s, x , u(·) ,0k=0где s = 0, 1, .
. . , T − 1, а также, как непосредственное распространение этихвыражений на случай s = T , функцию I T (x0 ) = `T (x0 ). Функционал I 0 сов-падает с I , каждый последующий получается удалением одного слагаемого, ав функции I T остается лишь терминальное слагаемое.По аналогии с задачей (1.3) для каждого из функционалов I s поставимоптимизационную задачуs0Ix,u(·)→ inf ,u(·)u(k) ∈ U∀k ∈ [0, T − s − 1],x k, x0 , u(·) ∈ X∀k ∈ [1, T − s],x T − s, x0 , u(·) ∈ XT ,(2.1)28s(x0 ).
Функция I T не заи оптимальное значение функционала обозначим IоптTвисит от управления, потому для нее Iопт(x0 ) = I T (x0 ).Напомним: идея динамического программирования состоит в том, что частьфункционала I s , зависящую от u(1), u(2), . . . , u(T − s − 1), можно минимизировать независимо от u(0). Точнее говоря,sIопт(x0 )=ninfu∈Uos+10` f (x , u), u + Iопт f (x , u) ,0s = 0, 1, . .