Диссертация (Системный анализ регуляторов типа предиктор-корректор), страница 8
Описание файла
Файл "Диссертация" внутри архива находится в папке "Системный анализ регуляторов типа предиктор-корректор". PDF-файл из архива "Системный анализ регуляторов типа предиктор-корректор", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
∂uЗаметим, чтоkLu u + Lx xk = kLu (u − Kx)k >qλmin (LTu Lu ) ku − Kxkи ∂Λ(x, u) 6 M∂Λ kxk2 + kuk2 6−Lu−Lxux ∂u6 M∂Λ kxk2 + 2 kKxk + 2 ku − Kxk .Следовательно, ∂Λ(x, u) q > λmin (LTu Lu ) ku − Kxk − M∂Λ kxk2 + 2 kKxk + 2 ku − Kxk > ∂u q2> −2M∂Λ ku − Kxk + λmin (LTu Lu ) ku − Kxk −− M∂Λ 1 + 2 kKk2 kxk2 .Поскольку по условиюskxk < ρ 6λmin (LTu Lu ),8M∂Λ 1 + kKk255то дискриминант полученной квадратичной оценки положителен.
Можно заключить, что ∂Λ(x, u) ∂u > 0при всех u из областиω1 < ku − Kxk < ω2 ,гдеω1,21=4M∂Λqq22λmin (LTu Lu ) ± λmin (LTu Lu ) − 8M∂Λ 1 + kKk kxk(значению ω1 отвечает знак «−», ω2 — знак «+»). Следовательно, равенство∂Λ(x, u)=0∂uможет выполняться только еслиku − Kxk 6 ω1илиku − Kxk > ω2 ,илиku0 (x) − Kxk > ω2 .что приводит к оценкеku0 (x) − Kxk 6 ω14) По условию леммыpλmin (LTu Lu )q ,kxk < ρ 64M∂Λ kKk + ΛΛоткуда следуетpλmin (LTu Lu )< ω2 .4M∂ΛОстается одна область, в которой может находиться u0 (x):ku0 (x) − Kxk 6ku0 (x) − Kxk 6 ω1 .Неравенство ω1 6 Mu0 kxk2 проверяется, например, подстановкой.5) Чтобы получить оценку Λ0 (x), заметим, что222TkxkP = kxkLx + u Lxu x + kukLu u=Kx.56Поэтому, используя полученную выше оценку ku0 (x) − Kxk, имеем Λ0 (x) − kxk2 6 Λ0 (x) − kxk2 − uT0 (x)Lxu x − ku0 (x)k2 +PLxLu+ kxk2Lx + uT0 (x)Lxu x + ku0 (x)k2Lu − kxk2P 66 MΛ kxk3 + ku0 (x)k3 + T+ 2 u0 (x) − Kx Lxu x + ku0 (x)k2Lu − kKxk2Lu 63336 MΛ kxk + 4 ku0 (x) − Kxk + kKxk++ 2 kLxu k ku0 (x) − Kxk kxk + ku0 (x) − Kxk2Lxu 66 MΛ0 kxk3 .Лемма доказана.Рассмотрим функционалы I s (s = 0, 1, .
. . , T ), определенные выше приобсуждении принципа динамического программирования:I (x , u(·)) =s0TX−s−1k=00` x k + 1, x , u(·) , u(k) + `T x T − s, x , u(·) .0В следующей лемме доказывается, что эти функционалы удовлетворяют условиям леммы 9, т. е. допускают в окрестности нуля квадратичное приближениеи квадратичные оценки снизу и сверху, а их градиенты по переменным u(·)допускают линейное приближение.Лемма 10. Существуют такие положительные константы MI s , M∂I s ,I s и I s и матрицы Lsx , Lsxu и Lsu , причем det Lsu 6= 0, что sI (x, us ) − kxk2 s − usT Lsxu x − kus k2 s 6 MI s kxk3 + kus k3 ,LxL uss ∂I (x, u )s ss 6 M∂I s kxk2 + kus k2 ,−2Lu−2Lxuxu∂usI s kus k2 6 I s (x, us ) 6 I s kxk2 + kus k2 .ЗдесьTus = uT (0), uT (1), . .
. , uT (T − s − 1) .57Доказательство. Доказательство проводится по индукции начиная с s = T .При s = T функционал I T = `T , согласно основным предположениям,обладает требуемыми свойствами.Для краткости обозначений рассмотрим последний шаг индукции: пусть дляфункционала I 1 утверждение леммы имеет место. Рассмотрим функционалI0 = I: 11I (x, u ) = ` f x, u(0) , u(0) + I f x, u(0) , u .0Оценим точность квадратичного приближения этого функционала, которое получится, если заменить в правой части функции ` и I 1 на их квадратичныеприближения, а f — на линейное приближение: 1 2 2201T 1I (x, u )− kAx + Bu(0)kM +L1x − ku(0)kN − u Lxu Ax + Bu(0) − u L1 6u 26 ` f x, u(0) , u(0) − f x, u(0) M − ku(0)k2N +22+ f x, u(0) M − kAx + Bu(0)kM + 1 2 1+ I f x, u(0) , u − f x, u(0) L1 −xT2 − u1 L1xu f x, u(0) − u1 L1 +u22 + f x, u(0) L1 − kAx + Bu(0)kL1x +xT 1 11T 1+ u Lxu f x, u(0) − u Lxu Ax + Bu(0) 633336 M` 4Lf kxk + ku(0)k + ku(0)k + 1 3 333+ MI 1 4Lf kxk + ku(0)k + u ++ 2Mf2 λmax M + L1x Lf + max{kAk , kBk} ×× max{ρ(X ), ρ(U )} kxk2 + ku(0)k2 + + Mf L1xu kxk2 + ku(0)k2 u1 .58Используя неравенства √ ku(0)k + u1 6 2 u0 ,√ 0 3 42 13kxk u 6kxk + 2 2 u ,3√ 8 2 0 3u ,ku(0)k2 u1 63можно получить оценку требуемого вида.
Аналогично получаются остальныеоценки. Лемма доказана.Рассмотрим обратную связь, оптимальную для линейно-квадратичного приближения исходной оптимизационной задачи (1.3). По теореме 5 она имеет видu(s) = Ks x(s),s = 0, 1, . . . , T − 1,(3.5)гдеKs = (N + B T Ps B)−1 B T Ps A,(3.6)а Ps — решение уравнения РиккатиPs−1 = AT Ps A − (AT Ps B + N )(B T Ps B)−1 (B T Ps A + N T ) + M(3.7)с условием PT = MT .Следующая лемма утверждает, что обратная связь (3.5) является первымприближением нелинейной оптимальной обратной связи, а соответствующаяквадратичная функция Беллмана — приближением точной функции Беллмана.Лемма 11.
Пусть последовательность матриц Ps (s = 0, 1, . . . , T − 1)есть решение уравнения Риккати (3.7), константы I s , I s , M∂I s и матрицыLsx , Lsxu , Lsu определены условием леммы 10, а число ν таково, что Bν ⊂ U .Если выполнено неравенствоsp νsTssTsλmin ((Lu ) Lu )λmin ((Lu ) Lu ) ,R < min s,s2 ,s 1 + kKs ks8Ms∂IIIs4MkKk+∂Isss II59то при всех kxk 6 R имеют место оценкиkusопт (x) − Ks xk 6 Musопт kxk2 , sIопт (x) − kxk2 6 MI s kxk3 ,PsоптгдеMusопт2(1 + 2 kKs k2 )=p,λmin ((Lsu )T Lsu )sMIопт= MI s 1 + 4 kKs k3 + 2Musопт kLsxu k ++ Mu2sопт λmax (Lsu )ρ(X ) + 4Musопт ρ3 (X ) .Доказательство.
Утверждение леммы непосредственно следует из лемм 9 и10.3.2.1Свойства линейной обратной связиПусть в системе (1.1) вблизи начала координат используется линейная обратная связь u = Kx, оптимальная для линейно-квадратичного приближенияоптимизационной задачи (1.3), т. е. K = K0 , где K0 определено равенством(3.6). Простейшая оценка окрестности нуля, в которой это управление является стабилизирующим, получается следующим обычным способом с помощьювторого метода Ляпунова.Лемма 12. Пусть матрица V есть положительно определенное решениеуравнения ЛяпуноваA + BKTV A + BK − V = −Wпри некоторой положительно определенной матрице W . Если выполняютсянеравенстваsr<гдеR > ρ,!λmin (W )λmax (V )1+ 2 − 1 V A + BK 2 V A + BK ,Mg λmax (V ) 1 + kKk2sρ=λmin (V )ρ,λmax (V )60то при любом начальном условии x(0) ∈ Br движение x(k) системы (1.1),замкнутой обратной связью u(k) = Kx(k), не покидает BR при k > 0 иудовлетворяет оценкеkx(k)k 6λmax (V ) − 21 λmin (W )λmin (V )kkx(0)k .Доказательство.
Рассмотрим разностьkx(k + 1)k2V − kx(k)k2Vна движении замкнутой системы. Обозначим x(k) = x, тогда 2kx(k + 1)k2V − kxk2V = f x, Kx V − kxk2V =2= A + BK x + g x, Kx V − kxk2V = 22= A + BK xV − kxk2V + g x, Kx V +T+ 2xT A + BK V g x, Kx 626 − kxk2W + λmax (V )Mg2 1 + kKk2 kxk4 ++ 2Mg V A + BK 1 + kKk2 kxk3 626 − λmin (W ) + λmax (V )Mg2 1 + kKk2 kxk2 +2+ 2Mg V A + BK1 + kKk kxk kxk2 .Если kxk < ρ, то коэффициент при kxk2 в правой части меньше −λmin (W )/2.Следовательно,kx(k + 1)k2V − kx(k)k2V < −при kx(k)k < ρ.
Еслиskx(0)k <λmin (W )kx(k)k22λmin (V )ρ,λmax (V )то kx(0)k2V < λmin (V )ρ2 и kx(k)k < ρ < R при k = 1, 2, . . . , что гарантируетутверждение теоремы.61Следующая лемма дает оценку субоптимальности линейной обратной связи,построенной по линейно-квадратичному приближению оптимизационной задачи.Лемма 13. Пусть радиус R удовлетворяет условию леммы 11 при s = 0, аматрица K = K0 определена равенством (3.6). Тогда обратная связь u = Kxявляется ε-субоптимальной в области BR , т. е.1` f (x, Kx), Kx + Iоптf (x, Kx) 6 (1 + ε)Iопт (x)∀x ∈ BR ,причем1Здесь LIопт1 Lf Mu0L` Lf Mu0опт + 1 + LIоптоптε=.I1— константа Липшица функции Iопт, определенная в теореме 3,константа I = I 0 дана в лемме 10, а Mu0опт — в лемме 11.Доказательство.
Из равенства1Iопт (x) = ` f x, uопт (x) , uопт (x) + Iопт f x, uопт (x)следует1` f (x, Kx), Kx + Iоптf (x, Kx) − Iопт (x) = ` f (x, Kx), Kx +11+ Iопт f (x, Kx) − ` f x, uопт (x) , uопт (x) − Iопт f x, uопт (x) .Оценивая2` f (x, Kx), Kx − ` f x, uопт (x) , uопт (x) 6 L` Lf Muопт + 1 kxkи 1210Iопт f (x, Kx) − Iопт f x, uопт (x) 6 L1 Lf Mu0опт kxk ,получаем1` f (x, Kx), Kx + Iоптf (x, Kx) − Iопт (x) 66 L` Lf Mu0опт + 1 + L1 Lf Mu0опт kxk2 = εI kxk2 6 εIопт (x),откуда следует требуемое неравенство.
Лемма доказана.62Выводом из последних двух лемм является следующая теорема.Теорема 8. Пусть числа r и R выбраны согласно условиям лемм 12 и 13,матрица K = K0 определена равенством (3.6), а явная обратная связь uявн (x)построена по алгоритму теоремы 4. Определим регулятор с двумя режимамифункционированияu(x) =Kxв квазилинейном режиме,uявн (x) в нелинейном режимесо следующими правилами переключения между режимами:• если регулятор находится в нелинейном режиме, а система входит вшар Br , то регулятор переходит в квазилинейный режим;• если регулятор находится в квазилинейном режиме, а система выходит из шара BR , то регулятор переходит в нелинейный режим.Такой регулятор обладает следующими свойствами:1.
Он стабилизирует нулевое равновесие системы (1.1), причем:• в нелинейном режиме функция Беллмана Iопт является функцией Ляпунова, гарантирующей устойчивость, и скорость ее убывания вдоль решения дана в лемме 8;• в квазилинейном режиме квадратичная функция Ляпунова убывает вдоль решений со скоростью, определенной в лемме 12.2. Он является ε-субоптимальной обратной связью, причем оценка ε данав леммах 7 и 13.Доказательство. Следует из лемм 12 и 13.3.2.2Приближенное динамическое программированиеРассмотрим вариант построения обратной связи в квазилинейном режиме сиспользованием динамического программирования.
Для этого в задачеno1uопт (0, x) = arg min ` f (x, u), u + Iопт f (x, u)u631на ее квадратичную аппроксимацию k·k2P .заменим функцию Беллмана IоптПолучим задачу приближенного динамического программированияuдин (x) = arg min F (x, u),u(3.8)гдеF (x, u) = ` f (x, u), u + kf (x, u)k2P .Охарактеризуем обратную связь uдин (x) с точки зрения устойчивости и субоптимальности. Для этого докажем две вспомогательные леммы, аналогичныелеммам 10 и 11.Лемма 14. Существуют такие положительные константы MF , M∂F ,F и F , что2 33F (x, u) − kAx + Buk2−kuk6Mkxk+kuk,FM +P1N ∂F (x, u)T 6 M∂F kxk2 + kuk2 ,−2B(M+P)(Ax+Bu)−2Nu1 ∂uF kuk2 6 F (x, u) 6 F kxk2 + kuk2 .Доказательство. Докажем для примера первое неравенство:2 F (x, u)− kAx + Buk2−kukM +P1N 66 ` f (x, u), u − kf (x, u)k2M − kuk2N +22+ kf (x, u)kM +P1 − kAx + BukM +P1 66 M` kf (x, u)k3 + kuk3 ++ λmax (M + P1 ) kf (x, u) − Ax − Buk ×× kf (x, u)k + kAx + Buk 633336 M` 4Lf kxk + kuk + kuk ++ Mf λmax (M + P1 ) Lf + max{kAk , kBk} ×× kxk2 + kuk2 (kxk + kuk).Заключаем, что допустимо взятьMF = M` (4L3f + 1) + 4Mf λmax (M ) Lf + max{kAk , kBk} .64Остальные неравенства устанавливаются аналогично.
Лемма доказана.Лемма 15. Пусть константы MF , M∂F , F и F определены леммой 14,матрицы K = K0 и P = P0 определены уравнениями (3.6) и (3.7), а число νтаково, что Bν ⊂ U . Еслиsp νTTλmin (N̄ N̄ )λmin (N̄ N̄ ),R < min s ,s2 ,8M1+kKk∂FFF 4M∂F kKk + FF гдеN̄ = N + B T (M + P1 )B,то при всех kxk 6 R имеют место оценкиkuдин (x) − Kxk 6 Muдин kxk2 ,Fопт (x) − kxk2 6 MF kxk3 ,оптPгдеMuдин2(1 + 2 kKk2 )= p,Tλmin (N̄ N̄ )MFопт = MF 1 + 4 kKk3 + 2Muдин B T (M + P1 )A ++ Mu2дин λmax (N̄ )ρ(X ) + 4Musопт ρ3 (X ) .Доказательство. Согласно лемме 14 функция F удовлетворяет условию леммы 9.