Диссертация (1150745), страница 9
Текст из файла (страница 9)
Следовательно, функция uдин (x), определенная равенством (3.8), допускает линейное приближение в окрестности нуля, а Fопт (x) — квадратичное приближение. При этом указанные приближения являются, соответственно, оптимальным управлением и значением функции Беллмана приближенной линейноквадратичной задачиkAx + Buk2M +P1 + kuk2N → min .65Заметим, что u = Kx является решением этой задачи, а kxk2P — ее функциейБеллмана. Лемма доказана.Следующие леммы аналогичны леммам 7 и 8 предыдущей главы, однако здесь используется не равномерное, а квадратичное приближение функцииБеллмана, полученное в лемме 11.Лемма 16. Пусть радиус r = R0 , где R0 удовлетворяет условию леммы15 при s = 0, а матрица P = P0 определена равенством (3.7).
Тогда обратнаясвязь u = uдин (x), определенная как решение оптимизационной задачи (3.8),является γr-субоптимальной в области Br , т. е.1` f x, uдин (x) , uдин (x) + Iопт f x, uдин (x) 6 (1 + γr)Iопт (x)∀x ∈ Br .Здесьγ=14L3f MIопт34 kKk +Mu3дин ρ3 (X) + 1 + MFопт + MIоптI,1константа I = I 0 определена в лемме 10, MIопт и MIопт— в лемме 11, аMuдин и MFопт — в лемме 15.Доказательство. Из неравенства Fопт (x) − Iопт (x) 6 Fопт (x) − kxk2 + Iопт (x) − kxk2 6PPMFопт + MIопт6 MFопт + MIопт kxk3 6kxk Iопт (x)Iследует оценкаFопт (x) 6MFопт + MIопт1+kxk Iопт (x),I66поэтому1` f (x, uдин (x)), uдин (x) + Iоптf (x, uдин (x)) =1= ` f (x, uдин (x)), uдин (x) + Iоптf (x, uдин (x)) −− Fопт (x) + Fопт (x) =2 1= Iоптf (x, uдин (x)) − f x, uдин (x) P1 + Fопт (x) 631 f x, uдин (x) + Fопт (x) 66 MIопт16 4L3f MIоптkxk3 + kuдин (x)k3 + Fопт (x).Используя неравенствоkuдин (x)k3 6 kKk kxk + Muдин kxk2366 4 kKk3 kxk3 + Mu3дин kxk6 6 4 kKk3 + Mu3дин ρ3 (X ) kxk3 ,приходим к1` f (x, uдин (x)), uдин (x) + Iоптf (x, uдин (x)) 6333314Lf MIопт4 kKk + Muдин ρ (X ) + 1kxk Iопт (x) +6IMFопт + MIопт+ 1+kxk Iопт (x),Iоткуда следует требуемая оценка.
Лемма доказана.Лемма 17. Пусть радиус r удовлетворяет условию леммы 15 при s = 0,а также неравенству`r < e,qгдеq=4MIопт L3f31 + 4 kKk +Mu3дин ρ3 (X) +++ Muопт ) 2 + 2 kKk + (Muдин + Muопт )ρ(X ) +3333+ 4MIопт Lf 1 + 4 kKk + Muопт ρ (X ) ,λmax (P )L2f (Muдин67константа MIопт определена в лемме 11, Muдин — в лемме 15, a ` — в предпоeложении 9.Тогда функция Iопт (x) убывает вдоль движений системы (1.1), замкнутой управлением u = uдин (x), определенным как решение оптимизационнойзадачи (3.8), в области Br :Iоптf x, uдин (x) −Iопт (x) 6qIопт f x, uопт (x) −Iопт (x)1− kxk`e∀x ∈ Br .Доказательство.
С помощью неравенства треугольника получается оценкаIоптf x, uдин (x) − Iопт (x) 6 Iопт f x, uопт (x) − Iопт (x) + 2 + Iопт f x, uдин (x) − f x, uдин (x) P +2 2 + f x, uдин (x) P − f x, uопт (x) P + 2+ f x, uопт (x) P − Iопт f x, uопт (x) .Слагаемые в правой части оцениваются следующим образом: 2 Iопт f x, uдин (x) − f x, uдин (x) P 6 36 MIопт f x, uдин (x) 6 4MIопт L3f kxk3 + kuдин (x)k3 633336 4MIопт Lf 1 + 4 kKk + Muдин ρ (X ) kxk3 , 2 2 f x, uдин (x) P − f x, uопт (x) P 66 λmax (P ) f x, uдин (x) − f x, uопт (x) × ×f x, uдин (x) + f x, uопт (x) 626 λmax (P )Lf kuдин (x) − uопт (x)k 2 kxk + kuдин (x)k + kuопт (x)k 626 λmax (P )Lf (Muдин + Muопт ) 2 + 2 kKk + (Muдин + Muопт )ρ(X ) kxk3 ,682 f x, uопт (x) P − Iопт f x, uопт (x) 636 MIопт f x, uопт (x) 6 4MIопт L3f kxk3 + kuопт (x)k3 633336 4MIопт Lf 1 + 4 kKk + Muопт ρ (X ) kxk3 .Следовательно, исходную оценку можно переписать в видеIопт f x, uдин (x) − Iопт (x) 6 Iопт f x, uопт (x) − Iопт (x) + q kxk3 .По теореме 1Iопт f x, uопт (x) − Iопт (x) 6 −` f x, uопт (x) , uопт (x) 6 −` kxk2 ,eпоэтомуqIопт f x, uопт (x) − Iопт (x) ,Iопт f x, uдин (x) − Iопт (x) 6 1 − kxk`eчто и требовалось.
Лемма доказана.Опираясь на полученные результаты, можно сделать следующее заключение.Теорема 9. Пусть число r выбрано согласно условиям лемм 16 и 17, функция uдин (x) определена равенством (3.8), а явная обратная связь uявн (x) построена по алгоритму теоремы 4. Тогда обратная связьuдин (x), kxk 6 r,u(x) =uявн (x), kxk > rобладает следующими свойствами:1. Она стабилизирует нулевое равновесие системы (1.1), причем функцияБеллмана Iопт является функцией Ляпунова, гарантирующей устойчивость, и скорость ее убывания вдоль решения дана в леммах 8 и 17.2. Она является ε-субоптимальной обратной связью, причем оценка ε дана в леммах 7 и 16.Доказательство. Утверждение следует из лемм 16 и 17.69Глава 4КомпенсациявычислительногозапаздыванияВ этой главе обратимся к проблеме вычислительного запаздывания: допустим, что для вычисления даже приближенной обратной связи uявн (x) требуетсясущественное время.
Рассмотрим модель регулятора, который состоит из двухиерархически соединенных подсистем, работающих с разной частотой:1. Низкочастотный регулятор вычисляет последовательность управляющих сигналов на h > 1 тактов вперед. Эту последовательность будемназывать программной. Алгоритм ее вычисления сложен, поэтому онаобновляется только каждые h тактов, т.
е. на такте Kh (K = 0, 1, . . . )высокочастотный регулятор генерирует последовательностьū(Kh), ū(Kh + 1), . . . , ū (K + 1)h − 1 .Например, эта последовательность может получаться замыканием модели (1.1) обратной связью uявн (x). Соответствующую программную траекторию обозначимx̄(Kh), x̄(Kh + 1), . .
. , x̄ (K + 1)h − 1 .2. Высокочастотный регулятор — это простой быстрый регулятор. Накаждом такте он производит новый управляющий сигнал, для вычис-70ления которого требуется один такт. Его цель — стабилизировать программную траекторию, запланированную низкочастотным регулятором,по линейному приближению.Замечание. Действие высокочастотного регулятора ограничено конечнымпромежутком длительностью в h тактов, поэтому здесь под стабилизацией понимается не достижение асимптотической устойчивости, а такой выбор управления, при котором собственные числа матрицы линейного приближения замкнутой системы имеют модуль, меньший единицы. Практической целью приэтом является подавление случайных возмущений в правой части системы.Итак, предположим, что сигнал u(k) складывается из двух компонент: u1 сзапаздыванием h тактов и u2 с запаздыванием в один такт:u(k) = u1 k − h) + u2 (k − 1).(4.1)Если в системе с запаздывающим управлением использовать обыкновенную обратную связь вида u = u(x), замкнутая система окажется системой с запаздыванием в состоянии.
Чтобы избежать анализа такой системы, используем методкомпенсации запаздывания, который основан на так называемом предсказывающем преобразовании.4.1Анализ линейного приближенияРассмотрим движение системы в окрестности нуля — там, где справедливолинейное приближениеx(k + 1) = Ax(k) + Bu(k),k = 0, 1, . . .С учетом вычислительного запаздывания (4.1) получим следующую модель:x(k + 1) = Ax(k) + Bu1 (k − h) + Bu2 (k − 1).4.1.1(4.2)Предсказывающее преобразование состоянияПреобразование состояния системы, используемое в [32] для компенсациизапаздывания управления в системах непрерывного времени, допускает рас-71пространение на систему дискретного времени (4.2) в видеhp(k) = A x(k) +h−1Xκ=0Ah−1−κ Bu1 (k + κ − h) + Ah−1 Bu2 (k − 1).(4.3)Отметим, что преобразование (4.3) является преобразованием расширенного состояния системы, включающего кроме x(k) и прошлые значения управляющегосигнала:x(k), u1 (k − h), u1 (k − h + 1), .
. . , u1 (k − 1), u2 (k − 1) 7→7→ p(k), u1 (k − h), u1 (k − h + 1), . . . , u1 (k − 1), u2 (k − 1) .Найдем уравнение, которому удовлетворяет новая переменная p(k). Исполь-зуя уравнение (4.2), получимp(k + 1) = Ah Ax(k) + Bu1 (k − h) + Bu2 (k − 1) ++h−1Xκ=0Ah−1−κ Bu1 (k + 1 + κ − h) + Ah−1 Bu2 (k).Преобразуем суммирование по κ следующим образом:h−1Xκ=0Ah−1−κBu1 (k + 1 + κ − h) ==Ah−1Xκ=0hXκ=1Ah−κ Bu1 (k + κ − h) =Ah−1−κ Bu1 (k + κ − h) − Ah Bu1 (k − h) + Bu1 (k)и подставим его в выражение для p(k + 1):p(k + 1) = Ah Ax(k) + Bu1 (k − h) + Bu2 (k − 1) ++Ah−1Xκ=0Ah−1−κ Bu1 (k + κ − h) − Ah Bu1 (k − h) ++ Bu1 (k) + Ah−1 Bu2 (k) ="#h−1X= A Ah x(k) +Ah−1−κ Bu1 (k + κ − h) + Ah−1 Bu2 (k − 1) +κ=0+ Bu1 (k) + Ah−1 Bu2 (k).72Замечая, что выражение в квадратных скобках совпадает с p(k), находим, чтоуравнение для новой переменной p(k) естьp(k + 1) = Ap(k) + Bu1 (k) + Ah−1 Bu2 (k).(4.4)Итак, предсказывающее преобразование (4.3) позволило избавиться от запаздывания в управлении.
Требуется доказать, что стабилизация системы (4.4)с компенсированным запаздыванием гарантирует стабилизацию исходной системы (4.2).Будем рассматривать регуляторы u1 (k) и u2 (k) в линейном приближении:u1,2 (k) = F1,2 p(k).(4.5)Тогда в исходных переменных эта же обратная связь будет иметь вид"#h−1Xu1,2 (k) = F1,2 Ah x(k) +Ah−1−κ Bu1 (k + κ − h) + Ah−1 Bu2 (k − 1) . (4.6)κ=0Преимущество от перехода к новой переменной состояния p по сравнению спрямым анализом замкнутой системы (4.2), (4.6) заключается в том, что для замкнутой системы в форме (4.4), (4.5) проще построить функционал Ляпунова —Красовского.
Последний требуется, например, чтобы при анализе устойчивостиучесть погрешности в вычислении предиктора (4.3) на практике. Построим сначала функционал для преобразованной системы (4.4), (4.5), а затем вернемся кисходной переменной x.4.1.2Функционал Ляпунова — КрасовскогоСистема (4.4), хотя и не содержит в правой части запаздывающих управлений, тем не менее, определена в пространстве состояний видаp(k), u1 (k − h), u1 (k − h + 1), . . . , u1 (k − 1), u2 (k − 1) .Чтобы применить к ней метод Ляпунова — Красовского, необходимо найтифункционал v, определенный на (n + (h + 1)m)-мерном пространстве расширенных состояний и допускающий верхнюю и нижнюю квадратичные оценки.73Замкнутая система (4.4), (4.5) имеет видp(k + 1) = Āp(k),(4.7)где Ā = A+BF1 +Ah−1 BF2 . Будем считать, что она асимптотически устойчива,т.