Диссертация (1150745), страница 6
Текст из файла (страница 6)
Плотность сетки охарактеризуем числом ρ — максимальным расстоянием, на котором может оказаться от произвольно выбранной точки x ∈X \Br ближайшая к ней точка сетки: иными словами, при всех x ∈ X \Brсуществует x̄ ∈ Bρ (x).1(x̄) во всех точках сетки и построим аппроксимаВычислим значение Iопт11цию Fопт(x), не входящую в противоречие с условием Липшица для Iопт(x):1при n = 1 соединим точки Iопт(x̄) ломаной, при n = 2 используем линейнуюинтерполяцию, если ячейки сетки считаются треугольными, или билинейную,если квадратными, и т. д. Очевидно, что111|Fопт(x) − Iопт(x)| 6 ρLIоптВыбрав такую сетку, чтоρ6µ1LIопт,∀x ∈ X \Br .36получим требуемое условие.
Лемма доказана.Лемма 5. Если 11Fопт (x) − Iопт(x) 6 µ∀x ∈ X \Br ,при некотором µ > 0, тоFопт (x) − Iопт (x) 6 µ∀x ∈ X \Br .Доказательство. Рассмотрим тождествоFопт (x) = F x, uдин (x) =1= ` f x, uдин (x) , uдин (x) + Fопт f x, uдин (x) =1= ` f x, uдин (x) , uдин (x) + Iопт f x, uдин (x) +11+ Fопт f x, uдин (x) − Iопт f x, uдин (x) .В силу оптимальности значения uопт (0, x)1` f x, uдин (x) , uдин (x) + Iопт f x, uдин (x) >1> ` f x, uопт (0, x) , uопт (0, x) + Iопт f x, uопт (0, x) = Iопт (x).Следовательно,Fопт (x) > Iопт (x) +1Fопт1f x, uдин (x) − Iопт f x, uдин (x) > Iопт (x) − µ.Аналогично получается неравенствоIопт (x) > Fопт (x) − µ,откуда следует требуемое утверждение.
Лемма доказана.Лемма 6. Пусть выполнено условие теоремы 1. Если 11Fопт (x) − Iопт(x) 6 µ∀x ∈ X \Br ,37иFопт (x) − Iопт (x) 6 µ∀x ∈ X \Br ,тоFоптf x, uдин (x) − Fопт (x) 6 −` f x, uдин (x) , uдин (x) + 2µ.Доказательство. Воспользуемся той же идеей, что и при доказательстве теоремы 1 (см. [40]). Рассмотрим тождество1Fопт (x) = ` f x, uдин (x) , uдин (x) + Fопт f x, uдин (x) .Пользуясь неравенством из условия леммы, запишем1Fопт (x) > ` f x, uдин (x) , uдин (x) + Iопт f x, uдин (x) − µ.1естьВеличина Iопт1IоптT −2 Xf x, uдин (x) =` xk+1 , uk + `T xT −1 ,k=0где u0 , u1 , .
. . , uT −2 — некоторая последовательность управлений, допустимых взадаче (2.1) при s = 1, иx0 = f x, uдин (x) ,xi = f xi−1 , ui−1 ,i = 1, 2, . . . , T − 1.Заметим, что xT −1 ∈ XT . Используя неравенство из условия теоремы 1, получим1IоптT −1 Xf x, uдин (x) =` xk+1 , uk + `T xT ,k=0гдеuT −1 = κ xT −1 ,xT = f xT −1 , uT −1 .38Из условия теоремы 1 вытекает, что xT ∈ XT , поэтому последовательностьуправлений u0 , u1 , . .
. , uT −1 допустима в задаче (1.3). Поскольку эта последовательность, вообще говоря, не оптимальна в указанной задаче, справедливаоценкаIоптT −1 X`(xk+1 , uk ) + `T xT ,f x, uдин (x) 6k=0следовательно,1Iоптf x, uдин (x) > Iопт f x, uдин (x) .Вновь применяя неравенство из условия леммы, получаем1Iоптf x, uдин (x) > Fопт f x, uдин (x) − µ.Подставляя это в неравенство для Fопт (x), приходим к следующему выводу:Fопт (x) > ` f x, uдин (x) , uдин (x) + Fопт f x, uдин (x) − 2µ.Отсюда следует доказываемое неравенство.2.2.4Шаг 2: аппроксимация решения задачиприближенного динамического программированияявной функциейПриближенная задача (2.3) проще, чем исходная (1.3), т.
к. в ней меньше степеней свободы: всего один m-мерный вектор u вместо последовательности u(·)из T векторов. Тем не менее, даже решение такой задачи пониженной размерности затруднительно в реальном времени. Эффективнее аппроксимировать еерешение uдин (x) явной функцией.Обратная связь uдин (x), вообще говоря, не является непрерывной функциейсостояния x, и определить точки ее разрыва с абсолютной точностью невозможно.
По этой причине безосновательно интерполировать функцию uдин (x) по ее39значениям на конечной сетке и рассчитывать при этом на равномерное приближение. Несмотря на сказанное, мы все же ставим целью аппроксимироватьuдин (x) по значениям на конечной сетке.
Точность приближения, однако, будемоценивать не по близости управляющего сигнала к оптимальному, а по тому, насколько значение функционала на аппроксимированном управлении близко кего оптимальному значению. Близость понимается в смысле следующего определения.Определение 9. Допустимую обратную связь u(x) будем называть ε-субоптимальной при ε > 0, если при всех x ∈ X выполнено неравенство1` f x, u(x) , u(x) + Iопт f x, u(x) 6 (1 + ε)Iопт (x).Замечание. Чем меньше ε, тем ближе ε-субоптимальное управление к оптимальному. Оптимальная обратная связь uопт (0, x) является 0-субоптимальной.Пусть выполнены предположения теорем 1 и 3, т.
е. точный регулятор «предиктор-корректор» является стабилизирующим, и функция Беллмана непрерывна. Покажем, что при любом заданном ε > 0 можно построить стабилизирующую ε-субоптимальную обратную связь в виде кусочно аффинной функции.Для этого сначала сформулируем две леммы: первая касается субоптимальности, вторая — устойчивости.Лемма 7. Рассмотрим произвольную точку x̄ ∈ X и число ε > 0. Еслиточка x ∈ X и управляющий сигнал u ∈ U удовлетворяютkx − x̄k2 + ku − uопт (0, x̄)k2 6 ρ2 ,гдеε min Iопт (x)x∈Bρ (x̄)qρ6,2 +11 Lf + LILIопт+LL`оптfто сигнал u может быть кандидатом на значение ε-субоптимальной обратной связи в точке x, т.
е.1` f (x, u), u + Iоптf (x, u) 6 (1 + ε)Iопт (x).4011 , Lf и L` — константы Липшица функций IЗдесь LIопт , LIоптопт , Iопт , f и `.Доказательство. Рассмотрим тождество1` f (x, u), u + Iоптf (x, u) − Iопт (x) =1= ` f (x, u), u + Iоптf (x, u) − Iопт (x̄) + Iопт (x̄) − Iопт (x).Выполнив в правой части замену1Iопт (x̄) = ` f x̄, uопт (0, x̄) , uопт (0, x̄) + Iопт f x̄, uопт (0, x̄) ,придем к1` f (x, u), u + Iоптf (x, u) − Iопт (x) == ` f (x, u), u − ` f x̄, uопт (0, x̄) , uопт (0, x̄) +11+ Iопт f (x, u) − Iопт f x̄, uопт (0, x̄) + Iопт (x̄) − Iопт (x).Используя неравенства Липшица` f (x, u), u − ` f x̄, uопт (0, x̄) , uопт (0, x̄) 6q26 L` f (x, u) − f x̄, uопт (0, x̄) + ku − uопт (0, x̄)k2 6qq22226 L` Lf kx − x̄k + ku − uопт (0, x̄)k + ku − uопт (0, x̄)k 6 L` L2f + 1 ρ,1Iопт11 Lf ρ,f (x, u) − Iопт f x̄, uопт (0, x̄) 6 LIоптIопт (x̄) − Iопт (x) 6 LIопт ρ,получаем оценку` f (x, u), u + Iопт f (x, u) − Iопт (x) 6q21 Lf + LI6 LIопт+ L` Lf + 1 ρ 6 εIопт (x),оптоткуда следует требуемое неравенство.
Лемма доказана.41Лемма 8. Рассмотрим произвольную точку x̄ ∈ X \Br и число κ ∈ (0, 1).Если точка x ∈ X \Br и управляющий сигнал u ∈ U удовлетворяютkx − x̄k2 + ku − uопт (0, x̄)k2 6 ρ2 ,гдеκ−1ρ=Iопт f x̄, uопт (0, x̄) − Iопт (x̄) ,LIопт (Lf + 1)тоIоптf (x, u) − Iопт (x) 6 κ Iопт f x̄, uопт (0, x̄) − Iопт (x̄) .Здесь LIопт и Lf — константы Липшица функций Iопт и f .Замечание. Смысл леммы 8 таков: если в данной точке x̄ оптимальное значение функционала убывает при оптимальном управлении uопт (0, x̄), то в достаточно близких точках x при достаточно близких управлениях u оно такжебудет убывать.Доказательство. Рассмотрим тождествоIоптf (x, u) − Iопт (x) = Iопт f (x, u) − Iопт f x̄, uопт (0, x̄) ++ Iопт f x̄, uопт (0, x̄) − Iопт (x̄) + Iопт (x̄) − Iопт (x).Используя неравенства ЛипшицаIоптf (x, u) − Iопт f x̄, uопт (0, x̄) 6 LIопт Lf ρ,Iопт (x̄) − Iопт (x) 6 LIопт ρ,придем кIопт f (x, u) − Iопт (x) 66 Iопт f x̄, uопт (0, x̄) − Iопт (x̄) + LI (Lf + 1)ρ == κ Iопт f x̄, uопт (0, x̄) − Iопт (x̄) ,что и требовалось.
Лемма доказана.422.2.5Построение субоптимальной обратной связи взаданной близости от оптимальнойСледующая основная теорема, опираясь на леммы 7 и 8, предлагает основу для построения стабилизирующей ε-субоптимальной обратной связи uявн (x).Для этого значения uопт (0, x) вычисляются в точках достаточно мелкой сетки,окружаются некоторыми окрестностями и интерполируются так, чтобы получаемая приближенная обратная связь не выходила из указанных окрестностей.Теорема 4. Пусть обратная связь «предиктор-корректор»u(x) = uопт (0, x)стабилизирует систему (1.1), причем выполнены условия теорем 1 и 3.
Выберем достаточно малое r и стабилизируем систему (1.1) в области Br , например, линейным регулятором u = Kx. Выберем функцию uявн (x) = Kx внутриBr , а вне Br построим по следующему алгоритму:1. Выбрать κ ∈ (0, 1), ε > 0, положитьε min Iопт (x)x∈X \Brqρ∗ = min,2 LIопт1 Lf + LI+ L` Lf + 1оптκ−1min Iопт f x̄, uопт (0, x̄) − Iопт (x̄).LIопт (Lf + 1) x∈X \Br2.
Построить сетку G из конечного числа точек так, что любая точкаобласти X имеет хотя бы одну точку из G в своей ρ∗ -окрестности.3. Для каждой точки x̄ ∈ G построить (n + m)-мерный шар с центромx̄, uопт (0, x̄) и радиусомε min Iопт (x)x∈Bρ (x̄)q,ρ = min2 LIопт1 Lf + LI+ L` Lf + 1оптκ−1Iопт f x̄, uопт (0, x̄) − Iопт (x̄).LIопт (Lf + 1)434. Построить функцию uявн (x) вне окрестности Br так, чтобы точкаx, uявн (x) при любом x ∈ X находилась хотя бы в одном из построенных шаров.11Здесь LIопт и LIопт— константы Липшица функций Iопт и Iопт, опреде-ленные в теореме 3.Такое построение всегда возможно.
Получаемая обратная связь u(k) =uявн x(k) стабилизирует систему (1.1) и является ε-субоптимальной.Доказательство. Следует из вышеприведенных лемм.Значение теоремы 4 состоит в том, что она дает достаточные условия на допустимую погрешность в аппроксимации оптимальной обратной связи uопт (0, x)субоптимальной uявн (x). Их можно использовать, чтобы построить такую аппроксимацию, которая будет храниться в памяти управляющего устройства.Например, это может быть кусочно аффинная функция, определяемая треугольной сеткой и значениями в ее узлах. Мы предполагаем, что вычислениеподобной аппроксимации — более надежный и быстрый вариант реализациирегулятора, чем численная оптимизация.Пусть реализованы пункты 1–3 теоремы 4.
Отметим два способа построенияфункции uявн (x), удовлетворяющей пункту 4:1. Тривиальный способ — кусочно постоянная функция, получается приинтерполировании по правилу ближайшего соседа:uявн (x) = uопт (0, x∗ ),x∗ = arg min kx − x̄k .x̄∈GНедостаток этого способа — невозможность обоснованно сократить количество узлов сетки и, как следствие, избыточный расход памяти нахранение uопт (0, x∗ ) в каждом узле.2.
Выделение областей непрерывности uявн (x), внутри которых можно применить непрерывную интерполяцию и упростить сетку, сократив количество узлов.44Замечание. Основная сложность, связанная с задачей быстрого вычислениякусочно заданной функции в некоторой точке x заключается в поиске куска,к которому относится x. Заметим, что на практике эта задача для систем, получаемых дискретизацией непрерывной модели, несколько упрощается: еслиизвестно, в каком куске находилась точка x(k), то x(k + 1) в силу непрерывности окажется в близлежащем куске. Если хранить карту кусков в виде графа,то проверить куски, лежащие вблизи от данного, будет проще.45Глава 3Анализ квазилинейногорежимаНапомним: в предыдущей главе была построена явная функция uявн (x), аппроксимирующая оптимальную обратную связь uопт (0, x) на множестве X \Br .При этом построение выполнено в два этапа:uопт (0, x) → uдин (x) → uявн (x).Промежуточная функция uдин (x) — это решение приближенной задачи динамического программирования (2.3), которая получается из исходной задачи (1.3)1(x) на равномерное кусочно аффинное призаменой функции Беллмана Iопт1(x).ближение FоптЗаметим, что с приближением к нулю метод предыдущей главы перестаетработать, т.