Деменков Н.П. Вычислительные аспекты решения задач оптимального управления (2007) (1253737), страница 14
Текст из файла (страница 14)
е. бесконечно малые изменения начальных условий dx ибесконечно малое изменение начального момента времени dt вызывают малые изменения критерия качества dJ ∗ в соответствии сравенствомdJ ∗ = p т ( t ) dx − H ( t ) dt ,(3.24)97где H – функция Гамильтона,H ( x , p, u , t ) = L ( x , u , t ) + p т f ( x , u , t ) .(3.25)Из равенства (3.24) следует, что на оптимальной траекторииpт ≡∂J ∗;∂xH ≡−∂J ∗.∂t(3.26)Учитывая соотношение (3.25), уравнение (3.23) можно переписать в виде⎛ ∂J ∗ ⎞∂J ∗, t ⎟⎟ ,= H ∗ ⎜⎜ x ,∂t⎝ ∂x ⎠(3.27)⎛ ∂J ∗ ⎞⎛ ∂J ∗⎞H ∗ ⎜⎜ x ,, t ⎟⎟ = min H ⎜⎜ x ,, u , t ⎟⎟ .u⎝ ∂x ⎠⎝ ∂x⎠(3.28)−гдеУравнение (3.27) (и (3.23)) называется уравнением Гамильтона–Якоби–Беллмана. Это нелинейное дифференциальное уравнение в частных производных первого порядка, которое следует решать с граничным условием (3.20).Уравнение (3.28) показывает, что u ∗ является таким значением управления u , которое доставляет глобальный минимум га⎛ ∂J ∗⎞∂J ∗, u , t ⎟⎟ при постоянных значениях x ,,tмильтониану H ⎜⎜ x ,∂x⎝ ∂x⎠(это другая формулировка принципа максимума).Если на x и u не наложено никаких ограничений, то управление u должно удовлетворять соотношениям:∂H ∂L ∂J ∗ ∂f≡+= 0;∂u ∂u ∂x ∂u98(3.29)∂2 H≥0∂u 2(3.30)для всех t ≤ tk , другими словами, каждая компонента вектора∂H∂u∂2 Hдолжна быть положи∂u 2тельно-полуопределенной.
Уравнение (3.30) является известным ввариационном исчислении условием Лежандра–Клебша.Одним из самых эффективных способов решения нелинейныхдифференциальных уравнений в частных производных типа (3.27)считается метод характеристических функций, который эквивалентен нахождению поля экстремалей с помощью вариационногоисчисления.должна обращаться в нуль, а матрица3.2.2. Динамическое программирование и классическоевариационное исчислениеРешим задачу Эйлера методом динамического программирования. Требуется найти минимум функционалаtkGJ( x ) = ∫ L( x , x , t )dt при x (t0)= x0 .t0Сведем эту задачу к минимизацииtkJ( x , u ) = ∫ L( x , u , t )dtt0при ограниченииGx = f ( x , u , t ) и x (t0)= a .(3. 31)Нужно иметь решение, справедливое для любых значений начальных условий и времени управления, т.
е. a и t0 = τ – переменные, а время tk фиксированно.99Введем функциюJ*( a , τ) = min J( x , u )= minu [ τ ,t k ]tk∫ L( x , u , t )dt ,τа отрезок [τ, tk] разобъем на [τ,τ + Δτ] и [τ + Δτ, tk], тогдаtkτ+Δτ*J ( a , τ) =minminu [ τ, τ+Δτ ] u [ τ +Δτ , tk ][∫L( x , u , t )dt +τminu [ τ, τ+Δτ ]∫L( x , u , t )dt ] =tkτ+Δτ=∫τ+ΔτL( x , u , t )dt +τminu [ τ +Δτ , tk ]∫L( x , u , t )dt.τ+ΔτВ соответствии с принципом оптимальности траектории на интервале [τ + Δτ, tk] должны начинаться из состояния a (Δτ), полученного в результате действия управления u (τ, τ + Δτ), и быть оптимальными относительно a (Δτ), т. е.
по определениюtk∫minu [ τ +Δτ , tk ]L( x , u , t )dt = J* ( a (Δτ), τ + Δτ).τ+ΔτПоследнее уравнение для J* ( a ,τ) примет видτ+ΔτJ* ( a ,τ) =minu [ τ, τ+Δτ ][∫L( x , u , t )dt + J* ( a (Δτ), τ + Δτ)]. (3.32)τДля достаточно малого интервала времени Δτ справедливоследующее:a (Δτ) − ax ≅= f (a , u (τ)) иΔττ+Δτ∫L( x , u , t )dt ≈ L(a , u (t ))Δτ.τТогдаa (Δτ) = a + f ( a , u (τ))Δτ100иJ * ( a (Δτ), τ + Δτ) = J * ( a + f ( a , u (τ)) Δτ,τ + Δτ).Разложив полученное выражение в ряд Тейлора относительноточки a , τ по приращениям f ( a , u (τ)) Δτ и Δτ, получимJ * ( a (Δτ), τ + Δτ) = J * ( a ,τ) + f ( a , u (τ))Δτ∂J * ∂J *Δτ + …+∂a∂τУравнение (3.32) с учетом этого выражения теперь примет видJ * ( a , τ) = min [L( a , u (τ))Δτ + J * ( a , τ) + f ( a , u (τ))Δτu ( τ)+∂J *+∂a∂J *Δτ + …].∂τТак как по определениюJ * ( a , τ) = min J( a , τ),u ( τ)а Δτ – величина конечная, то, обозначив u (τ, τ + Δτ) = u (τ) = υ ипроведя простейшие преобразования, получим необходимые идостаточные условия экстремума0 = min [L( a , υ ) + f ( a , υ )υ∂J *∂J *++ …].∂a∂τ(3.33)Поскольку τ не зависит от υ, имеем∂J *∂J *= – min [L( a , υ ) + f ( a , υ )].υ∂τ∂a(3.34)Уравнение (3.34) дает необходимые и достаточные условияэкстремума.
Оно эквивалентно двум уравнениям:1010 = L( a , υ ) + f ( a , υ )0=∂J * ∂J *+;∂a∂τ∂L(a , υ) ∂f ∂J *+.∂υ∂υ ∂a(3.35)(3.36)Уравнение (3.35) получено из (3.33) подстановкой в него оптимального решения, а уравнение (3.36) – дифференцированием(3.33) по переменной υ.Обозначим управление u = x = f и подставим его в (3.33):∂J * ∂J *0 = min [L( x , x , t) + x+].x∂x∂t(3.37)Уравнение (3.37), как и уравнение (3.33), эквивалентно двумуравнениям:∂J *∂J *0 = L( x , x , t) + x+;∂x∂t0=∂L( x , x , t ) ∂J *+.∂x∂x(3.38)(3.39)Вычислим частную производную (3.38) по x и полную производную (3.39) по t:∂L ∂ 2 J *+x;∂x∂x 2(3.40)d ∂Ld ∂J *+.dt ∂xdt ∂x(3.41)0=0=Раскрывая производнуюd ∂J *∂ d *∂ ∂J * dx ∂J *∂2 J * ∂2 J *=[ J ( x , t)] =[+]=x +,dt ∂x∂x dt∂x ∂x dt∂t∂x ∂t∂x 2102после подстановки результата в (3.40) и вычитания из (3.40) уравнения (3.39) получим уравнение Эйлераd ∂L ∂ 2 J * ∂ 2 J * ∂L ∂ 2 J * ∂Ld ∂Lx +–– x=–K +K = 0.22dt ∂x∂x∂x ∂t ∂xdt ∂x∂x∂xТаким образом, можно рассматривать уравнение Эйлера какчастный случай уравнения Беллмана.
Кроме того, из уравненияБеллмана выводятся все другие уравнения и условия классического вариационного исчисления, например уравнение Гамильтона–Якоби (3.23).Рассмотрим процедуру получения условия Лежандра. Обозначим содержимое квадратных скобок в (3.37) в виде некоторойфункции Н( x ), минимум которой необходимо отыскать:∂J *∂J *Н ( x ) = L( x , x , t) + x+.∂t∂xДля того чтобы функция Н( x ) обращалась в искомой точке в минимум, ее вторая частная производная по x должна быть в этой точкенеотрицательной.
Дифференцируя Н( x ) дважды по x , получаем∂H∂L∂J *∂2 H∂L=+и=.2∂x∂x∂x∂x ∂x∂xУсловие∂L≥ 0 и есть необходимое условие Лежандра–∂x ∂xКлебша.3.2.3. Пример синтеза оптимальной стратегииРассмотрим следующую задачу оптимального управления(стратегии): найти управление u (t), переводящее объект, описываемый уравнениямиdx1= x2 + x1;dt103dx2= u,dtиз состояния x0 (x10, x20). В качестве конечной точки выберем началокоординат xk = (0, 0).Так как u содержится под корнем, то u ≥ 0.Качество процесса будем оценивать функционаломтI = ∫ u (t ) dt.(3.42)0Необходимо определить оптимальную стратегию u = ϑ( x1 , x2 ),которая обеспечивает перевод фазовой точки из произвольногоначального состояния в начало координат, и притом так, чтобы натраекториях движения функционал (3.42) принимал наименьшеезначение.Запишем функциональное уравнение Беллмана0 = min[ u +u ∈U∂I ∗∂I ∗( x1 + x2 ) +u ].∂x1∂x2(3.43)Для определения минимума необходимо продифференцировать правую часть уравнения (3.43) по u.
Учитывая ограничения,наложенные на u, получаем равенство1+∂I ∗ 1 1= 0,∂x2 2 uоткуда находимu =−1 ∂I ∗2 ∂x2и, следовательно,21 ⎛ ∂I ∗ ⎞u= ⎜.4 ⎝ ∂x2 ⎟⎠104(3.44)Уравнение Беллмана при этом принимает вид1 ∂I ∗ 2 ∂I ∗1 ∂I ∗ 2() +( x1 + x2 ) − () = 0.4 ∂x2∂x12 ∂x2Преобразовав его, приходим к следующему равенству:1 ∂I ∗ 2 ∂I ∗() =( x1 + x2 ).4 ∂x2∂x1(3.45)Уравнение (3.45) является дифференциальным уравнением вчастных производных обычного типа, не содержащим операциюминимума. Одним из способов решения таких уравнений являетсязадание вида предполагаемого решения с точностью до коэффициентов с последующим их определением.
Зададим функционал J ввиде квадратичной формыJ( x ) = Ax12 + 2 Bx1 x2 + Cx22и подставим его в преобразованное уравнение Беллмана (3.45).Приравнивая коэффициенты при x12 , x1 x2 , x22 в левой и правойчастях получившегося выражения, найдем искомые коэффициенты A, B и C.Будем искать решение уравнения (3.45) в формеI ∗ ( x ) = C1 x12 + C2 x1 x2 + C3 x22 .Тогда∂I ∗= 2C1 x1 + C2 x2 ;∂x1∂I ∗= 2C3 x2 + C2 x1.∂x2.Уравнение (3.45) принимает вид1 2 2(C2 x1 + 4C2C3 x1 x2 + 4C32 x22 ) = 2C1 x12 + C2 x1 x2 + C2 x22 .4105Коэффициенты С1, С2, С3 определяются из системы уравнений:⎧1 2⎪ 4 C2 − 2C1 = 0;⎪⎨C2C3 − 2C1 = 0;⎪ 2⎪C3 − C2 = 0,⎩откуда⎧C1 = 4;⎪⎨C2 = 4;⎪C = 2;⎩ 3⎧C1 = −4;⎪⎨C2 = 4;⎪C = −2.⎩ 3Эти решения в соответствии с (3.44) приводят к двум синтезирующим функциям:u1 = 4(4 x1 + 4 x2 )2 ;u2 = 4(4 x1 − 4 x2 )2 .В результате получаем две квадратичные системы, причемквадратичная система, порождаемая второй функцией, оказывается неустойчивой и, следовательно, не может обеспечить переводфазовой точки в начало координат.Таким образом, оптимальная синтезирующая функция (оптимальная стратегия) задается равенствомu1 = 4(4 x1 + 4 x2 ) 2 .Заметим, что предположение о непрерывной дифференцируемости функции J(x) является весьма существенным ограничениемметода динамического программирования, когда он применяетсядля непрерывных процессов.3.2.4.
Аналитическое конструирование регуляторовМногие объекты управления достаточно точно описываютсялинейными динамическими моделями. В задачах наведения мо106гут быть осуществлены схемы управления возмущенным движением, которые приводят к необходимости рассмотрения нестационарных линейных систем с квадратичным критерием качества. Путем разумного выбора квадратичных критериев качества иквадратичных ограничений в этих случаях удается синтезироватьвесьма удовлетворительные управляющие устройства с линейнойобратной связью [15].Пусть система описывается векторным дифференциальнымуравнением с переменными коэффициентамиx = A(t) x + B(t) u ;y = C(t) x + D(t) u .(3.46)Необходимо перевести систему из некоторого начального состояния x (t0) в заданное конечное состояниеx (tk) ≅ 0,(3.47)используя допустимые функции управления u (t) и не выходя за допустимые пределы по фазовым переменным в процессе движения.Один из методов решения задачи синтеза терминальногоуправляющего устройства состоит в минимизации критерия качества, представляющего собой сумму квадратичной формы от вектора конечного состояния и интеграла от суммы квадратичныхформ вектора состояния и вектора управления:t11kJ = ⎡⎣ x т Gk x ⎤⎦+ ∫ ( x т Qx + u т Ru )dt.t =tk22t(3.48)0Здесь Gk и Q(t) – положительно-полуопределенные матрицы;R(t) – положительно-определенная матрица.Представим, что оптимальное значение функционала такжеесть квадратичная формаJ *( x , t) = x т (t)S(t) x (t).(3.49)Подставим это решение в уравнение Беллмана (3.23):107−⎧⎪∂J ∗∂J ∗⎪⎫f ( x , u , t )⎬.= min ⎨ L ( x , u , t ) +u ⎪∂t∂x⎩⎭⎪Учитывая, что (∂J *) = 2 Sx , получаем∂x{}– x т (t) S (t) x (t)= min x т Qx + u т Ru + 2 x т S [ Ax + Bu ] =u{}min [u + R −1B т Sx ]т R[u + R −1 B т Sx ] + x т [Q − SBR −1B т S + SA + Aт S ] .uЕсли R – положительно-определенная матрица, то минимумфункционала J имеет место при выполнении условийu * = − R −1B т Sx = K(t) x ,(3.50)а также при удовлетворении S(t) матричному нелинейному дифференциальному уравнению РиккатиS (t) = SBR −1B т S − SA − Aт S − Q(3.51)при граничном условииS(tk) = Gk.(3.52)Это и есть решение задачи аналитического конструирования регулятора [15].Закон регулирования (3.50) полностью определяется состоянием системы x , является «кинематическим», а не динамическим.Функция K(t) даже в случае, если матрицы A, B, Q и R – постоянные, зависит от времени.Основные трудности заключаются в необходимости решенияматричного уравнения Риккати (3.51) и выборе матриц Q и R.Закон управления и реакция системы в значительной степенизависят от выбора весовых коэффициентов показателя качества.Выбор этих коэффициентов представляет трудную задачу, так каквзаимосвязь весовых коэффициентов и параметров оптимальнойсистемы с ее реакцией в общем случае очень сложная.108Для получения допустимых уровней величин x (tk), x (t) и u (t)соответствующие элементы матриц Gk, Q(t) и R(t) могут бытьвыбраны, например, диагональными со следующими элементами:1= [xi (tk )]2max ;g k ii(3.53)1= ( tk − t0 ) ⋅ [xi (t )]2max ;qii(3.54)1= ( tk − t0 ) ⋅ [ui (t )]2max .rii(3.55)Для стационарного случая метод выбора коэффициентовфункционала предложен Эллертом (F.J.Ellert) в 1963 г.