Громов Ю.Ю. и др. - Специальные разделы теории управления, оптимальное управление динамическими системами (955108), страница 8
Текст из файла (страница 8)
Условие (38) неотрицательной определенности матрицы Нuu представляет собой условия Лежандра-Клебша классического вариационного исчисления [25 – 27].Проверка положительной определенности матрицы Нuu может проводиться по критерию Сильвестра: для положительной определенности матрицы Нuu необходимо и достаточно, чтобы ее угловые миноры были положительными. В частности,для положительно определенной матрицы Нuu выполняется условие ∂ 2 H det >0, ∂ui ∂u j u*(39)являющееся аналогом условия Гильберта неособенности (невырожденности) вариационной задачи (см.
п. 9.4).5. Приведенная формулировка принципа максимума остается справедливой и для случая, когда область U m зависитявным образом от времени t:U m = U m (t ) .З а м е ч а н и е . Принцип максимума является, вообще говоря, лишь необходимым условием. Любое допустимое оптимальное управление, если оно существует, удовлетворяет принципу максимума. Однако не всякое допустимое управление,удовлетворяющее принципу максимума, является оптимальным. Поэтому после определения управления на основе необходимых условий следует убедиться в его оптимальности. Для этого служат достаточные условия оптимальности.В некоторых случаях принцип максимума является не только необходимым, но и достаточным условием оптимальности управления u(t).
Пусть, например, найдено допустимое управление u*(t), которое переводит заданное начальное состояние x(t0 ) = x0 линейной относительно фазовых координат системыx& = A(t )x + h(u, t ), u ∈ U m ,где Um(40)– замкнутое ограниченное множество; A(t), h(u, t) – непрерывные функции t, u; x = ( x1 , x2 ,..., xn ) , u = (u1 , u 2 , ..., u m )в заданное конечное состояние x(t1 ) = x1 . Введем такую систему начальных значений сопряженных переменныхλ (t 0 ) = (λ 00 , λ10 ,..., λ n 0 )T , λ 00 > 0 ,что u*(t) минимизирует в каждый момент t функциюH = λ 00 h0 (u, t ) + λ T (t )h(u, t )по всем u ∈ U m ,где∂f T (x* (t ), t ).λ& (t ) = − AT (t )λ (t ) − λ 00 0∂xТогда управление u*(t) минимизирует на траекториях x*(t) системы (40), проходящих через x 0 , x1 , критерий качестваt1∫J [u(t )] = [ f 0 (x, t ) + h0 (u, t )]dt ,t0если только f 0 (x, t ) является однозначной выпуклой вниз функцией x для всех t ∈ [t 0 , t1 ] .З а м е ч а н и е .
Функция f 0 (x, t ) называется выпуклой вниз по x при t ∈ [t 0 , t1 ] , если для всех x ∈ R n , x ∈ R n∂f 0 (x, t )( x − x) + f 0 (x, t ) ≤ f 0 ( x, t ) .∂xКонтрольные вопросы1. Приведите формулировку принципа максимума.2. Расскажите о следствиях принципа максимума.3. Каким условием является принцип максимума?Глава 5НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИДЛЯ ОСНОВНОЙ ЗАДАЧИ СИНТЕЗА ЗАКОНА УПРАВЛЕНИЯ.МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ5.1.
Задача синтеза оптимального закона управленияДля синтеза оптимального закона управления систем с обратной связью, оптимальных замкнутых контуров управления,оптимальных законов наведения и т.д. более естественен другой подход, чем использованный при решении задач, описанных в гл. 4, 9.В отличие от уравнений Эйлера–Лагранжа и принципа максимума Понтрягина, использующих временное представление оптимального управления [в форме u* = u(t)] для единичного объекта управления, этот подход рассматривает оптимальное управление в форме закона u* = v*(x, t) (координатное управление, управление в форме обратной связи) для множестваоднородных объектов, отличающихся различными начальными состояниями.С точки зрения механики, этот подход соответствует рассмотрению распространения «волн возбуждения» от некоторого источника в неоднородной среде.
Общность обоих подходов устанавливает проективная геометрия, с точки зрения которой траектория точки в фазовом пространстве может рассматриваться и как последовательность точек и как огибающая своих касательных.Последовательное применение описываемого подхода к задачам оптимального управления приводит для непрерывныхпроцессов к дифференциальному уравнению (нелинейному) в частных производных первого порядка типа уравнения Гамильтона–Якоби [25 – 27].Один из возможных способов получения этого уравнения состоит в использовании принципа оптимальности динамического программирования. Динамическое программирование является довольно общим методом, разработанным для решенияобщих задач многоэтапного выбора (т.е. задач, в которых результаты предыдущих операций можно использовать для управления ходом будущих операций).5.2.
Принцип оптимальности динамического программированияПринцип оптимальности. В основе динамического программирования лежит сформулированный Р. Беллманом принцип оптимальности: «Оптимальная политика обладает тем свойством, что каковы бы ни были начальное состояние и первоначально принятое решение, последующие решения должны составлять оптимальную политику относительно состояния,получившегося в результате первоначально принятого решения» [19, 28].
Или, оптимальное управление не зависит от того,каким образом пришла система к данному состоянию при t = t ′ (т.е. не зависит от «предыстории» движения) и для будущихмоментов времени полностью определяется лишь состоянием системы в рассматриваемый момент времени.Как частный случай в динамическом программировании рассматриваются задачи управления непрерывными процессами (основная задача оптимального координатного управления).Краткая формулировка задачи. Пусть дана система уравнений движенияdx= f (t , x, u) ,(41)dtu = (u1 , u 2 , ..., u m )T ∈ U m ;гдеx = ( x1 , x 2 , ..., xn )T ∈ X n ;f = ( f1 (t , x, u), f 2 (t , x, u ), ..., f n (t , x, u ))T ,и граничные условияx(t 0 ) = x 0 ; x(t1 ) = x1 .(42)Требуется синтезировать закон оптимального управления u* = v*(x, t), минимизирующий значение функционалаJ [t 0 , x 0 , u] =t1∫ f 0 (t, x, u)dt .(43)t0Необходимые условия.
Пусть в (n + 1)-мерном пространстве ( X n , T ) имеется некоторая область G(x, t) начальныхзначений x 0 , t 0 ((x 0 , t 0 ) ∈ G (x, t )) , для каждой точки которой существует оптимальное (в смысле минимума J [t 0 , x 0 , u]управление u*(t), переводящее эти начальные точки в некоторую фиксированную точку (x(t1 ) = x1 , t1 ) ; x1 , t1 – заданы.
Натаких оптимальных управлениях минимальное значение критерия качества (43) будет зависеть лишь от начальных значенийx 0 , t 0 . Таким образом,J min = J * = V (t 0 , x 0 ) ,где V (t 0 , x 0 ) – некоторая функция (n + 1) переменного t 0 , x10 , ..., xn 0 .Имея в виду произвольную точку области G(x, t), в дальнейшем, в целях упрощения записи, нижний индекс «0» будемопускать.Таким образом, функция V(t, x) – минимальное значение критерия качества (43) на оптимальных траекториях системы(41), начинающихся в точке (t, x) и заканчивающихся в фиксированной точке (t1, x1),V (t , x) = minu∈U mt1∫ f 0 (t, x, u)dt(44)tна траекториях (1) из (t, x) в (t1, x1).Функция V(t, x) является аналогом «действия» в аналитической механике и «экстремального интеграла» в классическомвариационном исчислении.Если функция V(t, x) существует и является непрерывно дифференцируемой по (t, x), то она удовлетворяет основномууравнениюдинамического программирования, которое является необходимым и достаточным условием, – дифференциальному уравнению в частных производных первого порядка (уравнению Гамильтона–Беллмана)∂V∂V+ min H (t , x,, u) = 0∂x∂t u∈U m(45)с граничным условиемV (t1 , x1 ) = 0 ;(46)здесьH (t , x, Vx , u) = f 0 (t , x, u) + Vx f (t , x, u) ,гдеV x=∂V∂x(47)(см.
табл. 2).Уравнение (45) аналогично уравнению Гамильтона–Якоби классического вариационного исчисления – достаточное условие:∂V∂V+ H (t , x,)=0,∂t∂x(48)где функция H получена в результате подстановки в функцию H (t , x, V x , u) управления u 0 = u 0 (t , x, Vx ) , найденного изусловия стационарности этой функции,∂H= 0 ( j = 1, m) .∂u j(49)Из (45) можно определить оптимальный закон управления∂V∂V u * = v * (t , x) = arg min H t , x,, u = u * t , x,.∂x∂x u∈U m(50)Геометрический смысл условия (50) пояснен на рис. 3.8. Если функция V(t, x) найдена путем решения уравнения (45) сусловием (46), то проблема синтеза решена, так как для известной функции V(t, x) имеем∂V (t , x) *u * = u * t , x,(51) = v (t , x) .∂x Рис. 3.8.
Геометрический смысл условияmin H (t , x, Vx , u) = min [Vx f (t , x, u)] :u∈U mu∈U mV (t , x) = min J [u (t )], Vx =u∈Um∂V, n = m = 2, f 0 = 0,∂xx& * – оптимальная фазовая скорость: x& * = f (t , x, u * ) ;u*(t, x) – оптимальное управление: u* = arg min H (t , x, Vx , u) ;u∈U m*x – оптимальная траекторияПодобно тому, как принцип максимума Понтрягина придает удобную форму и уточняет условие Вейерштрасса (см.
п.9.3) для основной задачи оптимального программного управления в случае замкнутой области значений управления U m , таки уравнение Гамильтона–Беллмана является уточнением и обобщением уравнения Гамильтона–Якоби. Уточнение состоит втом, что вместо условия стационарности ∂H ∂u = 0 там, где оно не отвечает существу дела, в (45) используется условие∂Vmin H t , x,, u .∂xu∈U mВ приведенном условии (45) требование непрерывной дифференцируемости (гладкости) функции V(t, x) является существенным. Но в отличие от принципа максимума, где утверждается существование необходимой для него вектор-функцииλ (t ) , существование гладкого потенциала V(t, x) в методе динамического программирования не доказывается.