1612726855-66ce2678ed92310585f0bb1a36623206 (828576), страница 20
Текст из файла (страница 20)
Здесь рассматривается случай, когда система (1)автономна, то есть правые ее части не зависят явно от времени t .Рассмотрим произвольное допустимое управление u (t ) . Перепишем уравнение (1) в следующем виде:dx= f ( x, u (t )).(2)dtТогда при любых начальных условиях x(t0 ) = x0 однозначно определяетсятраектория движения объекта x = x (t ) , то есть решение этого уравнения, определенное на некотором отрезке времени. Назовем его решением системы(2), соответствующим управлению u (t ) при начальном условии x(t0 ) = x0 .Будем говорить, что допустимое управление u (t ), t0 £ t £ t1 переводит фазовую точку x из положения x0 в x1 , если решение x(t ) уравнения (2) с начальным условием x(t0 ) = x0 определено на [t0 , t1 ] и x(t1) = x1 , то есть проходит в момент времени t1 через точку x1 . Такую пару назовем управляемымпроцессом, определенном на отрезке [t0 , t1 ] .Пусть задана еще одна функция f 0 непрерывная по переменным x и u ,непрерывно дифференцируемая по переменной x .
Приведем формальнуюпостановку задачи оптимального управления.Найти среди всех допустимых управлений, переводящих фазовую точку изположения x0 в положение x1 , такое, для которого функционалJ ( x (×), u(×)) =t1ò f 0 ( x(t ), u(t ))dtt0принимает наименьшее значение.Заметим, что при заданных x0 и x1 пределы интегрирования t0 , t1 являются переменными, которые зависят от управления, переводящего x0 в x1 , иэти пределы определяются из соотношений x(t0 ) = x0 , x(t1) = x1 .Управление u(×) , на котором достигается оптимальное значение даннойзадачи, называется оптимальным управлением, а соответствующая траектория x (t ) – оптимальной траекторией.
В этом смысле основная задача – найти оптимальные управления и соответствующие оптимальные траектории,другими словами, найти оптимальный управляемый процесс.107Для J = t1 - t0 оптимальность управления u (t ) эквивалентна минимизации времени перехода из положения x0 в положение x1 . Задача отысканияоптимальных управлений и траекторий в этом случае называется задачей обоптимальном быстродействии.§2. Формулировка принципа максимума для линейной задачи быстродействияПусть H ( x, u, P ) = ( P, f ( x, u )) – функция Понтрягина, аni¶fP&k = - å( x (t ), u(t )) Pi , k = 1, K, n , –x¶ki =1(3)сопряженная система уравнений для соответствующей пары ( x (t ) , u (t ) ).
Этасистема линейна и однородна. Поэтому при любых начальных условиях дляPk , k = 1, K, n , существует единственное решение этой системы, определенное на всем отрезке, на котором определены управление u (t ) и траекторияx(t ) . Функции P1 ( t ), K, Pn (t ) непрерывны и имеют всюду, кроме конечногочисла точек разрыва управления u (t ) , непрерывные производные по t .Теорема 1 (принцип максимума). Пусть ( ( x* (t ), u* (t )) , t Î [t0 , t1 ] – оптимальный управляемый процесс.
Тогда существует ненулевая непрерывнаявектор-функция P(t ) = ( P1 (t ),K, Pn (t )) такая, что справедливы следующиеутверждения:ni¶fa) P&k = - å( x* (t ), u* (t )) , k = 1, K, n ;¶i= 1 xkб) H ( x* (t ), u* (t ), P (t )) = max H ( x* (t ), u* (t ), u ) , t Î[t0 , t1 ] ;uÎUв) H ( x* (t1 ), u* (t1 ), P(t1 )) ³ 0 .Если функция f линейна относительно переменных и система (1) записывается в виде x& = Ax + Bu , то возникает задача линейного оптимальногобыстродействия. Далее будем также использовать следующую запись системы (1):x& i =kra =1b =1å aai xa + å bbi ub .В дальнейшем предполагается, что U – выпуклый многогранник в R r ,0 Î U , и 0 не является вершиной U . Будем считать, что x1 = 0 , x1 Î R n .108Теорема 2 (принцип максимума для линейной задачи быстродействия).
Пусть ( x* (t ), u* (t )) , t Î [t0 , t1 ] – оптимальный управляемый процесс.Тогда существует такое непрерывное нетривиальное решение P(t ) сопряженной системы P& = - PA , что справедливоP(t ) Bu* (t ) = max P (t ) Bu , t Î [t0 , t1 ] .uÎU(4)Название данных теорем связано с тем, что функция переменной u достигает в точке u = u (t ) максимума на множестве U . Управление u* (t ) удовлетворяет принципу максимума, если существует нетривиальное решение сопряженной системы (3) и выполняется равенство (4).Покажем, как применяется принцип максимума к решению одной задачиоб оптимальном быстродействии.
Из рассмотрения этого примера выясняетсяновая важная постановка задачи об оптимальных процессах – задача синтезаоптимальных управлений.Пример 1.d 2x= u , где u – вещественный управляющий паdt 2раметр, удовлетворяющий ограничению | u |£ 1 . В фазовых координатахdxэто уравнение переписывается в виде следующей системы:x1 = x , x 2 =dtРассмотрим уравнениеdx1dx 2= x2 ,= u.(5)dtdtРассмотрим для фазовой точки, движущейся по закону (5), задачу о наискорейшем попадании в начало координат x1 = (0,0) из заданного начальногосостояния x0 .
Функция H в данном случае имеет вид(6)H = y 1 x 2 + y 2u .Далее, для вспомогательных переменных y 1 , y 2 получается система уравнений (см. (3), (6))dy 1dy 2= 0,= -y 1 ,dtdtоткуда y 1 = c1 , y 2 = c2 - c1t , где c1 , c2 – постоянные. С учетом (6) и условия | u |£ 1 , из соотношения (4) следует(7)u(t ) = sign y 2 (t ) = sign (c 2 - c1t ) .Откуда получим, что каждое оптимальное управление u(t ) , t0 £ t £ t1 , является кусочно-постоянной функцией, принимающей значения ± 1 и имеющейне более двух интервалов постоянства, так как линейная функция c2 - c1t не109более одного раза меняет знак на отрезке [t0 , t1 ] .
Обратно, любая такая функция u(t ) может быть получена из соотношения (7) при некоторых значенияхпостоянных c1 , c2 .Для отрезка времени, на котором u º 1 , в силу системы (5) справедливоæs 2öt21x 2 = t + s2 , x1 = + s2 t + s1 = (t + s2 ) 2 + ç s1 - 2 ÷ ,ç222 ÷øèгде s1 , s2 – постоянные интегрирования, откуда следует1x1 = ( x 2 ) 2 + s ,(8)21где s = s1 - s2 2 – постоянная. Таким образом, часть фазовой траектории,2для которой u º 1 , представляет собой дугу параболы (8). Семейство парабол(8) показано на рис.
1.Аналогично, для отрезка времени, на котором u º -1 , имеемx 2 = -t + s2¢ ,x1 = -t211öæ+ s2¢ t + s1¢ = - ( -t + s2¢ ) 2 + ç s1¢ + ( s2¢ ) 2 ÷ ,222øèоткуда получим1x1 = - ( x 2 ) 2 + s ¢.(9)2Семейство парабол (9) показано на рис. 2. По параболам (8) фазовые точкидвижутся снизу вверх, так кактак какdx 2= u = +1 , а по параболам (9) – сверху вниз,dtdx 2= -1 .dtx2x20x10Рис. 1Рис.
2110x1Если управление u(t ) в течение некоторого времени равно + 1 , а затем равно- 1 , то фазовая траектория состоит из частей двух парабол (рис. 3), примыкающих друг к другу, причем одна из этих частей лежит на той из парабол(9), которая проходит через начало координат, так как искомая траекториядолжна вести в начало координат. Если же, наоборот, сначала u = -1 , а затемu = +1 , то фазовая кривая заменяется центрально симметричной (рис. 4).x2x2x0u = -1u = -10x1x10u = +1u = +1x0Рис. 3Рис.
4x2u = -10u = +1x1AРис. 5На рис. 3, 4 на дугах парабол надписаны соответствующие значенияуправляющего параметра u . На рис. 5 изображено все семейство полученных1таким образом фазовых траекторий (АО – дуга параболы x1 = ( x 2 ) 2 , рас21положенная в нижней полуплоскости; ВО – дуга параболы x1 = - ( x 2 ) 2 ,2расположенная в верхней полуплоскости). Фазовая точка движется по проходящей через начальную точку x0 дуге параболы (9), если точка x0 расположена выше линии АОВ, и по дуге параболы (8), если точка x0 расположенаниже этой линии. Иначе говоря, если начальное положение x0 расположеновыше линии АОВ, то фазовая точка должна двигаться под воздействиемуправления u = -1 до тех пор, пока она не попадет на дугу АО; в момент попадания на дугу АО значение u переключается и становится равным + 1вплоть до момента попадания в начало координат.
Если же начальное поло-111жение x0 расположено ниже линии АОВ, то u должно быть равно + 1 домомента попадания на дугу ВО, а в момент попадания на дугу ВО значение uпереключается и становится равным - 1 .Итак, согласно теореме 2, только описанные выше траектории могут бытьоптимальными, причем из проведенного исследования видно, что из каждойточки фазовой плоскости исходит только одна траектория, ведущая в началокоординат, которая может быть оптимальной, то есть задание начальной точки x0 однозначно определяет соответствующую траекторию. Из теоремысуществования [8] вытекает, что в данном примере для любой начальной точки x0 существует оптимальная траектория. Таким образом, найденные траектории (рис.
5) являются оптимальными, и других оптимальных траекторий,ведущих в начало координат, не существует.Полученное в рассмотренном примере решение оптимальной задачи можно истолковать следующим образом. Обозначим через v ( x1 , x 2 ) = v ( x ) функцию, заданную на плоскости x1 , x 2 :ì + 1 ниже линии АОВ и на дуге АО ,v( x ) = íî- 1 выше линии АОВ и на дуге ВО.Тогда на каждой оптимальной траектории значение u(t ) управляющего параметра в произвольный момент t равно v ( x (t )) , то есть равно значениюфункции v в той точке, в которой в момент t находится фазовая точка, пробегающая оптимальную траекторию u(t ) = v ( x (t )) . Это означает, что, заменивв системе (5) величину u функцией v (x ) , получим системуì dx1= x2 ,ïïdt(10)í 2ï dx = v ( x1 , x 2 ),îï dtрешение которой при произвольном начальном состоянии x0 дает оптимальную фазовую траекторию, ведущую в начало координат.