Деменков Н.П. Вычислительные аспекты решения задач оптимального управления (2007) (1253737), страница 16
Текст из файла (страница 16)
Найти допустимое управление,переводящее систему (4.3) из состояния x0 в состояние 0[ x (tk ) = 0]и минимизирующее функционал J(u).Отметим, что скалярное управление u(t) входит линейно как вуравнения системы (4.3), так и в подынтегральную функциюфункционала (4.5).Согласно принципу максимума введем новую переменную x0 изапишем дифференциальное уравнениеx0 = f 0 ( x , t ) + b0 ( x , t )u (t ),x0 (0) = 0,и гамильтониан Н, используя скалярp0 (t ) = p0 = const .Итак, расширенный гамильтониан Н для задачи имеет видnni=0i=0H = ∑ fi pi + u (t )∑ bi pi .Отметим, что гамильтониан Н есть линейная функция от u(t).Если определить функции α и β , положивnα[ x , p, p0 ) = ∑ fi [ x , t ] pi (t ) ;i =0nβ[ x , p, p0 ) = ∑ bi [ x , t ] pi (t ) ,i=0то гамильтониан Н можно записать в видеH =α+ uβ.Составляющие вектора импульсов pi(t) определяются соотношениями118pi (t ) = −nn∂f j∂b j∂H= −∑ p j− u (t ) ∑ p j.∂xi∂xi∂xij =0j =0Установим теперь необходимые условия для нашей задачи.Если u ∗ (t ) – оптимальное управление, а x ∗ (t ) – соответствующая оптимальная траектория, то существуют p∗ (t ) и константаp0∗ ≤ 0 такие, что:для i = 1, 2,…, nx ∗i = fi ( x∗ , t ) + bi ( x ∗ , t )u ∗ (t );n∂f j [ x ∗ , t ]j =0∂xi∗ (t )p ∗i = − ∑ p jn∂b j [ x ∗ , t ]j =0∂xi (t )− u ∗ (t )∑ p j (t );(4.6)x ∗ (0) = x0 , x ∗ (tk ) = 0 ;для t ∈[to , tk ] и любых u(t), удовлетворяющих ограничениюu (t ) ≤ 1 , выполняются соотношенияα[ x ∗ , p ∗ , p0∗ ] + u ∗ (t )β[ x ∗ , p ∗ , p0∗ ] ≤≤ α[ x ∗ , p ∗ , p0∗ ] + u (t )β[ x ∗ , p ∗ , p0∗ ];(4.7)если время tk не задано, тоα[ x ∗ , p ∗ , p0∗ ] + u ∗ (t )β[ x ∗ , p ∗ , p0∗ ] = 0 ∀ t ∈[to , tk ] ,(4.8)если время tk фиксировано, тоα [ x ∗ , p ∗ , p 0∗ ] + u ∗ ( t ) β [ x ∗ , p ∗ , p 0∗ ] = c = const ∀ t ∈[to , tk ] .(4.9)Нетрудно видеть из соотношения (4.7), что119nu ∗ (t ) = −sign{β[ x ∗ , p∗ , p0∗ ]} = −sign{∑ bi [ x ∗ ] pi∗}.(4.10)i=0Если скалярная функция β[ x ∗ , p ∗ , p0∗ ] ≠ 0 , то уравнение (4.10)позволяет получить вполне определенные соотношения для управления u*(t).Если, однако,β[ x ∗ , p ∗ , p0∗ ] = 0 ∀ t ∈(t1 , t2 ] ,(4.11)где (t1 , t2 ] – подынтервал из [t0 , tk ], то функция sign{...} не определена.Действительно, если выполняется соотношение (4.11), то необходимое условие (4.7) сводится к следующему:u ∗ (t )⋅0 ≤ u (t )⋅0 ∀ t ∈(t1 , t2 ] .Последнее выражение является тождеством для всех управлений u(t), даже для тех, которые не удовлетворяют ограничениюu (t ) ≤ 1 .
Такой случай и называется вырожденным.Будем говорить, что задача (4.3) вырождена, если оптимальноеуправление u*(t), траектория x ∗ (t ) и соответствующий импульсp∗ (t ) обладают следующим свойством: существует, по крайнеймере, один (полуоткрытый) интервал (t1 , t2 ] в [t0 , tk ] , такой, чтоn∑ pi∗[t ]bi [ x0∗ , t ] = 0 ∀ t ∈(t1 , t2 ] .(4.12)i=0В этом случае интервал (t1 , t2 ] будем называть интервалом вырожденности, функцию u*(t) – вырожденным оптимальным управлением, а траекторию x ∗ (t1 , t2 ] – вырожденной оптимальной траекторией.Если можно найти экстремальное управление uˆ (t ) (т. е.управление, удовлетворяющее всем необходимым условиям),120при котором соответствующие xˆ (t ) и pˆ (t ) удовлетворяют соотношениямn∑ pˆ i∗[t ]bi [ xˆ ∗ , t ] = 0 ∀ t ∈(t1 , t2 ] ;i=0pˆ 0 (t ) = pˆ 0 ≤ 0 ,то управление uˆ (t1 , t2 ] называют вырожденным экстремальнымуправлением, а траекторию xˆ (t1 , t2 ] – вырожденной экстремальнойтраекторией.Естественно, что из существования вырожденного экстремального управления не вытекает необходимость вырожденности оптимального управления.
В таких случаях нужна дополнительнаяинформация (т. е. единственность) для того, чтобы сделать заключение относительно оптимального управления.Рассмотрим, что представляют собой вырожденные экстремальные управления для случая незакрепленного времени.Предположим, чтоn∑ bi pi = 0 ∀ t ∈(t1 , t2 ].(4.13)i=0Так как рассматривается задача с незаданным временем, то должно выполняться условиеnni =0i=0H = ∑ fi pi + u ∑ bi pi = 0 ∀ t ∈(t1 , t2 ] .(4.14)Таким образом, уравнения (4.13) и (4.14) требуют, чтобыn∑ fi pi = 0 ∀ t ∈(t1 , t2 ] .(4.15)i=0Но из выражения (4.13) следует, что121dνn∑ bi pi = 0dt ν(4.16)i=0для любого времени t ∈(t1 , t2 ] и всех ν = 1,2,…,n.Аналогично из выражения (4.15) следует, чтоdνdt νn∑ fi pi = 0(4.17)i =0для любого времени t ∈(t1 , t2 ] и всех ν = 1,2,…,n.Запишем уравнения:⎧ xi = fi + ubi ;⎪⎪nn⎨∂f∂b⎪ p i = − ∑ p j j − u ∑ p j (t ) j ;∂xi∂xi⎪⎩j =0j =0(4.18)i = 0,1,…,n.Пусть в выражении (4.16) ν = 1, тогдаnn∂bd nbi pi = ∑ ( p i bi + pi ∑ i x j (t )) .∑dt i=0i=0j=0 ∂x jПодставив в это уравнение соотношение (4.18), после алгебраических преобразований получим выражениеn n ⎛⎛∂f j ⎞∂b j ⎞∂bi∂b−+fpbpu∑∑ ⎜⎝ j i ∂x i j ∂x ⎟⎠ ∑∑ ⎜⎝ b j pi ∂x i − bi p j ∂x ⎟⎠ = 0 ,jijii = 0 j =0i=0 j =0nnв котором коэффициент при u равен нулю.Следовательно,nn⎛∂b ⎞∂f∑∑ pi ⎜⎝ b j ∂xi − f j ∂x i ⎟⎠ = 0 .i=0 j =0122jj(4.19)Далее в выражении (4.17) положим ν = 1 и получим0=nndfid nfpfppx j ) ==(+∑i i ∑ i ii∑dt i=0i =0i=0 dx jn n ⎛n n ⎛∂f j ⎞∂b j ⎞∂f∂f i= ∑∑ ⎜ fi pi i − fi p j− fi p j⎟ + u ∑∑ ⎜ b j pi⎟=∂x j∂xi ⎠ i=0 j=0 ⎝∂x j∂xi ⎠i=0 j =0 ⎝n n⎛ ∂f∂b ⎞= u ∑∑ p j ⎜ bi i − f j i ⎟ = 0,∂x j ⎠⎝ ∂x ji = 0 j =0(4.20)откуда следует, что илиu = 0,илиnni =0j =0⎛∂b ⎞∂f∑ ∑ p j ⎜⎝ bi ∂xi − f j ∂x i ⎟⎠ = 0.j(4.21)jУравнения (4.21) и (4.19) одинаковы.
Итак, уравнение (4.20)удовлетворяется для u ≠ 0. Иначе говоря, из зависимостей (4.20) неследует, что u = 0.Соотношения (4.13) и (4.15) приводят к одному и тому жеуравнению (4.21). Поэтому можно сделать вывод, что уравнения(4.16) и (4.17) позволяют получить тот же самый набор соотношений при ν = 1, а следовательно, для всех ν = 2,3,…Таким образом, для наличия вырожденного экстремальногоуправления необходимо (но не достаточно), чтобы для любоговремени t ∈(t1 , t2 ] удовлетворялись соотношенияn∑ bi pi = 0;(4.22)i=0123n∑ fi pi = 0;(4.23)i=0nni =0j =0⎛∂b ⎞∂f∑ ∑ p j ⎜⎝ bi ∂xi − f j ∂x i ⎟⎠ = 0.j(4.24)jДалее следует определить высшие производные в уравнениях(4.16) и исследовать, удовлетворяются ли необходимые условия.Если необходимые условия удовлетворяются, то могут существовать вырожденные оптимальные управления.Рассмотрим пример.Дан объект, описываемый уравнениямиx1 = x2 ;x2 = − ax2 x2 + u ;u ≤1.(4.25)Найти управление, переводящее объект из любого исходногосостояния (х10, х20) в состояние (0,0) и минимизирующее при этомфункционалtkJ (u ) = ∫ (k + u )dt ,k > 0,(4.26)t0где время перехода tk – t0 не задано.Гамильтониан имеет видH = k + u + p1 x2 − p2 ax2 x2 + p2u.(4.27)Сопряженные переменные p1(t) и p2(t) удовлетворяют дифференциальным уравнениям124p1 = −∂H= 0 ⇒ p1 = const = p1 (0) = c1 ;∂x1∂Hp 2 = −= − p1 + p2 2a x2 = − c1 + 2 p2 a x2 .∂x1(4.28)Управление, абсолютно минимизирующее гамильтониан иудовлетворяющее ограничению u (t ) ≤ 1, равно:⎧0, если p2 (t ) <1;⎪⎪⎪⎪−sign ( p2 ) , если p2 (t ) >1;u (t ) = ⎨⎪0 ≤ u (t ) ≤ +1, если ( p (t ) = −1);2⎪⎪⎪⎩−1≤ u (t ) ≤ 0, если ( p2 (t ) = +1).(4.29)Покажем, что если в функционале (4.26) k ≤ 1, то для даннойзадачи существуют вырожденные экстремальные управления.
Дляэтого предположим, что [t1 , t2 ] ⊂ [t0 , tk ] ,p2 (t ) = +1 ∀ t ∈[t1 , t2 ) .(4.30)p 2 = 0 ∀ t ∈[t1 , t2 ) .(4.31)В этом случаеПодставляя выражения (4.30) и (4.31) в (4.28), получаем0 = − c1 + 2a x2 ,откудаc1 = 2a x2 (t ) ∀ t ∈[t1 , t2 ) .(4.32)125Так как с1 и а – константы, это означает, чтоx2 (t ) = const =c1∀ t ∈[t1 , t2 ) .2a(4.33)Может возникнуть подозрение, не является ли x2(t) кусочнопостоянной функцией, например,x2 (t ) =c12ax2 (t ) = −c12aпри t1 ≤ t < t2 и(4.34)при t3 ≤ t < t2 , такой, что уравнение (4.32) удовлетворяется.Это невозможно, так как x2(t) – фазовая координата и, следовательно, непрерывная функция времени. Таким образом, x2(t) == const.
Из уравнения (4.32) также следует, чтоc1 > 0.Но, так как x2 (t ) = const при любом времени t ∈[t1 , t2 ], то x2 (t ) = 0при любом времени t ∈[t1 , t2 ], поэтому из уравнения (4.25) получимu (t ) = ax2 (t ) x2 (t ) ∀ t ∈[t1 , t2 ].(4.35)Так как x2 (t ) = const, то из (4.35) следует, чтоu (t ) = const ∀ t ∈[t1 , t2 ] .(4.36)Мы начали с уравнения (4.30) и предположили, что p2(t) = +1при любом времени t ∈[t1 , t2 ], а затем, следуя от уравнения (4.31) к(4.36), пришли к выводу, что управление u(t) должно быть постоянным при любом времени t ∈[t1 , t2 ].
Если это постоянное управ126ление оптимально, то оно должно удовлетворять необходимымусловиям принципа максимума. Одно из требований состоит втом, что оптимальное управление должно минимизировать гамильтониан. Это условие выражается четвертым уравнением системы (4.29). Итак, на основании четвертого уравнения (4.29) иуравнения (4.36) имеем−1≤ u (t ) = const ≤ 0 ∀ t ∈[t1 , t2 ] .Другое необходимое условие состоит в том, что гамильтониан(4.27) должен быть тождественно равен нулю при любом времениt ∈[t0 , tk ] и, следовательно, при любом времени t ∈[t1 , t2 ].Подставляя (4.30), (4.32) и (4.35) в уравнение (4.27), получим,что при любом времени t ∈[t1 , t2 ] должно выполняться равенствоH = 0 = k + u (t ) + 2ax2 (t ) x2 (t ) − ax2 (t ) x2 (t ) + u (t ).(4.37)Так как управление u(t) отрицательно, то, очевидно, чтоu (t ) + u (t ) = 0 ∀ t ∈[t1 , t2 ] .Поэтому из уравнения (4.37) получим− ax2 (t ) x2 (t ) = k ∀ t ∈[t1 , t2 ] .Из уравнения (4.35) находим, чтоu (t ) = − k ∀ t ∈[t1 , t2 ] .(4.38)Итак, постоянное управление u(t) = – k удовлетворяет условиям, вытекающим из принципа максимума, и поэтому может бытьоптимально, если u (t ) ≤1.
Очевидно, что для этого должно выполняться условие k ≤1.Из уравнения (4.38) получим такжеx2 (t ) = −k.a.127Аналогичные рассуждения можно повторить и для p2 (t ) = −1при любом времени t ∈[t1 , t2 ] и прийти к выводу, что управлениеu(t ) = k при любом времени t ∈[t1 , t2 ] может быть оптимальным.Итак, если k ≤1 и p2 (t ) =1 при любом времени t ∈[t1 , t2 ], товырожденное управлениеu(t) = –k sign|p2(t)| ∀ t ∈[t1 , t2 ]может быть оптимальным. В этом случаеx1 = 2 ka ⋅sign p2 (t ) ;x2 = −k⋅sign p2 (t ) .aПри k >1 вырожденное управление в данных условиях быть неможет.В линейных системах вырожденные управления вообще невстречаются.Для нелинейных систем вырожденные оптимальные управления могут возникать довольно часто.Вырожденное оптимальное управление наблюдается, когдабольшинство необходимых условий, выводимых из первых вариаций, удовлетворяются тривиально.Вырожденное управление может проявляться в следующем:1) в наличии неединственности решения;2) в нерелейных решениях в случаях, когда требуется релейноеоптимальное управление;3) в существовании в пространстве состояний гиперповерхностей, на которых подынтегральное выражение показателя качествастановится точным интегралом.Важным классом задач, в котором может иметь место вырожденное управление, является класс, когда управление u входитлинейно как в уравнение системы, так и в подынтегральное выражение показателя качества.