tul17 (Лекции по теории управления)
Описание файла
Файл "tul17" внутри архива находится в папке "Лекции по теории управления". PDF-файл из архива "Лекции по теории управления", который расположен в категории "". Всё это находится в предмете "теория автоматического управления (тау)" из 7 семестр, которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "теория автоматического управления (тау)" в общих файлах.
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 17.Глава 10. CИНТЕЗ ОПТИМАЛЬНЫХ НЕПРЕРЫВНЫХ СТОХАСТИЧЕСКИХСИСТЕМ10.1. НАХОЖДЕНИЕ ОПТИМАЛЬНОГО ПРОГРАММНОГО УПРАВЛЕНИЯ10.1.1. Постановка задачиПусть поведение модели объекта управления описывается стохастическим дифференциальным уравнением Ито:dX f (t , X (t ), u(t )) dt (t , X (t ), u(t )) dW , X (t 0 ) X 0 ,(1)где Х – вектор состояния системы, X R n ; u – вектор управления, u U R q , U –некоторое заданное множество допустимых значений управления; t T [t 0 , t1 ] –промежуток времени функционирования системы, моменты времени t 0 и t1 заданы;W (t ) – k-мерный стандартный винеровский случайный процесс, не зависящий от X 0(второй член в уравнении (1) характеризует случайные внешние воздействия на объект);f (t , x , u ):T R n U R n , (t , x , u ) – матричная функция размера ( n k ).
Обозначим:B R n , Q (t 0 , t1 ) R n .Начальное состояние X 0 определяется плотностью вероятностиp(t 0 , x ) p0 ( x ) P ,где P p( x ) | p( x ) C 2 (B ), p( x ) dx 1, p( x ) 0 x BBk - раз непрерывно дифференцируемых на B функций.(2)k , C (B ) – множествоо времеПредполагается, что при управлении используется информация толькони t , т.е. система управления в данном случае является разомкнутой по состоянию ирассматривается так называемое программное управление u(t ) .Множество допустимых управлений U 0 образуют функции u():T U такие,что функции f iu () (t , x ) f i (t , x , u (t )) , iu(j ) (t , x ) i j (t , x, u(t )) , i 1, .
n , j 1, , k ,удовлетворяют условиям, при которых решение уравнения (10.1) существует, единственно и является непрерывным марковским процессом. Если плотность вероятности этогопроцесса p(t , x ) C 1,2 (Q ) , то она удовлетворяет уравнению Фоккера–Планка–Колмогорова:n1 n n2 p t , x [ f i t , x, u t p t , x ] [ ai j t , x, u t p(t , x ) ] t2 i 1 j 1 x i x ji 1 x i A u [ p t , x ](t , x ) Q(3)1с начальным условием (2). Здесь A u() – дифференциальный оператор, C 1,2 (Q ) – пространство функций p(t , x ) , непрерывных на Q вместе с частными производными p(t , x ) p(t , x ) 2 p(t , x ),,( i 1, . n ; j 1, , n ),t xixi x jai j (t , x, u) k i l (t, x, u) j l (t, x, u) .l 1 u ()) , где функцииОбозначим через D 0 (t 0 , p0 (x )) множество пар d 0 ( p(,),p(,) C 1,2 (Q ) , u() U 0 и удовлетворяют уравнению (3) с начальным условием (2).Определим на множестве D 0 (t 0 , p0 (x )) функционал качества управленияJ (d 0 ) t1f 0 (t , x, u(t )) p(t , x ) dx dt t0 BF ( x ) p(t1 , x ) dx B t1 M f 0 (t , X (t ), u(t )) dt F ( X (t1 )) , t0(4)M–гдезнакматематическогоожидания;непрерывныефункции0f (t , x , u):T B U R , F ( x ): B R удовлетворяют условию полиномиального рос-та: (t, x, u) T B UF (x) c1 ( 1 x )c2 ; c1 , c 2 –f 0 (t, x, u) c1 ( 1 x u )c2 ,некоторые постоянные. u ()) D0 (t 0 , p0 (x )) , чтоТребуется найти такой элемент d 0 ( p (,),J (d 0 ) mind 0 D 0 (t 0 , p0 ( x ))J (d 0 ) .(5)10.1.2.
Стохастический принцип максимума u ()) D0 (t 0 , p0 (x )) удовлетворяетУтверждение. Если элемент d 0 ( p (,),условию (5), то выполняются соотношения стохастического принципа максимума: p * (t , x ) A u (.)[ p * (t , x )] , p * (t 0 , x ) p0 ( x ) ,t (t , x ) A*u () [(t , x )] f 0 (t , x, u * (t )) ,tu * (t ) arg maxu UB n (t , x )f i (t , x, u ) i 1 x i1 n n 2 (t , x ) ai j t , x, u f2 i 1 j 1 x i x j2(t1 , x ) F ( x ) ,0t, x, u p * (t , x ) dx ,(6)где A*u() [(t , x )] (t , x )1 n n 2 (t , x )ftxut(,,())ai j (t , x, u (t )) – сопряжен x i2 i 1 j 1 x i x jii 1nный дифференциальный оператор.В результате решения краевой задачи (6) может быть найдено оптимальное программное управление u * () .Минимальное значение функционала (4) вычисляется по формулеmind0 D0 (t0 , p0 ( x ))J (d 0 ) (t 0 , x ) p0 ( x ) dx .(7)BЗ а м е ч а н и е.
Если использовать понятие обобщенного решения дифференциальных уравнений, то ограничения на функции, входящие в (1)–(3), можно ослабить. Приэтом соотношения для нахождения оптимального управления остаются справедливыми.10.2. НАХОЖДЕНИЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯС ПОЛНОЙ ОБРАТНОЙ СВЯЗЬЮ10.2.1. Постановка задачиПусть поведение модели объекта управления описывается стохастическим дифференциальным уравнением Ито (1), а начальное состояние X 0 определяется плотностью вероятности (2).Предположим, что о компонентах вектора состояния X известна полная текущаяинформация, т.е. управление u(t ) , применяемое в каждый момент времени t T , имеетвид управления с полной обратной связью: u(t ) u (t , X (t )) (рис.
1).X (t 0 ) X 0W (t )dX f (t , X (t ), u(t )) dt (t , X (t ), u(t )) dWX (t )u(t , x )u(t ) u(t , X (t ))Рис. 1Множество допустимых управлений с полной обратной связью U n образуютфункции u(t , x ):T B U такие, что для всех i 1, , n ; j 1, , k функцииf iu() (t , x ) f i (t , x , u (t , x )) , ui (j ) (t , x ) i j (t , x , u (t , x )) удовлетворяют условиям, при ко-3торых решение уравнения (1) существует, единственно и является непрерывным марковским процессом. Если плотность вероятности этого процесса p(t , x ) C 1,2 (Q ) , то онаудовлетворяет уравнению Фоккера–Планка–Колмогорова (3) с начальным условием (2). u (,)) , где функцииОбозначим через D n (t 0 , p0 ( x )) множество пар d n ( p(,),p(,) C 1,2 (Q ) , u (,) U n и удовлетворяет уравнению (3) с начальным условием (2).Определим на множестве D n (t 0 , p0 ( x )) функционал качества управленияJ d n t1t0 Bf0t , x, u(t , x ) p t , x dx dt F ( x ) p t1 , x dx ,(8)Bгде функции f 0 (t , x , u ) , F (x ) удовлетворяют условию полиномиального роста (см.
разд.10.1.1)Требуется найти такой элемент d n ( p * (,), u * (,)) D n (t 0 , p0 ( x )) , что J d n mindn Dn (t 0 , p0 ( x ))J d n .(9)Функция u * (,) U n называется оптимальным управлением с полной обратнойсвязью.10.2.2. Уравнение БеллманаДля определения оптимального управления с полной обратной связью служитуравнение Беллмана для непрерывных стохастических систем.Утверждение. Если существует функция t , x C 1,2 Q , удовлетворяющаяуравнению Беллмана и граничному условию t , x n t , x 1 n n 2 t , x f i t , x, u max ai j t , x, u f 0 t , x, u 02 i 1 j 1 x i x ju U i 1 x i t(t , x ) Q ,t1 , x F x x B , U n , удовлетворяющее условиюи управление u * (,) n t , x 1 n n 2 t , x f i t , x , u u * t , x arg max ai j t , x , u fu U i 1 x ixx2iji 1 j 10t , x, u ,то u * (t , x ) является оптимальным управлением с полной обратной связью.Здесь, как и ранее, используется обозначение ai j t , x, u 4k i l t, x, u j l t, x, u .l 1(10)Уравнение (10) является нелинейным дифференциальным уравнением с частнымипроизводными второго порядка.
Структура управления определяется в результате максимизации выражения в фигурных скобках по управлению.Минимальное значение функционала (8) вычисляется по формулеmindn Dn (t0 , p0 ( x ))J d n (t 0 , x ) p0 ( x ) dx .(11)BОно достигается для любой начальной плотности вероятности p0 (x ) . В этом заключается основное преимущество управления с обратной связью.
При решении задачи достаточно определить только оптимальное управление u * (t , x ) ,а затем его можно использовать для получения оптимальных пар d n ( p * (,), u * (,)) D n (t 0 , p0 ( x )) прилюбых начальных данных. Если начальная плотность вероятности дельтаобразная:p0 (x ) (x x 0 ) , то минимум функционала достигается для любого начального состояния x 0 .АЛГОРИТМ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯС ПОЛНОЙ ОБРАТНОЙ СВЯЗЬЮ1. Записать уравнение Беллмана (10) с граничным условием.2. Найти структуру оптимального управления с полной обратной связьюв результате поиска максимума в (10) по управлению.
Искомое управление u * (t , x ) обычновыражается через производные функции t , x .3. Подставить полученные выражения для управления в уравнение (10). Проблемасводится к решению нелинейного дифференциального уравнения с частными производными второго порядка.4. Найти решение полученного уравнения и явный вид искомого управления.З а м е ч а н и е. Если обозначить Б t , x t , x , то уравнение Беллмана(10) и (11) с учетом равенства max f (x ) min( f (x )) можно переписать в эквивалентной форме: Б t , x n Б t , x 1 n n 2 Б t , x min f i t , x, u ai j t , x, u f 0 (t , x, u ) 0u U 2 i 1 j 1 x i x jt xii 1(t , x ) Q ,(12) a t1 , x F x x B ,mindn Dn (t0 , p0 ( x ))J d n Б (t 0 , x ) p0 ( x ) dx .(13)B5.