Понтрягин Л.С. - Математическая теория оптимальных процессов (4-е издание) (955115), страница 51
Текст из файла (страница 51)
п где управляющий вектор и = (и',..., и") подчинен условию (и, и) = ~ (и')~~(1, ! т. е. областью управления С! является единичный шар. Требуется найти лежащую в В оптимальную по быстродействию траекторию, соединяющую точки хч и х!.
Пусть х(1), 1а < 1 < !ь — оптимальная траектория, являющаяся решением этой задачи и име1ощая конечное число участков, попеременно раетюложепных в открытом ядре области В и па ее границе. Через и(!) обозначим соответствующее оптимальное управление.
Из условия максимума (теоремы 2 и 22) непосредственно вытекает, что ~и(1) ~ = 1, и потому параметр 1 является дл и н ой дуги на линии х(1). Из этого слсдует, что линия х(!) является решением поставленной геомстрической задачи. Докажем теперь сформулированные выше свойства кривой С. Тот факт, что расположенные в открытом ядре участки кривой х(1) являются прямолинейными отрезками, непосредственно вытекает из теоремы 2.
Рассмотрим теперь участок, целиком расположенный па границе области В. Область управления С! определяется одним соотношением д (и) = (и, и) — 1 ( О. (100) ФОРмулиРОВкА РезультхтА. пРимеРы Далее, функция р(х, и) (см. (6)) имеет вид р (х, и) = (ига»! д (х), и). (101) 11а рассматриваемом участке линии х(») выполняется соотношение р(х, и)=(ига»)д(х), и)=0. (! 02) Система уравнений для переменных»р» (см. (!0)) имеет ВИД 'г~ д»Л (х !»))»» дд(х (»)) »»и = Л вЂ” —, дх» дк" д» дх» а ! »=1, ..., л, д =Лд,= 1Ф ди д» дк' или иначе — „, =Л вЂ”,атаби(х(Г)). ~д= )о+Я, и), (103) Мы имеем: (104) Умножая полученное соотношение»р = Л дга»1 д(х)+ 2чи скалярно на и, получаем, в силу (106), (102), 1=(ф и) =Л(и, Отабек(х))+ 2о =2У.
Таким образом, формула (107) принимает вид »р=Лдга»18(х)+ и, и потому фон 0 (в противном случае было бы»р чь 0 и тогда максимальное значение величины Я, и) было бы отличным от нуля, что противоречит соотношению (11)). Следовательно, мы можем положить фо = — 1 и условие максимума (11) принимает впд (»р, и» = п»ах — = 1. (105) Далее, в силу (100), пга») ч(и) = 2и, (106) и потому (см. (104), (8), (101), (!06)) — =»Р=Л вЂ” +т — =Лпгабд(х)+2ти.
(107) дтй др до ди ди ди 35О НРОЦЕСГЫ ПРИ ОГРАНИЧРННЫХ КООРДИНЛТЛХ [ГЛ 6 и потому (см. (!03)) — агади(х(())+ „" =О. Это означает, что вектор Р'."х (г) ди (В дл — = — = — — огай д(х(г)) СЦ2 с(( су коллинеарен нормали к поверхности (99), и потому линия х(() на рассматриваемом участке является геодези- Р' х(В ческой, причем вектор ее главной нормали — на- Р'Р правлен во вне области В (см. условие в) в теореме 22). Наконец, из условий скачка негрулно вывести, что кривая х(() не имеет угловых точек.
гллвл г ОДНА СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЪНОГО УПРАВЛЕНИЯ Предыдушис главы были посвящены решению задачи об оптимальном переводе управляемого объекта из одного заданного положения в другое заданное положение (или на заданное многообразие). Эту задачу можно трактовать также как задачу об оптимальном достижении управляемым объектом другого, неподвижного объекта. Однако в технике в ряде случаев возникает другая задача — задача преследования управляемым объектом другого, движущегося объекта. При этом о характере движении второго объекта можно делать самые различные предположения. Можно, например, считать, что второй объект также является управляемым (ср, $ 28), Пусть при этом фазовое движение первого объекта х описывается системой обыкновенных дифференциальных уравнений а движение второго объекта у в системой уравнений у у (у у ° ° ° , у, о, и, ..., о"), > ! ...
и где и* — управляющие параметры первого объекта, о'— управляющие параметры второго объекта, а х и у— векторы одного и того гке фазового пространства Х. Тогда можно ставить следующую задачу. Зная технические возможности объекта у (т. е. соответствующую систему дифференциальных уравнений) и положение [гл. 7 однл стлтпггнчгскля злдлчл 352 объекта у в каждый момент времени 1, научиться выбирать управление и объектом х в каждый момент времени ( таким образом, чтобы объект х достиг объекта у в кратчайшее время (нлн оптимально в каком-либо другом смысле); прп этом — что очень существенно — не должно предполагаться известным управление объектом у в моменты времени, следующие за Н В такой постановке задача преследования пока пе решена.
В настоящей глане мы решаем несколько иную задачу преследонання. Пмеппо, мы считаем, что известен лишь в с р о я т н о с т н ы й закон поведения «убегающего> объекта у, причем этот закон предполагается марковским и описывается уравнением типа Фоксра — Планка — Калма~орава. Прн решении этой задачи будут использованы некоторые понятия и факты теории вероятностей. В Я ЗИ и 40 мы сообщаем эти факты, не всегда приводя, однако, полпыс доказательства, а ограничиваясь в основном небольшими пояснениями.
й 38. Понятие о марковском процессе. Дифференциальное уравнение Колмогорова Пусть в и-мерном фазовом пространстве Я случайно движется некоторая точка, причем если известно ее положение х в момент а, то однозначно определена перр о я т н о с т ь Р (а, х, т, Е) ее нахождения в любом измеримом подмножестве Е пространства Р в произвольный момент т ) а. В таком случае процесс движения случайной точки называют процессом без последействия или процессом марковского типа. Полную характеристику движения случайной точки дает функция р(а,х, с,у), (() равная плотности вероятности Р(а,х,т, Е) в точке у.
Функция р(а,х,т,у) удовлетворяет, очевидно, следующему соотношению: ~ р (а, х, т, у) г(у = 1 (2) х м1 353 ПОНЯТИЕ О МАРКОВСКОМ ПРОЦЕССЕ (здесь, как и всюду в дальнейшем, интегрирование производится по всему пространству Р, если область интегрирования специально не указана). Другое соотношение, смысл которого также ясен, носит название тонедества Маркова р (а, х, т, у) = ~ р (а, х, з, а) р (з, х, т, у) г1е. (3) Случайный процесс называется непрерывным, если за малые промежутки времени лишь с малой вероятностью координаты случайной точки могут получить заметные по величине приращения. Мы потребуем от марковского процесса несколько более сильной непрерывности, а именно: каково бы ни было положительное число б, имеет место соотношение 11гп — ~ р(а — Ла, х, а, у) ду =О.
(4) 1 дп-+д 1Р-х1~д Мы сейчас выведем дифференциальное уравнение, которому (при выполнении некоторых дополнительных условий) удовлетворяет функция р(а, х, т, у). Это урав- нение впервые было получено А. Н. Колмогоровым и но- сит название уравнения Колмогорова. Предположим, что: а) частные производные ду 1а, х, т, у) д~у (а, х. т, у) 1,1=1,..., и, дх' дх' дх1 существуют и непрерывны для любых а, х, т ) а, у; б) каково бы пи было б ) О, существуют пределы !Пп — ~ (у — х) р(а — Аа, х, а, у)г(у= 1 Г ю г де.ФО 1 1< д да д =Ь (а, х), 1 = 1, 2, ..., и; (5) 11гп — ~ (у' — х') (у1 — х1) р (а — Ла, х, а, у) ду = дд+з да 1и-х 1 к д =2а'1(а, х), 1, 1=1, 2, ..., и, (6) одна стхтпстичгскля злдхчл !гл.
г причем сходимость в соотношениях (5) и (б) равном ер на относительно х. Покажем, что в этих предположениях функция р(а,х, т,у) как функция первой пары аргументов удовлетворяет дифференциальному уравненшо второго порядка параболического типа (уривнени!о Колмогорова) — + ~ и (о', х), . + ~~' Ь'(а, х) — =О. (7) 1, ! ! ! 1 До к а з а тел ь ство. В силу тождества Маркова (3) мы имеем р(о — Ла, х, т, у) = ~ р(о — ба, х, а, г) р (а, г„т, у) !(г. (8) Используя соотношение (8) и тождество р(а — ба, х, а, г) из=(, получаем: р(а — Ьа, х, т, у) — р(а, х, т, у) = = ~ р (а — ба, х, а, г) р (о, г, т, у) Жг— — р(а, х, т, у) ~ р(а — Ла, х, о, г) Ж= = $ (р(а, г, т, у) — р(а, х, т, у)) р(а — ба, х, а, г) сТг.
Разбивая интеграл по пространству !г на два интеграла соответственно по областям !г — х~~ 8 и (г — х!) б и раскладывая разность р(а,г,т,у) — р(а,х,т,у) по степеням г! — х', находим р(а — Ла,х,т, у) — р(а,х,т, ) Ла ! — (р(а, г, т, у) — р(а, х, т, у)1 Х !г — х !~!! и Хр(а — ба, х, а, г)г!'г+ у ~ ' '. — '" Х дх! 1-1 ПОНЯТИЕ О МАРКОВСКОМ ПРОНРГСР Х вЂ” ~ (г> — х>) р(о — Ьо, х, о, г)Ж+ !»-х! ( б аа + ~~' ' " '"'.у' ' ~ (г'-х')(г-х)Х 2 дх' дх> >)о 1,> ! !» — »)(В аа Х р(о — Ьо, х, о, г) (г+ ', — ' "" "".'"' Х 2 дх> дх> 1, > 1 Х вЂ” ~ о[)г — х(а) р(о — Ьо, х, о, г)с>г. (1О) 1 !» — »)(б Перейдем теперь в соотношении (!0) к пределу при Ьо- О.
Первое слагаемое правой части, в силу (4), имеет предел, равный нулю; предел второго слагаемого равен (см. (5)) » Х х) др (о, х, т, у) дх! а 1 третье слагаемое, ввиду (6), в пределе оказывается равным са (,)' и,, д»р(о, х, т, у) с)х> дх> 1.> ! Наконец, последнее слагаемое стремится к нулю при 6-а-О. Так как, однако, левая часть равенства (10) от 6 не зависит, то предел правой части равен ) дар("'у) + ~-61( а ох '.'' т ох дх> дх> дх> * 1, > ! 1 ! Отсюда мы заключаем, что и у левой части равенства (!0) существует при Ьо-з-О предел, равный др (о, х, т, у) до Итак, функция р(о, х, т, у) является решением уравнения (7).
однл стлтистичвскля злдлчл [гл. т Оказывается, что р(о, х, т, у) является фундаментальным решением уравнения (7). Это значит, что решение и = и(о,х) уравнения (7), удовлетворяющее наперед заданному начальному услови!о и(о, х),,эР(х), (11) где Р(х) — заданная функция и переменных х', хз, ..., х", выражается по формуле и(о, х)= ~ р(о, х, т, у)Р(у)а!у. (12) Действительно, дифференцируя интеграл в правой части соотношения (12) по параметрам о и х и используя уравнение (7), мы получаем соотношение !,! 1 л ~1у( ) ди(о х) ) дх! ! ! р(о, х, т, у) „,+О, то 1пп ~ р(о, х, т, у) Р(у) а!у= а~~ ~ !пп ~ р(о, х, т, у)Р(у)с(у. !л-е! <л которое показывает, что функция и(о,х) является решением уравнения (7). Формула (1!) доказывается следующим образом.
Разобьем интеграл по пространству й, стоящий в правой части равенства (12), на два интеграла соответственно по областям 1у — х) < 6 и )у — х1 ) 6. Так как при )у — х~ = 6 ввиду непрерывности процесса, очевидно, справедливо соотпо!пение З 39! ТОЧНАЯ ПОСТАНОВКЛ СТАТИГТНЧЕСКОИ ЗАДЛЧИ 357 Принимая во внимание соотношение (2) и учитывая, что предел слева не зависит от 6, заключаем, что 1пп 1 р(О, х, т, у) Р(у)ду =Р(х), ч.+т " что н требовалось доказать.
Отметим еще одно важное свойство функции р(о,х,т,у), нужное пам в дальнейшем. Пусть требуется решить неоднородное параболическое уравнение †" + ~~ а" (о, х) . ' . + ~ 6'(о, х) †. = Р (о, х) (!3) де дх! дхт дх! !. /=1 !-! при нулевом начальном значении искомой функции. Оказывается, что если р(а, х, т, у) — !рундамента,!лное решение соответствующего однородного уравнения, то искал!ое решение дается форл!улой и(о, х, т) = — ~ сЬ ~ р (О, х, з, у) Р (з, у) ду. (14) ч Доказательство получается непосредственным дифференцированием.