Понтрягин Л.С. - Математическая теория оптимальных процессов (4-е издание) (955115), страница 2
Текст из файла (страница 2)
В этом случае оказывается, что оптимальное управление (6) осуществляется точкой (и'(!),..., и"(Г)), поочередно находящейся в различных вершинах многогранника ('. Правила, согласно которым управляющая точка переходит скачками из одной вершины в другую, и дают закон оптимального управления. Эта линейная варнацнонная задача, имеющая важные технические приложения, решается па основе общих методов в главе 3. Классические же методы для решения такой задачи совершенно неприменимы. Из сказанного о перескокахоптнмальпоуправляющей точки с вершины па вершину многогранника сl следует, что класс допустимых управлений (2) нельзя считать состоящим из непрерывных функций, Мы предполагаем обычно, что он состоит нз кусочно-непрерывных функций.
Фазовые координаты х', ..., х" считаются непрерывными и кусочно-диффсрснцпруемыми функциями времени. В этих предположениях необходимые условия оптимальности формулируются в виде принципа максимума (см. главу 1), который доказывается в главе 2. Если рассматриваемый объект представляет собой механическую систему, то часть х',..., х" фазовых координат описывает ее геометрическое состояние, а часть ха+1, ..., хы (2А = и) — ее скорость. В некоторых задачах целью управляемого процесса в этом случае может быть не попадание объекта в определенную точку (х,', ..., х",) ф а з о в о г о пространства, а прибытие механической системы в определенное яр остра нет венное положение (х',, ..., хк) при произвольных скоростях в конце процесса.
Таким абазом, здесь имеет место вариационная задача об оптимальном переходе объекта из определенной начальной точки х', ..., х,", фазового пространства в произвольную точку к-мерной плоскости, определяемой уравнениями х' =х'„..., хк =х~. ы ПРВДИСЛОВИВ КО ВТОРОМУ ИЗДАКИЮ Мы видим, что ранее сформулированная оптимальная задача не охватывает ряда важных проблем. Ввиду этого в э 6 главы ! разбирается вопрос об оптимальном переходе объекта с некоторого начального многообразия М, точек фазового пространства на нскоторое конечное многообразие Мь причем размерности многообразий Мо и М1 произвольны (в частности, когда они обе равны нулю, мы получаем первоначальную задачу). Совершенно ясно, что нс только управляющие параметры объекта, но и сго фазовые координаты, по самому характеру технической задачи, должны иногда подчиняться некоторым ограничениям.
Если, например, речь идет о движении самолета и х' обозначает его высоту надземлей, то должно быть выполнено неравенство х' ) й ) О, где Л вЂ” минимальная допустимая высота полета, ))еравепство х' ) й вовсе не вытекает из свойств системы уравнений (!) и из неравенств, налагаемых па управляющие параметры, а является совершенно независимым. Задача об оптимальном управлении объектом, при котором изображающая его точка фазового пространства должна все время оставаться в некоторой замкнутой области 6 фазового пространства, решается В главе 6.
Предполагается прн этом, что область 6 имеет кусочно-гладкую границу. Движение объекта в этих условиях протекает частично внутри области 6, подчиняясь там обычному принципу максимума, частично же по границе области 6, подчиняясь там усложненному принципу максимума. Переходы от кусков траекторий, проходящих внутри 6, к кускам траекторий, проходящим по границе области 6, подчиняются своеобразным правилам, напоминающим законы преломления света и в некотором смысле обобщающим их. До сих пор речь шла об оптимальном управлении, приводящем объект в заданную точку илн па заданное подмногообразие фазового пространства. Задачей оптимального управления может быть, однако, и задача об оптимальном попадании в движущуюся точку фазового пространства. Допустим, что в фазовом пространстве имеется двнжушаяся точка х' = О' (!), ! = (, ..., и.
(9) 1о ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Тогда возникает задача об оптимальном приведении объекта (1) в совпадение с движущейся точкой (9). Эта задача легко сводится к рассмотренной, Достаточно ввести новые переменные, положив у'=х' — 0'(1), ю'=1, ..., п. В результате этого преобразования управляемая система (1) превращается в новую, правда, уже не автономную, а целью управляемого процесса становится приведение нового объекта (у',...,у") в неподвижную точку (О,...,О) фазового пространства.
Так как основные результаты легко распространяются и па н е а в т о н о м н ы е управляемые процессы (см. 5 7), то задача оказывается решенной. Здесь мы считали, что движение преследуемой точки (9) определено заранее на протяжении всего рассматриваемого промежутка времени. Совершенно новый н практически важный вопрос возникает, когда движение преследуемого объекта нс известно заранее, а сведения о нем поступают только с течением времени. Для того чтобы решать такую задачу о преследовании объекта, нужно иметь некоторые данные о его поведении. Весьма важным представляется случай, когда преследуемыйобьект является управляемым, так что его движение описывается системой уравнений иа — =0'(з', ..., г", о', ..., о'), 1=1, ..., и.
(1О) Задача заключается в том, чтобы, зная технические возможности преследуемого объекта, т. е. систему уравнений (10), и его положение в каждый данный момент времени, определить управление преследующего объекта в тот же момент времени так, чтобы преследование осуществлялось оптимальным образом. В такой постановке задача рассматривается в теории дифференциальных игр, которая здесь не затрагивается. В главе 7 решается другая задача преследования. Предполагается, что в начальный момент положение преследуемого объекта известно, а дальнейшее его поведение описывается вероятностным образом, именно, процесс его движения считается марковским.
В этих предположениях ищется такое управление ПРЕДИСЛОВИВ КО ВТОРОМУ ИЗДАНИЮ 11 преследующего объекта (!), при котором встреча некоторой малой окрестности объекта (1) с преследуемым объектом является наиболее вероятной. За семь лет, прошедших с первого издания этой книги, принцип максимума оправдал себя, найдя многочисленные приложения. Поэтому уже здесь стоит остановиться в нескольких словах на его характере, происхождении и доказательстве.
Для определенности ограничимся задачев быстродействия. Именно для этого случая принцип максимума был в качестве гипотезы высказан Л. С. Понтрягиным. Суть его заключается в следующем. Каждому допустимому уравнению и'(1), ..., и"(1), заданному на, отрезке 1з г ( гь и произвольному постоянному вектору фазового пространства определенным образом ставится в соответствие функция Н(1, и', ..., й) переменного 1, го (1 В, 1ь и допустимых управляющих параметров.
Оказывается, что если взятое управление оптимально, то существует такое значение вектора ф чь О, что при каждом фиксированном значении 1, 1В(1~ Гь величина Н, рассматриваемая как функция допустимых значений управляющих параметров, достигает своего максимума при и1 = и1(1), 1 = 1, ..., г, Из этого видно, что, имея дело с принципом максимума, приходится сравнивать между собой не только близкие одно к другому управления. В этом его отличие от классических теорем вариационного исчисления, сила и некоторая трудность доказательства. Первое доказательство принципа максимума было дано Р. В.
Гамкрелилзе для линейных управляемых систем. Он же построил полную теорию этих систем. Идея его локазательства следующая: будем считать, что рассматриваемое оптимальное управление переводит точку хз в точку хь Если вместо оптимального управления взять произвольное допустимое управление, заданное на прежнем отрезке, то оно переведет точку хз В некоторую пггдисловив ко втогомт изданию точку х((,). Ввиду линейности совокупность всех получаемых так точек х((1) образует выпуклое тело Р. Из оптимальности исходного управления вытекает, что точка х, лежит на границе этого тела.
Такны образом, существует опорная плоскость к телу Р, проходящая через точку хь а вектор ~р, перпендикулярный к этой плоскости и направленный от тела Р, и является тем, который используется при построении функции Н. Для нелинейной управляемой системы множество всех точек х((~), получаемых с помощью всевозможных допустимых управлений, невыпукло и необозримо. Использование для линеаризации задачи управлений, мало отличающихся от оптимального управления, пе соогветствует характеру принципа максимума. В общем, нелинейном случае принцип максимума доказал В.
Г. Болтянский, который вслед за тем построил основы нелинейной теории оптимального управления. Именно, он удачно выбрал класс управлений для сравнения с оптимальным, применив вариации Макшейна, т. е. рассмотрев те допустимые управления, которые отклоняются от оптимального лишь на конечном числе малых интервалов времени, но на каждом интервале отклоняются произвольно. Этим самым задача была линеаризована: множество точек х(г1), соответствующих указанным управлениям, хотя и невыпукло, но близко к выпуклому, так что возникла возможность построения опорной плоскости и перпендикулярного к ней вектора ф Л.