Понтрягин Л.С. - Принцип максимума в оптимальном управлении - 2004, страница 9
Описание файла
DJVU-файл из архива "Понтрягин Л.С. - Принцип максимума в оптимальном управлении - 2004", который расположен в категории "". Всё это находится в предмете "оптимальное управление" из 9 семестр (1 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "оптимальное управление" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 9 - страница
Но следует отметнть, что она никогда не решалась в варнационном исчислении в гой постановке, в какой она приведена здесь. Формулированные в классическом варнационном исчисленич задачи носят более общий характер, чем приведенная здесь, и лишены той конкретности, которая возникла у нас благодаря рассмотрению технического объекта. Оказалось, что этот более конкретный характер варнацнонной задачи, связанный с тем, что мы рассматриваем управляемый объект, привел к новым возможностям решения самой задачи, дал возможность прийти к догадкам. к которым в общей вариационной задаче прийти было бы чрезвычайно трудно.
Формулирую теперь то решение, которое было получено нами для задачи на быстродействие. Вводятся вспомогательные величины фь фг,..., ф„числом и, совокупность которых обозначается одной буквой ф = (фь фь... ..., ф.), где ф — вектор с компонентами фь ф„....ф„. вб Составляется вспомогательная величина Н = фА (х, и) + фЛ (х, и) + ... + ф„1„(х, и) = = Н(ф, х, и). (4) Сразу видно, что величина Н зависит от трех векторов: ф, х и и. Новая вспомогательная величина (4) была обозначена через Н потому, что нужные для нас уравнения, получаемые из нее, очень похожи на уравнения гамильтона, всем известные из механики. Они суть следующие: дН(Ч, », и) Ф~ дН(ф», и) (5) 1~=в дк Полученная система дифференциальных уравнений (б) состоит из 2п уравнений.
В них входят неизвестные функции хь хм .. х„, фь фм..., ф„иь им..., и„то есть число неизвестных функций равно 2а+ г. Таким образом, система эта неполна. Решать ее невозможно. Однако эта система уравнений дополняется одним условием. Управляющий вектор и должен выбираться так, чтобы при любых фиксированных значениях ф, х функция Н(ф, х, и) достигала своего максимума при этом значении и. Дополненная этим условием система уравнений (б) уже является полной, и именно эта система соотношений должна решаться при отыскании оптимального по быстродействию решения задачи. Этот результат был назван принципом максимума.
Задачи на оптимизацию какой-либо другой величины, а не времени, например, расхода горючего, решаются очень похожим образом. Здесь я не формулирую ее решения. Целью движения объекта мы считаем определенное его фазовое состояние х', то есть прибытие точки в определенное место с определенной скоростью. Принцип максимума годен, однако, и для решения других задач, например, целью может служить прибытие в определенное место с произвольной скоростью.
Если управляющий вектор и может принимать произвольные значения, а не связан условием принадлежно. сти к множеству й, то нз условия максимальности функции Н(ф,х,и) по переменному и следует, что все частныс производные этой функции по переменным иь и,, ..., и, равны нулю, то есть должны быть выполнены ат где х есть вторая производная координаты х по време- ни, то есть ускорение движущейся точки. Одно уравне- ние (7) можно переписать в виде двух уравнений пер- вого порядка х у, у = — х. (8) Пусть х х(г), у = у(г) — произвольное решение системы (8). Для геометрического его изображения рассмотрим на фазовой плоскости переменных (х, у) точку (х(Г), у(г)], двнжущуюся с течением времени б Получаемая так в результате движения точки по фазовой плоскости траектория называется фазовой траекторией. Для системы (8) оиа представляет собой окружность с цент.
ром в начале координат, по которой точка движется с постоянной угловой скоростью, равной одному радиану в секунду, причем движение происходит по часовой стрелке. Допустим теперь, что на нашу движущуюся соотношений: дН (Ф, и' и~ О, / = 1, 2, ..., г. (6) ди Этот результат вытекает из общих результатов классического вариационного исчисления, но в такой форме он никогда ие был сформулирован, так как в классическом вариационном исчислении вообще не рассматривались управляемые объекты. Следует отметить также, что и в случае произвольно меняющегося а соотношение (6) слабее, чем условие максимальности Н по и.
Дадим теперь 'решение одной очень простой задачи оптимизации на быстродействие, которое можно получить при помощи принципа максимума, но невозможно получить методами классического вариационного исчисления. Рассмотрим математический маятник, то есть движение некоторой точки по прямой, которая притягивается к некоторой фиксированной точке О втой прямой с силой, пропорциональной расстоянию до нее. Прямую, по которой движется точка, примем за ось абсцисс, а точку Π— за начало координат.
Координату движущейся точки обозначим через х. Тогда уравнение движения этой точки запишется в виде х+х= О, (7) точку х воздействует внешняя сила величины и, которая не может превосходить по модулю единицы. Тогда урав- нение движения точки записывается в виде х+х = и или в виде системы уравнений х=у, у — х+ и. (9) Рне.
15 а в другой — значение — 1. Разбиение фазовой плоскости иа две части осуществляется линией„начерченной иа рис. 15. Она состоит иэ полуокружностей радиуса еди- 59 Система уравнений (9) описывает движение управляемого объекта, где и есть управляющий параметр. Постараемся теперь привести точку, находящуюся в начальный момент времени в произвольном положении (хэ, у~) в состояние покоя, то есть в начало координат фаэовой плоскости за минимальное время, используя для этого управляющий параметр и. Из принципа максимума непосредственно следует, что оптимальное управление и может принимать только значения -~1.
При и= +1 фазовой траекторией системы (9) является окружность с центром в точке (1,О), а при и = — 1 фазовой траекторией системы (9) является окружность с центром в точке ( — 1,0). Зная, что оптимальное значение и = =н1, мы должны теперь только указать, как меняется и между этими двумя значениями в процессе движения, Иэ принципа максимума легко вывести, что значение и зависит лишь от положения фаэовой точки на фазовой плоскости, а именно, вся фаэовая плоскость разбивается на две части, в одной из которых и должно иметь значение +1, ница, опирающихся как на диаметры на отрезки оси абсцисс.
Причем на положительной части абсциссы полу- окружности обращены вниз, а на отрнцательной части абсциссы полуокружностн обращены вверх. Две полу- окружности, примыкающие к началу координат, сами являются оптимальными траекториями, так что если начальная точка находится на одной нз них, то движение в начало координат осуществляется по соответствующей полуокружности. Оказывается дальше, что если фазовая точка находится под начерченной линией раздела, то и должно иметь значение + 1, а если над линией раздела, то значение и должно быть равно — 1. Легко вычертить траекторию оптимального движения точки (см, рнс, 15), исходя иэ произвольного начального положения (х~, уч).
Начиная с какой-либо точки плоскости (х~, у ), движение определяется уравнением (9) с определенным значением и = + 1, причем значение это переключается на противоположное, когда соответствующая траектория доходят до линии раздела переключения. В конце концов точка попадает на одну нэ полуокружностей линни раздела, прнмыкающнх к началу координат, после чего точка движется по соответствующей полуокружности к началу координат. Принцип максимума является всеобъемлющим уни. версальным методом для решения задач оптимизации.
Он нашел многочисленные применення в различных областях знания и оказал существенное влияние на раэвнтке вариацнонного исчисления. В игровых задачах до. стигнуть раэультатов столь общего характера нам не удалось. Имн занимается сейчас большое число математиков, средн которых следует отметить группу сотрудников Математического ннстнтута им. В. А. Стеклова и школу академика Н.
Н. Красовского в Свердловске. Ими достигнуты значительные результаты. Здесь я ограничусь тем, что приведу один конкретный пример задачи преследования. В пространстве )т произвольной размерности и, где п ) 2, рассмотрим две точки х н р, каждую из которых иы можем одновременно трактовать как вектор. Точку х бу.
дем считать преследующей точкой„а точку р — убегающей точкой. Процесс преследования считается законченным, когда х совпадает с у. Движение этих точек описывается следующнмн уравнениями: л+ ал и, 1г+ ру= в. (! О) Здесь и н и — векторы пространства 1. В нашей задаче они являются управляющими векторам с Их можно выбирать произвольнымп по направлению, ио оии ограничены по длине, а именно, для них выполнены условия: (и( ( р, (п~ ( а. Числа а, р, р, а положительны. Таким образом, уравнение (10) описывает движение точки с линейным трением и под действием внешней силы и, которая может быть выбрана произвольной по направлению, но не превосходит по величине числа р. Аналогичное верно и для точки у. Процесс преследования можно рассматривать с двух точек зрения.
При первой точке зрения мы отождествляем себя с преследователем. Наша задача заключается тогда в завершении преследования путем выбора надлежащего управления и. При атом в процессе преследования мы все время наблюдаем за поведением уходящего объекта. При второй точке зрения мы отождествляем себя с убегающим объектом и наша за. дача состоит в том, чтобы уйти от преследования, выбирая надлежащим образом управление в. При агом мы все время наблюдаем за преследующим нас объектом. Основной результат, имеющийся здесь, следующий.
1. Задача преследования всегда может быть решена положи. тельно, то есть преследование завершено, если выполнены два неравенства — > —, р>о. (!!) 2, Задача убегания имеет всегда положительное решение, если выполнено неравенство о > р. Оказывается, что при решении задачи преследования в случае, когда выполнены условия (11), мы всегда имеем наилучший способ поведения преследователя, то есть имеется единственное оптимальное управление преследователя и(!), отклонение от которого неизбежно увеличивает время преследования. При атом оптимальное управление преследователя и(1) определяется постепенно с всзрастанием времени ! в зависимости от поведения убегающего объекта.