Бесекерский В.А., Попов Е.П. - Теория систем автоматического регулирования (963107), страница 88
Текст из файла (страница 88)
В качестве критерия оптимальности примем минимум функционала т 1= ) ~о(х„..., х„' и„..., и„) й. (12.158) о Функции ~о и 1О вообще говоря, могут содержать в явном виде текущее время 2. Однако это не меняет принципиальной постановки задачи. Целью управления является перевод системы нз состоянии х; = — а; при 2 =- 0 в состояние х; =. Ь, прн 2 = Т (с=-1,..., п). Такая задача управления называется терминальной, и она соответствует определению в фазовом пространстве оптимальной траектории с закрепленными концами. Будем считать, что фазовые координаты и управления должны принадлежать некоторым замкнутым (ограниченным) пространствам, т.
е. х(2) сХ, х(0)=аббе х(Т)=ЬЕСт, и(1)бУ, 0<2«<Т. (12.159) Можно несколько расширить цель управления и считать, что конец траектории должен только находиться в ааданной области х (Т) ~ Оь при 2 = Т. Это будет задача со свободным концом траектории. Вместо исходной можно решать более общую аадачу отыскания оптимального управления для произвольной временной точки 0 С Го Т и В. А. Весекерскка, Е. П. Попов 366 методы синтезА систем АВтОИАтическОГО РБГулиРОВАния 1тл. 12 произвольной точки в фазовом пространстве х (1е) ~ Хэ в смысле минимума функционала Тз= ') ~,(х, и) и'1. (12 160 на основании которого может быть найдено оптимальное управление и (х).
Если на промежутке Г, — Т выбрать промежуточную точку г„ то на основании принципа оптимальности и ф [Т, х (гз)[ = шп1 ~ ) 4з (х, и) й+ ф [Т, х (~,)[) . (12.162) изп м Функция ф и оптимальное управление обычно не могут быть найдены аналитическим путем. Для этой цели применяются приближенные методы с использованием вычислительных машин. Рассмотрим идею приближенного расчета.
Пусть | — фиксированное аначение времени, а Л1 — малый отрезок времени, причем 0 ~ 1 + йт ( Т. Тогда 1+А| т ф(г, х)=ппп ( ) ~о(х, и)г[т+ ~ !0(х,и)с[т~, (12.163) с с+у где функции х (т) и и (т) связаны условиями (12.157). м Минимум функционала (12.160) зависит от начального момента времени Га и начальной точки хэ — — х (1З). Обозначим этот минимУм чеРез ф (хэ). ФУнкция ф (хэ) для некоторой совокупности фазовых координат х (гз) может, вообще говоря, не существовать, так как ьшжет не существовать допустимого управления, удовлетворяющего (12.156). Если найдены функция ф (хз) и требуемое управление и (1, х,), то, положив г, = 0 и хз — — а, где а — матрица-столбец начальных условий, мы получим решение исходной задачи. Принцип оптимальности.
Примем начальные условия; при г== ге х (гз) = = ае 6 6, оптимальное управление и (г, аэ) реализует минимум функционала (12.160), а х (1, аэ) — оптнмальнаЯ тРаектоРин в фааовом ЯРостРанстве. Выберем произвольный момент времени 1„принадлежащий интервалу 1з — Т, и обозначим через а, точку а, =. х (1„ а,) на оптимальной траектории х (1, а,). Принцип оптимальности гласит следующее. Если принять значения г, и а, за начальные, то на интервале 1, — Т оптимальное управление и (г, а,) совпадет с оптимальным управлением и (г, а,) и, следовательно, участок оптимальной траектории х (8, а,) для задачи с начальной точкой (1ю ае) на интервале 8, — Т совпадет с оптимальной траекторией для задачи с яачальной точкой (г„, а,).
Доказательство достаточно очевидно. Оно исходит из того, что значение функционала качества на участке г~ — Т должно быть одинаковым прн управлениях и (8, а,) и и (г, аз). Если бы это было не так и значение функционала на этом интервале времени было бы, например, меньше для управления и (1, а,), то управление и (1, аз) можно было бы улучшить, заменив его па интервале Г, — Т управлением и(1,а,), что противоречит принятому предположению об оптимальности управления и (г, аэ). Итак, в соответствии с изложенным введем функциональное уравнение г 'т[Тю х(~о)1 ш[п Ь (х' в) <~1' (12.161) ~ел м 387 1 22.9) ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ Вид управления и (т) на интервале 2 + Ы, Т не оказывает влияния на первое слагаемое в правой части (12.163).
Поэтому на рассматриваемом интервале времени следует так выбрать управление, чтобы минимизировать второе слагаемое в правой части (12.163) при выполнении условий и(т)ЕУ, х(т)ЕХ, х(Т)ЕСГ, )+Л) с.тс Т. (12 164) На основании принципа оптимальности перепишем (12.163) следующим обрааом: 3-)-д3 $(), х) =ппп )' ~ Л,(х, и) Нт+ф [С+Л2, х(С+ЛС)! (. (12.165) Р На интервале 2, 2 + Ы управление и (т) должно быть выбрано так, чтобы минимизировать правую часть (12.165).
От этого выбора зависят оба слагаемых правой части. Заменим на малом интервале Ы матричную функцию ~ (х, и) и фуккцию 7э (х, и) их фиксиРованными аначенивми в точке Г, а пРоизвоДнУю х отношением конечных разностей Лх = х (г+ Л)) — х (С) и Лг. Тогда вместо(12.165) моя<ко записать приближенно Ф (Г, х) ж ш)В ((э (х, и) Л)+ Ф (Г+ ЛГ, х+ Лх)). (12.166) и Кроме того, имеем х+Лх=х(г+Лг)=х(2)+Лг ) [х(2), и(2)! =х+Ы ) (х, и). (12.167) На основании (12.166) и (12 167) можно найти приближенное значение ф (), х). Для конечного момента времени Т и любых х ~ бт следует, что 2Р (Т, х) = О.
Поэтому вычисление ф (2, х) удобно начинать с конца, т. е. с момента времени 2 = Т и области 6т. На первом шаге расчета рассматри- вается момент времени 2 = Т вЂ” Лг. При 2+ Ы = Т величина х+ Лх вследствие краевого условия принадлежит множеству бт. Подставляя в (12.166) и (12 167) значение 2 = Т вЂ” Лг и учитывая, что ф (Т, х) = О, имеем ф(Т вЂ” ЛФ, х) =п2[п(д [х, и(Т вЂ” Л))! Ы, (12,168) х+Лх=х+ЛЬ '[[х, и(Т вЂ” Л))!. Далее фиксируется произвольное зкачеиие х Е Х.
Минимум правой части первого равенства (12.168) вычисляется по тем значениям и (Т вЂ” Л|) из мпо- жества 5г, для которых точка х + Лх, определяемая вторым равенством (12.168), соответствует значению Ь ~ 6т. Если для какой-либо точки х с Х таких значений и (Т вЂ” Л)) не существует, то функция ф (Т вЂ” Ы, х) не опре- делена в точке х.
Таким образом, по значению функции ф (Т, х) можно приближенно определить значекия функции ф (Т вЂ” Ы, х) на некотором подмножестве Х, из Х. Так как на интервале Т вЂ” Лг, Т управление и (т) принято постояиным и равным и (Т вЂ” Л)), то одновременно с нахождением функции 2[) (Т вЂ” Л|, х) приближенно найдено управление и (Т вЂ” Лг, х), которое реализует эту функцию. На втором шаге рассматривается момент времени 2 = Т вЂ” 2Л). Из (12.166) и (12 167) можно получить ф (Т вЂ” 2ЛГ, х) = ш)п ((э [х, и (Т-2Л2) ! Л|+ Ч) (Т вЂ” Ы, х+ Лх)), (12.169) х+Лх=х+Ы [[х, и(Т вЂ” 2Ы)!. 25Р 388 метОды синтезА систем АВтомАтического РеГулиРОВАния !гл. 3з Далее фиксируется произвольная точка х ~ Х.
51инимум правой части (12.169) вычисляется по тем значениям и (Т вЂ” 2Л!) ~ П, для которых точка х + Лз, определяемая вторым равенством (12.169), принадлежит подмножеству Х,. Находится значение функции ф (Т вЂ” 2Лд х) на некотором подмножестве Х, из Х,. На интервале Т вЂ” 2Лд Т вЂ” Лг управление и (т) принимается постоянным и равным значению и (Т вЂ” 2Л!), реализующим »г (Т вЂ” 2Лд х).
На интервале Т вЂ” Лд Т управление, как фуккцпя х(Т вЂ” Л!), было определено после первого шага. Так как х (Т вЂ” Лг) связано с х (Т вЂ” 2Лг) вторым равенством (12.169), то после двух шагов оказывается определенным управление и(Т вЂ” 2ЛГ, х) на интервале времени Т вЂ” 2ЛГ, Т.
Это будет кусочно-постоянная функция с интервалами постоянства, равными Л!. Последующие шаги рассчитываются аналогично. Если весь интервал управления Т разбит на !я шагов, то после т-го шага определяется функция »р (О, х) на подмножестве Х из Х и управление и (О, з), как кусочно-постоянная фуякция с интервалами постоянства Лг. Если начальная точка л (0) = = а принадлежит подмножеству Х, для которого определена функция »р (О, х), то, положив х =- а, получаем ф (О, а) — минимум функционала (12.161) исходной задачи управления и и (О, а) = и* (т) — оптимальное управление, Подставляя затем оптимальное управление в (12 156) или (12.157) и решая систему исходных дифференциальных уравнений, можно определить оптимальную траекторию движения хл (т).
Если х (0) = а не принадлежит подмножеству Х, то задача не имеет решения. Надо учитывать прн атом, что вся задача решалась приближенно, в том числе найдено было приближенно и подмножество Х Прн использовании динамического программирования число шагов должно быть достаточно большим, чтобы получить приемлемую точность решения.
В результате большой трудоемкости испольаование этого метода оказывается невозможным без применения вычислительных машин. Серьезным недостатком метода является то, что с ростом размерности задачи (порядка я дифференциального уравнения) весьма серьезно возрастают требования к быстродействию и объему памяти вычислительных машин. Действительно, на я-м шаге вычисляется функция ф (Т вЂ” й Лг, х), зависящая от переменных х„..., хл и определенная на множестве Х». Ее надо хранить в памяти машины до тех пор, пока не будет вычислена функция »г [Т— — (й+1) Лг, х!. Это значит, что в памяти машины должна храниться таблица, в которой записаны значения ф (Т вЂ” я Лг, з) для различных точек из Х».
Этих точек оказывается много, так как таблица должна достаточно точно и равномерно определять функцию »р (Т вЂ” я ЛГ, х). Кроме того, в памяти машины приходится запоминать кусочно-постоянную в общем случае я-мерную функцию управления и (Т вЂ” к Лг, х), зависящую от х„..., хл и вычисленную при значениях аргумента т с интервалом Л!. В сложных системах объем вычислительных операций при реализации приближенного решения задачи динамического программирования оказывается непосильным даже для самых крупных и быстродействующих современных вычислительных машин.
Уравнение Беллмана. Введем предположение, что функция ф имеет непрерывные частные производные по всем своим аргументам: г, х„.. „х„. Тогда в равенстве (12.166) функцию»р (г + Лг, х + Лз) можно представить следующим образом: ф(г+Лг, +Лз) =.ф(г, з)+~ — + ')! з ~,' ~ ~г+6~Лг)Лг. (12.1гО) !=1 Здесь б(Лг) — величина более высокого порядка малости, чем Л!.
Входящие в правую часть (12.170) производные х! удовлетворяют (12.156). 389 5 12.10! АНАЛИТИЧЕСКОЕ КОНСТРУИРОВАНИЕ РЕГУЛЯТОРОВ Поэтому 1ф(»+А», х+Ах) =1ф(», х)+~ — ф.-',- ~ — 71~А»+Ь(л»)Л». (12 171) Подставим (12.171) в (12.166). Функция 1ф (», х) не аависит от управления и (») в момент». Поэтому ее можно вынести за знак мнннмума. Деля полученное равенство на А» и переходя к пределу при А» — О, имеем н пнп Я+ 'Я ~~ »! (х(»), и(»)1+»о (х(»), и(»)1~ =0 (12.172) 1=1 при условиях х=»(х, и), х(0)=а, х(Т)=-ЬбСГ (12.173) х(») ЕХ, 0~(»~(Т. Уравнение (12Л72) и представляет собой уравнение Беллмана с краевым условием 1ф (Т, х) = О. Сумма первых двух членов (12Л72) есть полная производная функции 1ф (», х) по времени.