Ким Д.П. Сборник задач по теории автоматического управления (2008) (1151994), страница 34
Текст из файла (страница 34)
!=! Для линейных задач максимального быстродействия при выполнении так называемого условия нормальности принцип максимума является не только необходимым, но и достаточным условием оптимальности. Для определения этого понятия введем в рассмотрение (и х и)-матрицы ФЦ] = ]В!(АВ)1 ". (А" !В)1], где Вг, (АВ)г, ..., (А" 'В)' — гче столбцы матриц В, АВ, ..., А" 'В соответственно. Условие нормальности. Говорят, что для объекта х = = Ах+ Ви выполнено условие нормальности или условие общности положения, если матрицы ФЯ не еырождены: бесам(1] ф О (,~'= 1,2, .... !'). Очевидно, в случае скалярного управления условие нормальности совпадает с условием управляемости.
Объект, для которой выполнено условие нормальности, называют нормальным объектом или нормальной управляемой системой. 8.3. Задачи Пример 8.8. Определить, выполнено лн условие нормальности для объекта х~ = хт + им хт = щ + ит. Решение. В данном примере имеем А=, В=, АВ= Матрицы ЖЩ имеют вид И[1] =, йг[2[ = и обе они не вырождены. Следовательно, условие нормальности выпол- няется. Необходимое и достаточное условие оптимальнос т и. Если в шнейной задаче максимального быстродействия объект является нормальным, то для того чтобы пара (ц*(Ф),х'(1)) была ее решением, необходимо и достаточно, чтобы она удовлетворяла принципу максимума. В оптимальном по быстродействию управлении линейным объектом функции и'(1) принимают только граничные значения при любых собственных значениях матрицы А, если объект является нормальным.
В общем случае зтн функции имеют произвольное число переключений †точ перехода из одного граничного значения на другое. В частном случае справедлива следующая теорема. Теорема об и интервалах. Если в линейной задаче максимального быстродействия объект является нормальным и характеристическое уравнение йе$(А — 1з) = О имеет только действительные корни, то компоненты оптимального управления и*(т)Ц = 1, 2, ..., г) кусочно-постоянны, принимают только граничнйе значения и имеют не более и интервалов постоянства, или не более и — 1 переключений. Задачи 8.19.
Определить оптимальное программное управление и*($) н оптимальную траекторию х*(1) в следующих задачах максимального 210 Гл. 8. Методы теории оптимального управления быстродействия: а) х1 = хм ха =и, 11и/ < 1, х(0) =О, х~(1У) = 10, хт(!У) =О, .У = Фу — ппп. б) х~ =ха, хт =и, /и/ < 1,х(0) =О, х~(ФУ) =10, .У=!У вЂ” аппп. в) х1 =хм хт =и, /и/ < 1, х(0) =О, х~(1у) = 10, хт(1у) =5, '" = !у + ппп.
г) х1 = ха, хт =и, )и~ < 1, х~(0) =О, хз(0) =5, х1(1у) = 10, хт(!у) = О,,У = $у — ~ ппп. д) х~ =ха, ха =и, 1и~ < 1, хр(0) =5, хт(0) =О, х~(1у) = 10, хт(йу) = О,,У = !у — ппп. е) х~ = хз, хт = и — 1, /и! < 2, х(0) = О, х1(Су) = 1О, хт(!у) = О, ,У = !у — тшп. ж) х1 =ха, ха=и — 1, )и1 <2, х(0) =О, х~(!у) =10, 'У = 1у з) х~ =хм хт =и — 1, ~и~ < 2, х(0) =О, х~(Су) =!О, хт(!у) =5, ,У = 1у — ~ ппп. и) х1 =ха, ха =и — 1, !и$ <2, хю(0) =О, хз(0) =5, хю(зу) = 10, хз(ту) = О,,У = !у -+ шш к) х~ = хт, хт = и — 1, (и/ < 2, хю(0) = 5, хт(0) = О, х~(!у) = 1О, хз(!у) = О,,У = Су -+ ппп . 8.4.
Метод динамического программирования Основу динамического программирования как метода оптимизации составляют: !) принцип оптимальности; 2) инвариантное погружение, т.е. включение исходной задачи в семейство аналогичных задач; 3) функциональное уравнение, получаемое на основе принципа оптимальности и инвариантного погружения. Инвариантное иогружение и функциональное уравнение. Основная идея метода динамического программирования заключается в следующем. Вместо того чтобы решать исходную задачу, ее включают в некоторое семейство задач оптимизации (инвариантное погружение).
При атом может оказаться, что между отдельными задачамн существуют простые соотношения, и среди задач семейства найдется такая, которая легко решается. Тогда, используя решение последней и соотношение, связывающее отдельные задачи семейства, т. е, функциональное уравнение, получают решение исходной задачи.
Принцип оптимальности. Оптимальная стратегия (поведение) обладает тем свойством, что, каковы бы ни были В.4. Метод динамического программирования 211 В задачах оптимального управления оптимальность определяется функционалом (критерием оптимальности) г(н(!), х(с)), состояние— фазовым вектором х(!), стратегия — это управление н(1) на всем интервале [!о, !у], решение — зто выбор конкретного управления.
Для задачи оптимального управления справедлив принцип оптимальности, если она обладает марковским свойством. По определению, задача оптимального управления обладает марковским свойством, если после выбора управления на начальном интервале [!о,д], каково бы оно не было, вклад на величину критерия г(н(!), х(Ь)) на конечном интервале [!',!г] оказывают влияние выбор управления на этом интервале и значение фазового вектора в конце начального интервала, т.е.х(у). Чтобы сформулировать принцип оптимальности применительно к задачам оптимального управления, рассмотрим задачу х = Г(х, и, $), п(1) Е У,; х((о) = х, х(ту) Е Ху; сг ,7 = уо(х(1у), 1~) + го(х, и, !)с!! — шш.
(8.13а) (8.13б) (8.13в) Условимся управление п($) на интервале [а,Ь] обозначать п[а,Ь]: н[а,Ь] = (п(г), а < 1 < Ь). Если интервал слева или справа является открытым, то соответственно слева или справа будем писать круглую скобку: и(а,Ь] = (и(!), а <1 < Ь)и и[а,Ь) = (н(1), а < ! < Ь). Для задачи (8.13) справедлив принцип оптимальности, и он может быть сформулирован следующим образом: для оптимальности допустимой для задачи (8.13) лары (и'(1),х*(!)) необходимо, чтобы при любом у Е [Зо,ту] управление и'[т',Зу] было оптимальным относительно состояния х*(У), в котором окажется объект в момент У при выборе на начальном отрезке времени [!а,г') управления и'[!о, у).
Функции и уравнения Беяямана. Уравнение пйп ~Ях,п,т)+ )' =О, «(с)еи, ! ' ' аз (8.! 4а) или дд ! дд гшп ] Ях, и, !) + ~ — Ях, и, !)~ = — —, (8.14б) «(с)ео,! ' ', дяч ' ' ' ~ дг' начальное состояние и решения на начальном этапе, решения на последующем этапе должны составлять оптимальную стратегию относительно состояния, которое получается в результате принятия решений на начальном этапе. 212 Рл. 8. Методы теории оптимального управления (8.16а) При мер 8.9.
Определить оптимальное управление с обратной связью в следующей задаче: хс — хм хт — и; хс(0) = хс, хт(0) = хт, о о сс хс(ту) = О, хт(гу) = 0; .7 = (хтс+из)дт. о Здесь хо и хо — заданные числа, момент 1у не фиксирован. называется уравнением Беллмана. Здесь Я(х(1),1) — функция Беллмана, и она определяется следующим образом: сс Б(х(1),1) = пнп до(х(су), гу) + Я(х, и, т)с(т .
° еи сатксс с Сформулируем основной результат: Если функция Беллмана дифференцируема, то для того, чтобы допустимая пара (п(1), х(Ф)) для задачи (8.13) была ее решением, необходимо, чтобы она удовлетворяла уравнению Беллмана (8.14) при граничном условии Б(х(ту),гу) = до(х(ту),гу). (8.15) Если минимум в левой части уравнения (8.146) достигается во внутренник точках множества Гсс, то его можно записать в виде дБ дЯ Ях,п,с)+ — Г(х,п,г) = — —, дх ' ' дс' — ~,Го(х,п,т)+ — Г(х,п,1) =О, с'=1,2, ...,т.
(8.166) д Г дЯ ди,~ ' ' дх Уравнения (8.16б) выражают необходимое условие минимума левой части (8.146) и заменяют опущенную в уравнении (8.16а) операцию минимизации по управлению. Если правые части уравнений объекта н подынтегральное выраже-' ние в критерии оптимальности, т.е. функции Гс (с = О,1, ..., и), явно не зависят от времени, и конечный момент не фиксирован, то функция Беллмана не зависит явно от времени и ББ/дс = О. Оптимальное управление методом динамического программирования находится следующим образом: 1) из уравнений (8.16б) определяется управление как функция от Я: и' = и'(Я); 2) подставив и' = п*(Я) в уравнение (8.16а) и решив его при крае.вом условии (8.15), находится функция Веллмана; 3) подставив найденную функцию Беллмана в выражение и* = = ц*(Б), получают оптимальное управление как функцию фазовых координат.
8.4. й4еаод динамического программирования 21З Ре ш е н не. Воспользуемся методом динамического программирования и выпишем уравнения (8.16): дЯ дЯ дЯ х1 + и + — хз + — и = О, 2и + — = О. дх1 дх2 ' дхт 1 дЯ Из второго уравнения находим и = — — —. Подставим это выражение 2 дхт' в первое уравнение: 1 г'дЯ 2 дЯ хт~ — — ~ — 2 + — хз =О. 4 (чдхз/ дх~ Нужно решить это уравнение при граничном условии Я(х(1у)) = О. Будем искать решение в виде квадратичной формы Я = ацхз+ 2а12х~хт+ атзх22, которая в силу краевых условий удовлетворяет указанному граничному условию. Подставив это выражение в уравнение Беллмана, получим 1 х~~ — -(2а~тх1 + 2азтхт) + (2а~ ~х~ + 2а~зхт)хт = О, 4 нлн (1 — азы)х~~ + (2аи — 2апатг)х|хз+ (2аш — а222)х2 2— — О. Последнее равенство будет выполняться тождественно, если 1 — а|2 - — О, 2аы — 2агза22 = О, 2а~з — а22 = О. 2 2 Эта система имеет следующие решения: аш = 1, а22 = хч'2, аы = хьГ2.