XV Ванько В.И., Ермошина О.В., Кувыркин Г.Н. Вариационное исчисление и оптимальное управление (1081425), страница 38
Текст из файла (страница 38)
Рассмотрим задачу оптимальной одноосной стабилизации космического аппарата с помощью маховика*. Пусть космический аппарат, управляемый гироскопом-маховиком, имеет одну степень свободы, связанную с угловым движением аппарата вокруг неподвижной оси., проходящей через его центр масс. Обозначим через вв угол отклонения аппарата от заданного направления, а через ю угловую скорость вращения маховика относительно аппарата. Тогда при определенных допущениях движение системы космический аппарат маховик относительно неподвижной оси можно описать системой уравнений 293 В.2. Уравнение Беллмана где и — управляющее напряжение; Й и 1 — - постоянные, характеризующие данный двигатель.
Будем считать, что на управление и нет никаких ограничений. Система (8.25) совместно с уравнением (8.26) приводится к уравнению 1 ~р = й(и — ср). Коэффициент с определяется из условия, что момент количества движения всей системы космический аппарат маховик равен нулю: (1а+ 1м)иа+ 1мю = О. Отсюда 1,+1, 1,+1м — и', с= 1м 1м Введя фазовые переменные х1 = у, х2 = ~р., получим стандартную форму уравнений движения: < х1 =хи, хв = ах2+ Ьи, (8.27) йе й где а = — —; б= —. 1 ' Зададим начальное состояние системы х(О) = хи.
В качестве целевого функционала выберем (8.28) где оы о2, ~3 некоторые положительные постоянные. Рассмотрим задачу нахождения управления, переводящего систему из начального состояния хи в конечное х(оо) = О и доставляющего минимум целевому функционалу (8.28).
Сформулированная задача --- один из вариантов задачи оптимальной стабилизации (см. Д.8.1). 294 8. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Рассматриваемую задачу можно интерпретировать как задачу с фиксированными концами и фиксированным временем Т = 1х1 процесса. Задача автономна, и функция Беллмана зависит только от состояния х. Уравнение Беллмана в данном случае имеет вид п11п(о1х1+огхг+ да + хг+ (ахг+ ба)) = О. (8.29) др др я Х1 Хг в= — —, Ь др (8.30) 23 дхг Подставив найденную функцию в уравнение (8.29), получим нелинейное уравнение в частных производных первого порядка: ,г 2 др др б / д11 ''1 о1х1+ ~2~2+ хг, + ~~~, — — 1, ) = О.
(8.31) дх1 дхг 4д 1 дхг) Краевыс условия для функции Беллмана И(х(со)) = 0 с учетом конечного состояния х1оо) = 0 принимают вид р(0) = О. Реше- ние будем искать в виде квадратичной формы: р(х1, тг) = Ах21+ 2Вх1 хг + Схгг (8. 32) с неизвестными коэффициентами. Подставим (8.32) в дифференциальное уравнение (8.31) и, пользуясь независимостью переменных х1, хг, приравняем нулю коэффициенты при различных произведениях переменных. Из системы трех уравнений с тремя неизвестными А, В, С по- лучим В 1То~Л б 1 А=— 6 а2132 + 6211ог+ 26131~о1д 1,2 Поскольку на управление и нет ограничений, для определения значения й, при котором достигается указанный минимум, приравняем нулю производную по и выражения в скобках. Получим 8.3, уравнение Беллмвяв в задач«бы«тродействия 295 /о~ а и* = — ~ — т,, + 'у' Б 1г Оптимальное управление найдено в зависимости от фазовьгх координат, т.е.
решена задача синтеза. Отметим, что синтезирующая функция линейна. 8.3. Уравнение Беллмана в задаче быстродействия Рассмотрим задачу оптимальноесг бьсетродейегпвил, с законом движения х = у(х, и), и Е Г, (8.33) начальным ссгссаоянссем х(0) =хг и конечным состоянием хсТ) = 2 Для этой задачи с фиксированными концами и свободным вр«менем Т процесса функция Бе.глмана зависит только от текущего состояния: р = р(х). Если допустить, что выполнены оба предположения (см. 8.2) о функции рп то необходимое условие оптимальности сведется к уравнению Беллманп. гшгг(1+ (8га«1р, у(х,и))) = О, пест ппп(8гас1р, у(х,и)) = — 1.
ьесг (8.34) Краевое условие имеет вид 1л(ха) = О. Если теперь для найденной функции гг вычислить — и восор дл пользоваться формулой (8.30), то мы получим явное выражение для оптимального управления: 296 8. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Очевидно,. что если (х*(ь), и*(г)) — - опьппмальньгй процесс с временем Т, то на отрезке [О, Т~ выполняется тождество (8.35) (8гайр(х Я), у(х (г),и (ь))) = — 1.
Функция га(х) имеет в этом случае простой смысл; ее зна гение в точке х равно времени оптимального по быстродействию перехода фазовой точки из положения х в фиксированное положение х~. Наглядную геометрическую интерпретацию допускает и уравнение Беллмана. Пусть объект находится в состоянии х. 1зассмотрим в фазовом пространстве поверхность УРовнЯ 1г(х) = ~л(х) = сопв$з пРохоДЯщУю чеРез этУ точкУ х. Эта поверхность представляет собой множество всех точек, из которых фазовая точка переходит в точку х~ за одно и то же время 1г(х). Из соотношения (8.34) следует, что гггах( — 8тас) 1г(х)г 1(х, и)) = 1. ьец Воспользуемся тем, что максимум в левой части равенства достигается при зна юнии и = и* оптимаяьноео управления, соответствующем состоянию х. Это означает, что „оптимальный вектор фазовой скорости" у(х,и') образует с вектором — 8гаг1 р(х) острый угол (оптимальный вектор направлен в сторону убывания функции р).
Другими словами, фазовая точка х(1) на отпггггмальной траскпгорап перемещается в сторону поверхности уровня функции гг с меньшим временем перехода гг(х). Заметим, что минимизация по и выражения в левой части (8.34) позволяет определить оптимальное управление и" как функцию от 8гаг1р.. При подстановке указанного значения и* в тождество (8.35) получим не содержащее и уравнение в частных производных первого порядка.
Решение этого уравнения должно удовлетворять краевому условию гз(хэ) = О. Если это решение удастся найти, то будет решена задача синтеза, так как будет найдена спнгпезпруюпгая функция., илиг другими 8.3. Ураввевве Беллыаяа в задаче быстродействия 297 словами, оптимальное управление как функция Фазовых коор- динат и' = и*(х). К сожалению, получить решение уравнения (8.35) удается лишь в простейших случаях.
Пример 8.3. Рассмотрим задачу оптимального быстродействия с законом движения < Х1 = Х21 Х2 Ъ с ограничением ~и~ ( 1 на скалярное, управление и(1), с перехот дом из начального состояния х = (х1, х2) в начало координат (см. 7.5). В этом случае уравнение Беллмана имеет вид ш1п(, х2+ и) = — 1, др др ~в~<1 дХ1 дХ2 (8.36) а краевое условие таково: р(о,о) =о. (8.37) др и = — я18п, дх2 Учтем это в уравнении Беллмана: (8.38) др др — х2 — — +1=0.
дХ1 дх2 (8.39) Согласно (8.38), оптимальное управление и' может принимать значения 1 и — 1. Рассмотрим на фазовой плоскости область 1 1, в которой и* = — 1, и область 11, в которой и* = 1. Предположим, что функция р непрерывна и имеет непрерывные частные производные по х1 и х2. Поскольку из постановки задачи выполнение этих условий не следует, дальнейшее решение носит эвристический характер.
Из уравнения (8.36) вытекает, что оптимальным является управление 298 8. 2ГИЕТОД ДИНАГИИНЕСКОГО ПРОГРАММИРОВАНИЛ В области 1, 1 уравнение (8.39) имеет вид др др — х2 — — +1=0, дх1 дх2 (8.40) а в области Л1 х2+, +1=0. др д/.4 Х1 Х2 (8.41) Решение неоднородного уравнения (8.40) будем искать в неявном виде И(р,х1,х2) = 0 (Ъ'ПЦ. Используя правило дифференцирования неявно заданной функции (У), находим Подставляя зти выражения в уравнение (8.40), получаем дР дР д1' Х2 дх1 дх2 д12 Записываем уравнение характеристик (УПЦ: ПХ1 ПХ2 ПР (8.42) "2 Отсюда, решая уравнение с разделяющимися переменными ах2 ах~ Х2 находим уравнение для оптимальных фазовых кривых в области А 1 (т.е.
при и* = — 1): Х2 , 2 х1+ — = С1, 2 (8.43) ди др д~, дх1 др ' д12 дР дя2 дх, др' ди 8.3. Уравнение Беллмана в задаче быстродействия 299 где С1 — постоянная интегрирования. Это уравнение дает первый инплеерал системы (8.42): 2 ~Р1(х1,х2) = х1+ —. 2 Несложно найти еще один первый интеграл, так как в этой системе еще одно уравнение имеет разделяющиеся переменные: 'Р21х1~х2) Р х2 Зная два первых интеграла, мы можем записать общее решение уравнения в частных производных: Ф(р — х2 х1+ — ") = О, где Ф(р1,у2) — произвольная непрерывно дифференцируемая функция.
Предположим, что уравнение Ф(ул1,~р2) = О можно разрешить относительно первого аргумента в виде ~р1 = тл (~р2). Тогда мы можем записать '2 1 Р = хе+ Н(х1+ =), (8.44) т.е. получим вид выражения для функции Беллмана в области Ь-1. Аналогично рассматривается ситуация в области Т1. Мы получаем уравнение оптимальных фазовых кривых в виде 2 Х1 — — = С. = СОПВ1 2 2 (8.45) и вид выражения для функции Беллмана ,в Р= — х2+О( — х,+ — "~.
2) (8.46) Формулы (8.44) и (8.46) дают лишь представление о структуре решения уравнения Беллмана, так как в них входит неизвестная функция. Но, зная уравнения (8.43), (8.45) для оптимальных фазовых кривых, мы можем найти и функцило Беллмана. Для этого на плоскости х10х2 строим оптимальную 300 8. МЕТОД ДИНАМИ'1ЕСИОГО Н1сОГРАММИРОВАНИЯ 1с с,2 1с(хмх21 = 2~/л:1+ — '+ х2,. 2 (8.47) а для точки х ниже линии переключения— п(хмхя) = 2 — х1+ — ' — х2. (8.48) Непосредственной подстановкой можно убедиться, что функции (8.47) и (8.48) являются решениями уравнений (8.40) и (8.41) соответственно.