rpd000003080 (1012242), страница 10
Текст из файла (страница 10)
Получим теперь каноническую систему уравнений. Легко убедиться, что имеет место соотношение:
Для того, чтобы получить уравнение для сопряженного вектора предположим, что функция потерь
имеет вторые частные производные, то есть дважды дифференцируема. Продифференцируем по времени выражение для
, получим
Ранее упоминалось что на оптимальной траектории значение гамильтониана , следовательно
Отсюда следует
Поскольку, по определению
а также, как мы убедились,
имеем:
или
Учитывая, что
последнее выражение можно записать иначе
Т.о., сопряженный вектор , участвующий в записи принципа максимума, является антиградиентом функции
(
) по расширенному вектору состояния
. Мы убедились, что уравнение Беллмана эквивалентно принципу максимума. Практическое значение подобной связи появляется в том, что с вычислительной точки зрения решить краевую задачу, к которой приводит принцип максимума, легче, чем уравнение в частных производных.
ТЕМА 4.doc
Тема 4. Численные процедуры метода динамического программирования. Аппроксимация функции будущих потерь. Метод параметров. Концепция возмущенно-невозмущенного движения.
4.1 Численные процедуры метода динамического программирования. Аппроксимация функции будущих потерь. Метод параметров.
Условия оптимальности, к которым приводит метод динамического программирования, могут быть положены в основу приближенных методов для определения оптимального управления.
Рассмотрим решение задачи синтеза оптимального управления непрерывной динамической системой вида
где - вектор ткущего состояния системы размера
,
- вектор управления размера
, на который наложены ограничения
;
- вектор-функция размера
, время функционирования системы ограничено
. В качестве критерия оптимальности как и в случае дискретной системы рассмотрим критерий общего вида:
Используя ранее применявшуюся процедуру дискретизации исходной непрерывной системы, приходим к основному рекуррентному соотношению метода динамического программирования:
которое с учетом граничного условия
дает формально алгоритм получения численного решения задачи. Однако аналитического выражения для функции будущих потерь получить не удается. Задачу можно решить приближенно, если функцию будущих потерь на каждом шаге аппроксимировать некоторой зависимостью вида
где - параметры, конкретные значения которых зависят от выбранного метода аппроксимации. Например, значения
можно выбирать из условия минимума квадратической ошибки
В этом выражении под понимаются некоторые характерные точки из допустимого множества векторов
; через
обозначены значения функции будущих потерь, рассчитанные в точках
.
Дифференцируя (13.4) по и приравнивая производные нулю, получим:
или
где
обеспечивающий наилучшее в смысле квадратического критерия приближение функции будущих потерь.
При выборе структуры функций необходимо учитывать краевое условие для функции будущих потерь
Рассмотренный метод параметров легко распространяется и на непрерывный случай, то есть он может быть применен для приближенного решения уравнения Беллмана.
Будем искать функцию будущих потерь в виде
где
- функции времени, определяемые из условия:
где Х- множество допустимых векторов.
Отсюда получаем
или
где
С целью придания соотношению (13.16) вида рабочего алгоритма продифференцируем его по времени:
Производную , входящую в (13.17) можно приближенно определить, воспользовавшись уравнением Беллмана (13.10) и представлением (13.12), из которого следует
Тогда уравнение для определения вектора примет вид:
Граничное условие для вектора получаем из соотношения
4.2. Концепция возмущенно-невозмущенного движения.
При решении задач синтеза оптимального управления нелинейными динамическими системами
обеспечивающего минимум функционала
часто оказывается возможным выделить примерные (достаточно небольшие) области допустимых начальных и конечных
условий. В этом случае логично следующий метод приближенного решения задачи . Выберем некоторые точки
и
, наиболее предпочтительные. Обозначим через
оптимальную программу управления , обеспечивающую перевод из
в
. Траекторию
, соответствующую этой программе управления назовем невозмущенным программным движением. Отклонение начального вектора
от опорного
, а также влияние неучтенных факторов приведут к отклонению фактической траектории движения от траектории невозмущенного движения.
Для математического описания траектории возмущенного движения воспользуемся процедурой линеаризации. Для этого представим в каждый момент времени
Тогда из (13.21) получим уравнение в отклонениях:
Матрицы зависят от программного управления
. Для того, чтобы приблизить траекторию возмущенного движения к программной траектории, поставим задачу выбора такого закона управления
системой (13.25), который позволил бы минимизировать отклонение от программного движения. В качестве еры отклонения можно использовать, например, квадратичный критерий оптимальности вида:
где матрицы выбираются, исходя из конкретных технических условий. Задача управления системой (13.24) с критерием (13.26) также может оставаться достаточно сложной в силу наличия ограничений на управление. Можно применить дальнейшее упрощение задачи, заменив ограничение в (13.24) на интегральное. Тогда критерий (13.26) примет вид:
Матрица в выражении для критерия подбирается так, чтобы удовлетворялось ограничение
. Задача (13.24) с квадратичным критерием (13.27) есть задача управления линейной системой с квадратичным критерием качества. Ее решение было получено ранее и имеет следующий вид:
Заметим, что матрица зависит от программного управления
. Таким образом приближенное решение исходной задачи синтеза (13.21),(13.22) может быть представлено в виде:
ТЕМА 1.doc
Тема 1. Синтез оптимального управления детерминированными динамическими системами Достаточные условия оптимальности управления для случая дискретной динамической системы. Основные рекуррентные соотношения.
Задачи синтеза возникают в тех случаях, когда на объект управления действуют возмущения. Поясним это на примере управления траекторией ЛА. Допустим, что целью управления является выведение ЛА в заданную конечную точку. Если предположить, что точно известно начальное состояние ЛА и действующие на него в полете силы, то задача определения управления сводится к задаче программирования, в результате решения которой будет найдено управление как функция времени.
Однако, реальное движение происходит в условиях, существенно отличающихся от расчетных. Это приводит к тому, что ЛА никогда не будет двигаться вдоль программной траектории. Если ЛА не снабдить специальной системой коррекции, то реальное движение может сколь угодно отличаться от расчетного, а значит, цель управления не будет достигнута. Таким образом, возникает задача синтеза управления, т.е задача формирования закона управления как функции текущего состояния динамической системы. Математической основой решения задач синтеза оптимального управления являются достаточные условия оптимальности, к обсуждению которых мы перейдем.
Сначала рассмотрим случай управления дискретной детерминированной системой.
где - вектор состояния динамической системы на текущем шаге ее функционирования размера
((индекс
в (10.1) указывает на конкретный шаг функционирования). Предполагается, что на каждом шаге функционирования вектор состояния ДС доступен измерению и измерения проводятся абсолютно точно;
- вектор управления размера
;
- непрерывно-дифференцируемая вектор-функция, описывающая изменение состояния динамической системы на каждом шаге функционирования. На каждом шаге функционирования ДС на управления накладываются ограничения
.
В качестве критерия оптимальности рассмотрим критерий оптимальности общего вида
Рассмотрим последний момент управления . В основе дальнейших рассуждений лежит принцип оптимальности, который гласит, что управление
не зависит от предыстории системы и полностью определяется состоянием
и целью управления, которая заключается в минимизации суммы
Минимизируя последнее выражение по для различных
, найдем искомый закон управления
в момент
. Введем обозначение