rpd000003080 (1012242), страница 9
Текст из файла (страница 9)
Для приведенной выше дискретной стохастической системы выражение для функции будущих потерь принимает вид:
где
Ранее мы получили структуру оптимального управления для линейной дискретной системы:
Переходя к пределу при , получим решение исходной непрерывной задачи
Подход 2 предполагает непосредственное использование достаточных условий оптимальности для непрерывной системы.
Найдем коэффициенты сноса и диффузии для рассматриваемого марковского случайного процесса. По определению
Это следует из того, что
Поскольку
Получаем
Тогда
Из условия минимума по управлению выражения в правой части находим структуру оптимального управления
Подставляя выражение для оптимального управления в уравнение для функции будущих потерь, имеем
Поскольку
Получим:
Отсюда следует:
С учетом (18.29)
То есть в обоих случаях мы получаем одно и тоже решение задачи оптимального управления для линейной стохастической системы.
ТЕМА 6.doc
Тема 6. Стохастические задачи синтеза оптимального управления по полной информации. Линейные дискретные системы, оптимизируемые по квадратичному критерию.
Для иллюстрации применения достаточных условий оптимальности рассмотрим задачу коррекции траектории движения летательного аппарата. Предполагается, что процесс коррекции описывается следующей моделью:
где вектор характеризует отклонение вектора состояния ЛА от расчетного перед проведением
-ой коррекции;
- корректирующее воздействие в момент
;
- заданные матрицы;
- центрированная случайная величина с заданной дисперсией
, которая характеризует ошибки реализации управляющего (корректирующего) воздействия, пропорциональные величине этого воздействия (мультипликативное возмущение);
- центрированный случайный вектор с корреляционной матрицей
, который характеризует ошибки реализации управляющего воздействия, не зависящие от величины самого воздействия (аддитивное возмущение).
В качестве критерия оптимальности примем ожидаемое значение показателя, учитывающего энергетические затраты, необходимые для проведения коррекции, и конечную точность.
Запишем рекуррентное соотношение для рассматриваемой задачи
Граничным условием для приведенного рекуррентного соотношения является следующее:
Запишем функцию будущих потерь для последнего момента управления
Раскроем математическое ожидание:
Учитывая, что
- центрированные случайные величины, а
- центрированные случайные векторы в окончательном виде получаем
Тогда выражение для функции будущих потерь примет вид
После проведения необходимых преобразований получим:
Здесь
Найдем минимум функции будущих потерь. Для этого воспользуемся необходимыми условиями экстремума:
Вычислим производную:
Откуда
Убедимся, что найденное управление доставляет минимум функции будущих потерь. Для этого вычислим :
Поскольку , а матрицы
являются положительно-определенными (
- по условию задачи, а
- в силу способа вычисления), то матрица
также положительно-определенная, а значит, управление
является оптимальным в смысле минимума функции будущих потерь.
С учетом полученного выражения (17.11) для оптимального управления для функции будущих потерь из (17.8) получаем:
где
По индукции убеждаемся, что для любого шага функционирования динамической системы функция будущих потерь может быть представлена в виде:
Это выражение безусловно справедливо для шага , причем
Предположим, что приведенное выше выражение сохраняет свою структуру для любого шага , то есть
Тогда из (17.7) с учетом (17.15) следует справедливость выражений
Причем
При этом, закон оптимального управления имеет вид
Применяя к полученному управлению достаточные условия минимума (вычислив
убеждаемся, что это управление сохраняет свою оптимальность , если матрица
- положительно определенная.
Таким образом, функция будущих потерь в задаче управления линейной дискретной системой с квадратичным критерием качества имеет квадратинцю структуру .
Матрица и коэффициент
, входящие в выражение для функции будущих потерь определяются на основе рекуррентных выражений
при граничных условиях
Алгоритм оптимального управления является линейным по фазовым переменным. По форме он совпадает с ранее рассмотренным алгоритмов для детерминированной системы. Разница заключается в том, что коэффициент обратной связи, определяемый матрицей в данном случае зависит от статистических свойств мультипликативного возмущения
. Если же это возмущение отсутствует, то есть
, то матрица обратной связи
определяется также, как и в детерминированном случае.
Иными словами при наличии только аддитивных возмущений алгоритм оптимального управления линейной стохастической системой полностью совпадает с алгоритмом оптимального управления детерминированной системой. Аддитивные возмущения оказывают влияние лишь на величину критерия оптимальности через параметр . Наличие же мультипликативного возмущения приводит к изменения самого оптимального управления (в данном случае структура зпкона управления не изменяется, но изменяются его параметры)
ТЕМА 2.doc
Тема 2. Достаточные условия оптимальности управления для случая непрерывной динамической системы. Принцип оптимальности Беллмана. Связь между динамическим программированием и принципом максимума
11.1. Достаточные условия оптимальности управления для случая непрерывной динамической системы. Принцип оптимальности Беллмана.
Перейдем теперь к решению задачи синтеза оптимального управления непрерывной динамической системой вида
где - вектор ткущего состояния системы размера
,
- вектор управления размера
, на который наложены ограничения
;
- вектор-функция размера
, время функционирования системы ограничено
. В качестве критерия оптимальности как и в случае дискретной системы рассмотрим критерий общего вида:
Для того, чтобы воспользоваться ранее полученными результатами дискретизируем исходную непрерывную систему, для чего период функционирования системы разобьем на конечное число интервалов дискретизации
.
Запишем разностные аналоги выражений (11.1), (11.2):
Воспользуемся ранее полученными рекуррентными соотношениями для выше приведенных разностных аналогов:
Предположим, что функция будущих потерь для каждого шага является дифференцируемой. Разложим функцию
в ряд Тейлора в окрестности точки
где через обозначены члены более высокого порядка малости по сравнению с
.
С учетом вышеприведенного разложения выражение для функции потерь примет вид
Поскольку функция явным образом от управления
не зависит, справедлива запись
Перепишем последнее равенство в виде
Переходя к пределу при , получим выражение:
которое называется уравнением Беллмана. Оно представляет собой уравнение в частных производных относительно функции будущих потерь . При решении этого уравнения необходимо имеет ввиду граничное условие
Таким образом функция будущих потерь , равная по определению минимальному значению критерия при движении системы из состояния
в момент времени
,
может быть определена как решение задачи Коши (11.10) для дифференциального уравнения в частных производных. Попутно из условия минимизации правой части определяется закон оптимального управления . Решение этой задачи возможно лишь численно. При этом рекуррентное соотношение (11.5) представляет собой один из алгоритмов приближенного решения.
11.2. Связь между динамическим программированием и принципом максимума.
Оказывается, что между функцией будущих потерь и сопряженным вектором
в принципе максимума существует определенная связь. Проиллюстрируем эту связь на примере задачи Лагранжа вида:
Перейдем теперь к решению задачи синтеза оптимального управления непрерывной динамической системой вида
Перепишем функцию Беллмана (11.10) в следующем виде:
и введем в рассмотрение вектор
где
и вектор-функцию
Введем в рассмотрение вектор
где
С учетом введенных обозначений, компоненты вектора равны:
Тогда (11.13) можно представить в следующем виде:
где аналог гамильтониана
В скалярной записи
Таким образом, мы пришли к формулировке принципа максимума.