rpd000003080 (1012242), страница 8
Текст из файла (страница 8)
В данном случае мы предполагаем, что на каждом шаге управления вектор состояния динамической системы может быть точно измерен, то есть имеет место задача управления по полной информации
Как и в случае детерминированной системы введем функцию будущих потерь
представляющую минимальное значение критерия (16.2), которое может быть достигнуто при оптимальном управлении системой (16.1), начиная с момента состояния
. Символ
означает условное математическое ожидание.
Рассмотрим сначала последний момент управления .
Здесь через обозначена условная плотность вероятностей вектора
при фиксированных
. Интеграл в последнем выражении следует понимать как многомерный с областью интегрирования, совпадающей с областью изменения вектора
.
Функция будущих потерь для последнего момента управления
В результате решения вышеприведенной задачи минимизации определяется управление и соответствующая ему функция будущих потерь
.
Перейдем теперь к моменту управления . В соответствии с принципом оптимальности Беллмана управление
находится из условия минимума суммы
Функция будущих потерь для шага управления
по определению представляет собой минимальное по управлению значение вышеприведенной суммы
Поскольку второе слагаемое в приведенном выражении есть условное математическое ожидание при фиксированных , выражение для функции будущих потерь можно представить в виде
Раскроем выражение для математического ожидания, учитывая, что процесс смены состояний динамической системы представляет собой марковский случайный процесс:
Областями интегрирования для многомерного интеграла в последнем выражении являются области изменения векторов ,
. Этот интеграл можно представить в виде:
С учетом полученного выражения вычислим
Поскольку управление явным образом входит во внутренний интеграл выражение для условного математического ожидания в окончательном виде можно представить как
Таким образом, получили следующее выражение для функции будущих потерь
Повторяя описную процедуру для моментов приходим к следующему рекуррентному соотношению для функции будущих потерь
Граничным условием для приведенного рекуррентного соотношения является следующее:
Применяя рекуррентное соотношение (16.4) последовательно, начиная с шага до начального момента
, с учетом граничного условия (16.5) получаем значение
, представляющее собой минимальное значение критерия, то есть:
Другими словами управляющая последовательность , вычисленная в соответствии с рекуррентным соотношением (16.4) с учетом граничного условия (16.5), оптимальна. Это значит, что полученное рекуррентное соотношение в сочетании с граничным условием можно рассматривать как достаточные условия оптимальности управления стохастической системой.
Применительно к задаче управления конечным состоянием, то есть к задаче управления динамической системой (16.1) с критерием оптимальности
рекуррентное соотношение (16.4) упрощается и принимает вид:
Граничным условием для данного выражения, как и ранее, является
ТЕМА 7.doc
Тема 7. Достаточные условия оптимальности при непрерывном управлении. Стохастическое уравнение Беллмана. Линейные непрерывные системы, оптимизируемые по квадратичному критерию.
7.1. Стохастическое уравнение Беллмана.
Перейдем теперь к решению задачи синтеза оптимального управления непрерывной динамической системой вида
где - вектор ткущего состояния системы размера
,
- вектор управления размера
, на который наложены ограничения
;
- вектор-функция размера
, время функционирования системы ограничено
. Поскольку практически любое случайное возмущение можно представить как результат прохождения белого шума через некоторую динамическую систему, называемую формирующим фильтром, то не ограничивая общности изложения будем полагать, что
- белый шум с характеристиками
где - функция Дирака,
- матрица интенсивностей белого шума.
В качестве критерия оптимальности рассмотрим критерий вида:
Для получения достаточных условий оптимальности в этом случае, как и в детерминированной задаче, проведем дискретизацию системы (18.1) с шагом , представив непрерывный белый шум в виде дискретной последовательности случайных независимых векторов
с характеристиками
Тогда, в дискретном представлении модель исходной непрерывной динамической системы можно записать как
При сделанных предположениях относительно статистических свойств случайных векторов , случайный процесс, описываемый разностным уравнением (18.3) можно считать марковским.
Критерий оптимальности в дискретном представлении запишется как
Воспользуемся ранее полученными рекуррентными соотношениями для выше приведенных разностных аналогов:
Предположим, что функция будущих потерь для каждого шага является дифференцируемой и имеет частные производные первого и второго порядков. Разложим функцию
в ряд Тейлора в окрестности точки
с учетом двух членов разложения
Для того, чтобы вычислить математическое ожидание необходимо учесть следующее:
-
функция будущих потерь
представляет собой минимальное значение критерия, которое будет достигнуто при движении, начиная с шага
при условии, что состояние
и управление
на шаге
фиксировано и известно точно (то есть
- неслучайный вектор). Следовательно, производная
, как функция неслучайного аргумента, также является неслучайной функцией и, следовательно, может быть вынесена за операцию математического ожидания. Это справедливо и в отношении матрицы вторых производных
;
-
в силу сделанных предположений возмущения представляют собой дискретную последовательность независимых случайных векторов
, следовательно, вектора
,
- статистически независимы.
Тогда,
Можно убедиться, что
Убедимся в справедливости этого равенства на простом примере:
- случайный вектор, компоненты которого представляют собой независимые случайные числа (аналоги векторов
,
)
- неслучайная матрица (аналог матрицы
).
Вычислим математическое ожидание
Теперь вычислим математическое ожидание
След этой матрицы равен сумме ее диагональных элементов
То есть:
С учетом всего сказанного выше выражение (18.5) можно представить в виде:
Это выражение эквивалентно следующему:
Последнее выражение, в свою очередь, можно записать как
Вектор
в приведенном выше выражении характеризует математическое ожидание смещения марковского процесса из состояния в момент времени
за время
при управлении
и называется коэффициентом сноса марковского процесса.
Матрица
характеризует ковариационную матрицу смещения марковского процесса из состояния в момент времени
за время
при управлении
и называется матрицей коэффициентов диффузии марковского процесса.
Уравнение (18.9) часто называют стохастическим уравнением Беллмана. Это уравнение представляет собой достаточные условия оптимальности в рассматриваемой задаче. Это очевидным образом следует из определения функции будущих потерь , представляющей минимальное значение критерия, которое будет достигнуто при движении, начиная с момента времени
при условии, что состояние
и управление
момента времени
фиксированы
Очевидно, что
Решая уравнение Беллмана находим функцию будущих потерь и одновременно закон оптимального управления
.
7.2. Линейные непрерывные системы, оптимизируемые по квадратичному критерию.
Рассмотрим решение задачи синтеза оптимального управления для линейной стохастической системы вида:
где
- случайный процесс типа «белый шум»с характеристиками:
В качестве критерия оптимальности рассмотрим квадратичный критерий вида:
Матрицы являются функциями времени
- положительно определенные матрицы.
Рассмотрим два подхода к решению сформулированной задачи
Подход 1 предполагает переход от исходной непрерывной системы к ее дискретному аналогу и последующее использование для нее достаточных условий оптимальности.
Дискретный аналог системы (18.12) имеет вид:
Здесь - дискретная последовательности случайных независимых векторов с характеристиками
Критерий оптимальности в дискретном представлении записывается как:
В приведенных выше выражениях: