rpd000003080 (1012242), страница 6
Текст из файла (страница 6)
Поскольку в выражение для функции будущих потерь входят неизвестные нам векторы состояния динамической системы, а не их измерения, то для вычисления математического ожидания необходимо знание условных плотностей:
- плотности, задающей распределение значений фазовых координат динамической системы в момент времени
, при условии, что измерения
, накопленные к этому моменту времени фиксированы.
плотности, задающей распределение измерений фазовых координат динамической системы в момент времени
, при условии, что измерения
, накопленные к этому моменту времени фиксированы.
Получение оценок указанных многомерных условных функций плотности чрезвычайно сложная задача, поскольку необходимо учитывать все прошлые и настоящие измерения .
Вычисление математического ожидания можно несколько упростить, если предположить существование некоторого вектора
, называемого вектором достаточных координат дли статистик, который является функцией от вектора
и удовлетворяет следующим требованиям:
-
знание вектора
достаточно для определения оптимального управления
и функции будущих потерь
. По-существу это означает, что плотность типа
может быть представлена как
;
-
информации о векторе
достаточно для определения будущей эволюции динамической системы, то есть для моментов времени
.
При наличии вектора , обладающего указанными свойствами рекуррентное соотношение (19.4) можно представить в виде:
причем краевое условие для этого рекуррентного соотношения сохраняется
Использование рекуррентного соотношения (19.6) вместо (19.4) позволяет упростить решение задачи синтеза оптимального управления, поскольку функция будущих потерь теперь зависит от вектора , размерность которого фиксирована для всех моментов времени, в отличие от вектора
, размерность которого увеличивается с ростом шага
.
С учетом введенного понятия достаточных координат исходная задача синтеза оптимального управления по неполной информации разделяется на две:
1) определение достаточных координат;
2) определение оптимального управления как функции достаточных координат.
Соответственно оптимальный регулятор, реализующий решение задачи синтеза, в этом случае состоит из двух блоков:
- блок обработки измерительной информации;
- блок оптимального управления.
Разработку этих блоков в общем случае необходимо проводить совместно, однако в некоторых случаях, например для линейных систем с аддитивными возмущениями и квадратичным критерием оптимальности справедлива теорема разделения, согласно которой задача определения достаточных координат может быть решена независимо от задачи синтеза собственно оптимального управления.
8.2 Оптимальное управление линейной дискретной системой при наличии аддитивных возмущений.
Рассмотрим задачу синтеза оптимального управления системой, описываемой линейным дискретным стохастическим уравнением с аддитивными возмущениями:
Будем считать, что на каждом шаге функционирования системы измерению доступен не сам вектор состояния , а вектор
, связанный с вектором
линейным уравнением измерений :
В качестве критерия оптимальности примем квадратичный критерий
Предположим также, что - независимые гауссовские случайные векторы с характеристиками:
Прежде всего необходимо определить достаточные координаты в данной задаче. Для этого воспользуемся формулой Байеса и найдем апостериорную плотность вероятностей:
В последнем выражении - измерение вектора
в момент времени
, а
- все предшествующие измерения, накопленные к моменту времени
Введем следующие обозначения:
- апостериорное математическое ожидание вектора
по измерениям
;
- корреляционная матрица вектора
по измерениям
.
- математическое ожидание вектора
по измерениям
;
- корреляционная матрица вектора
по измерениям
.
По смыслу вектор есть ни что иное, как прогнозируемое на один шаг вперед значение вектора
,
- корреляционная матрица, характеризующая точность прогноза. Учитывая уравнение динамической системы (19.7) можно записать:
Раскрывая операцию математического ожидания в последнем выражении с учетом соотношения для , получим
По определению
Условную плотность , входящую в формулу Байеса (19.12), учитывая , что эта плотность – гауссовкая, можно записать в явном виде:
Кроме того, справедливы соотношения
С учетом этих соотношений условная плотность
Из модели измерителя (19.8), с учетом оценок для математического ожидания (19.13) и корреляционной матрицы
(19.14) можно получить:
Поэтому,
Подставим полученные выражения для условных плотностей в формулу Байеса, в результате получим:
где
Введем обозначения:
Кроме того, имеет место матричное тождество:
Тогда (19.25) можно записать в виде квадратичной формы:
С учетом этого условная плотность (19.24) примет вид:
Из последнего выражения следует, что вектор и матрица
являются соответственно апостериорным математическим ожиданием и апостериорной корреляционной матрицей вектора
при заданных измерениях
. Соотношения (19.26),(19.27) известны как уравнения дискретного фильтра Калмана, в котором вектор
дает оптимальную в смысле максимума апостериорной вероятности оценку вектора состояния динамической системы по всем прошлым и настоящим измерениям, а матрица
характеризует точность этой оценки.
Из (19.27) и (19.14) следует, что корреляционная матрица не зависит от конкретных измерений и управлений. Она полностью определяется свойствами динамической системы и измерительного тракта (через матрицы
), а также статистическими характеристиками
возмущений и погрешностей измерений. Это значит, что корреляционная матрица
может быть рассчитана заранее. Это, в свою очередь, означает, что апостериорная плотность
в любой момент времени полностью определяется вектором
и может быть представлена в виде
. Как следует из (19.13), (19.27), используя вектор
можно описать и будущее состояние системы. Отсюда следует, что вектор
является вектором достаточных координат в данной задаче.
Теперь можно перейти к синтезу оптимального управления как функции достаточных координат. Для этого преобразуем выражение (19.27) для вектора , представив (19.26) в следующем виде:
Подставим это выражение в (19.27), учитывая при этом выражение (19.13) для вектора :
где
С учетом (19.7), (19.8) последнее выражение может быть приведено к виду:
Последнее выражение позволяет конкретизировать статистические свойства вектора , в частности:
Итак, можно записать выражение, описывающее эволюцию достаточных координат:
причем
Воспользуемся рекуррентным соотношением метода динамического программирования:
Это выражение с точностью до обозначений повторяет рекуррентное соотношение для задачи синтеза оптимального управления по полной информации. Поэтому, используя ранее полученные выражения, запишем следующие соотношения для функции будущих потерь:
где
Оптимальное управление имеет структуру
Краевые условия для приведенных выше рекуррентных соотношений имеют вид
Таким образом, в линейных системах с квадратичным критерием оптимальности при аддитивных гауссовских возмущениях оптимальный стохастический регулятор представляет собой последовательное объединение:
-
фильтра Калмана для получения вектора достаточных координат;
-
устройства оптимального детерминированного управления.
Данный результат, известный в литературе под названием теоремы разделения , находит широкое применение для получения приближенного решения нелинейных задач, когда задачу синтеза оптимального управления при неполно1 информации разбивают на две задачи, решаемые независимо: задачу получения оптимальных оценок вектора фазовых координат и задачу определения оптимального управления по полным данным. Возможность подобного подхода обусловлена тем, что блок оптимальной оценки демонстрирует хорошую сходимость оценки к истинному вектору фазовых координат.
ТЕМА 10.doc
Тема 10. Минимаксные (игровые) задачи синтеза оптимального управления.
Все рассмотренные ранее задачи оптимального управления предполагали, что:
-
возмущения вообще отсутствуют (детерминированные задачи оптимального управления);
-
известны все статистические характеристики возмущений, действующие на динамическую систему в процессе управления (стохастические задачи оптимального управления).
Однако, достаточно часто в практических задачах, информация которой мы располагаем в процессе оптимизации управления оказывается неполной. Подобная ситуация возникает, например, тогда, когда статистические характеристики возмущений известны лишь с точностью до параметров. То есть известно, что возмущения являются гауссовскими, но величины математических ожиданий и дисперсии точно не известны, представления об этих характеристиках ограничены лишь допустимыми диапазонами их значений. В более тяжелых ситуациях статистические характеристики возмущений вообще неизвестны. Единственная информация о возмущениях ограничена тем, что их абсолютные значения не превосходят некоторых значений. Во всех этих случаях мы сталкиваемся с необходимостью решения задачи управления в условиях неопределенности.
Наиболее распространенной основой для решения задач управления в подобной ситуации является так называемый минимаксный (гарантирующий) подход. В рамках такого подхода оптимальным полагается управление которое доставляет минимум наибольшему (по всем возможным возмущениям) значению критерия. Значение критерия, соответствующее этому управлению называют гарантированным, а саму стратегию управления – гарантирующей.