rpd000003080 (1012242), страница 5
Текст из файла (страница 5)
где - вектор ткущего состояния системы размера
,
- скалярное управление размера, на которое наложены ограничения
.
В качестве критерия оптимальности выступает квадратичный критерий вида:
Здесь: - переменные матричные коэффициенты соответствующей размерности, причем
- симметричная, положительно-определенная матрица.
Схема решения. Напомним, что функция будущих потерь представляет собой минимальное значение критерия, которое будет достигнуто системой при движении из текущего состояния. Поскольку в данном случае рассматривается управление на бесконечном интервале времени, а критерий оптимальности описывается квадратичной зависимостью, можно считать оптимальным такое управление, которое обеспечит значение критерия равное нулю. То есть, можно искать оптимальное управление из условия
Из условия минимума непосредственно следует:
или
Отсюда следует следующая структура управления при наличии ограничений
Сложность решении приведенного выше уравнения Беллмана состоит в том, что для всего пространства фазовых переменных не существует единственного выражения для функции будущих потерь
. Действительно, с учетом полученной структуры управления, выражения для функции будущих потерь имеют вид:
Обозначим через такую область фазового пространства
, при движении из любой точки которой управление
не выходит за границу допустимого, то есть в области
всюду выполняется условие
. В этом случае функция будущих потерь
определяется путем решения уравнения
Функцию потерь будем искать в виде квадратичной формы
Подставив это выражение в вышеприведенное уравнение, найдем матрицу как результат решения матричного алгебраического уравнения:
Подставив в выражение для оптимального управления производную убеждаемся , что управление имеет линейную структуру
где
Так как в области всюду выполняется условие
, следовательно эта область представляет собой полосу, заключенную между двумя плоскостями в фазовом пространстве:
Ранее отмечалось, что представляет такую область фазового пространства
, при движении из любой точки которой, управление
не выходит за границу допустимого. Иными словами полоса заключенная между приведенными на рисунке плоскостями совпадает с областью
только в том случае, когда все траектории, начинающиеся в этой полосе, не выходят из нее. В противном случае область
является только частью этого слоя. Ее дополнительными границами являются траектории Г3 , Г4, касающиеся плоскостей Г1 , Г2
Мы определили область и функцию будущих потерь
. Попытаемся теперь расширить решение для функции будущих потерь
на все пространство, обеспечив гладкое склеивание траектории вдоль границ области. С этой целью исследуем области пространства N+ , N- , при движении в которых оптимальное управление принимает предельные значения
. Очевидно, что одними из границ этих областей являются гиперплоскости Г1 , Г2.
. Действительно, рассмотрим семейства траектории , которые попадая в область пересекают ее границы. На рисунке в качестве примера подобных траекторий приведены траектории СВО и С*В*О. На участках ВО, В*О. оптимальное управление и значения функции будущих потерь были нами определены ранее. На участках СВ и С*В* ,управления равны предельным значениям
, функции будущих потерь
определяются условиями:
То есть мы имеем дифференциальные уравнения, решением которых и являются интересующие нас функции будущих потерь . В точках перехода через границы Г1 , Г2. должны выполняться условия склейки:
При выполнении этих условий траектории СВО и С*В*О. образуют границы областей N+ , N- , обеспечивающие решение поставленной задачи. Другими границами этих областей являются траектории Г5 , Г6, рассчитанные при ,
соответственно такие, которые пересекают гиперплоскости Г1 , Г2. в тех же точках, что и траектории Г3 , Г4, . При этом должны выполняться условия склейки:
.
Вопросы к зачету.doc
-
Синтез оптимального управления детерминированными динамическими системами Достаточные условия оптимальности управления для случая дискретной динамической системы. Основные рекуррентные соотношения.
-
Достаточные условия оптимальности управления для случая непрерывной динамической системы. Принцип оптимальности Беллмана.
-
Связь между динамическим программированием и принципом максимума
-
Синтез оптимального управления линейной системой при наличии ограничений на управление.
-
Численные процедуры метода динамического программирования. Метод последовательных приближений.
-
Численные процедуры метода динамического программирования. Аппроксимация функции будущих потерь. Метод параметров.
-
Стохастические задачи синтеза оптимального управления по полной информации. Достаточные условия оптимальности при дискретном управлении.
-
Синтеза оптимального управления линейной дискретные системой, оптимизируемой по квадратичному критерию, по полной информации.
-
Достаточные условия оптимальности при непрерывном управлении. Стохастическое уравнение Беллмана.
-
Синтез оптимального управления линейной непрерывной системой, оптимизируемой по квадратичному критерию.
-
Оптимальное дискретное управление при неполной информации. Понятие достаточных координат.
-
Оптимальное управление линейной дискретной системой при наличии аддитивных возмущений.
-
Оптимальное управление линейной непрерывной системой при наличии аддитивных возмущений.
-
Минимаксные задачи синтеза оптимального управления.
ТЕМА 8.doc
Тема 8. Оптимальное дискретное управление при неполной информации. Понятие достаточных координат.
8.1 Понятие достаточных координат.
Рассмотрим задачу синтеза оптимального управления системой:
полагая, что на каждом шаге функционирования системы измерению доступен не сам вектор состояния , а вектор
, связанный с вектором состояния соотношением:
Здесь, как и ранее, - вектор состояния динамической системы на текущем шаге ее функционирования размера
,
- вектор управления размера
;
,
- случайные векторы, которые характеризуют возмущения, действующие на систему (19.1) и ошибки измерения соответственно. Будем считать, что статистические свойства случайных векторов
,
полностью известны.
В качестве критерия оптимальности, как и раньше примем следующий
Основная особенность задачи синтеза оптимального управления при неполной информации заключается в следующем. Поскольку вектор фазовых координат динамической системы в данном случае не измеряется, то искомое оптимальное управление
на каждом шаге функционирования системы должно в общем случае зависеть от всех прошлых и настоящих измерений
. Все предшествующие измерения, соответствующие
-му шагу функционирования, в дальнейшем будем обозначать
. То есть оптимальная стратегия управления в данном случае представляет собой последовательность функций
, которая ставит в соответствие всем прошлым и текущим измерениям векторы управления из условия минимума критерия.
Эта оптимальная стратегия формально может быть найдена с помощью достаточных условий оптимальности, методом динамического программирования. Основное рекуррентное соотношение в этом случае принимает вид:
представляющую минимальное значение критерия (19.3), которое может быть достигнуто при оптимальном управлении системой (19.1), начиная с момента по наблюдениям (19.2), полученным в моменты времени
.
Граничным условием для (19.4), как и при управлении по полной информации является
Соотношения (19.4) с учетом (19.5) определяют рекуррентную процедуру последовательного поиска оптимальных управлений в следующем порядке: . Для этого на каждом шаге функционирования динамической системы необходимо:
Наиболее сложной операцией из числа вышеперечисленных является операция вычисления условного математического ожидания. Напомним, что функция будущих потерь представляет собой минимальное значение критерия, которое может быть достигнуто при оптимальном управлении системой, начиная с момента
по наблюдениям, полученным в моменты времени
при условии, что векторы
-фиксированы