Диссертация (Оптимизация линейных и квазилинейных диффузионных стохастических систем, функционирующих на неограниченном интервале времени, при неполной информации о состоянии), страница 5
Описание файла
Файл "Диссертация" внутри архива находится в папке "Оптимизация линейных и квазилинейных диффузионных стохастических систем, функционирующих на неограниченном интервале времени, при неполной информации о состоянии". PDF-файл из архива "Оптимизация линейных и квазилинейных диффузионных стохастических систем, функционирующих на неограниченном интервале времени, при неполной информации о состоянии", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
В работах [44–46] изучались достаточные условия оптимальности и включение (1.14) можно было предполагать. Здесь же изучаются необходимые условия оптимальности, в связи с чем для рассматриваемого класса задачего нужно доказывать. Такое доказательство для квазилинейных систем (линейные– частный случай) дается леммой 3.1 в главе 3.Всюду в диссертации предполагается, что вероятностная мера (, ·) процессаявляется решением обобщенного уравнения ФПК (1.2) с начальным условием (1.3).231.5Выводы по главе 1В первой главе для удобства изложения приводятся используемые в диссертации результаты работ Хрусталева М.М. [44–46].
Приводится обобщенное уравнениеФоккера-Планка-Колмогорова, которое используется в разделе 3.6 при определениимножества допустимых процессов в задаче оптимизации управляемой квазилинейнойстохастической системы в случае полной информации о состоянии. Для стохастических систем с информационными ограничениями, функционирующих на неограниченном интервале времени, приведены известные достаточные условия стабильности [46]. При получении и доказательстве новых условий оптимальности (глава 2,3) применяются функции Ляпунова-Лагранжа и функционал Лагранжа, конретизация вида которых для рассматриваемых квазилинейных систем была приведена вразделе 1.4.24Глава 2Синтез оптимальных регуляторовлинейных стохастических систем принеполной информации о состоянииРассматривается задача синтеза оптимального регулятора для линейной стохастической системы, функционирующей на неограниченном интервале времени, сквадратичным критерием, характеризующим средние затраты величины, определяющей оптимальность процесса, в единицу времени.
Предполагается, что измерениюи, соответственно, использованию при управлении доступны не все компоненты вектора состояния.В пункте 2.2 обсуждается результат полученный Хрусталевым М.М. [46] для линейных стохастических систем – условия экстремальности стабилизирующей стратегии управления. В [46] показано, во-первых, что решением задачи АКОРСС является линейный регулятор, во-вторых, что для линейных систем, функционирующихна неограниченном интервале времени, с квадратичным критерием качества методЛагранжа сводит проблему построения стратегии управления к решению системыматричных уравнений.
Для удобства изложения эти матричные уравнения приводятся здесь.Далее постулируется, что допустимый класс стратегий управления – это линейные регуляторы неполной обратной связи. И в этом классе получены и доказаныстрогие необходимые условия оптимальности, приведенные в п. 2.3. Также показано, что условия работы [46], приведенные в п. 2.2, эквивалентны полученным необходимым условиям в случае невырожденности предельной (при → ∞) матрицы25ковариаций.В п. 2.4 определено свойство вполне возмущаемости системы, которое позволяетисследовать вопрос единственности оптимального регулятора, и предложен необходимый и достаточный критерий его наличия.В п.
2.5 предлагаются два численных метода синтеза оптимального регуляторалинейных стохастических систем: простой алгоритм итерационного типа, основанный на условиях оптимальности работы [46], и градиентный метод, основанный наполученных необходимых условиях оптимальности. Произведено сравнение численных методов на модельном примере, а также решена задача стабилизации орбитыискусственного спутника Земли (ИСЗ) c гибкой штангой.2.1Постановка задачиПусть поведение модели объекта управления описывается линейным дифференциальным уравнением Ито вида = ( + ) + ,(2.1)где = (1 , ..., )T ∈ – вектор состояния системы; = (1 , ..., )T ∈ –вектор управления; = (1 , ..., )T ∈ – стандартный винеровский процесс; ∈ [0, +∞) – время функционирования системы; , , – постоянные матрицыразмера ( × ), ( × ), ( × ) соответственно.Минимизируемый критерий оптимальности имеет вид∞11lim=2 1 →+∞ 1∫︁1 ∫︁ (, ) (, ),0 (2.2) (, ) = T + 2T + T ,где (, ) – неотрицательная квадратичная форма; , , – матрицы размера( × ), ( × ), ( × ) соответственно; – симметрическая, положительно определенная матрица.
Внутренний интеграл в (2.2) представляет собой математическоеожидание «мгновенных потерь». Вероятностная мера (, ·) задает распределениесостояния системы (2.1) в момент времени . Предполагается, что начальная плотность распределения 0 () = (0 , ) вектора состояния задана, гауссова и невырожденная.26Измерению и, соответственно, использованию при управлении доступны не всекомпоненты вектора состояния. Эти ограничения будем называть информационными. В общем случае каждая компонента вектора управления может зависеть лишьот своего, назначаемого априори, набора компонент вектора состояния .2.2Экстремальная стабилизирующая стратегияИспользуя достаточные условия равновесия по Нэшу, Хрусталевым М.М.
былиполучены локальные условия равновесия первого порядка, составляющие содержание метода Лагранжа [45]. В частном случае одного игрока это условия первого порядка в задаче оптимального управления. Однако, полученные условия не являются необходимыми условиями оптимальности. Они представляют собой необходимыеусловия выполнения предположений теоремы, которая дает достаточные условияоптимальности. Экстремальной стабилизирующей стратегией называется(согласно терминологии работ Хрусталева М.М.) стратегия, удовлетворяющая этойлинеаризации достаточных условий оптимальности.Хрусталевым М.М. было показано [46], что для линейных систем, функционирующих на неограниченном интервале времени, с квадратичным критерием методЛагранжа сводит проблему построения стратегии управления к решению системыматричных уравнений.
Хрусталевым М.М. была получена система уравнений для¯ , экстремальопределения экстремальной стабилизирующей стратегии ¯() = −ного значения критерия ¯ , вспомогательной матрицы размеров × , матрицымножителей Лагранжа , отвечающей за информационные ограничения, размеров¯ −1 предельной плотности распределения × и ковариационной матрицы Γ∞ = T ¯¯¯() = (−/2).(2.3)Это следующая система уравнений:√︀¯ = 1/ (2) |Γ∞ |,(2.4)T¯ Γ∞ + Γ∞ T¯ + = 0,(2.5)1¯ = ( T ),2TT¯ ¯ − T¯−¯ T + = 0, ¯ + ¯ + 27(2.6)(2.7)¯ = −1 ( T + − (Γ∞ )−1 ).(2.8)¯ , – симметрическая матрица.
При этом в условиях (2.4)Здесь и далее ¯ = − и (2.8) предполагается, что определитель |Γ∞ | ̸= 0. Равенство (2.4) – это условиенормировки предельной плотности (2.3).Если все компоненты стратегии управления ¯() зависят от одних и тех же компонент вектора , то матрица Лагранжа находится по следующему алгоритму.Строится диагональная информационная матрица Ω = (1 , ..., ), где = 0,если компонента вектора доступна измерению, и = 1, если не может бытьизмерена.
Матрица задается равенством = ( T + )Ω(Ω(Γ∞ )−1 Ω + − Ω)−1 ,(2.9)где – единичная матрица размеров ×. Если состав измерений различен для группкомпонент стратегии ¯(), то уравнения (2.8), (2.9) записываются для строк матриц¯ и , соответствующих каждой группе, с использованием своей информационнойматрицы Ω.В [46] доказаны следующие теоремы.¯ , где ¯ удовлетворяет[Хрусталев М. М.] Стратегия ¯() = −информационным ограничениям, является экстремальной стабилизирующей стратегией управления, а экстремальное значение критерия (2.2) равно числу ¯ =¯ ¯ и матрицы Γ∞ , ¯ , , , |Γ∞ | =( T )/2, если величины ,̸ 0 удовлетво¯ асимптотическиряют системе уравнений (2.3)– (2.9) и матрица ¯ = − устойчива.Теорема 2.1.В случае, когда измеряются все компоненты вектора состояния, = 0 и уравнение (2.7) решается независимо от других.
В этом случае найденнаяпо теореме 2.1 стратегия не зависит от и Ω̄. Она совпадает с оптимальнойстратегией в детерминированной задаче управления линейной системой (2.1) при = 0 с квадратичным критериемЗамечание 2.1.∫︁∞11= ( T + T + T )220(классической задаче АКОР).
Эта стратегия будет оптимальна для любой линейной стохастической системы вида (2.1) при ̸= 0 (даже если начальное распределение 0 () не является гауссовым). В зависимости от будет изменяться лишьоптимальное значение критерия (2.6).28¯ ∈ ℒ такова, что стратегия ¯() = −¯ обеспечиЕсли матрица ¯ , то стратегия ¯()вает асимптотическую устойчивость матрицы ¯ = − является стабилизирующей стратегией и стабильное значение критерия даетсяформулой (2.6), где матрица находится из уравнения (2.7).Теорема 2.2.Таким образом показано, что решением задачи АКОРСС является линейный регулятор. Однако, этот вывод сделан исходя из линеаризованных достаточных условий оптимальности регулятора (метод Лагранжа) и, строго говоря, приведенныеусловия (2.3)-(2.9) не являются необходимыми условиями его оптимальности.2.3Необходимые условия оптимальности линейногорегулятораВ диссертационной работе постулируется, что допустимый класс стратегий управления – это линейные регуляторы () неполной обратной связи удовлетворяющиеинформационным ограничениям → () = − : → ,(2.10)где – постоянная матрица размеров × .
Формально наличие информационныхограничений состоит в том, что элементы , = 1, матрицы { } равны нулю,если компонента вектора состояния не может использоваться в управлении ().Множество таких допустимых матриц обозначим через ℒ.И в классе линейных регуляторов вида (2.10) получены строгие необходимыеусловия оптимальности , приведенные ниже.Пусть 0 = (0 , ·) есть вероятностная мера, задающая распределение состояния системы (2.1) в начальный момент времени. Следуя [46], для заданной начальной меры 0 через ∞ = ( (, ·), (·)), ∈ [0, +∞) обозначим произвольный линейный процесс, соответствующий произвольной линейной стратегии (2.10). Рассмотримсужение этого процесса = ( (, ·), (·)) на интервал [0, 1 ], 1 < +∞.
Тогда критерий 1 ( ) =∫︁1 ∫︁ (, ()) (, )0 может быть точно вычислен по формуле (1.13), где ¯ определяется равенством (2.6),29 0 () = 21 T ,11ℎ(, ) = T Ψ() + ( T ),22TTTΨ() = + T + − − + ,(2.11)(2.12) = − .Справедливость условия А для используемой здесь функции 0 () определяетсялеммой 3.1 (раздел 1.4) для квазилинейных систем. Рассматриваемая здесь линейная стохастическая система (2.1) является частным случаем квазилинейной системы (3.1). Справедливость условия А, в свою очередь, устанавливает корректностьиспользования формулы (1.2).Если матрица асимптотически устойчива, то по теореме 2.2 критерий (2.2)конечен и может быть записан в виде1 1 ( ).1 →+∞ 1(2.13)∞ (∞ ) = limУчитывая (1.13), (2.13), получим⎡⎤1⎣−1 →+∞ 1∫︁∞ (∞ ) = ¯ + lim 0 () (1 , ) +11 →+∞ 1∫︁1∫︁⎛ 0 ()0 ()⎦ +⎞∫︁⎝−¯++ limℎ(, ) (, )⎠ .