Канащенков А.И., Меркулов В.И. Авиационные системы радиоуправления. Том 1 (2003) (1151993), страница 15
Текст из файла (страница 15)
(3.3) [ьс„.) Б[х(1,),1,]= Ф„[х(1„);п(1 ~1„]. Представим (3.3) в виде суммы двух слагаемых (3.4) [зс.ь ч Б[х(т),т]= щ[п~ (Ф,[х(1),ц(1),1]с)1+ ]Ф,[х(1),п(1),1]с[1+Ф„х(1„),н(1,),1„(3 5) [и(с» тьь [т,с.) В соответствии с принципом оптимальности управление на каждом последующем участке должно быть оптимальным независимо от состояния системы на предыдущих интервалах, Следовательно, при оптимальном управлении функционал качества должен быль минимальным и на участке [т+Л, 1,).
Тогда [э-ь ч б[з(1),т]= гп[п~ (Ф,[х(1),н(1),1]с[1+ сп[п )Ф,[х(1),н(1),1]с[1+Ф„х(1,),ц(1,),1„ [(4,' ' [(», ' [т,э4 [мь.[ [тс-ь = ппп ~ ]Ф,[х(1) ц(1)1)с[с чБ[х(т+Л)т+сь] . (3.6) [и(с» [, [ьт+ь) Полагая и(1) непрерывной функцией времени, а интервал Л достаточно малым, получаем 66 Существование функции 3[х(т),т) Безиииана указсввает на наличие управления, минимизирующего функционал (3.2). Необходимо отметить, что функция х(1), являющаяся решением системы (3.1) на интервале [т,с„), определяется ее начальным состоянием х(т) и управлением н(1) при т<1<1„.
Кроме того, поскольку оптимальное управление минимизирует функционал качества, устраняется зависимость правой части (3.3) от вектора управления и. В итоге предопределяется зависимость функции Беллмана только от аргументов х(т) и т. Из (3.3) следует, что при т=с, функция Беллмана упрощается: тла ]Ф, [х(1), н(1),1]т[1 = Ф, [х(1), ц(1),1~)Х; (3.7) Б [х(т+лз),т+л1]= Б [х(т),т]+[х(с+от) — х(т)]' [х(т)'т + дхт(т) д~["('"']~ и Б[,( ), ],'( )бд~["(')']~ д~['(')']~, (3.8) где т<1ытллл, а х(т+Л)-х(т)= х(т)Ь.
Подставив (3.7) и (3. 8) в (3.6), имеем Я[х(т), т]= ппп Ф, [х(1), н(1),1]лз+ Б[х(т), т]+ [.()]( [т,тел] .,( )да[к(т),т] дБ[х(т),т] д. (.) д Поскольку функции 8[х(т),т] и дБ[х(т),т]!дт не зависят от переменной н(1), их можно вынести за знак операции минимума. В результате получим соотношение дух(т),т] . ~ [ () () ],,()дБ[х(т),т] [т,т~-а] Разделив обе части на Л и заменив т на текущее время й при Л вЂ” лО, получим уравнение для функции Беллманл; — = ппп Фт[х(1),н(1),1]+ х'(1) (3.9) В процессе решения (3.9) при граничнол~ условии (3.4) и опредаотется упраеление, лтитшлтизттруютцее функционал (3.2). Из (3.9) и (3.4) следует, что решение уравнения Беллмана зависит от вида минимизируемого функционала (3.2) и модели ООУ (3.1). Необходимо подчеркнуть, что хотя при выводе не использовались никакие ограничения на вид модели (3.1) и подынтегральной части функционала (3.2), аналитическое решение уравнения (3.9) нри условии (3.4) в общем виде возможно лишь для линейных моделей и квадратичных функционалов.
67 3.2. АЛГОРИТМЫ УПРАВЛЕНИЯ, ОПТИМАЛЬНЫЕ В ПОСТАНОВКЕ ЛЙТОВА-КАЛМАНА Ф [х(1),п(1),1]= х (1)2ч~(1)+ц (1)Кц(1); Ф „[х(1 „), н (1, ), 1„] = х (1 „)() х(1 ), (3.10) (3.11) где 1, =, 9,=, х= . (3.12) В дальнейшем для упрощения будет опущена зависимость от времени векторов и матриц, не имеющая принципиального значения при решении уравнения Беллмана. Подставив (2.13) и (3.10), (3.11) в (3.9) и (3.4), получим — = ш1п~х'Ь,к+и'Кн+ [я'Е'+ и'В' ' ~; (3.13) дб[х,1] . (,, г...,1дб[х,1]1, Б[х(1 ) 1„]= х'(1,)0,х(1„).
(3.14) Вынесем за знак операции минимума члены, не зависящие от и: — =х'Ь,к+х'Р' — '+пи' н'Кп+н'В' — ~. (3.15) дб[хд]...дб[х,1] . (...дб[,1]) д1 д х' (ь) дх' 68 Задача синтеза управления формулируется следующим образом. Для РЭСУ, состояние которой аппроксимируется моделью (2.13) при наличии излзерений (2.16), необзодилю найти вектор и сигналов управления, оптимальный по минимул~у функйионала качества ЛетоваКалиана (1.4).
Поскольку исходные модели линейные, возмущения Ч, и Чч гауссовские, а функционал качества квадратичный (ЛКГ задача), то на основании выводов теоремы разделения оптимальный регулятор можно синтезировать в детерминированной постановке независимо от оптимального фильтра. В связи с этим на первом этапе синтеза будем полагать, что все возмущения отсутствуют (ч„=0, ч в=0) и все фазовые координаты х; в (2.13) измеряются точно. Процедура отыскания сигналов управления в сформулированной постановке основана на решении уравнения Беллмана (3.9).
Сравнивая (3.2) с (1.4), можно заключить, что Управление н, минимизирующее (3.15), можно найти, приравняв нулю результат дифференцирования по н' слагаемых в фигурных скобках. Выполнив дифференцирование, находим ,„, „д~(.,~1 0 )„,дВ[.,~3 Подставив (3.16) в (3.15), получим (3.19) где Р(0 и Р(1) — симметричные матрицы. В (3.20) учтено, что функция Беллмана зависит только от начальных значений х(т), а не от текущих х(1). Подставляя (3.19) в (3.16), находим и =-К4В'Р(1,'Ьс. (3.2!) Для определения Р(1) подставим (3.19) и (3.20) в (3.17). Тогда, — хтР(1)х = х "$.|х+ 2х'Е "Р(1)х — хтР(1)ВК 'В'Р(1)х; Р(1) = — 1., — РтР(1) — Р(1)Р+ Р(1)ВК В'Р(1).
(3.22) В процессе вывода (3.22) было учтено, что матрица Р— симметричная. Граничные условия для (3.22) находятся путем сравнения (3.14) н (3.18) при 1=1„: х'(1„)Ф В,х(1„)= х'(1„)Р(1„)х(1,), откуда следует, что Р(1.)=О,. (3.23) 69 (1, дВ<'Ы ( )1,, (1(317) Решение этого уравнения будем искать в классе квадратичных форм 3(х,1~ = х'Р(1)х, (3.18) для которых дЯ(х,1~ 2р( д.
дВ(х,1] ~, ( (3.20) д1 Поскольку рассматривалась ЛКГ задача, то на основании теоремы статистической эквивалентности можно утверждать, что детерминированный закон управления (3.21) будет адекватен статистическому при условии замены в нем фазовых координат х их оптимальными оценками х, т,е. и = — К'В'Р(1)х . (3.24) Соотношения (3.22)-(3.24) н определяют алгоритм управления РЭСУ, оптимальный в постановке Летова-Канмана. Анализ их позволя- ет сделать следующие выводы. При нестационарной модели состояния (2.13) в состав РЭСУ должны входить: оптимальный фильтр, формирующий для (3.24) оценки х фазовых координат; оптимальный идентификатор, вычисляющий оценки параметров Р и В для (3.22) н (3.24), и оптимальный регулятор, формирующий закон управления (3.24). Если исходные модели стационарные, то в состав оптимальной РЭСУ входят лишь фильтр и регулятор.
Формируемый сигнал управления (3.24) зависит от состояния системы (х ), ее способности воспринимать сигналы управления, которая определяется матрицей В, штрафов (К) за сигналы управления и весовой матрицы Р. Чем больше штраф за управление, тем меньше сигналы н и тем экономичней система, но тем менее она точна. Последнее предопределяется тем, что малые значения н вызывают в (2.13) малые значения х, а соответственно и малые целенаправленные изменения х.
Если система (2.13) хорошо воспринимает сигналы управления н (матрица В имеет большие коэффициенты), то имеет смысл делать их большими, так как в такой ситуации будут иметь место большие значения х и система будет быстро изменять свое состояние х. Если же коэффициенты матрицы В малы, то не следует использовать большие сигналы управления, поскольку это приведет к неоправданно большим расходам энергии при очень малом выигрыше в точности.
Коэффициенты матрицы Р совокупным образом учитывают в (3.22) штрафы за текущую точность и экономичность, определяемые матрицами Ь| и К, детерминированные связи и эффективность сигналов управления, обусловленные матрицами Р и В. Влияние детерминированных связей проявляется в том, что изменение штрафа 1ш за точность функционирования по какой-либо координате х, приводит к изменению точности и по другим, функционально связанным с х, координатам. Происходящие при этом изменения матрицы Р приводят к изменению сигналов управления, а соответственно и экономичности системы. 70 измерению либо оценке, то в рамках алгоритма (3.22)-(3.24) можно их эффективно компенсировать. Для этого необходимо расширить вектор состояния х за счет включения в его состав моделей возмущений. Однако это приводит к существенному усложнению закона управления в силу проявления кпроклятия размерности». В [29] приводится алгоритм, который без расширения вектора состояния позволяет для заданной части (2.7), предназначенной для отработки процесса (2.8) при измерениях (2.16) и г, „, сформировать сигнал управления ц = — К 'В'„[Р (1)ху+р(1)~; Ру (1) Ь Ру Ру (1) Ру(1)Ру + Ру (1)ВуК ВуРу (1) ру(1) = — Ьх„, + (Р„(1)В„К В„' — $'„" ]р (1) — Р„(1)с Ру(1„)=© ру(1„)=-(~~„~(1,), (3.25) (3.26) (3.27) (3.28) 71 Спецификой использования (3.22)-(3.24) является то обстоятельство, что коэффициенты матрицы (3.22) вычисляются в обратном времени от 1ь к 1 в процессе решения уравнения Риккати, в то время как в (3.24) они используются уже в прямом времени.
Необходимо отметить, что сложность регулятора, обусловленная в основном числом уравнений (3.22), которые нужно решить для определения матрицы Р, существенно превышает сложность самой оптимизируемой системы (2.13). Причем даже незначительное увеличение размерности (2.!3) приводит к существенно неадекватному увеличению числа уравнений, которые нужно решать в процессе вычисления матрицы Р. Это явление, называемое «проклятием размерности» и характерное для многих видов оптимальных систем, сдерживает применение алгоритмов оптимального управления для сложных систем высокой размерности. Необходимо, однако, отметить, что для стационарных систем матрицу Р, определяемую только априорными сведениями, можно вычислить заранее. Соответственно, заранее могут быть вычислены для (3.24) и коэффициенты — К 'В'Р, число которых обусловлено размерностью гхп.