Радиолокационные измерители дальности и скорости by Саблин В. Н. (z-lib.org) (852905), страница 14
Текст из файла (страница 14)
Необходимо подчеркнуть, что, хотя при выводе неиспользовались никакие ограничения на вид модели (1.9.26) и подынтегральной части функционала (1.9.27), аналитическое решение уравнения (1.9.34) при условии (1.9.29) в общем виде возможно лишь для линейных моделей и квадратичных функционалов.1.10. АЛГОРИТМУПРАВЛЕНИЯ, ОПТИМАЛЬНЫЙВПОСТАНОВКЕ ЛЁТОВА-КАЛМАНАЗадача синтеза управления формулируется следующим образом. Для системы управления (СУ), состояние которой задано моделью (1.9.8), при наличии измерений (1.9.11), необходимо найтивектор и сигналов управления, оптимальный по минимуму функционала качества Лётова-Калмана (1.9.9). Заметим, что I(u) действительно является функционалом, так как каждой функции u(t),определенной на интервале [ 0 ,tk], ставит в соответствие число I.В результате минимизации функционала (1.9.9) формируетсяоптимальное на интервале [0,tk] управление u(t).
Поэтому в литературе критерий Лётова-Калмана часто называют интегральным (вотличие от локального критерия, который будет рассмотрен в следующем параграфе).Поскольку исходные модели линейные, возмущенияи £и,гауссовские, а функционал качества квадратичный (ЛКГ задача),то на основании выводов теоремы разделения, оптимальный регулятор можно синтезировать в детерминированной постановке задачи. В связи с этим на первом этапе синтеза будем полагать, чтовсе возмущения отсутствуют (£х= 0 , £и= 0 ),и все фазовые координаты xj в (1.9.11) измеряются точно.Процедура отыскания сигналов управления в сформулированной постановке основана на решении уравнения Веллмана(1.9.34). Сравнивая (1.9.9) с (1.9.27), можно заключить, чтоФт[x(t), u(t), t] = xT(t)L1x(t) + uT(t)Ku(t);(1.10.1)(1.10.2)В дальнейшем для упрощения будет опущена зависимость отвремени векторов и матриц, не имеющая принципиального значения при решении уравнения Веллмана. Подставив (1.9.8), (1.10.1),(1.10.2) в (1.9.34) и (1.9.29), получимdS[x(t),t]= гdt(1.10.3)(1.10.4)Вынесем за знак операции минимума члены, не зависящие от и:3S[x,t|= xTL,x +xTFT—M + minluTKu + uTBT5xTatM l(1.10.5)Управление u, минимизирующее (1.10.5), можно найти, приравняв нулю результат дифференцирования по и слагаемых вквадратных скобках.
Выполнив дифференцирование, находим:2Ки + Втas[x, t]=0;u = -О .б К ^ В ’3S[x, t]( 1 . 10. 6)Подставив (1.10.6) в (1.10.5), получим3S[x,t]as[x,t]xTL,x +xTFTatЭхт 'B K ^B 1as[x,t]Эхт(1.10.7)Решение этого уравнения будем искать в классе квадратичныхформS[x, t] = xTP(t)x,(1.10.8)для которыхИIIИ1Г. <гЬ,\ж(1.10.9)(1.10.10)где P(t) и P(t) - симметричные матрицы. При получении (1.10.10)учтено, что функция Веллмана зависит только от начальных значений x(to), а не от текущих x(t).
Используя (1.10.9) в (1.10.6),находимu = -K'1BTP(t)x.( 1 . 10. 11)Подставим (1.10.8)—(1.10.10) в (1.10.7). Тогда- xTP(t)x = xTLlX + 2xTFTP(t)x - xTP(t)BK~ xBTP(t)x.Для того, чтобы данное равенство выполнялось для любых х необходимо и достаточно выполнение условияP(t) =-Lx - FTP(t) - P(t)F +P(t)BK_1BTP(t).(1.10.12)В процессе вывода (1.10.12) было учтено, что матрица Р симметричная. Граничные условия для (1.10.12) находятся путемсравнения (1.10.4) и (1.10.8) при t=tk:xT(tk)Qi*(tk) = xT(tk)P(tk)x(tk),откуда следует, чтоP(tk) = Qi*(1.Ю.13)Поскольку рассматривалась ЛКГ задача, то на основании теоремы статистической эквивалентности можно утверждать, что детерминированный закон управления ( 1 .
1 0 . 1 1 ) будет адекватен статистическому при условии замены в нем фазовых координат х ихоптимальными оценками х , т.е.u(t) = -K’VpftJxft).(1.10.14)Соотношения (1.10.12)—(1.10.14) и определяют алгоритмуправления динамической системой, оптимальный в постановкеЛётова-Калмана. Оптимальная оценка х определяется уравнениями (1.4.3)-(1.4.5) фильтра Калмана для процесса (1.9.8) при известном и.Формируемый сигнал управления (1.10.14) зависит от состояния системы х , штрафов К за сигналы управления, способностисистемы воспринимать сигналы управления, которая определяетсяматрицей В, и весовой матрицы Р. Чем больше штраф за управление, тем меньше сигналы и и тем экономичней система, но темменее она точна.
Последнее предопределяется тем, что малые значения и вызывают в (1.9.8) малые значения х , а соответственно ималые целенаправленные изменения х. Если система (1.9.8) хорошо воспринимает сигналы управления и (матрица В имеет большие коэффициенты), то имеет смысл делать их большими, так какв такой ситуации будут иметь место большие значения х и система будет быстро изменять свое состояние х.
Если же коэффициенты матрицы В малы, то не следует использовать большие сигналыуправления, поскольку это приведет к неоправданно большим расходам энергии при очень малом выигрыше в точности.Коэффициенты матрицы Р совокупным образом учитывают в(1 .10 .1 2 ) штрафы за текущую точность и экономичность, определяемые матрицами Lj и К, детерминированные связи и эффективность сигналов управления, обусловленные матрицами F и В.85Влияние детерминированных связей проявляется в том, что изменение штрафа 1йза точность функционирования по какой-либо координате xi приводит к изменению точности и по другим, функционально связанным с х* координатам.
Происходящие при этомизменения матрицы Р приводят к изменению сигналов управления, а соответственно, и экономичности системы.Следует отметить, что матрица Р должна рассчитываться в обратном времени от tk (1.10.13) к нулю, в то время как в каналеуправления она используется в прямом времени от нуля до t^.При переменных матрицах F, G, Н и меняющемся времени \уравнения (1.10.12) необходимо каждый раз решать заново, чтоделает оптимальную систему управления практически нереализуемой.
В системе с постоянными параметрами можно положитьвремя наблюдения большим (t^ oo) и вместо уравнения (1.10.12) сграничным условием (1.10.13) рассматривать одно уравнение дляматрицы Р в установившемся режиме, когда0 = -L x- FTP - PF +РВК_1ВТР .(1.10.15)Если в (1.9.8) имеют место возмущения £х, которые поддаютсяизмерению либо оценке, то в рамках алгоритма (1.10-12)—(1.10 Л4)можно их эффективно компенсировать. Для этого необходиморасширить вектор состояния х за счет включения в его состав моделей возмущений. Однако это приводит к существенному усложнению закона управления в силу проявления "проклятия размерности” . В [34] приводится алгоритм, который без расширения вектора состояния позволяет для заданной части (1.9.1), предназначенной для отработки процесса (1.9.2) и наличии £у, сформироватьсигнал управленияu = -K _1By[Py(t)xy + p(t)],(1.10.16)Py(t) = -L - FyTPy(t) - Py(t)Fy + Py^ByK-^yPyft), (1.10.17)Py(t) = -L£OT+ [Py(t)ByK_1By - FyT]py(t) - Py(t)£y, (1.10.18)Py(tk) = Q,Py(tk) = -QxOT(tk) ,(1.10.19)оптимальный по минимуму функционала (1.9.9) Лётова-Калмана.Необходимо отметить, что при существенно меньшем числе уравнений, необходимых для решения (1.10.16)—(1.10.19), этот алгоритм требует решения более сложной краевой задачи.
Отмеченноеусложнение вызвано необходимостью решения в обратном времениеще и уравнения (1.10.18).В дискретном времени уравнения состояния и наблюденийимеют вид (1.9.13), (1.9.14), а критерий Лётова-Калмана описывается соотношением (1.9.15). Для задач дискретного управлениятакже справедлива теорема разделения и синтез стохастическойсистему управления распадается на синтез оптимального детерминированного управления и синтез системы фильтрации (формирования оценок вектора состояния). Аналогично тому, как это сделано выше, используя дискретные уравнения Веллмана [59] можно получить алгоритм оптимального дискретного управленияu(k-1) = -R(k- l)x3(k-1),(1.10.20)гдеR(k—l) = [К+BT(k- l)P(k)B(k-1)]'1BT(k- l)P(k)<P(k, k-1); (1.10.21)x3(k) = Ф(к, к - l)x(k-1) + B(k- l)u(k-1);(1.10.22)i(k) - оптимальная оценка, определяемая уравнениями (1.4.19)(1.4.23); P(k) - матрица, удовлетворяющая уравнениюP(k-1) = Ф(к, к - 1)Р(к)Ф(к, к - 1) - LT(k- 1)[К + Вт(к- 1)Р(к)В(к- 1)]ьг(к -1), (1.10.23)с граничным условиемP(kr)=Qb(1.10.24)Для соотношений (1.10.20)—(1.10.24) имеют смысл все выводы, полученные в процессе анализа уравнений (1.10.12Н 1.10.14).1.11.
АЛГОРИТМЫ УПРАВЛЕНИЯ, ОПТИМАЛЬНЫЕ ПОЛОКАЛЬНОМУ КРИТЕРИЮВ предыдущем параграфе была рассмотрена задача синтезауправления, оптимального по интегральному критерию ЛётоваКалмана, и показано, что в процессе оптимизации искалась оптимальная на интервале [0,tjJ функция u(t). Использование локального критерия предполагает отыскание оптимального управлениядля каждого текущего момента времени t ^ t , которое минимизи-рует показатель качества также в каждый момент времени.
Покажем, что при использовании локального критерия вариационнаязадача минимизации функционала сводится к простой задаче нахождения экстремума скалярной функции времени.Для большей наглядности рассмотрим задачу синтеза дискретного оптимального детерминированного управления системой,которая описывается уравнениемх(к) = Ф(к,к- 1)х(к-1) + В(к- l)u(k-1),(1.11.1)при наблюденияхz(k) = Н(к)х(к).(1.11.2)Рассмотрим обобщенный квадратичный показатель качестваl(u, k) = хт(k)Qxx(k) + х|хт(i)Lix(i) + uT(i)Ku(i)j.
(1.11.8)Решение задачи начнем с последнего интервала времени[tk.i,tk], предполагая, что состояние х(к-1) нам известно. Согласнопринципу оптимальности Веллмана, приведенному в предыдущемразделе, управлении и на интервале временидолжно бытьвыбрано так, чтобы минимизировать соответствующий этому интервалу показатель качества, т.е. частичную суммуIk_! = xT(k)Q1x(k) + jxT(k- 1)Цх(к-1) + uT(k- l)Ku(k- l)j.(1.11.4)Подставляя в (1.11.4) выражение для х(к) из (1.11.1), получаемIk-i = [ф(к,к- l)x(k-1) + В(к- l)u(k- l)jrQ1|$(k,k- l)x(k-1) ++B(k-1) Цк- l)j+|xT(k- 1)Цх(к-1) + uT(k- l)Ku(k-1)|.(1.11.5)Поскольку в локальном критерии полагается, что оптимальноеуправление выбирается таким образом, чтобы минимизироватьпоказатель качества для каждого момента времени, то для момента временитакже было выбрано оптимальное управление.Следовательно х(к-1) соответствует оптимальной траектории и,следовательно, не зависит от управлений (так как они уже выбраны и привели в соответствующую точку траектории).
Поэтому дляоптимизации управления на каждом текущем шаге необходимоминимизировать только выражение (1.11.5), которое является88простой функцией от u(k-l) (а не функционалом, как это было вкритерии Лётова-Калмана). Поскольку в (1.11.5) текущий штрафза точность учитывается как матрицей Q1? так и Llf то в дальнейшем без потери общности можно полагать LjH ). В такой ситуации решение задачи минимизации тривиально и находится путем приравнивания нулю производной от I по u(k-l), что приводитк следующему алгоритму оптимального управления( 1 . 11 .6 )K(k-1) = [K+BT(k-l)Q1B(k-l)]-,BT(k-l)Q,®(k,k-l).