Вычислительные методы алгебры и оценивания. И.В. Семушкин (2011) (1185350), страница 54
Текст из файла (страница 54)
Это — одно из условий существования фильтра Калмана. Для построения скаляризованных алгоритмов фильтрации (наэтапе обработки наблюдений) дополнительно требуется свойство диагональности этой матрицы Rt . Очевидно, это требование не является существеннымограничением, поскольку в случае его невыполнения всегда можно использовать так называемые псевдонаблюденияz̄t = L−1t zt ,где матрицы Lt получены разложением Холеccкого матриц Rt = Lt LTt > 0,так как обратная матрица L−1t существует.
Для псевдонаблюдений уравнениеизмерителяzt = Ht xt + vtзаменяется на алгебраически эквивалентное уравнениеz̄t = H̄t xt + v̄t ,гдеH̄t = L−1t Ht ,Тогда342v̄t = L−1t vt . T −TT −TR̄t = E v̄t v̄tT = L−1Lt = L−1=I.t E vt vtt Lt Lt LtПриложение BК задаче управленияB.1Задача ЛКГ-управленияПусть система адекватно описывается n-мерным стохастическим разностным уравнением состоянияx(ti+1) = Φ(ti+1, ti )x(ti) + Bd (ti )u(ti) + Gd (ti)wd (ti)(B.1)и m-мерным уравнением измеренийz(ti ) = H(ti )x(ti) + v(ti) ,(B.2)где r-мерное управление u(ti) приложено к входу системы; {w(t0), w(t1), .
. .}и {v(t1), v(t2), . . .} представляют собой две независимые последовательностинезависимых нормально распределенных случайных векторов возмущенийи погрешностей с нулевым средним значением, имеющие, соответственно,размерности q и m, обладающие ковариациями Qd (ti ) и R(ti ) и независимыеот случайного нормально распределенного начального состояния x(t0) сосредним значением x̄0 и ковариацией P0 .Цель заключается в определении оптимального физически осуществимого закона управления u∗ , оптимального в смысле минимума ожидаемойквадратической функции стоимости)( NX1xT (ti)Vx(ti )x(ti) + uT (ti )Vu(ti )u(ti) +J0 = E2(B.3)i=01+ E xT (tN +1)Vf x(tN +1) ,2где t0 — начальный момент времени, tN +1 — конечный (финальный) моментвремени.
Симметрические матрицы Vx (ti ) и Vu (ti ), а также Vf (ti) задают весB К задаче управления(удельную значимость) потерь из-за отклонений от нуля следующих величин: текущих состояний и управлений на интервале управления [t0 , tN +1], атакже финального состояния x(tN +1).Замечание B.1. В силу критерия (B.3), данная задача называетсязадачей ЛКГ-управления, что читается как линейная квадратично-гауссовазадача управления [117, 120].Замечание B.2.В минимизации критерия (B.3) могут участвовать лишь те векторы состояния, которые поддаются изменению, и толькоте векторы управления, которые могут их изменить.
Так, начальное состояние x(t0) существует до начала процесса управления, и его нельзя изменитьникаким управлением. Этот факт можно отразить в (B.3) выбором матрицыVx (t0) = 0, то есть x(t0) в критерии не учитывать. Поэтому, наряду с (B.3),произвольно выбирают (то есть только на основании данных рассуждений)запись критерия в виде( N)X1J1 = E[xT (ti+1)Vx (ti+1)x(ti+1) + uT (ti+1)Vu(ti+1)u(ti+1)] , (B.4)2i=0в котором Vx(tN +1) , Vf и, следовательно, J0 = J1 + E xT (t0)Vx (t0)x(t0) .Отсюда видно, что J0 обеспечивает более общий подход к постановке проблемы управления, поскольку не требует тех предварительных рассуждений, которые предшествуют выбору критерия (B.4) вместо (B.3).
Действительно, управление u(t0), прикладываемое в момент t0 , при оптимальномобразе действия должно зависеть от исходного состояния x(t0), непосредственно предшествующего этому управлению. Вместе с тем, применяют обаварианта, (B.3) и (B.4).B.2Решение задачи управленияВведем, исходя из критерия (B.4), функцию Беллмана(N hP1∗xT (tj+1)Vx(tj+1)x(tj+1) +CN +1−i(ti) , min E2U (ti ,tN )j=i)i+ uT (tj )Vu (tj )u(tj ) , i = 0, 1, . .
. , N,которая представляет собой минимальную среднюю стоимость управленияU (ti , tN ) , {u(ti), u(ti+1), . . . , u(tN )} на оставшихся (N + 1 − i) шагах от344B.2 Решение задачи управлениятекущего момента ti . Для 0 ≤ i < s ≤ N , согласно принципу оптимальности,имеем функциональное уравнение Беллмана(s−1P 1h T∗CN +1−i(ti) = min E2 x (tj+1 )Vx (tj+1 )x(tj+1) +U (ti ,ts−1 )j=i)i+ uT (tj )Vu(tj )u(tj ) + CN∗ +1−s(ts ) ,которое для пошаговой оптимизации, при s = i + 1, запишется в виде(1h T∗CN +1−i(ti ) = min Ex (ti+1)Vx(ti+1)x(ti+1) +2u(ti ))i+ uT (ti )Vu(ti )u(ti) + CN∗ −i(ti+1) ,(B.5)где i = N, N − 1, .
. . , 0 и C0∗(tN +1) = 0.Теорема B.1. Оптимальный закон ЛГК-управления для задачи стохастического управления с критерием (B.4) разделяется на две части (часть Iи часть II), соединенные последовательно (II вслед за I) и синтезируемыенезависимо друг от друга:I. Оптимальный линейный фильтр (Калмана), ФКА. Для i = 0, 1, . . . , N ФК вычисляет экстраполяционные оценки x̂(t−i+1 )состояния x(ti+1), получаемые при экстраполяции отфильтрованных оценокx̂(t+i ) от момента ti к моменту ti+1 в виде+∗x̂(t−i+1 ) = Φ(ti+1, ti )x̂(ti ) + Bd (ti )u (ti )с начальным значением x̂(t+0 ) = E {x(t0 )} = x̄0 , и также их ковариации+TTP (t−i+1 ) = Φ(ti+1, ti )P (ti )Φ (ti+1 , ti ) + Gd (ti )Qd (ti )G (ti )T= P0 .с начальным значением P (t+)=E[x(t)−x̄][x(t)−x̄]00000B.
Для i = 1, 2, . . . , N ФК вычисляет отфильтрованные оценки x̂(t+i ),обновленные по измерению z(ti ) = zi с ковариацией R(ti ) > 0 ошибок измерений в момент ti , в виде−−x̂(t+i ) = x̂(ti ) + Kf (ti )[zi − H(ti )x̂(ti )]с коэффициентом усиления фильтраTT−1Kf (ti ) = P (t−i )H (ti )[H(ti )P (ti )H (ti ) + R(ti )]345B К задаче управленияи также ковариации отфильтрованных оценок−−P (t+i ) = P (ti ) − Kf (ti )H(ti )P (ti ).II. Оптимальный линейный регулятор, ОЛРОЛР обеспечивает минимальную ожидаемую стоимость завершенияпроцесса управления на оставшихся (N + 1 − i) шагах из момента ti , равную1 CN∗ +1−i(ti ) = E xT (ti)M(ti )x(ti) + α(ti ), i = N, N − 1, . .
. , 0 (B.6)2с помощью оптимального управляющего воздействияu∗(ti) = −Gr (ti)x̂(t+i ),i = 0, 1, . . . , N .(B.7)Управляющая функция этого стохастического регулятораu∗ [ti, (·)] = −Gr (ti )(·)(B.8)идентична управляющей функции детерминистcкого линейного регулятора,причем для матрицы Gr (ti) в (B.8), для матрицы M(ti ) и для скалярнойвеличины α(ti ) в (B.6) справедлив следующий алгоритм.Алгоритм последовательных вычислений регулятора(1)Π(tN +1) = Vf , Vx (tN +1),(2)A(ti ) = BdT (ti)Π(ti+1)Bd (ti ) + Vu (ti ),(3)Λ(ti ) = ΦT (ti+1, ti)Π(ti+1)Bd (ti)A−1(ti)BdT (ti )Π(ti+1)Φ(ti+1, ti ),(4)M(ti ) = ΦT (ti+1, ti )Π(ti+1)Φ(ti+1, ti ) − Λ(ti ),(5)Kr (ti) = A−1(ti )BdT (ti)Π(ti+1),(6)Gr (ti) = Kr (ti)Φ(ti+1, ti),(7)346(B.9)α(tN +1) = 0,Tβ(ti ) = 12 tr Λ(ti )P (t+i ) + Gd (ti )Π(ti+1)Gd (ti )Qd (ti ) ,(8)α(ti ) = α(ti+1) + β(ti),(9)Π(ti ) = Vx (ti) + M(ti ),B.3 Двойственность задач фильтрации и управленияпричем в алгоритме (B.9) для i = N действуют пп.
(1)–(9), а для следующихитераций i = N − 1, . . . , 1, 0 действуют пп. (2)–(9), хотя Π(t0), найденное поп. (9) при i = 0, далее не используется (конец вычислений).B.3Двойственность задач фильтрации и управленияМатрица Π(ti) в алгоритме (B.9) удовлетворяет обратному алгебраическому уравнению РиккатиΠ(ti) = Vx (ti ) + ΦT (ti+1, ti){Π(ti+1) − Π(ti+1)Bd (ti)[Vu(ti ) +T−1 T(B.10)+ Bd (ti)Π(ti+1)Bd (ti)] Bd (ti)Π(ti+1)}Φ(tt+1, ti ),i = N, N − 1, .
. . , 1, 0с терминальным условием Π(tN +1) = Vf , Vx (tN +1) в начальный моментi = N счета в обращенном времени. Оно является двойственным прямомуалгебраическому уравнению РиккатиT−−TP (t−)=G(t)Q(t)G(t)+Φ(t,t){P(t)−P(t)H(t)×d jd jj+1 jjd jj+1jj−T−1−T× [R(tj ) + H(tj )P (tj )H (tj )] H(tj )P (tj )}Φ (tj+1, tj ),j = 0, 1, . . . , N(B.11)с начальным условием {·} = P0 при j = 0 для задачи фильтрации.1Из сопоставления (B.10) и (B.11) устанавливаются соотношения двойственности между матрицами, которые описывают задачу оптимальнойлинейной фильтрации (и соответствующую часть I оптимального законауправления) и задачу оптимального линейного регулятора (и соответствующую часть II этого закона), — см.
выше алгоритм (B.9), стр. 346. Этисоотношения двойственности показаны в табл. B.1, стр. 348.B.4Вычислительные алгоритмы задачи управленияМатематический алгоритм управления (B.9) достаточно сложен в реализации. Кроме этого, он имеет принципиальную особенность: вычислениядолжны вестись в обращенном времени — от финального (терминального)момента i = N в уравнении Риккати (B.10) к начальному моменту управления при i = 0. Эта особенность является принципиальной не потому, что1{·} означает выражение внутри фигурных скобок в (B.11), ср.
с формулой (14.9), стр. 318.347B К задаче управленияТаблица B.1. Соотношения двойственности для двух задач: оптимального ЛКГуправления и оптимального ЛКГ-оцениванияЗадача оптимального ЛКГa–управленияΠ(ti )ΦT (ti+1 , ti )Vx (ti ) ≥ 0Bd (ti )Vu (ti ) > 0i = N, . . . , 0терминальноеусловие в (B.10)Π(tN +1 ) = VfЗадача оптимального ЛКГa–оцениванияP (t−j+1 )abcQ(tj ) ≥ 0bΦ(tj+1 , tj )H T (tj )R(tj ) > 0j =N −iначальноеусловие в (B.11){·}c = P0ЛКГ—Линейные модели, Квадратический критерий качества, Гауссовы помехиQ(tj ) , Gd (tj )Qd (tj )GTd (tj ){·} означает выражение внутри фигурных скобок в (B.11), ср.
с формулой (14.9)оптимальный закон управления найден методом динамического программирования Беллмана. Вне зависимости от метода вывода этого закона вычисления должны вестись именно в обращенном времени — от финальногомомента к начальному моменту времени. Это означает, что алгоритм (B.9)должен быть применен до начала процесса управления; его результаты —все значения матрицы Gr (ti ) для формулы (B.7) — должны быть заранеевычислены и сохранены для воспроизведения управляющей функции (B.8)в формуле (B.7) в реальном процессе управления.Взаимная двойственность, присущая двум задачам — оптимального ЛКГуправления и оптимального ЛКГ-оценивания, — позволяет искать средстваэффективной численной реализации алгоритма (B.9) по аналогии [70] с темивычислительными методами оценивания, которые детально рассмотрены вданной книге.348Список иллюстраций3.1Строчно ориентированная схема L̄U -разложения .
. . . . . . . . . . . . . . . . . . . 543.2Столбцово ориентированная схема L̄U -разложения . . . . . . . . . . . . . . . . . . . 543.3Сложение n чисел методом сдваивания для n = 8 [8] . . . . . . . . . . . . . . . . . . 573.4ij (слева) и ji (справа) формы матрично-векторного умножения [8] . . . .