Воронов Е. М. Методы оптимизации управления ММС на основе стабильно-эффективных игровых решений (2001) (1264203), страница 63
Текст из файла (страница 63)
1.1). Первый этап решения этой игры состоит в нахождении оптимальной стратегииобъекта Р – МИПФ:K ∆* ( u q ( ⋅) , tk , t, q ) =argminK ∆ ( t ,t )∈U qE1 ( u q , tk , K ∆ ) .(8.25)В соответствии с принципом ограниченной сложности [240] эта задачасводится к минимизации по K ∆ функционала:E ∧ (=u q , tk , ρ, K ∆ ) E1 ( u q , tk , K ∆ ) + ρE2( ) ( u q , tk , K ∆ ) .iДля этого на первом шаге решается задача((8.26))min E ∧ ( u q , tk=, ρ, K ∆ ) E ∧ u q , tk , ρ, K *∆ ( u q ( ⋅) , tk =, ρ, t, q )K∆()= E ∧* (=u q , tk , ρ ) E1 u q , tk , K *∆ ( u q ( ⋅) , tk , ρ, t, q ) ++ρE2(i )(u q , tk , K *∆, ρ, t, q ) )( uq (⋅) , tk=E1*( u q , t k , ρ ) + ρE 2 ( u q , t k , ρ ) ,(i )*(8.27)i = 1, 2,где множитель Лагранжа ρ = ρ* > 0 определяется на втором шаге:()E2( ) =u q , tk , ρ*E2( )i*i **( uq , tk ) ∈ S (i ) ( uq , t=k ) ± εS , i1, 2.(8.28)Задачи управления двухкоалиционными ММС.
Часть II342)(Заметим, что величина E1* u q , tk , ρ* =E1** ( u q , tk ) является гарантированной оценкой эффективности стратегии u q ( t ) .Второй этап решения игры состоит в нахождении оптимальной стратегии объекта Q:(8.29)u*q ( t ) = arg maxE1** ( u q , tk ) .u q ( t )∈U q [t0 ,tk ]Гарантированной оценкой эффективности оптимальной стратегии()u*q ( t ) является, таким образом, величина E1*** ( tk ) = E1** u*q , tk .Приведенная постановка задачи может быть содержательно расширенабез выхода за рамки основного содержания рассматриваемого метода.1. Можно поставить задачу без предварительной фиксации момента времени окончания операции tk .
В этом случае вторым этапом решениязадачи является поиск гарантированной оценки эффективностиE1*** ( u q ) стратегии u q ( t ) :( )=E1*** uq()**=min E1 uq , tkt K ∈q K ,q K ()E1** uq , tk* .(8.30)Здесь θk = θk − ∆ t1 , θk = θk + ∆ t2 ; θk , ∆ t1 < θk < ∞ – момент времени,определяемый из условия равенства «промаха» на опорной траекториизаданной величине εt ≥ 0 :min x дp 0 ( t ) − x дq 0 ( t ) =− εtx дp 0 ( qk ) − x дq 0 ( qk ) − εt ,t >0∆ ti ,0 ≤ ti < ∞ – фиксированные интервалы времени; i = 1,2. Оптималь-наяarg(8.31)(гарантирующая)maxu q ( t )∈U q t0 ,tk* стратегияE1*** ( u q ) (см. 8.29).u*q ( t )вэтомслучаеравна2.
Можно полагать, что критерий эффективности E1 ( u q , tk , K ∆ ) являетсяминимизируемым критерием противника (это должно быть гарантировано, т.е. точно известно или с риском принято ЛПР). Тогда критериемэффективности ЛПР является некоторый критерий эффективностиE3 ( u q , tk , K ∆ ) , который в рассмотренном частном случае совпадает сE1 ( u q , tk , K ∆ ) . Вторым этапом решения задачи в этом случае являетсяпоиск=E3** ( u q )()*=min E3 u q , tktK ∈ qK ,qK min E3tK ∈ qK ,qK (u , t , K ).qk*∆При этом оптимальная (гарантирующая) стратегия объекта Q:(8.32)Глава 8.
Стохастическая интегро-дифференц. модель конфликтаu*q ( t ) = argextruq ∈U q t0 ,tk* E3** ( u q ) .343(8.33)3. Расширением только что рассмотренной постановки задачи являетсявведение для определения момента времени tk = tk* еще одного функционала (совпадающего в частном случае с E1 ( u q , tk , K ∆ ) ). В соответ-ствии с принципом гарантированного результата при этом, понятно,должно быть гарантировано что противник заканчивает операциюименно в соответствии с этим критерием.4. Функционалу (8.14) может быть придан более общий вид, когда в неговходят не только дисперсия координаты j p∆ ( t ) , но и математическоеожидание этой координаты. Ограничение интеграла от дисперсииускорения j p∆ ( t ) , которое обеспечивает (8.14), физически означаетсужение полосы пропускания системы, что вызывает ограничение иинтеграла от математического ожидания j p∆ ( t ) , но, кроме того, учитывает влияние на j p∆ ( t ) маневра цели.5.
Если начальные условия объекта Q случайны и известен их закон распределения, то возможно по методу Монте-Карло определение пара-()метров закона распределения величины E1* u q , tk , ρ* – гарантированной оценки эффективности стратегии u q ( t ) – по начальным условиям.Эти параметры могут быть затем использованы для нахождения оптимальной гарантирующей стратегии объекта Q, не зависящей от егоначальных условий.Краткая характеристика этапов решения.
В пункте 8.2.1 рассматривается первый шаг первого этапа решения игры – для случая помех, аппроксимируемых «белыми» шумами, определяются явные выражения дляоптимальных стратегий объекта Р, как функций стратегий u q объекта Q,момента времени окончания игры tk и множителя Лагранжа ρ , с помощью которого вводятся функционалы сложности.Материал пункта 8.2.2, где рассматривается первый шаг первого этапас учетом второго функционала сложности, дополняет работу [26], в которой решено матричное интегральное уравнение, задающее необходимое иприводится достаточное условие оптимальности МИПФ K ∆ ( t , t ) в случаерасширенного первого функционала сложности.Для помех, аппроксимируемых нестационарными некоррелируемымимежду собой «белыми» шумами, для обоих функционалов сложности показана корректность по Адамару решений этих уравнений и найдены самирешения.
Особенностью полученных решений является использование вних аппарата прямых сумм и кронекеровых произведений матриц [141].344Задачи управления двухкоалиционными ММС. Часть IIВ параграфе 8.3 рассматривается второй шаг первого этапа решения игры– определяются множители Лагранжа ρ*, обеспечивающие заданный уровеньограничения сложности стратегии K *∆ ( t , t ) . Задача сведена для обоих функционалов сложности к нелинейным алгебраическим уравнениям, решение которых аналитически получено быть не может. В работе для этих уравненийприведены теоремы существования решений и найдены оценки сверху дляρ∗ , которые облегчают применение численных методов поиска ρ∗ .В параграфе 8.4 рассматривается второй этап решения игры – нахождение оптимальной стратегии u*q ( t ) объекта Q. АО полученного метода поиска оптимальных (гарантирующих) стратегий программно-управляемогообъекта Q (≈1000 операторов Паскаля) изложено в главе 9.Параграф 8.5 посвящен исследованию равновесия в данной задачесближения-уклонения, сравнительному анализу и оценке преимуществамаксиминного подхода для получения оптимального управления объектомQ и оценке оптимальной системы позиционного управления объектом Р.В параграфе 8.6 на основе АО разработанного метода исследования позиционно-программных задач сближения-уклонения, детальное описаниекоторого приведено в главе 9, приведены два упрощенных примера применения метода для практически полезных задач сближения-уклонения:уклонения маневрирующего аэродинамического объекта от телеуправляемой ЗУР и защиты РЛС от СУ ПРР с помощью ДИИ (система РЛС-ДИИСУ ПРР).
Полное исследования данных задач приведено в главе 10.Замечание 8.1. В случаях, не вызывающих искажения смысла изложения, аргументы u q , tk , K ∆ , ρ (все или некоторые из них) в главе опущены.8.2. РЕШЕНИЕ ЗАДАЧИ ПОИСКА ОПТИМАЛЬНОЙ СТРАТЕГИИ ОБЪЕКТА Р(ДЛЯ ПОМЕХ ТИПА «БЕЛОГО» ШУМА)Данный пункт посвящен рассмотрению первого шага определения оптимальной стратегии объекта Р и опирается на [26, 27, 64, 413], в которыхс использованием известной формальной процедуры определения первойвариации функционала получены матричные интегральные уравнения, задающие необходимые и достаточные условия оптимальностиМИПФ K ∆ ( τθ, ) .
В параграфе рассматривается решение этих уравнений.Мультипликативная Г и аддитивная n помехи аппроксимируются здесьне коррелированными между собой нестационарными векторными «белыми» шумами: полагается2TR ( ττ1, =2 ) H ∆ ( τττ1 ) X q ( 1 ) N Г ( 1 ) δ ( τ1 − τττ2 ) Xq ( 2 ) H ∆ ( 2 ) +T+ N 2n ( τ2 ) δ ( τ1 − τ2 ) ,(8.34)Глава 8. Стохастическая интегро-дифференц. модель конфликтагде N 2Г ( t=1){nГij ( t1 ) ∈ L2 [t0 , tk ] ,}i=, j 1, n345– положительная положи-тельно определенная n × n матрица уровней спектральных плотностей«белой» мультипликативной помехи;N 2n ( t=1){nnij ( t1 ) ∈ L2 [t0 , tk ],}i,=j 1, n– симметричная положитель-ная положительно определенная n × n матрица уровней спектральныхплотностей «белой» аддитивной помехи; δ ( τ1 − τ2 ) – символ дельтафункции.Вначале получено решение уравнения, соответствующего функционалукачества (8.21) и функционалу сложности (8.14).
В пункте 8.2.2 полученорешение уравнения, соответствующего тому же функционалу качества(8.21) и функционалу сложности (8.16).В обоих случаях для ∀t1 , t0 ≤ t1 ≤ tk существенно используется положительная определенность и интегрируемость с квадратом элементовматрицы(8.35)N 2 ( τ1 =) N Г2 ( τ1 ) + N 2n ( τ1 ) ,где2TT 2 (τ =NГ 1 ) H ∆ ( τττττ1 ) Xq ( 1 ) N Г ( 1 ) Xq ( 1 ) H ∆ ( 1 ) .(8.36)Для положительной определенности (8.35) достаточна неотрицательная 2 ( τ ) ∀t , t ≤ t ≤ t , что с учетом положиопределенность матрицы N101kГ 1 2 ( τ ) следует из леммы 8.1.тельной определенности матрицы NГ 18.2.1.Ограничение множества допустимых стратегий с помощьюфункционала сложности, использующего вектор ускорений(функционал E2(1) )Подставляя в матричное интегральное уравнение после линеаризации1(8.27) выражение (8.34) для R( ττ1 , 2 ) и транспонируя результат, получимотносительно K ∗∆ :tkλ q ∫ A T ( tk , t2 ) A ( tk , t3 ) K *∆ ( t3 , t1 ) dt3N 2 ( t1 ) +t1+ρΩ ( t2 ) K *∆ ( t2 , t1 ) N 2 ( t1 ) = tk t3=− A T ( tk , t2 ) ∫ ∫ A ( tk , t3 ) K *∆ ( t3 , t2 ) y ∆ ( t2 ) d t2 dt3 + ε 0д ( tk ) y T∆ ( t1 ) , t0 t01См.
замечание 8.1.(8.37)Задачи управления двухкоалиционными ММС. Часть II346где y∆ = M [ y∆ ] , M – математическое ожидание.Матрица N 2 ( τ1 ) положительно определена, интегрируема с квадратомв Ln2×n [t0 , tk ] и определяется выражениями (8.35), (8.36); в первом интеграле учтено, что K *∆ ( t3 , t1 ) =0 при t3 < t1 . Выражение в квадратныхскобках в (8.37) (см.(8.20), (8.22)) равно M ε д* ( tk ) – математическомуожиданию «промаха» объектов в случае использования противником оптимальной стратегии:tk t3∫ ∫ A ( tk , t3 ) K ∆ ( t3 , t2 ) y ∆ ( t2 ) d t2dt3 + ε0 ( tk ) =д*t0 t0(8.38)= M ε =( tk ) ε ( tk ) < ∞.Последнее неравенство следует из интегрируемости с квадратом*K ∆ ( t3 , t2 ) в области t3 ∈ [t0 , tk ] , t0 ≤ t2 ≤ t3 . Тогда из (8.37) при фиксирод*д*ванных tk и t1 , tk > t1 следует матричное интегральное уравнение Фредгольма второго ряда с вырожденным ядром A T ( tk , t2 ) × A ( tk , t3 )tkλ q ∫ A T ( tk , t2 ) A ( tk , t3 ) K *∆ ( t3 , t1 ) dt3 + ρΩ ( t2 ) K *∆ ( t2 , t1 ) =t1=− A ( tk , t2 ) εTд*( )tk y T∆(8.39)( t1 ) N ( t1 ) ,−2где вследствие невырожденности матрицы N 2 ( τ1 ) умножение на обратную матрицу N −2 ( τ1 ) допустимо.Уравнения (8.38), (8.39) образуют систему, эквивалентную (8.37), дляопределения МИПФ K *∆ ( t , t ) .Анализ уравнения (8.39).