Воронов Е. М. Методы оптимизации управления ММС на основе стабильно-эффективных игровых решений (2001) (1264203), страница 67
Текст из файла (страница 67)
решения максиминной(для Q) и минимаксной (для Р) задач, причем решение последней задачидает оптимальную матричную ИПФ, которая имеет смысл оптимальногоописания замкнутой системы управления объектом Р.Как известно, обе задачи могут быть также интерпретированы как задачи фильтрации, например [3, 27, 112], с получением гарантированныхоценок фильтрации и характеристик фильтров. При этом «технологии»получения решения в обоих видах интерпретации (управления и фильтрации) одинаковы (см., например, максиминные задачи получения гарантирующего управления [26] и гарантирующего фильтра [27]).Поэтому можно проанализировать особенности минимаксного подходадля линеаризованной модели (8.10) объекта Q по работам минимакснойстохастической фильтрации [3, 112]. В работе [112] задача решается врамках интегро-дифференциальной модели, в [3] – с помощью сопряженного описания задача приводится к «бесшумной» задаче оптимальногоуправления фильтром при противодействии.Без ограничения общности рассуждений рассмотрим частный случаймодели на рис.
8.10 (и работы [112]). Оптимальный скалярный фильтрГлава 8. Стохастическая интегро-дифференц. модель конфликтаK ( tk , t ) =tk) K ( ,t) d =∫ α ( tk , θθθ363V ( t ) должен обеспечить оценку величиныt0xq1 ( t ) , гдеx q ( t ) =Ax q + Buq ,x q ( t0 ) =x q 0 , dim x q =m,y=Hx q + n, H =(1,0,...,0 ) , B =( 0,...,0,1) .Скалярная функция uq ∈=Uq(8.101)( uq : uq ≤ uq ( t ) ) .Оценка получается на основе минимаксной среднеквадратическойошибки при «белой» аддитивной (скалярной для данного Н) помехе n(t ) скорреляционной функцией Rn ( =t ) N 2δ ( t ) и M [ n] = 0 :min max M =ε 2 t min max ε 2 t + σ2 ( tk ) , ( k ) V p uq ( k )Vpuq(8.102)где2( )=ε2q tk tk K ( tk , t ) xq ( t ) dt − xq ( tk ) ;11 t∫0=σ ( tk ) N2tk2( tk , t ) dt; V p ( t )∫ K=2K ( tk , t ) .t0Очевидно, чтоε2 t min max ε2 ( tk ) + =σ2 ( tk ) min max M = ( k ) Vp Vpuq2tk= min max εq ( tk ) + N 2 ∫ V p2 ( t ) dt .V p uqto(8.103)Можно показать, что при определенном выборе системы координатt ) xq1 (=t)xq 0 = 0 , Hxq (=t∫ p ( t , t ) uq ( t ) d t .t0Тогдаtkε ( tk ) = ∫ Ω ( tk , t ) uq ( t ) d t ,t0где Ω ( tk ,=t)tktkttt)) p ( , t ) d θ − p ( tk ,=∫ K ( tk , θθ) d − p ( tk , t ) .∫ p ( θ, t )V p ( θθЗадачи управления двухкоалиционными ММС.
Часть II364tkПоэтому max ε ( tk ) = ∫ uq ( t ) Ω ( tk , t ) d t при uq0 ( t ) = uq ( t ) sign Ω ( tk , t ) .uqt0Соответственно2 tktk22 ε ( tk ) min uq ( t ) Ω ( tk , t ) d t + N =min max M=∫ V p ( t ) dt V p ∫Vpuqt0 t02(8.104)2 tktktk= min ∫ uq ( t ) ∫ p ( q, t )V p ( q ) d q − p ( tk , t ) d t + N 2 ∫ V p2 ( t ) dt .Vp tot t0Из последнего равенства следует, что в отличие от линейной задачифильтрации максиминного подхода (см.
пункты 8.2, 8.3) с ее аналитической разрешимостью относительно K ( tk , t ) при фиксированном uq ( t )(даже при учете заданной части α ( t , t ) ) минимаксная задача сводится ккомбинации задач нелинейной фильтрации и «накопления возмущений»,которая еще более усложнится при ее рассмотрении в общем виде и учетезаданной части фильтра (в условиях, близких к п. 8.1.3).Подобные нелинейные свойства выявляются и при сведении минимаксной задачи с помощью сопряженных операторов к «бесшумной» задаче оптимального управления [3].В условиях рассматриваемого частного случая имеем (см.
[3], стр. 126):2 tktk2T22 ε (tk ) max z ( t ) Buq ( t ) d t + N K ( t , t ) d t , (8.105)max M =∫ ∫ uquqto t0− A T z − HK (tk , t ), z(tk ) =−H =( −1,0,...,0), dim z =m.где z =Тогда2 tktk222min max M =ε t min u t z t d t + N ∫ V p ( t ) d t , (8.106) ( k ) V p ∫ q ( ) m ( ) Vpuqto t0где− A T z − HV p ( t ) , z ( tk ) =0;z =( −1,0,...,0 ) , x q ( tk ) =()=z ( t0 ) 0 при x q ( t0 ) − любое ,причем uq = uq ( t ) sign zm ( t ) .Из последнего минимаксного равенства следует, что минимизируетсявыражение с модулем сопряженной координаты, которая получена из операторной связи под действием V p .Глава 8. Стохастическая интегро-дифференц. модель конфликта365Таким образом, обобщая результат на задачу сближения-уклонения,можно утверждать, что минимаксная задача получения гарантированныхрешений более сложная, чем максиминная с ее последовательными этапами линейной фильтрации и оптимального управления.
Детальный сравнительный анализ подходов приведен в [54].8.5.2.Условия ε-равновесия и равновесия в интегродифференциальной задаче сближения-уклоненияОчевидно, что если между минимаксными и максиминными оценкамиимеет место близость (ε-равновесие), то находить оптимальные решениядля Р и Q можно на основе одного из двух подходов, при этом сравнениеподходов в п. 8.5.1 и в работе [54] показывает преимущество максиминного подхода.Поэтому выполнение условий равновесия или ε-равновесия упрощаетпоиск оптимальных решений противодействующих сторон. Кроме того,как известно (см.
главу 7), равновесные решения являются устойчивыми кдополнительной информации.В соответствии с формулами (8.10), (8.11), (8.17 – 8.22) и рис. 8.10 воспроизведем для удобства доказательства следующий набор соотношений(пока без учета ограничений (8.15), (8.16) на основе принципа сложности изаданной части (8.12), (8.20)), полностью характеризующий задачу сближения-уклонения.Объект Q описывается следующим векторным дифференциальнымуравнением:(8.107)=x q ( t ) f=x q ( t ) , u q ( t ) , t , x q ( t0 ) x 0q ,()где dim =x q m, x q ⊂ C t j , tk , u ∈ U q ⊂ L2 [t0 , tk ] .U=Uq =uq ( t ) : uqj ( t ) ≤ uqj , j =1, r ,{}(8.108)где U – является выпуклым замкнутым и компактным в C [t0 , tk ] [138],но, в общем случае, слабокомпактным в L2 [t0 , tk ] (из-за включения варианта uqj ( t ) = uqj ( t ) ) [121, 138]; f ( ⋅) – вектор-функция, непрерывная посовокупности аргументов, удовлетворяющая условиям Липшица иf ⊂ C1 [t0 , tk ] .Возможно задание (8.107) в виде=x q ( t ) f x q ( t ) , t + Bu q ( t ) ,()(8.109)линейном по управлению.При фиксированном опорном движении (10') используется линейнаямодель Q:(8.110)x q ( t ) A ( t ) x q ( t ) + B ( t ) u q .=Задачи управления двухкоалиционными ММС.
Часть II366Координаты объекта Q, доступные измерению объектом Р, с учетоммультипликативных возмущений Г (t ) составляют n-мерный вектор y ∆ ( t )и с учетом аддитивных помех n ( t ) n-мерный вектор y q ( t ) (см. рис. 8.10):y q ( t ) = y ∆ ( t ) + n ( t ) = H ∆ ( t ) Г ( t ) x q (t ) + n ( t ) ,(8.111)где H ∆ ( t ) – матрица n × m (или n × n при x q (t ) , составленном как позиция из исходного вектора (8.107) (см. (8.11))); Г ( t ) – диагональная матрица m × m ; n ( t ) – векторная помеха.Характеристики Г ( t ) и n ( t ) даны в пункте 8.1.1.
В частности,}{==riiГ ( t1 , t2 ) , i 1, m . Аддитивная помеха во мноMГ= E , R Г ( t1 , t2 ) diagгих случаях допускает аппроксимацию «белым» шумом:R n ( t1=, t2 )r jk{rjk ( t1, t2 )}, где=N 2jk ( t2 ) δ ( t1 − t2 ) .Состояние объекта Р определяется вектором x p∆ ( t ) (см. рис. 8.10)x p∆ ( t ) ∈ X p ⊂ C1 [t0 , tk ] .(8.112)Динамика системы управления объекта Р задается матрицей n × n ИПФ{kij ( tk , t )} ,K ( t=k , t)где(8.113)kij ∈ X k ⊂ C1 [t0 , tk ] , t , t ∈ [t0 , tk ] , t ≥ t.(8.114)При произвольном характере помех функции kij могут иметь конечныйразрыв в точке t = t . Тогда k jk ⊂ L2 [t0 , tk ] .
Очевидна связь (см. рис. 8.10)x p∆ (=tk )tk∫ K ( tk , t ) y q ( t ) d t.(8.115)t0В соответствии с (8.21) показатель противодействия может быть получен в виде:(){J uq , K = E1 = tr { } = εд ( tk ) + λM εсл2=∑{nj =1}{2}=}2ε2дj ( tk ) + M εслj ( tk ) ,(8.116)гдеε=д ( tk )tk∫ K ( tk , t ) H ( t ) Г ( t ) x q ( t ) d t − x q ( tk ) ,t0(8.117)Глава 8. Стохастическая интегро-дифференц. модель конфликтаε сл (=tk )367tk∫ K ( tk , t ) n ( t ) d t .(8.118)t0(Объект Q в общем случае выбирает управление u q = u q x q , x p , t)длямаксимизации (8.116), объект Р выбирает систему – МИПФK ( tk , t ) = K x q , x p , tk , t так, чтобы минимизировать (8.116). В рамках)(данной главы рассматривается программно-позиционная задача при=u q u=q (t ), K K ( x q , tk , t ) .В главе 7 (см.
утверждения 7.1, 7.2) даны типичные условия равновесияи ε-равновесия. С учетом специфики рассматриваемой интегродифференциальной задачи условия близости максимина и минимакса обсуждаются, например, в работах [3] и [60]. Если в работе [3] анализ равновесия для родственной задачи фильтрации проводится на интуитивной основе, то в [60] для исследования ε-равновесия рассматриваемой задачи сучетом ограничений, заданной части и аддитивных шумов привлечены результаты общей теории игр – теоремы Сайона, Фань-Цзи, Никайдо [24].В данном пункте на основе сформулированных типовых условий (утверждения 7.1, 7.2) приводятся результаты исследований специфических особенностей условий равновесия и ε-равновесия для интегро-дифференциальной задачи противодействия с учетом мультипликативных и аддитивных помех, обобщенных ограничений для обоих объектов (двух видовограничений сложности решения для Р (8.14), (8.16), общих свойств множества управления Q (8.108)), обобщения заданной части (для теле- самонаведения объектов Р), нелинейного описания объекта Q, а также обобщенного анализа требуемых условий квазивогнутости показателя поуправлению объекта Q.Вначале рассмотрим утверждение при условии, что Г ( t ) =E и описание объекта Q линейно (8.109).Утверждение 8.6 (условия ε-равновесия).
Пусть X k и U – выпуклыемножества евклидова или гильбертова бесконечного мерного пространства(в частном случае, X k ⊂ C1 [t0 , tk ] ; U ⊂ L2 [t0 , tk ] или X k , U ⊂ L2 [t0 , tk ] ),U – слабокомпактное в L2 ( ui = ui ) или компактное ( ui ≤ ui , i =1, 2,...) .Если функционал J ( u, K ) при каждом u ∈ U определен, непрерывен(следовательно, полунепрерывен снизу) и выпуклый на замыкании X k ,при каждом K ∈ X k определен, непрерывен (следовательно, полунепрерывен сверху) и вогнутый на U, то()inf=sup J ( u, K ) sup=inf J ( u, K ) J u0 , K 0 .KuuK(8.119)368Задачи управления двухкоалиционными ММС. Часть IIТо есть имеет место (см. утверждение 7.2) ситуация ε-равновесия:)(inf J ( u, K ) ≤ J ( u0 , K 0 ) + ε,Ksup J ( u, K ) ≥ J u0 , K 0 − ε;uε > 0,(8.120)которая означает, что объект Р при всех возможных действиях можетулучшить свой результат (уменьшить потери J) по сравнению с (8.119) неболее, чем на малое ε > 0 ; аналогично, объект Q может улучшить свой результат (увеличить «выигрыш» J) по сравнению с (8.119) не более, чем намалое ε > 0 .Следствие 8.1.