Воронов Е. М. Методы оптимизации управления ММС на основе стабильно-эффективных игровых решений (2001) (1264203), страница 48
Текст из файла (страница 48)
Красовского основан наиспользовании экстремальной конструкции, фундаментом которой является понятие области достижимости (управляемости) динамической системы. Он включает в себя три этапа:1) формирование областей достижимости объектов управления;2) определение экстремальных направлений и соответствующих им траекторий движения;3) получение законов управления, реализующих движение по экстремальным траекториям.Областью достижимости (ОД) объекта называется область пространства состояний G ( to , T ) , в каждую точку которого объект может попасть вмомент T , выбирая любое допустимое управление.Глава 7. Программно-корректируемое позиционное управление249Первый символ в скобках означает момент начала движения, а второйсимвол – момент определения ОД.
Если обозначен только один символ, тоэто всегда – момент определения ОД.Символом ∂G (T ) будет обозначаться граница ОД в момент T .При исследовании задач управления динамическими объектами однойиз важных задач является определение множеств, или областей достижимости. Задачи определения этих областей тесно связаны с проблемой существования решения терминальных задач управления и синтезом оптимальных управлений. В частности, М. Атанс и П.
Фалб 1 с помощью области достижимости определяют понятие управления, предельного по быстродействию. В [257] отмечается, что задача минимизации терминальногофункционала F ( x ( T ) ) , где Т – фиксированный момент времени, а F ( x ) –заданная функция, эквивалентна отысканию минимума F ( x ) на областидостижимости G (T ) . Поэтому с точки зрения решения многих прикладных задач, в том числе и игровых, овладение техникой нахождения множеств управляемости и достижимости является, несомненно, полезным.К настоящему времени получен целый ряд результатов по анализу множеств управляемости и достижимости как линейных [126, 162, 193, 227],так и нелинейных [89, 118, 193, 254, 258, 264, 273, 319, 320, 322, 409] объектов. В частности, свойство выпуклости областей достижимости линейных объектов делает возможным использовать [129] фундаментальнуюматрицу решений для построения границы ОД – ∂G ( to , T ) .Анализ взаимного расположения ОД объекта-преследователя GP (T ) иОД объекта-цели GE (T ) и использование свойства сжимаемости ОД [118,129]G ( t , T ) ⊂ G ( to , T ) , to ≤ t < T(7.17)делает весьма наглядным и простым решение задачи сближенияуклонения линейных объектов фиксированной продолжительности T скритерием конечного промаха(7.18)Kh ( u P , u E ) = h (T ) , r (T ) , r (T ) > l;где h ( T ) = =r ( t ) У P ( t ) − У E ( t ) , t > t ′ > t0 , У i – век 0, r (T ) ≤ l ,тор геометрических координат объекта i ; x gi – вектор позиции объектаi У i ∈ x gi ; l ≥ 0 – заранее заданное число, характеризующее область1Атанс М., Фалб.
П. Оптимальное управление. – М.: Машиностроение, 1968. – 760 с.Задачи управления двухкоалиционными ММС. Часть II250влияния преследователя, T – фиксированный известный момент окончания игры.Для определения оптимальных управлений uoP ( t′) и uoE ( t′) достаточнопостроить области GPl ( t ′, T ) и GEl ( t ′, T ) и проанализировать их взаимноеположение. Здесь возможны ситуации (рис. 7.1, 7.2) неполного и полногопоглощения.1) Неполное поглощение – GE (T ) ⊄ GPl (T ) (рис.
7.1).xg (t ')E∂G pl (t ', T )A2∂G p (t ', T )ε0 (t ',T )A1∂GE (t ',T )xg (t ')PРис. 7.1. Неполное поглощениеВ этом случае прогнозируемые значения конечного промахаεo ( t ′, T ) > 0 . Для максимизации этого промаха цель направляет (прицеливает) свое движение в точку A2 – точку наиболее удаленную от GPl (T ) .Причем ясно [118, 129], чтоA2 ∈ ∂GE (T ) ⊂ GE (T ) .(7.19)Ибо если это не так, то существует другая точка A2 ∈ ∂GE (T ) ⊂ GE ,для которой εo ( t ′, T ) больше. Таким образом, величина εo ( t ′, T ) есть минимальный гарантированный запас цели по уклонению.
Объектпреследователь должен прицеливать свое движение, рассчитывая на самоенеблагоприятное (экстремальное) поведение цели, в точку A1 ∈ ∂GP ( T ) ⊂⊂ GP ( T ) . Точка A1 должна быть наиболее близкой к точке A2 , т.е. анало-гично (7.19)УправленияA1 ∈ ∂GP (T ) ⊂ GP (T ) .uPoиuEo(7.20), нацеливающие движение объектов в точки A1 иA2 соответственно, доставляют седловую точку игры, и при этомГлава 7. Программно-корректируемое позиционное управлениеuio ∈ U i∂ ,U i∂251(7.21)– множество программных управлений i-го объекта, приводящих награницу ∂Gi (T ) , называемое множеством граничных управлений;2) GE (T ) ⊂ GPl (T ) – полное поглощение (рис. 7.2).В этом случае ясно, что преследователь всегда может обеспечить себенулевой промах, так как у него есть некоторый запас [322] δo ( t ′, T ) ≥ 0поглощения, как бы себя ни вела цель. Поэтому теоретически допустимылюбые управления uP , uE [129], пока существует ситуация 2.
В.М. Кейн[118] заметил, что с практической точки зрения такой «произвол» в выбореоптимальных управлений никак не оправдан, поскольку преследовательзаинтересован в сохранении ситуации 2, а цель заинтересована в превращении ситуации 2 в ситуацию 1. Используя свойство (7.17), цели необходимо направлять свое движение в точку A2 , максимально приближеннуюк ∂GPl (T ) . Тем самым будет достигнуто невозрастание запаса поглощения δo ( t , T ) в процессе игры, а при неоптимальном движении преследова-теля δo будет убывать.
Таким образом, будет обеспечено выполнение неравенства∂δo ( t , T )≤ 0, t ' < t ≤ T ,(7.22)∂tчто, возможно, приведет в некоторый момент t * > t ′ к ситуации()δo t * , T =0,(7.23)а затем и к ситуации 1, гдеεo ( t , T ) > 0, t * < t ≤ T .(7.24)∂G pl (t ', T )∂GGpp ((t ′',, T ))A2xg E (t ')δ 0 (t ', T )A1∂GE (t ', T )xg P (t ')Рис. 7.2. Полное поглощениеЗадачи управления двухкоалиционными ММС. Часть II252Преследователь, наоборот, стремится сохранить запас поглощенияδo ( t ′, T ) и, по возможности, увеличивать его. Для этого ему необходимонацеливать свое движение в точку A1 , ближайшую к A2 (рис.
7.3). Тогдапо свойству (7.17) δo ( t ′, T ) не будет убывать со временем, а при неопти-мальности наведения цели возможно даже увеличение запаса, таким образом, обеспечивается выполнение неравенства∂δo ( t , T )(7.25)≥ 0, t ' < t ≤ T .∂t∂G pl ( t ′,T )x gE ( t′)∂G p ( t ′,T )δ0 ( t ′,T )A1=A2x gp ( t′)∂GE ( t ′,T )Рис. 7.3. Полное поглощениеПри этом опять справедливо включение (7.21). Здесь необходимо заметить, что при выполнении включения (рис. 7.3)(7.26)GE (T ) ⊂ GP (T )преследователь может нацеливаться в точку A2 , допуская медленноеуменьшение запаса δo ( t , T ) , t ' ≤ t ≤ T , но обеспечивая выполнение условияεo ( t , T=) 0, t ' ≤ t ≤ T ,∉ U P∂(7.27)при этом.Описанному способу управления в ситуации полного поглощения,предложенному В.М.
Кейном в [118], можно найти аналогию в классической теории регулирования [143], когда в закон управления по ошибкеu= k1 ⋅ εвводят производную от ошибки ε для улучшения качества регулированияu= k2 ⋅ ε + k3 ⋅ ε .Для решения задачи может быть предложен другой [75] по форме способ определения оптимальных управлений, взаимосвязанный с подходамиuPoГлава 7. Программно-корректируемое позиционное управление253А.Б. Куржанского [140], В.Ф. Бирюкова [242], Д.А. Овсянникова [184](рис. 7.4), Л.А. Петросяна [200], суть которого состоит в построении только области GE (T ) и множества U Pn – множества управлений, потребных1для l-сближения к моменту T .
Тогда на основании анализа взаимного положения ансамбля располагаемых и потребных траекторий определяетсяоптимальное управление обоих объектов. Именно такой подход будет использоваться при решении поставленных нелинейных задач игровогоуправления.В задаче преследования-уклонения с критерием времени до l-встречиобъектов [129]Kt ( u P , u E=)}{tl∫ 1⋅ dt,toгде=tl inf t : У P ( t ) − У E ( t ) ≤ l .x gE ( t ′)∂G p ( t ′,T )∂GE ( t ′,T )x gp ( t ′)lграница потребной vРис. 7.4.
Ансамбль располагаемых и потребных траекторийТакже возможны две ситуации полного и неполного поглощения [54].В рассматриваемых задачах экстремального прицеливания положениеточки экстремального прицеливания A1 или A2 определяется конфигурацией ОД и их взаимным положением. Поэтому вполне возможны ситуации, когда таких точек у каждого объекта окажется несколько.
Такая ситуация называется нерегулярной [98, 118, 129].В нерегулярной ситуации необходимо выбрать одну точку – любую изних [129]. В принципе, нерегулярная ситуация более выгодна для цели, потому что преследователю не удастся обеспечить невозрастание величиныпрогнозируемого промаха εo ( t ′, T ) и εo ( t ', ϑ ) в случае непоглощения илине удастся обеспечить неубывание запаса δo ( t ′, ϑ ) в случае поглощения сБирюков В.Ф. Синтез управления для многомерного нелинейного объекта при ограничениях вдоль траекторий // Труды МВТУ. № 409. – 1983.1254Задачи управления двухкоалиционными ММС. Часть IIкритерием промаха и не удается обеспечить невозрастание времени встречи t * в случае поглощения с критерием времени. В нерегулярной ситуациипоэтому процедура зкстремального прицеливания не позволяет предсказать гарантированный результат, но, как отмечает В.М.