Воронов Е. М. Методы оптимизации управления ММС на основе стабильно-эффективных игровых решений (2001) (1264203), страница 15
Текст из файла (страница 15)
Если функция K (t , t, u) непрерывна относительно t , t ∈ [0, T ] и | u |≤ r , то оператор Урысона является вполне непрерывным в шаре радиуса r пространства С [0,T ] . Если функция K (t , t, u)непрерывна относительно u при t , t ∈ [0, T ] и| K (t , t, u) |≤ R(t , t)( a + b) | u |a ,гдеTTa+1∫ ∫ | R ( t , t) |00dtd t < ∞, a, b, a > 0 ,Стабильные эффективные решения и компромиссы.
Часть I70то оператор Урысона вполне непрерывен в пространстве L p ( p = α + 1) .Тогда при условии того, что сумма двух вполне непрерывных операторов есть вполне непрерывный оператор, из подобного утверждения 2.2следует компактность X [54, с. 92].Пусть, наконец, описание модели системы (2.1) имеет общий вид=x f ( x, u, t ), 0 ≤ t ≤ T , u ∈ U .Тогдаt=x x 0 + ∫ f ( x, u, t )dt .(2.21)0Далее, аналогично предыдущему, при f ( x, u, τ) (как операторе Немыцкого) на вектореx1 = ( x, u)и следующей вполне непрерывностиt∫ f (x1, t)d tаналогично предыдущему получаем [54]0|| x || ≤ f (t ) .Так как имеем || x || ≤ f (t ) ; | u |≤ r (или | ui | ≤ ui , 0 ≤ t ≤ T ), то вполненепрерывный оператор отображает [138] ограниченное множество в компактное.Таким образом, учёт в постановке задачи отыскания Нэш-равновесияспециального условия компактности X при ограниченном управлении иусловиях на правые части системы (2.1) во многих ситуациях не являетсянеобходимым.Замечание об обобщении свойств показателей.
В замечании 2.1 раздела 2.2.1 дано обобщение терминального вида показателя. Таким образом,подход Пао справедлив и для типового показателя игрока-подсистемы:функционала, который имеет интегральную и терминальную части.Очевидной является структуризация показателя игрока-коалиции Kвида (2.3) Tλ=J=J)d + λ j j j ( x(T ), T )=∑ j j ∑ λ j ∫ f0 j (x, u, ττK 0j∈Kj T=T))d + ∑ λ j j j ( x(T ), =∫ ∑j λ j f0 j (x, u, ττj0T=)d + j K ( x(T ), T ).∫ f0 K (x, u, ττ0Тогда(2.22)Глава 2.
Модифицированный метод скалярной Нэш-оптимизацииλj∑=g K f 0 K ( x, u, t) + j K ( x(t ), t );=j =1711, 0 ≤ t ≤ T , 0 ≤ λ j ≤ 1;xOK (0) = j K ( x(0)).Выражение (2.2) принимает видxOK (T ) =xOK ( u(⋅), z(0), T ), K ∈ P,где P − коалиционная структура;txOK ( u(⋅), z(0),=t ) xOK (0) + ∫ g K ( u(⋅), z(0), t)d t, t ∈ [0, T ] ;0λ j − фиксированные весовые коэффициенты показателей J j объектов,составляющих коалицию. Выражение для J K может также иметь смыслскаляризованного векторного показателя игрока-подсистемы.Приведенный вариант обобщения показателей является типичным, ноне претендует на полноту.Элементы модификации постановки при векторном обобщении иструктуризации управления.
Модификация исходной постановки привекторном обобщении заключается в обобщении множества U i , котороелибо сохраняет скалярный вид(2.23)ri =ϕi (ui1 , , uim ) ≤ 0, i =1, N ,либо принимает вид декартового произведения U i = U i1 × × U im , где, кпримеру,(2.24)=U ij {uij : | uij |≤ uij } .Частично перестраивается вид функции g (⋅) , где∂xoiпринимает вид∂uiградиента∂xoi ∂xoi ∂xoi∂x ,,2 , oi =∂ui ∂ui1 ∂ui 2∂uim и где ui (⋅) − v i (⋅) есть векторui (⋅) − v i (=⋅) (ui1 (⋅) − vi1 (⋅), , uim (⋅) − vim (⋅)) .Поэтому функция «качества» принимает вид=g ( u, v, x, t )t m∂x∏ ∫ ∑ ∂uoi (uij (⋅) − vij (⋅)) dt .ijj =1i =1, N0Данные и другие изменения позволяют доказать необходимое условиеПао равновесия по Нэшу для векторного программного управления72Стабильные эффективные решения и компромиссы.
Часть I=ui (=ui1 , , uim ), i 1, N . Можно показать, что общая методика доказательства не изменяется.Структуризация управления позволяет получить необходимые условияв форме удобной для дальнейшего использования того или другого оптимизационного подхода при формировании алгоритма оптимизации.Так, для программного управления (2.1) при модульных ограниченияхна векторное управление (2.23) может быть применен вариационный подход; при жёстких скалярных ограничениях (2.24) применяются принципмаксимума и метод Беллмана.Для параметризированного программного управления (2.1) в процесседоказательства и формирования алгоритма могут быть использованы процедуры численных методов.Структура управляющих сил в форме программно-корректируемого закона управления (ПКЗУ) (гл.
1) позволяет на этапе формирования необходимых условий равновесия и на этапе алгоритмизации расширить возможность решения задачи и обосновать и сформировать многотактовую процедуру получения стратегии игрока на основе классических методов оптимизации и параллельных вычислений.Параметризированный ПКЗУ (гл. 1) позволяет для формирования необходимого условия и алгоритмизации решения использовать процедурычисленных методов математического программирования и методы параллельных вычислений для определения субоптимальных стратегий игроков.О модификации функции арбитра. Функция арбитра g ( u, v, x, T ) со-держит произведение дифференциалов показателей xoi . Условия Паообеспечивают равномерное стремление дифференциалов к нулю при приближении управлений к равновесным, но темп этого процесса зависит отконкретных свойств показателей.Произведение «скрывает» эту неравномерность, поэтому в некоторыхприложениях полезным является формирование функции арбитра в видесуммы дифференциалов=g ( u, u* , x, T )∑i =1, N∂xoi ( uoi (⋅), z(⋅), t ), ui (⋅) − ui* (⋅) .∂ui (⋅)iКак следует из замечания 2.4, свойство (2.7в) леммы 2.1 не выполняется.
Необходимо оценить характер дополнительных условий для выполнения данного свойства.Рассмотрим производную по ФрешеГлава 2. Модифицированный метод скалярной Нэш-оптимизации∂g ( u(⋅), u* (⋅), x(0), T )=∂u j (⋅)+∑i =1, Ni≠ j∂xoi ( uoi , z(0), T ), ui (⋅) − ui* (⋅)∂ui (⋅)∂ 2 xoj ( uoj (⋅), z(0), T )∂ 2u j (⋅), u j (⋅) − u*j (⋅)+i∂xoj∂u j73⋅1 +,j*где uoj = (u1* , , u*j −1 , u j , u*j +1 , , u*N ) . При=u j u=j 1, N имеемj,∂xoj∂xoj∂g ( u* (⋅), u* (⋅), x(0), T )= 0++ < 0 >=.∂u j∂u j∂u j(2.25)Последнее выражение будет равно нулю в точке Нэша при выполнениисвойства выпуклости функционалов xoj , j = 1, N , по u j .Таким образом, замена произведения на сумму в выражении g удовлетворяет лемме 2.1 при дополнительном условии выпуклости функционалов xoi по ui в окрестности равновесной точки u* , i = 1, N .Обобщение необходимого условия Пао до необходимого и достаточного условия на основе верификации оптимального решения u*.Как известно, использование необходимых условий для определения оптимальных решений всегда логически неполно.
Тем более, что метод решения основан на вычислительной итерационной процедуре, которая привсей её обоснованности только лишь сходится к точному решению.Поэтому для обеспечения логической полноты и проверки смысла приближенных решений полезно применять достаточные условия. Как правило, эти условия технологически сложные [32] и использовать их для определения равновесного решения практически невозможно. Задача упрощается, если эти условия используются лишь для верификации найденногорешения.Рассмотрим несколько вариантов достаточных условий.1.
Достаточные условия Вайсборда–Жуковского–Сталфорда [32]*=u* u=(t , x ) (u1* , , u*N ) .для определения или верификацииУтверждение 2.4 [32]. Для того чтобы стратегии ui (t , x ), i = 1, N былиравновесными ui = ui* (t , x ), достаточно для любого ui ∈ U i выполненияусловия____H i (t , x, ui* , , ui*−1 , ui , ui*+1 , , u*N ) ≤ H i (t , x, u* ) =0, i =1, N ,(2.26)Tгде J i=∫ f0i (t, x, u (t, x ))dt + Фi (T , x)*t0рока;− показатель эффективности i-го иг-74Стабильные эффективные решения и компромиссы. Часть I=x f (t , x, u* (⋅)), u ∈ U − векторно-матричное описание системы игроков;=D ( X j , j ∈ L) – счетное разбиение множества X ;W ji (t , x ) , j ∈ L – локально дифференцируемое липшицево расширенноеотображение [t0 , T ] × Y j → E1 на открытом множестве Y j ⊃ X i=W ji (t , x ) Vi (t , x ) для [t0 , T ] и x ∈ X j ,*где Vi (t , x ) J==i (t , x ), Vi (T , x (T )) Фi (T , x (T )).Для терминальных показателей, не зависящих явно от времени, ∂W ji ( x ) H i (t , x, u ) = f (t , x, u( x )) . ∂x Но даже при сведении исходной задачи к терминальной очевиднасложность применения данных достаточных условий не только для определения u* (t , x ) , но и для верификации найденного закона.2.
Достаточное условие Лейтмана–Сталфорда [349]. Если учесть, чтоосновной результат Пао–Нэш-оптимизации может быть развит до получения ПКЗУ при малом интервале коррекции, тогда для верификации полученного приближения позиционного управления u = ϕ(t , x ) может бытьиспользовано достаточное условие Лейтмана–Сталфорда.Утверждение 2.5 [349]. Позиционное управление u* Нэш-оптимально,если существуют λ i (t ) , удовлетворяющие условиямf 0i ( x* (t ), u1* (t ), , ui* (t ), , u*N (t )) − f 0i ( x i (t ), t , u1* (t ), , ui (t ), , u*N (t )) +d iT[ λ (t )( x* (t ) − x i (t ))] ≤ 0dtпри λ i T (T )( x* (T ) − y (T )) =0, i =1, N , t ∈ [0, T ],+(2.27)где y (T ) ∈ X (T ) , X (T ) − фиксированное подмножество состояний x (t ) вмомент t = T ( или λ i T (T ) = 0 при любых y (T ) );Глава 2.
Модифицированный метод скалярной Нэш-оптимизации75ui* (t ) =j*i ( x* (t ), t ), i =1, N ;ui (t ) = ji ( x i (t ), t );u j (t ) =j*j ( x i (t ), t ), j ≠ i;tx* (t=) x 0 + ∫ f ( x* , u* , t )dt;0t* ii*ix i (t ) =x 0 + ∫ f ( x i , t , jjj1 ( x (t ), t ), , i ( x (t ), t ), , N ( x (t ), t ))dt ;0T=Ji.∫ f0i (x, u, t )dt → minu0Верификация заключается вλ i (t ), i = 1, N системы неравенствiпроверкеtt00существованиярешения1, N (2.28)λ i (t )( x* (t ) − x i (t )) + ∫ f 0i ( x* (t ),...)dt − ∫ f 0i ( x i (t ),...)dt ≤ 0, i =при любом позиционном управленииϕi ( x i , t ) =ui =ui ( x i (t ), t ) ∈ U i , t ∈ [0, T ] .3.
Для верификации программного управления u = u* может бытьиспользован принцип максимума, который для показателей потерь илюбых H i (t ) приводит к утверждению:Утверждение 2.6. Если управление u* оптимально, тоH i (t , x, u1* (t ), , ui*−1 (t ), ui (t ), ui*+1 (t ), , u*N (t )) ≤ H i (t , x* , u* (t )), i =1, N , (2.29)∂Hi =где H i =ψi f (t , x, u(t )) + ψ0 f 0i (t , x, u(t )), ψ− i ; x(0) =x0 .∂xДля всех приведенных вариантов верификации, кроме их сложности,требуется осуществить проверку на множестве любых ui ∈ U i , что требуетразработки процедуры сравнения H i и H i (t , x* , u* ) на всем множестве U i .Процедура сравнения множества с точкой разработана в главе 4 для более общего случая решения (получения локальных угроз и контругроз),который является обобщением ситуации локального равновесия по Нэшу.4.