Диссертация (1145356), страница 6
Текст из файла (страница 6)
, ) = 0 () +∑︀=1 () .Выигрыш -го игрока определяется следующим образом:∫︁ (0 , 0 , , 1 , . . . , ) =ℎ (( ), 1 ( ), . . . , ( )), = 1, . . . , ,0(1.1.2)где ℎ (, 1 , . . . , ) представляет собой непрерывную функцию и () – решение задачи Коши для системы ОДУ (1.1.1) при управлениях 1 (), . . . , ().Рассмотрим кооперативный вариант игры. Пусть * = (*1 , . . .
, * ) – такой-набор управлений, который доставляет максимум суммарному выигрышуигроков:* = arg max∑︁ (0 , 0 , , ).(1.1.3)=1Предположение 1.1.2. В дальнейшем будем полагать, что в (1.1.3) и последующих задачах оптимального управления искомое оптимальное решениесуществует и достигается на множестве допустимых управлений и соответствующему ему множестве допустимых траекторий.Предположение 1.1.2 означает, что во всех последующих формулировкахзадач оптимального управления можно использовать обозначения max и minвместо max и inf . Соответственно, при формулировке задач максимизации(минимизации) будем писать max (min), полагая, что управления принадлежат соответствующим множествам допустимых управлений , .Траекторию * (), ∈ [0 , ], являющуюся решением задачи (1.1.1) приуправлении * будем называть кооперативной траекторией.Глава 1.34Основные модели и методыСовокупный выигрыш игроков из максимальной коалиции , полученныйпри использовании оптимальных управлений * обозначим (0 , 0 , , ): (0 , 0 , , ) =∑︁ (0 , 0 , , *1 , .
. . , * ) ==1 ∫︁∑︁ℎ (* ( ), * ( )).=1 0(1.1.4)В том случае, когда кооперация отсутствует, каждый игрок стремится максимизировать свой индивидуальный выигрыш. Оптимальное решение, соответствующее такой постановке, называется равновесием по Нэшу [279]. Альтернативным определением оптимального решения в некооперативных играхявляется равновесие по Бержу [8].Определение 1.1.1.
Набор управлений = {1 , . . . , } называется рав-новесием по Нэшу если (0 , 0 , , ) ≥ (0 , 0 , , − ),где − = {1 , . . . , −1 , , +1 , . . . , }, ∈ , ∈ .Управления , соответствующие равновесию по Нэшу, находятся как ре-шение связанных оптимизационных задач:= arg max (0 , 0 , , − ), = 1, . .
. , .Аналогично кооперативному случаю, для равновесия по Нэшу можно определить выигрыш, получаемый -тым игроком при использовании управленияи при условии, что остальные игроки также используют управления изравновесия по Нэшу. Будем обозначать этот выигрыш как (0 , 0 , ): (0 , 0 , ) = (0 , 0 , , ) =∫︁ℎ (* ( ), ( )).(1.1.5)0Описанные выше оптимальные управления разыскиваются в классах позиционных или программных стратегий. Программные стратегии зависят толькоГлава 1.35Основные модели и методыот начального состояния игры 0 и текущего момента времени . Позиционные стратегии зависят от текущего момента времени и от текущего состояния игры .
Для определения оптимальных управлений в описанных классахстратегий используются различные методы теории оптимального управления,которые будут описаны ниже.Развитию кооперативной игры игры во времени соответствует движениевдоль кооперативной траектории * (). Следовательно, в каждый момент времени ∈ [0 , ] игроки попадают в подыгру Γ(* (), , ) с предписанной продолжительностью − . Под выигрышем в подыгре Γ(* (), , ), ∈ [0 , ]будем понимать (* (), , , 1 , . .
. , ) =∫︁ℎ (( ), ( )), = 1, . . . , ,(1.1.6)где динамика игры описывается системой (1.1.1) с начальным условием () =* ().1.21.2.1Программные управленияИгры с предписанной продолжительностьюОсновным инструментом для нахождения программных управлений являетсяпринцип максимума Понтрягина.Рассмотрим его применение в кооперативной постановке.
Задача нахождения оптимального решения в кооперативной игре может быть сформулированаследующим образом:⎧∫︀⎪⎪⎪max ℎ(( ), ( )),⎪⎪⎪0⎨(0 ) = 0 , ( ) ∈ ,⎪⎪⎪⎪⎪⎪⎩ () удовлетворяет (1.1.1),(1.2.7)Глава 1.36Основные модели и методыгде ℎ((), ()) =∑︀=1 ℎ ((), ())и ⊂ R – терминальное множество,представляющее собой гладкое многообразии коразмерности , < в R : = { ∈ R |() = 0}, где : R → R – достаточно гладкая векторфункция.Приведем формулировку принципа максимума для описанного случая.Теорема 1.2.1 (см. [119]).
Пусть () и () суть допустимое управление исоответствующее ему решение (1.1.1) такие что (0 ) = 0 , ( ) ∈ . Длятого чтобы пара ((), ()) являлась оптимальной, необходимо, чтобы существовала такая ненулевая непрерывная векторная функция (0 (), ()),() = (1 (), . . . , ()) и ненулевой вектор ∈ R , такие что1. Переменные () и () удовлетворяют системе 2 дифференциальныхуравнений⎧⎪⎪⎨ ˙ () =⎪⎪,⎩ ˙ () = −где ((), (), ()) = 0 ()ℎ(( ), ( )) + ⟨(), ((), ())⟩ – гамильтониан, соответствующий задаче (1.2.7);2.
Для всех ∈ [0 , ) гамильтониан ((), (), ()) достигает своегомаксимального значения: * ((), ()) = max ((), (), ());()∈3. Функция 0 () неотрицательна и не зависит от времени.4. Выполняется условие трансверсальности:⃒⃒ ′ ( ) =⟨, (())⟩⃒⃒.=(1.2.8)Замечание 1.2.1. Отметим, что если правая точка не фиксирована, т.е. =R , условие (1.2.8) влечет ( ) = (0, . .
. , 0).Глава 1.Основные модели и методы37Предположение 1.2.1. В дальнейшем мы будем полагать, что задача оптимального управления (1.2.7) и последующие задачи оптимального управления, которые будут рассматриваться в работе, являются нормальными,т.е. сопряженная переменная 0 ̸= 0. В этом случае можно положить0 () = 1. Подробный анализ анормальных (т.е. 0 = 0) задач оптимальногоуправления можно найти в [1, 180, 224, 328]Принцип максимума формулирует необходимые условия оптимальности.Существует также ряд дополнительных условий, гарантирующих достаточность.
Наиболее известными из них являются условия Мангасаряна и условияЭрроу, которые приведены ниже.Теорема 1.2.2 (Мангасарян, [263]). Пусть пара (* (), * ()) и функция ()удовлетворяют условиям теоремы 1.2.1. Пусть множество выпукло, частные производные функций (, ) и ℎ(, ) непрерывны и гамильтониан(, , ) совместно вогнут по (, ). Тогда (* (), * ()) есть оптимальноерешение задачи (1.2.7).Если гамильтониан (, , ) строго совместно вогнут по (, ), то пара(* (), * ()) есть единственное оптимальное решение задачи (1.2.7).Теорема 1.2.3 (Эрроу, [320]). Пусть пара (* (), * ()) и функция () удовлетворяют условиям теоремы 1.2.1. Пусть максимальное значение гамильтониана * ((), ()) существует для всех и вогнуто по для всех ∈[0 , ].
Тогда (* (), * ()) есть оптимальное решение задачи (1.2.7).Если максимальное значение гамильтониана * ((), ()) строго вогнуто по , то (* (), * ()) есть единственное оптимальное решение задачи(1.2.7).Вопрос существования оптимального решения задачи (1.2.7) является более сложным.
Ниже мы сформулируем достаточные условия существованияГлава 1.38Основные модели и методыоптимального решения, дополнительная информация может быть почерпнутав [184, 140, 345].Определим ℱ как множество пар (, ) таких что управление допустимои выполняются краевые условия (0 ) = 0 , ( ) ∈ .Теорема 1.2.4 ([140]).
Предположим, что наряду со сформулированнымивыше условиями на , (, ) и ℎ(, ) выполняются следующие условия:1. Множество ℱ непусто;2. – выпуклое множество, (, ) = () + (), функция ℎ(, .) вогнута по .Пусть, кроме того, = max ((0 ), 0 , , ), ′ < , и существует такойкомпакт ′ ⊂ что из ¯( ) ∈ и (0 , 0 , , ¯) ≥ ′ следует ¯( ) ∈ ′ .Тогда существует управление * (), максимизирующее (0 , 0 , , * ) на ℱ .Для некооперативной игры задача нахождения оптимального управлениясводится к решению связанных задач оптимального управления:⎧⎪∫︀⎪⎪ = max ℎ (( ), = 1, . . . , ⎪− ( )),⎪⎪0⎪⎪⎪⎪⎨ = ( , . .
. , , , , . . . , )−1−1+1(1.2.9)⎪⎪⎪⎪(0 ) = 0 , ( ) ∈ ,⎪⎪⎪⎪⎪⎪⎩ () удовлетворяет (1.1.1),где ⊂ R – терминальное множество, представляющее собой многообразиикоразмерности , < в R : = { ∈ R |() = 0}, где : R → R –достаточно гладкая вектор-функция.Для задачи (1.2.9) можно сформулировать результат, аналогичный Теореме1.2.1:Глава 1.39Основные модели и методыТеорема 1.2.5 (см. [169]). Пусть () и () суть допустимое управлениеи соответствующее ему решение (1.1.1) такие что (0 ) = 0 , ( ) ∈ .Для того чтобы пара ((), ()) являлась решением задачи оптимальногоуправления (1.2.9), необходимо, чтобы существовало ненулевых непрерывных векторных функций (0 (), ()), () = (1 (), .
. . , ()), = 1, . . . , ,и ненулевые векторы ∈ R , такие что1. Переменные () удовлетворяют системе · дифференциальных уравнений˙ () = −,где ((), (), ()) = 0 ()ℎ (( ), ( )) + ⟨ (), ((), ())⟩ – гамильтониан -того игрока; = 1, . . . , , = 1, . . . , .2. Для всех ∈ [0 , ) и = 1, . . .
, гамильтониан ((), (), ()) достигает своего максимального значения по :* ((), ()) = max ((), (), ()).3. Функции 0 () неотрицательны и не зависит от времени. В частностиможно положить 0 () = 1.4. Выполняется условие трансверсальности:⃒⃒ ( ) =⟨ , (())⟩⃒⃒.=′(1.2.10)Необходимо отметить, что вопрос существования и единственности равновесия по Нэшу в дифференциальной игре является нетривиальным. Существует ряд результатов о существовании равновесия по Нэшу для специальныхклассов задач, см. [64, 81, 83, 56, 58].Глава 1.1.2.240Основные модели и методыИгры с бесконечной продолжительностьюПри рассмотрении игр с бесконечной продолжительностью задача оптимального управления должна быть переформулирована для обеспечения ее корректности. Поскольку функция выигрыша представляет собой несобственныйинтеграл, необходимо обеспечить его существование.