Диссертация (1145356), страница 19
Текст из файла (страница 19)
, , а на оставшемся промежутке времени[, ] они ориентируются на дележ (* (), , ), принадлежащий к тому жепринципу оптимальности (* (), , ), что и изначально выбранный дележ(0 , 0 , ). Таким образом, при развитии игры вдоль кооперативной траектории * () в каждый момент времени , ∈ [0 , ] игроки могут рассчитыватьна реализацию одного и того же принципа оптимальности в текущей подыгре Γ (* (), , ) и, следовательно, не имеют оснований для нарушения ранеепринятого соглашения.Пусть игроки выбрали вектор Шепли (5.1.7) в качестве принципа оптимальности (0 , 0 , ) в игре Γ(0 , 0 , 0 , ).
Тогда ПРД { ()} определяетсяследующим образом:∫︁ℎ (0 , 0 , ) = ( ), ∈ .(5.1.16)0Будем говорить, что вектор Шепли ℎ(0 , 0 , ) динамически устойчивв игре Γ (0 , 0 , ), если существует ПРД () = { ()}, такая что вектор∫︀ { ( ) },∀, ∈ [0 , ] также является вектором Шепли в подыгреΓ(* (), , ), т.е.*∫︁ℎ ( (), , ) = ( ), ∈ ,∀ ∈ [0 , ].(5.1.17)Пусть ℎ (* (), , ) является абсолютно непрерывной функцией времени, ∈ [0 , ]. Тогда из Теоремы 5.1.1 имеем следующий вид вектора Шепли вГлава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью141игре Γ (0 , 0 , ):∫︁ℎ (0 , 0 , ) = () + ℎ (* (), , ), ∈ ,∀ ∈ [0 , ],0(5.1.18)где () = −ℎ (* (), , ), ∈ ,∀ ∈ [0 , ].(5.1.19)Таким образом, при использовании ПРД (5.1.19) получаем динамически устойчивый вектор Шепли.5.1.3Защита от иррационального поведения участниковПроблема динамической устойчивости принципа оптимальности (0 , 0 , )изучается при предположении о рациональном поведении игроков. В то жевремя, является актуальным вопрос динамической устойчивости кооперативного решения при предположении о возможности нерационального поведениядля отдельных игроков. Как известно [353], в данном случае условие для защиты игроков от иррационального поведения других участников игры выглядитследующим образом:∫︁ () + (* (), , ; {}) ≥ (0 , 0 , ; {}), = 1, .
. . , .(5.1.20)0Это означает, что в случае иррационального разрушения кооперации в момент выигрыш, который получит игрок , все равно будет не меньше, чем выигрыш в некооперативном варианте игры, т.е. если он с самого начала будетдействовать самостоятельно.Теорема 5.1.2. [354] Пусть (* (), , ; {}) — непрерывно дифференцируемая функция по , ∈ [0 , ]. Тогда условие (5.1.20) выполнено тогда иГлава 5. Кооперативные дифференциальные игры с предписанной продолжительностью142только тогда, когда () ≥ − (* (), , ; {}),∀ ∈ [0 ; ],Рассмотрим некоторый селектор ¯ ( (), , ) =* = 1, . .
. , .∫︀(5.1.21) ( ) из динамическиустойчивого решения (0 , 0 , ) (см. опред. 5.1.4). Тогда условие (5.1.21)может быть представлено в следующем виде:¯ (* (), , ) ≤ (* (), , ; {}),∀ ∈ [0 ; ], = 1, . . . , .(5.1.22)Отметим, что, фактически, условие (5.1.22) дополняет условие индивидуальной рациональности (¯ (* (), , ) ≥ (* (), , ; {})) для производной первого порядка.Пусть игроки ∈ перед началом игры Γ (0 , 0 , ) выбрали векторШепли ℎ (0 , 0 , ) (5.1.7) в качестве принципа оптимальности ( , 0 , ).Тогда, очевидно, имеем следующий вид условия Янга (5.1.22):ℎ (* (), , ) ≤ (* (), , ; {}),∀ ∈ [0 ; ], = 1, . . . , ,которое может быть переписано в следующей наглядной форме:ℎ (0 , 0 , ) − ℎ (* (), , ) ≥ ({}, 0 , 0 , ) − ({}, * (), , ),∀ ∈ [0 ; ], = 1, .
. . , . (5.1.23)Условие (5.1.23) означает, что значение вектора Шепли при развитии игры вовремени должно убывать быстрее, чем значение выигрыша игрока при некооперативной постановке игры.5.1.4Условия защиты от иррационального поведения для коалицийНесложно расширить идею защиты участников кооперации от иррационального поведения других игроков на случай коалиций игроков.Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностьюЗафиксируем некоторую коалицию ,143 ⊆ . Сформулируем условиесохранения кооперации между коалицией и игроками из ∖ при возможном иррациональном разрушении кооперативного соглашения каким-либо(или какими-либо) игроком из ∖ :∑︁ ∫︁ () + (* (), , ; ) ≥ (0 , 0 , ; ),∀ ∈ [0 , ].(5.1.24)∈ 0Это означает, что в случае иррационального расторжения договора о кооперации в момент времени игроками из ∖ , совместный выигрыш, полученныйигроками из коалиции , все равно будет не меньше, чем выигрыш этой коалиции при некооперативном сценарии игры, когда игроки из действуютсамостоятельно как один игрок.
Свойство (5.1.24) побуждает игроков из коалиции выбирать кооперативное поведение с оставшимися игроками из ∖ несмотря на угрозу расторжения этого кооперативного соглашения.Из (5.1.24) и (5.1.14) имеем∑︁[¯ (0 , 0 , ) − ¯ (* (), , )] ≥ [ (0 , 0 , ; ) − (* (), , ; )], (5.1.25)∈и ∑︁¯ (* (), , ) ≤ (* (), , ; ).(5.1.26)∈Из (5.1.26), (5.1.14) получаем∑︁ () = −∈ ∑︁¯ (* (), , ) ≥ − (* (), , ; ).∈Окончательно имеем∑︁∈ () ≥ − (* (), , ; ).(5.1.27)Таким образом, доказано следующее утверждение.Теорема 5.1.3.
Пусть (* (), , ; ) — непрерывно дифференцируемая функция при ∈ [0 , ]. Тогда условие (5.1.24) выполнено тогда и только тогда,когда ПРД (), ∈ [0 ; ] удовлетворяет неравенству (5.1.27).Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью144Доказательство. Пусть выполнено (5.1.24). Тогда, как показано выше, выполнено и условие (5.1.27).Из выполнения условия (5.1.27), определения ПРД 5.1.2 и дифференцируемости (* (), , ; ), очевидно, следует выполнение (5.1.24).Из Теоремы 5.1.3 следует, что если принцип оптимальности (0 , 0 , )такой что, для любого дележа ∈ (0 , 0 , ) существует ПРД () (5.1.14),т.ч.
выполнено (5.1.27), то принцип оптимальности (0 , 0 , ) устойчив относительно коалиционного распада в случае иррационального отклонения откооперативного соглашения.Таким образом, условие (5.1.27) побуждает коалиции из игроков кооперироваться с остальными игроками несмотря на угрозу распада (всеобщей) кооперации. Условие (5.1.21) является частным случаем условия (5.1.27) длякоалиции = {}.Заметим, что условие защиты от иррационального поведения может бытьсформулировано для фиксированной коалиционной структуры ∪ . .
. = ибудет гарантировать устойчивость кооперации для коалиций из игроков относительно угрозы разрушения кооперации между коалициями по иррациональной причине.5.1.5Пример. Динамически устойчивый вектор Шепли в игреΓ (0 , 0 , )Рассмотрим теоретико-игровую модель управления вредными выбросами, основанную на моделях [179, 194, 232], см. также § 1.5.1.
В игре участвуют = 3игроков, скорость абсорбции () полагается равной 0, а функция (, ) полагается равной сумме скорости загрязнения . Соответственно, общий уро-Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью145вень загрязнения изменяется в соответствии с уравнением˙ = 1 + 2 + 3 ,(5.1.28)(0 ) = 0 .Стратегией игрока является выбор скорости загрязнения ∈ [0; ]. Рассматривается кооперативный вариант игры, при котором игроки заключаютсоглашение о совместных действиях для уменьшения загрязнения окружающей среды. Игра начинается в момент времени 0 из состояния 0 и заканчивается в момент времени . Будем решать задачу в классе программныхуправлений (), ∈ [0 , ].Будем предполагать, что выигрыши игроков имеют следующий вид:∫︁ (︂(︂ (0 , 0 , , ) =)︂)︂1 − − → ,2 = 1, 2, 3, (5.1.29)0где () − 12 2 () — это доход игрока , соответствующий производству собъемом вредных выбросов , ∈ [0, ], – расходы игрока на устранениеобщего загрязнения .Рассмотрим кооперативный вариант игры.
Это означает, что игроки договариваются об использовании ими таких оптимальных управлений * =(*1 , *2 , *3 ), которые будут максимизировать суммарный выигрыш3∑︁ → max .1 ,2 ,3=1Имеем следующую задачу оптимизации:3∑︀=1 (0 , 0 , , ) =3 ∫︀ (︀(︀∑︀=1 0)︀)︀ − 12 − → max ,1 ,2 ,3(5.1.30)т.ч.() удовлетворяет (5.1.28).Обозначим максимальное значение в (5.1.30) как (0 , 0 , ; ).
Для решениязадачи (5.1.30) будем использовать классический принцип максимума Понтрягина.Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью146Гамильтониан имеет вид)︂33 (︂∑︁∑︁1 − − + (1 + 2 + 3 ). (, , ) =2=1=1(5.1.31)Возьмем первую производную по , тогда(, , ) = − + .Матрица Гессе22 (, , )(5.1.32)отрицательно определена, следовательно, Гамиль-тониан является вогнутым по .Получаем оптимальные управления⎛ − ( − )⎜ 1⎜* () = ⎜ 2 − ( − )⎝3 − ( − ),⎞⎟⎟⎟⎠подставляя которые в (5.1.28) получаем кооперативную траекторию:* () = 0 + ( − 0 ) ( − 3 ) +3 2( − 20 ),2(5.1.33)где = 1 + 2 + 3 , = 1 + 2 + 3 .Окончательно, для начальных условий (, ), момента окончания игры ,значение максимального суммарного выигрыша имеет вид ((), , ; ) = 1 (, )() + 0 (, ),где1 = − ( − ) ,(︁)︁122˜0 = 2 ( − ) ( − ) − ( − ) + , , определены выше, ˜ = 21 + 22 + 23 .Заметим, что полученное по принципу максимума Понтрягина выражениедля ((), , ; ) имеет вид ((), , ; ) = () + ().
Таким образом, полученное решение могло быть также получено по методу динамического программирования путем решения уравнения типа Гамильтона-ЯкобиБеллмана в указанном виде.Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью147Аналогичным образом можно вычислить равновесие по Нэшу: для каждогоигрока , = 1, 2, 3 необходимо решить задачу максимизации (5.1.29) приограничении (5.1.28). Получаем управления⎛⎞ − 1 ( − )⎟⎜ 1⎟⎜ () = ⎜ 2 − 2 ( − ) ⎟⎠⎝3 − 3 ( − )и соответствующую им траекторию () = 0 + ( − ) ( − 0 ) + 2( − 20 ).2(5.1.34)Сравним полученные траектории, описывающие изменение уровня загрязнения, для кооперативного (* ()) и некооперативного ( ()) варианта игры.На Рис.
5.1 продемонстрировано, что уровень загрязнений, соответствующийоптимальным управлениям * (кооперативный вариант игры), ниже, чем принекооперативном варианте игры с управлениями .Рис. 5.1: Уровень загрязнений () при некооперативном и кооперативном варианте игрыСоответствующие выигрыши игроков в равновесии по Нэшу имеют следу-Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью148ющий вид: ((), , ; {}) = − ( − ) ()+(︀)︀( − ) (2 − )( − )2 − 3 ( − ) + 3 2+.6Построим характеристическую функцию (5.3.74) по методу [303] (см. –характеристическая функция, § 5.3).