Диссертация (1145356), страница 28
Текст из файла (страница 28)
далее § 6.5).6.3Защита от иррационального поведения игроковВ разделе 5.1.3 были изучены дополнительные ограничения на ПРД, обеспечивающие защиту игроков от иррационального поведения других участниковв кооперативной дифференциальной игре с предписанной продолжительностью.Для кооперативной дифференциальной игры со случайной продолжитель-Глава 6.Устойчивая кооперация в играх со случайным моментом окончания211ностью Γ (0 , 0 , ) условие защиты от иррационального поведения можетбыть сформулировано следующим образом:∫︁ (0 , 0 , {}) ≤(1 − ( )) ( ) + (1 − ()) (* (), , {}), (6.3.13)0 = 1, . .
. , ,∀ ∈ [0 ; ∞).Условие (6.3.13) означает, что даже если в некоторый момент времени игрок(либо группа игроков) иррационально нарушил соглашение действовать совместно оптимально, то выбором ПРД можно гарантировать, что ожидаемыйвыигрыш игрока во всей игре все равно будет не меньше, чем выигрыш вслучае, если бы игрок с самого начала действовал самостоятельно и получилгарантированный выигрыш (0 , 0 , {}).Теорема 6.3.1.
Пусть (* (), , {}) — непрерывно дифференцируемая функция по , ∈ [0 , ∞). Тогда условие (6.3.13) выполнено тогда и только тогда,когда () ≥ () (* (), , {}) − (* (), , {}), = 1, . . . , ,(6.3.14)где () определяется по формуле (1.4.22).Доказательство. Пусть (6.3.13) выполнено.
Дифференцируя (6.3.13) по верхнему пределу , получаем условие на ПРД (6.3.14), обеспечивающее защитуот иррационального поведения.Справедливо и обратное. Пусть выполнено условие (6.3.14). Умножим левую и правую часть на (1 − ()) и возьмем интеграл∫︀ 0 .Тогда, принимая вовнимание то, что 1 − (0 ) = 1, после преобразований получаем неравенство(6.3.13).Замечание 6.3.1.
Аналогично Замечанию 6.2.1, из условия (6.3.13) имеем неравенства (5.1.21), полученные для дифференциальных игр Γ(0 , 0 , ) с предписанной продолжительностью в § 5.1.3.Глава 6.Устойчивая кооперация в играх со случайным моментом окончания212Отметим, что свойство динамической устойчивости принципа оптимальности не связано с выполнением условия защиты от иррационального поведения.Однако оба этих условия являются важными аспектами кооперации в динамических играх. В том случае, когда ПРД удовлетворяет и (6.2.7), и неравенству(5.1.20), будем говорить, что вектор Шепли, распределенный во времени согласно ПРД (5.1.19), является устойчивым принципом кооперации.В данной работе мы не затрагиваем такой аспект устойчивости кооперативного соглашения, как стратегическая поддержка (см.
[106], [188]). Однакоотметим, что стратегическая поддержка в кооперативной дифференциальнойигре со случайной продолжительностью, т.е. существование специально сконструированного равновесия по Нэшу, может быть конструктивно доказана длянезависимых движений игроков в (1.1.1).Итак, рассмотрим дифференциальную игру Γ (0 , 0 , ) со случайной продолжительностью. Тогда одновременное выполнение условия динамическойустойчивости вектора Шепли и защиты от иррационального поведения участников означает выполнение следующих неравенств:()[ℎ − (¯(), , {})] ≥ [(ℎ )′ −∀ ∈ [0 , ∞), (¯(), , {})],(6.3.15) = 1, . .
. , .Очевидно, что из (6.3.15) следует выполнение (5.1.22) при () = 0. Такимобразом, результат, полученный для игр со случайной продолжительностью,покрывает результат, полученный для детерминированных игр.Аналогичным образом условия защиты коалиций от иррационального поведения других игроков (см.
§ 5.1.4, условие (5.1.24) ) могут быть переформулированы для задачи со случайным моментом окончания: (0 , 0 , ) ≤∑︀ ∫︀(1 − ()) () + (1 − ()) (* (), , ),∈ 0∀ ∈ [0 , ∞), ⊆ .(6.3.16)Глава 6.213Устойчивая кооперация в играх со случайным моментом окончанияТеорема 6.3.2. Пусть (* (), ; ) — непрерывно дифференцируемая функция при ∈ [0 , ∞) в игре Γ (0 , 0 , ). Тогда условие (6.3.16) выполненотогда и только тогда, когда ПРД (), ∈ [0 ; ∞) удовлетворяет неравенству∑︁ () ≥ () (* (), , ) −∈ (* (), , ).(6.3.17)Доказательство. Докажем выполнение необходимого условия. Из (6.3.16) имеем∑︁ ∫︁(1 − ()) () ≥ (0 , 0 , ) − (1 − ()) (* (), , )∈ 0и после дифференцирования получаем∑︁(1 − ()) () ≥ −∈[(1 − ()) (* (), , )].Тогда∑︁ () ≥∈ () (* (), , ) − (* (), , ).1 − ()(6.3.18)Учитывая (1.4.22), имеем (6.3.17):∑︁ () ≥ () (* (), , ) −∈ (* (), , ).Достаточное условие доказывается аналогично.Замечание 6.3.2.
Аналогично Замечанию 6.2.1 для игры с предписанной продолжительностью Γ(0 , 0 , ) (см. Замечание 1.4.1) при () = 0 из (6.3.17)получаем неравенство (5.1.27). В случае одноэлементной коалиции = {}из (6.3.17) имеем неравенство Янга (6.3.14), которое для детерминированнойзадачи вырождается в неравенство (5.1.21).Выполнение (6.3.16) приведет к защите коалиций от угрозы иррационального распада гранд-коалиции .Глава 6.6.4214Устойчивая кооперация в играх со случайным моментом окончанияПример. Динамически устойчивый вектор Шеплив игре Γ (0, 0, )Рассмотрим пример игры из § 2.3.4.Для построения характеристической функции (, , ), ⊆ , используем подход, предложенный в работе [303].
Будем предполагать, что если игроков объединяются в коалицию , то оставшиеся игроки ∖ не образуютантикоалицию с целью минимизации совместного выигрыша игроков из , аиспользуют стратегии , ∈ ∖ из равновесия по Нэшу. Таким образом,будем строить – характеристическую функцию (см. 5.3). Тогда, применяяполученный выше результат (2.3.73) для равновесия по Нэшу, и используя вуравнении (2.3.39)∑︀ℎ вместо∈∑︀ℎ , получаем следующие результаты:=1 () = * ()−(−+1)(−) ; () = * ()−(−+1)(−) , () = (), ∈ ; ∈ ∖ , (* (), , ) = (* (), ) =)︁)︁(︁ (︁()− ( − + 1) ln.Положим = 0. Тогда(︀ (︀ )︀)︀ ln 0 − ( − + 1) (0 , 0, ) = (0 , 0) =.(6.4.19)Нетрудно проверить, что функция (0 , 0, ), ⊆ , вычисленная согласно(2.3.71), (6.4.19), удовлетворяет свойству супераддитивности (5.1.2). Доказательство этого утверждения основано на следующей лемме.Лемма 6.4.1.
Пусть 1 ≥ 1, 2 ≥ 1. Тогда1 ln(1 ) + 2 ln(2 ) + 21 2 ≥ (1 + 2 ) ln(1 + 2 ).(6.4.20)Глава 6.Устойчивая кооперация в играх со случайным моментом окончания215Данная лемма доказывается стандартными методами математического анализа. Нетрудно проверить, что левая часть неравенства растет быстрее, чемправая.Используя построенную характеристическую функцию, получаем значениевектора Шепли в подыгре Γ (* (), ) и всей игре Γ (0 , 0 , ):ℎ (* ()) =ℎ (0 ) (* (),, )==ln(0 )= (0 ,0, )ln(* ())− ( − 0 ) −=ln(0 )1−−11−−−ln()ln()ln()ln()++=(6.4.21)ln() ,+ln() .Вычислим значения ПРД по формуле (6.2.7), которая для случая = 1 вточности совпадает с формулой (6.2.10).
Получаем: () = (0 ) − + () − ().(6.4.22)Очевидно, что в (6.4.22) нельзя гарантировать неотрицательность компонентПРД. Тогда по Определению 6.2.2 вектор Шепли {ℎ (0 )} (6.4.21) не является динамически устойчивым принципом оптимальности. Отметим, что,поскольку ℎ = ln не является неотрицательной функцией, мы не можемвоспользоваться регуляризацией вектора Шепли (6.2.12).Тем не менее, в данном примере условие (5.1.20) защиты от иррационального поведения участников выполнено, что подтверждается непосредственнойпроверкой неравенства (5.1.20) при () = для ПРД (6.4.22) и характеристической функции (* (), , {}) (2.3.74).Очевидно, что при отмене требования неотрицательности () ≥ 0 в определения ПРД 6.2.1 построенный вектор Шепли будет являться динамическиустойчивым принципом оптимальности, для которого выполнено условие защиты от иррационального поведения участников.Глава 6.6.5216Устойчивая кооперация в играх со случайным моментом окончанияРегуляризация в игре Γ (0, 0, )Ясно, что принцип оптимальности не обязательно является динамически устойчивым, поскольку в (6.2.7) в общем случае нельзя гарантировать неотрицательность ().
Перейдем к построению динамически устойчивых принциповоптимальности в игре Γ (0 , 0 , ) на основе некоторого принципа оптимальности (0 , 0 ). Данный подход может быть применен для случая неотрицательных функций ℎ (, (), ) ≥ 0, = 1, . . . , .Введем функцию ¯ (0 , 0 , ) по следующей формуле (см. [113] для игр спредписанной продолжительностью):¯ (0 , 0 , ) =∫︁∑︀∞* ( ( ), , )0*=1 ℎ ( ( ))(1(* ( ), , )− ( )),(6.5.23) ⊆ .Заметим, что¯ (0 , 0 , ∅) = 0,¯ (0 , 0 , ) = (0 , 0 , ),¯ (0 , 0 , 1 ∪2 ) ≥ ¯ (0 , 0 , 1 , 0 ) + ¯ (0 , 0 , 2 ).Первые два свойства проверяются непосредственно, для доказательства третьего используется супераддитивность функции (, 0 ).
Таким образом, верна следующая лемма.Лемма 6.5.1. Функция ¯ (0 , 0 , ), ⊆ является характеристическойфункцией в игре Γ (0 , 0 , ).Аналогичным образом можно показать, что функция1¯ (* (), , ) =1 − ()∫︁∞* ( (), , )∑︀*=1 ℎ ( ())(1(* (), , )− ( ))является характеристической функцией в подыгре Γ (* (), ). Фактически,Глава 6.217Устойчивая кооперация в играх со случайным моментом окончаниядалее мы будем рассматривать регуляризованную кооперативную игруΓ¯ (0 , 0 ).Предположим, что (* ()) ̸= ∅ во всех подыграх. Определим для некоторого селектора ∈ (* ()), ∈ [0 , ∞) вектор-функцию ¯ () = {¯ ()} поформуле (см. подход [101] для игр с предписанной продолжительностью):¯ () =∑︀***=1 ℎ (, (), 1 , .
. . , ). (* (), , )(6.5.24)Очевидно, что введенная таким образом ПРД ¯ (), ∈ [0 , ∞) является неотрицательной функцией. Рассмотрим вектор ¯ = {¯ }, такой что¯ =∫︁∞¯ ( )(1 − ( )).(6.5.25)0Предложение 6.5.1. Распределение совокупного ожидаемого выигрыша поправилу {¯ } (6.5.25) является дележом, т.е. для него выполняется свой∑︀ства коллективной и индивидуальной рациональности: =1 ¯ = ¯ (0 , 0 , ),¯ ≥ ¯ (0 , 0 , {}), ∀ = 1, . .