Диссертация (1145356), страница 13
Текст из файла (страница 13)
Описание игрыΓ,(0, 0, )Рассмотрим следующую модификацию игры Γ (0 , 0 , ). Будем предполагать, что функция мгновенного выигрыша ℎ (( ), 1 , . . . ) игрока дисконтируется при помощи функции дисконтирования −(0 , ) , т.е.⎛ ⎞∫︁ (0 , 0 , ) = ⎝ −(0 , ) ℎ (( ), 1 , . . . ) ⎠(3.1.1)0где (0 , ) – ставка дисконтирования.Непостоянная функция дисконтирования −(0 ,) может описывать различные сценарии изменения предпочтений игроков со временем. Подробно этотвопрос освещен в работе [265], где описываются различные типы дисконтирования и приводятся ссылки на источники. В дальнейшем будем рассматривать класс экспоненциальных функций, для которых выполняются следующиеусловия регулярности.88Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации89Предположение 3.1.1. Cтавка дисконтирования (0 , ) удовлетворяет следующим условиям:i.
Неотрицательность. (0 , ·) : → R≥0 – неотрицательная функция,непрерывно дифференцируемая по своим аргументам;ii. Аддитивный эффект. Для любого ∈ [0 , ] выполняется:(3.1.2)(0 , ) = (0 , ) + (, );iii. Неубывание. (0 , )≥ 0;Два наиболее распространенных типа дисконтирования, которые удовлетворяют требованиям Предположения 3.1.1 приведены ниже.∙ Линейная ставка дисконтирования: (0 , ) = · ( − 0 ), ≥ 0.
Очевидно, = 0 соответствует случаю, когда дисконтирование отсутствует.∙ Интегральная ставка дисконтирования: (0 , ) =∫︀ 0( ) , : [0 , ] →R≥0 .Следующий результат может быть получен из Предположения 3.1.1Лемма 3.1.1. Если Предположение 3.1.1 выполняется, (, ) = 0 для любого∈.Доказательство. Для доказательства мы приравняем оба аргумента в (3.1.2)к и получим (, ) = 2(, ), откуда следует искомый результат.В данной работе используется одинаковая функция дисконтирования длявсех игроков, однако задача легко может быть обобщена на случай асимметричного дисконтирования выигрышей игроков (см. [265]).При использовании экспоненциального вида дисконтирования −·( −0 ) , будем обозначать такую игру как Γ, (0 , 0 , ). В случае дисконтирования сГлава 3.Дифференциальные игры со случайным моментом окончания.
Модификацииинтегральной ставкой дисконтирования∫︀ 090( ) будем использовать обозна-чение Γ,() (0 , 0 , ), при дисконтировании в общем случае — Γ, (0 , 0 , ).Будем полагать, что динамика игры для всех указанных игр Γ, (0 , 0 , ),Γ,() (0 , 0 , ), Γ, (0 , 0 , ) имеет вид (1.1.1). Кроме того, предполагаемвыполненными все основные условия относительно функций выигрыша, сформулированные в Теоремах 2.2.1 и 2.2.2 для игры Γ (0 , 0 , ).Нетрудно доказать следующие утверждения.Утверждение 3.1.1.
В игре Γ, (0 , 0 , ) функционал выигрыша игрока имеет следующий вид:∫︁ (0 , 0 , ) =∫︀ −(0 , )− ()0ℎ (( ), 1 , . . . ).(3.1.3)0Доказательство. Аналогично перестановке интегралов в разделе 2.2, имеем⎛ ⎞∫︁ (0 , 0 , ) = ⎝ −(0 , ) ℎ (( ), 1 , . . . ) ⎠ =0∫︁ ∫︁ =0−(0 , ) ℎ (( ), 1 , . . . ) () =0∫︁=−(0 , )−∫︀ 0()ℎ (( ), 1 , . . . ).0Следствие 3.1.1. Пусть случайная величина распределена по экспоненциальному закону (1.4.24). Тогда в игре Γ, (0 , 0 , ) функционал выигрышаигрока имеет следующий вид:∫︁∞ (0 , 0 , ) = −(+)( −0 ) ℎ (( ), 1 , . . .
),(3.1.4)0где — параметр дисконтирования, — параметр экспоненциального распределения.Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации91Очевидно, что при отсутствии дисконтирования = 0 все результаты, полученные в данном разделе, становятся эквивалентными результатам для игрыΓ (0 , 0 , ).Следствие 3.1.2. В игре Γ,() (0 , 0 , ) функционал выигрыша игрока имеет следующий вид:∫︁∞ (0 , 0 , ) =−∫︀ 0(()+())ℎ (( ), 1 , . .
. ).(3.1.5)0Доказательство.∫︁∞ (0 , 0 , 1 , . . . , ) =0−∫︀ ()(1 − ( )) 0ℎ (( ), 1 , . . . ) =∫︁ ∞ ∫︀ − (()+())= 0ℎ (( ), 1 , . . . )0Общий случай непостоянного (и не экспоненциального) дисконтированияподробно рассматривается в работе [265].3.1.1Уравнение Гамильтона-Якоби-Беллмана для игрыΓ, (0 , 0 , )Сформулируем следующий результат для случая интегральной ставки дисконтирования (0 , ) =∫︀ 0( ) .Теорема 3.1.1. Пусть существует непрерывно дифференцируемая по своимаргументам функция (, ()), удовлетворяющая уравнению(︂(︂)︂)︂ () ()() + =+ max ℎ(, ) +() +(, )1 − ()1 − ()(3.1.6)с краевым условием lim (, ) = 0 и существует допустимое управление → ()* (, ), доставляющее максимум выражению ℎ(, )+ 1−() ()+ (, ),то управление * (, ) является оптимальным.Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации92Следствие 3.1.3. Согласно определению функции интенсивности отказов() (1.4.22), выведенное уравнение Гамильтона-Якоби-Беллмана (2.3.37) может быть переписано в следующем виде:(︂)︂ (, ) (, )+max ℎ(, ) + ()() +(, ) .(() + ()) (, ) =(3.1.7)В случае ставки дисконтирования общего вида уравнение Гамильтона-ЯкобиБеллмана приобретает вид интегро-дифференциального уравнения в частныхпроизводных, как описано в [265].3.1.2Пример игры Γ, (0 , 0 , ) (программные стратегии)Как базовую модель рассмотрим дифференциальную игру, предложенную в[266].
В игре управления вредными выбросами участвуют два игрока (страны),одна из которых принадлежит к так называемым к развитым странам (игрок1), а другая — развивающимся (игрок 2). Аналогично модели § 2.2.1, управлениями игроков являются объемы вредных выбросов , = 1, 2, ∈ [0, ].Пусть () — накопленный объем загрязнений. Фазовая переменная игрыподчиняется следующей динамике:()˙= (1 () + 2 ()) − (),(0) = 0 ,(3.1.8)где > 0, > 0 – коэффициент абсорбции, 0 — начальный уровень загрязнений.Функция доходов для обоих игроков задается следующим образом:1 ( ) = − 2 ,2 = 1, 2.Функция расходов на устранение ущерба от загрязнений различна для игрока1 и игрока 2.Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации93Пусть для игрока 1 (развитой страны) функция расходов задана как 1 () =1 , т.е. затраты для развитой страны пропорциональны загрязнению.
Зададим функцию выигрыша игрока 1 следущим образом:∫︁∞1 (1 , 2 , 0 ) =)︂(︂1− 1 1 − 21 − 1 .2(3.1.9)0Таким образом, выигрыш игрока 1 является полностью детерминированным. Для игрока 2, т.е. развивающейся страны, внесем следующие изменения в базовую модель: будем предполагать, что момент окончания игры дляэтого игрока является случайной величиной, что соответствует реально происходящим экономическим процессам в развивающихся странах.
Пусть —случайная величина, распределенная по экспоненциальному закону (1.4.24).В модели [266] функция расходов для игрока 2 возрастает в течение игры:2 ((), ) = 2 ().(3.1.10)В нашей модели является случайной величиной, поэтому вместо в (3.1.10)будем использовать математическое ожидание ( ) = 1 . Тогда имеем:2 ((), ) = 2 ().(3.1.11)Таким образом, интегральный выигрыш игрока 2 имеет следующий вид:⎛∫︁2 (1 , 2 , 0 ) = ⎝−(︂⎞)︂12 2 − 22 − 2 ⎠ =20∫︁∞=−(+)(︂)︂1 22 2 − 2 − 2 .
(3.1.12)20Рассмотрим кооперативную форму игры. Игроки решают задачу максимизации суммарного выигрышаmax(1 (1 , 2 , 0 ) + 2 (1 , 2 , 0 )) =1 ,2)︀(︀)︀∫︀∞ − (︀∫︀∞1 *1 − 21 (*1 )2 − 1 * + −(+) 2 *2 − 21 (*2 )2 − 2 * ,00при ()˙= (1 () + 2 ()) − (), (0) = 0 ,Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации94Пусть *1 , *2 — оптимальные управления для игроков 1, 2, * () – кооперативная траектория. Применяя принцип максимума Понтрягина, получаем)︂−−ee221++,*1 () = 1 − + ( + + )2 + + (︂)︂122*2 () = 2 − e++.
+ ( + + )2 + + (︂(3.1.13)По условию задачи, оптимальные управления выбираются на компакте 0 ≤ ≤ , = 1, 2. При дополнительном предположении на параметры модели,а именно, если1 ≥ 1,+(3.1.14)управление *1 () является неотрицательной функцией и ограничено сверхувеличиной 1 .Для игрока 2 неравенство *2 ≤ 2 выполнено. Однако возможен вариант,когда при некотором * функция *2 () становится отрицательной. Вычислимзначение * :e1 =−−,( + + )*где=( + + )(1 − 2 ( + )) − ++e.( + )2Если ≥ * , то управление игрока 2 покидает компакт [0, 2 ].
Следовательно, после момента * оптимальное управление выбирается на границе допустимого множества значений. Окончательно для игрока 2 имеем:⎧(︂)︂⎪122⎪⎨ 2 − e+, > * ,2 ++++( + + )*2 =⎪⎪⎩0, 6 * .(3.1.15)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации95Максимальный суммарный выигрыш игроков имеет вид:(*1 , *2 , 0 , 0 ) =∫︁*=−(︂)︂)︂(︂∫︁∞111 *1 − (*1 )2 − 1 + − 1 *1 − (*1 )2 − 1 +22*0*∫︁+(︂)︂∫︁∞1−(+) 2 *2 − (*2 )2 − 2 − −(+) 2 , (3.1.16)2*0где () — кооперативная траектория после * , т.е.
решение дифференциального уравнения()˙ = 1 − ,(* ) = (* ).(3.1.17)Кооперативная траектория до момента * имеет вид:2 1(1 (0) + 1 ()) − () = 0 + (1 + 2 ) 1 (0) −+2 2 2 2 −((0)+(−))−(2 (0) + 2 (−)) , (3.1.18)11++( + + )2*−и после момента *)︂22 2 2 2 1*− () = 0 + 1 −1 (0) −1 (−) −2 (−),+++( + + )2(︂где1 () =e − e−,+2 () =e ( + ) − e − e−.( + )2Обозначим12 ,− + ( + + )2112 2 =−,=−,=−,=−.1++++( + + )2Тогда получаем аналитическое выражение для суммарного выигрыша игро = 1 + 2 −ков, которое здесь не приводится в силу громоздкости выражений (см.
[218]).Кроме того, в работе [218] было найдено равновесие по Нэшу и проведен анализ полученных результатов.Глава 3.3.2Дифференциальные игры со случайным моментом окончания. Модификации96Описание игры Γ (0, 0, )Рассмотрим дифференциальную игру лиц Γ (0 , 0 , ) со случайным моментом окончания , сформулированную в разделе 2. Динамика игры задается системой обыкновенных дифференциальных уравнений (1.1.1). Выигрыши игроков предполагаются интегральными и, при выполнении предпосылокТеоремы 2.2.2, имеют вид (2.2.9).