Автореферат (1145355), страница 4
Текст из файла (страница 4)
Динамика игры задается системой обыкновенных дифференциальных уравнений (1), для которой выполняются требования Предположения1.1.1. Функция мгновенного выигрыша ℎ (( ), ( )) игрока в момент времени , ∈ [0 , ), зависит от фазовой переменной (0 , 0 , , (·)) и текущихзначений управлений ( ), где (·) = {1 (·), . . . , (·)} — –набор допустимыхуправлений игроков. Предполагается, что ℎ являются непрерывными функциями своих аргументов.Математическое ожидание выигрыша игрока (︂Z)︂ (0 , 0 , , 1 , .
. . , ) = E ℎ (( ), ( ))0в игре Γ (0 , 0 , ) имеет вид:Z (0 , 0 , , 1 , . . . , ) =0⎡⎤Z⎣ ℎ (( ), ( )) ⎦ (), = 1, . . . , .(6)0При развитии игры во времени, в каждый промежуточный момент , ∈ (0 ; ), игроки попадают в подыгру Γ ((), , ) с начальным состоянием() = . Очевидно, что игра может закончиться до момента с вероятностью (), а вероятность продолжить игру после момента равна (1 − ()). Тогдапод выигрышем в подыгре Γ ((), , ) будем понимать условное математическое ожидание выигрыша, а именно:Z Z (, , , 1 , .
. . , ) =ℎ (( ), ( )) (),(7)где (), ≥ – функция распределения момента окончания игры в подыгре Γ ((), , ). Нетрудно заметить, что () является условной функциейраспределения, а именно функцией распределения момента окончания игрыпри условии, что игра не закончилась до момента , ∈ (0 , ). Кроме того,необходимо, чтобы () удовлетворяла стандартному условию нормировки при ∈ (0 , ). Условная функция распределения () вычисляется по следующейформуле: () = () − (),1 − () ∈ [, ).(8)14Очевидно, что в подыгре Γ ((), , ) условная плотность распределения () определяется следующим образом: () = (), ∈ [, ).1 − ()(9)Таким образом, при предположении о существовании плотности () = () и учитывая равенства (7) и (9), запишем интегральный выигрыш игрока, = 1, .
. . , , в подыгре Γ ((), , ):′1 (, , , 1 , . . . , ) =1 − ()Z Zℎ (( ), ( )) ().(10)В § 2.2 изучается вопрос упрощения функционала выигрыша в дифференциальной игре Γ (0 , 0 , ). Математическое ожидание интегрального выигрыша игрока для игры Γ (0 , 0 , ) является функционалом нестандартного длязадач оптимального управления вида, т.к. содержит повторное интегрирование.В § 2.2 данный функционал приведен к стандартному виду при помощи заменыпорядка интегрирования.
Кроме того, в § 2.2.2 рассматривается случай смешанного функционала выигрыша игрока, т.е. интегрального и терминального выигрыша. В § 2.2.3 изучается вопрос об упрощении функционала выигрыша дляобщего случая линейно-квадратичных дифференциальных игр.Рассмотрим интегральный выигрыш игрока , который имеет вид (6). Неумаляя общности, в этом разделе положим 0 = 0. Кроме того, введем болеекомпактное обозначение ℎ ( ) = ℎ (( ), ( )). Ниже будет рассмотрен случай = ∞ как наиболее сложный.Теорема 2.2.1. Пусть функции мгновенного выигрыша ℎ (), = 1, . .
. , являются неотрицательными и интегрируемыми функциями времени , ∈[0 , ∞). Тогда выигрыш игрока (6) может быть представлен в следующем виде:∞Z Z∞Zℎ ( ) () = (1 − ( ))ℎ ( ). (0 , 0 , 1 , . . . , ) =0 0(11)0В общем случае имеет место следующий результат.Теорема 2.2.2. [4] Ожидаемый выигрыш (6) может быть представлен ввиде (11), если выполняются следующие условия:1.Zlim (1 − ( ))ℎ () = 0.
→∞0152. Следующие интегралы существуют в смысле несобственных интеграловРимана:⃒⃒∞Z ⃒Z⃒⃒⃒⃒ ℎ ( ) ⃒ () < +∞,⃒⃒⃒⃒ = 1, . . . , .0 0Следствие 2.2.1. Интегральный выигрыш (6) имеет следующий вид:Z (0 , 0 , , 1 , . . . , ) =−ℎ (( ), ( ))R0(),(12)0 ()где () = 1− () .В общем случае для подыгры Γ ((), , ) имеем следующий вид выигрыша для игрока :Zℎ (( ), ( ))− (, , , 1 , . . . , ) =R().(13)Теоретические результаты демонстрируются для дифференциальной игрыуправления объемами вредных выбросов в атмосферу (§ 2.2.1) и дифференциальной игры управления капиталовложениями в рекламную кампанию (§ 2.2.4).В § 2.3 игра Γ (0 , 0 , ) изучается в кооперативной форме, причем задачарассматривается со смешанными выигрышами игроков.
Перед началом игрыигроки договариваются об использовании ими допустимых управлений * =(*1 , . . . , * ), максимизирующих совокупный ожидаемый выигрыш игроков:∑︁∑︁ Z [︂ (0 , 0 , , 1 , . . . , ) =(1 − ( ))ℎ (( ), 1 , . . . , )+=1,...,=1,..., 0]︂+ ( ) (( )) . (14)Дальнейшее изложение предполагает, что кооперативная траектория существует и является единственной.Обозначим как ℎ(( ), ) =выигрыш, (( )) =∑︀∑︀ℎ (( ), 1 , .
. . , ) совокупный мгновенный=1 (( )) – суммарный терминальный выигрыш.=1Рассмотрим следующую задачу максимизации:11 − ()Z [︂]︂(1 − ())ℎ(, ) + ()(()) ,˙ = (, ), () = .(15)16В § 2.3.1 данная задача решается в классе позиционных управлений, (, ) —соответствующая функция Беллмана. Для простоты рассмотрим случай ∈R1 .Теорема 2.3.1. Пусть существует непрерывно дифференцируемая по своим аргументам функция (, ()), удовлетворяющая уравнению(︂)︂ () () =+ max ℎ(, ) +() +(, )1 − ()1 − ()(16)с краевым условием lim (, )=0, и существует допустимое управление * (, ), →(︁)︁доставляющее максимум выражению ℎ(, ) ++, тогдауправление * (, ) является оптимальным и выполняется равенство (0 , 0 ) = (0 , 0 , , ).Следствие 2.3.1.
Уравнение Гамильтона-Якоби-Беллмана (16) имеет следующий вид:(︂)︂ (, ) (, )+ max ℎ(, ) + ()() +(, ) . (17)() (, ) = ()1− () () (, )В § 2.3.2 уравнение (17) выведено другим способом, который не предполагаетпредварительного упрощения интегрального выигрыша игрока.
В § 2.3.3 и в§ 2.3.4 оптимальные управления найдены, соответственно, в классе программных и позиционных стратегий для приложений дифференциальных игр в области природоохранного менеджмента (§ 2.3.3) и совместной разработки месторождения игроками (§ 2.3.4).В Главе 3 рассматриваются некоторые модификации игры Γ (0 , 0 , )со случайным моментом окончания, а именно, в § 3.1 — § 3.4 введены классы дифференциальных игр, обозначенные как Γ, (0 , 0 , ), Γ (0 , 0 , ),Γ , (0 , 0 , ), Γ (0 , 0 ).В § 3.1 изучается игра Γ, (0 , 0 , ), которая заканчивается в случайный момент времени c функцией распределения (), ∈ [0 , ], причеммгновенные выигрыши игроков дисконтируются при помощи функции дисконтирования −(0 , ) , т.е.⎛⎞Z (0 , 0 , ) = ⎝ −(0 , ) ℎ (( ), 1 , .
. . ) ⎠(18)0где (0 , ) – ставка дисконтирования.ставкой дисконтирования (0 , )=R В случае дисконтирования с интегральной,()(0 , 0 , ). Для игры Γ,() (0 , 0 , )0 ( ) используется обозначение Γв § 3.1.1 выводится уравнение типа Гамильтона– Якоби – Беллмана.Рассмотрим игру Γ,() (0 , 0 , ) с интегральной ставкой дисконтирования.17Теорема 3.1.1. Пусть существует непрерывно дифференцируемая по своим аргументам функция (, ()), удовлетворяющая уравнению(︂)︂)︂ () ()+ max ℎ(, , ) +() +(, )() + =1 − ()1 − ()(19)*с краевым условием lim (, )=0 и существует допустимое управление (, ), →(︁)︁ ()доставляющее максимум выражению ℎ(, , ) + 1− () () + (, ) , тоуправление * (, ) является оптимальным.В § 3.1.2 приведен пример дифференциальной игры 2 лиц, в которой игроки различных типов (развитая и развивающаяся страны) участвуют в игреуправления вредными выбросами.В § 3.2 изучается игра Γ (0 , 0 ), являющаяся модификацией игры сослучайным моментом окончания Γ (0 , 0 , ), для которой может быть полученряд специальных свойств, основанных на виде функции распределения случайной величины , заданной следующим образом.
Пусть – случайная величинас известной функцией распределения (), = 1, , соответствующая моменту окончания конфликтно-управляемого процесса для игрока , = 1, . Будемпредполагать, что { }=1 – независимые случайные величины. В данном разделе предполагаем, что игра начинается в момент 0 и заканчивается в моментпервой остановки игры для какого-либо из игроков, т.е.(︂ = min{1 , 2 , . .
. , }.(20)∏︀Для случайной величины имеем: () = 1 − =1 (1 − ()).Динамика игры задается системой обыкновенных дифференциальных уравнений (1). Выигрыши игроков предполагаются интегральными и, при выполнении предпосылок Теоремы 2.2.2, имеют вид (12). В данном разделе предполагаем = ∞. Результаты для конечного временного интервала [0 ; ] могутбыть получены аналогичным образом.Утверждение 3.2.1. В игре Γ (0 , 0 ) интегральный выигрыш игрока, = 1, . . .
, имеет следующий вид:∞Z (0 , 0 , ) =−ℎ (( ), ( ))R0(),(21)0∑︀где () = =1 ().В работе рассмотрены два примера игры Γ (0 , 0 , ) из области природоохранного менеджмента, в которых управление ищется в классе программных (§ 3.2.1) и позиционных (§ 3.2.2) управлений. В § 3.2.1 изучается дифференциальная игра управления вредными выбросами, в которой случайные величины имеют распределение Вейбулла с параметрами , .
В § 3.2.2 однатеоретико-игровая задача оптимальной разработки невозобновляемого ресурсарешена для произвольной функции распределения ().18В § 3.3 сформулирована следующая модификация игры Γ (0 , 0 , ).Пусть в игре принимают участие два игрока ( = 2), причем игра прекращаетсяв момент времени = min{1 , 2 }, однако в отличие от предыдущей постановки задачи, асимметрия заключается в том, что оставшийся игрок такжеполучает терминальный выигрыш Φ (( )). Для данной постановки в § 3.2.1выигрыш приводится к стандартному виду, в § 3.2.2 сформулировано уравнениетипа Гамильтона– Якоби – Беллмана.Далее в Главе 3 в § 3.4 рассматривается теоретико-игровая задача Γ (0 , 0 ),в которой вероятностное распределение момента окончания игры не можетбыть описано с помощью некоторого стандартного распределения. В этом случае предлагается использовать составную функцию распределения (), ∈[0 , ∞), заданную специальным образом.