Диссертация (1149189), страница 5
Текст из файла (страница 5)
Рассматривается дифференциальная игра управления объемами вредных выбросов, основанная на моделях[34, 35], см. также [28]. В игре участвуют n игроков (страны, фирмы), производящие некоторый товар на загрязняющих окружающую среду производствах. Предполагается, что объем производства прямо пропорционален объемузагрязнения. Рассматривается кооперативный вариант игры, при котором игроки заключают соглашение о совместных действиях для уменьшения загрязнения окружающей среды. Игра начинается в момент времени t0 из состояния x0и заканчивается в момент времени T . Фазовая переменная x(t), описывающаясостояние системы (общий уровень загрязнения), изменяется в соответствии суравнением:ẋ =n∑ui x(t0 ) = x0 ,i=1где ui - объем загрязнений в единицу времени (управление) игрока i, ui ∈ [0, bi ].Решение в рассматриваемой игре будем искать в классе управлений ui (t).Пусть N - множество игроков, |N | = n. Функция выигрыша игрока i ∈ Nимеет следующий вид:)∫T (Ki (x0 , T − t0 ; u) =Ci (ui (τ )) − Di (x(τ )) dτ,i ∈ N,t0где Ci (ui (τ )) соответствует доходу от производства игрока i, загрязняющегоокружающую среду со скоростью ui (τ ), Di (x(τ )) - расходы, затраченные игро-25ком i на устранение общего загрязнения x(τ ) (подробнее см.
[34, 35]):)(1Ci (ui (t)) = bi − ui (t) ui (t),2Di (x(t)) = di x(t),di , bi > 0.Для наглядности положим n = 3.Такие результаты как оптимальные стратегии, вид кооперативной траектории были получены в работе [37], поэтому не будем на них останавливаться.Перейдем к построению характеристической функции.Вопрос выбора способа построения характеристической функции в дифференциальной игре не является тривиальным (см., например, [3]).
В даннойработе был выбран способ построения так называемой δ-характеристическойфункции, впервые предложенной в работе [39]. Значение характеристическойфункции для коалиции S ⊂ N находится в два этапа: сначала фиксируетсяENEнекоторая ситуация равновесия по Нэшу uN E = (uN1 , . . . , un ), а затем дляEигроков j, не входящих в коалицию j ∈/ S, используют стратегии {uNj }, тогдакак игроки из коалиции S максимизирует свой суммарный выигрыш.Отметим, что описанный в [39] способ построения характеристической функции обладает рядом достоинств, таких как упрощение вычислений по сравнению с классическим способом Неймана-Моргенштерна [1, 17], более понятнаяэкономическая интерпретация и др. Однако в общем случае такая характеристическая функция не является супераддитивной.Применяя принцип максимума Понтрягина, можно получить следующиевыражения [37] для значений характеристической функции для всех возможных коалиций S ⊂ N :V ({1, 2}; x∗ (t), T − t) = −d12 (T − t) x(t)+()2(T − t) 3b̃12 + 2d12 ds (T − t) − 3bs d12 (T − t),+626V ({1, 3}; x∗ (t), T − t) = −d13 (T − t) x(t)+()2(T − t) 3b̃13 + 2d13 ds (T − t) − 3bs d13 (T − t),+6V ({2, 3}; x∗ (t), T − t) = −d23 (T − t) x(t)+()2(T − t) 3b̃23 + 2d23 ds (T − t) − 3bs d23 (T − t)+,6V ({i}; x∗ (t), T − t) = −di (T − t) x(t)+()(T − t) di (2ds − di )(T − t)2 − 3bs di (T − t) + 3bi 2+,6V ({1, 2, 3}; x∗ (t), T − t) = −ds (T − t) x(t)+()122+ (T − t) ds (T − t) − bs ds (T − t) + b̃s ,2где b̃ij = b2i + b2j , dij = di + dj , b̃s = b21 + b22 + b23 , i ̸= j, i, j = 1, 2, 3.Постоим множество B(t) на основе вектор-функций β(t), удовлетворяющихограничениям в виде (2.3).
Затем формируем ПРД-ядро C(x0 , T − t0 ) из векто∫Tров ξ(x0 , T − t0 ) = t0 β(t)dt, ∀β(t) ∈ B(t).Анализ. Приведем графические иллюстрации и анализ полученных решений для некоторых фиксированных числовых параметров, а именно, положимt0 = 0,b1 = 6,b2 = 8,b3 = 7,x0 = 0,4T = ,3d1 = 1.2,d2 = 1.5,d3 = 1.1.(5.1)Рассчитаем производную характеристической функции V (S; x∗ (t), T −t). Далеес помощью рассчитанных производных характеристической функции и пара-27метров (5.1) построим множество B(t) (2.3):{B(t) = β(t) = (β1 (t), β2 (t), β3 (t)) :(5.2)−16.68t2 + 19.28t + 0.51 ≤ β1 (t) ≤ −8.74t2 − 1.89t + 14.62,−21.08t2 + 24.7t + 9.73 ≤ β2 (t) ≤ −12.73t2 + 2.45t + 24.57,−15.24t2 + 17.53t + 8.56 ≤ β3 (t) ≤ −7.41t2 − 3.34t + 22.47,−35.91t2 + 39.06t + 13.52 ≤ β1 (t) + β2 (t) ≤ −28.08t2 + 18.19t + 27.43,−30.59t2 + 33.27t + 11.42 ≤ β1 (t) + β3 (t) ≤ −22.24t2 + 11.02t + 26.26,−34.58t2 + 37.61t + 21.37 ≤ β2 (t) + β3 (t) ≤ −26.64t2 + 16.44t + 35.49,}2β1 (t) + β2 (t) + β3 (t) = −43.32t + 35.72t + 35.99 .Для иллюстрации того, что предложенное условие на ПРД (2.3) не являетсяслишком ограничительным, построим пропорциональное решение и покажем,что при некоторых параметрах модели оно содержится в сильно динамическиустойчивом ПРД-ядре.
Построим дележ на основе ПРД, который строится аналогично пропорциональному решению (далее будем называть это пропорциональным решением).Определим пропорциональное решение через его ПРД следующим образом:βiP rop (t)U ({i}; x∗ (t), T − t)= ∑U (N ; x∗ (t), T − t),U ({i}; x∗ (t), T − t)i ∈ N,(5.3)i∈Nгде U (S; x∗ (t), T − t), ∀S ⊂ N определено в (3.2). Подставим (5.1) в (5.3) и для1-го игрока получим:β1P rop (t)(−43.32t2 + 35.72t + 35.99)(−16.68t2 + 19.28t + 0.51).=−52.99t2 + 61.51t + 18.8(5.4)Выражения для 2, 3-го игроков имеют аналогичный вид (см. [23]).Путем интегрирования βiP rop (t), (5.4) по t можно получить формулу для предложенного дележа P ropi (x∗ (t), T − t), i=1, 3. В со-ответствии с P ropi (x∗ (t), T − t) игроки разделят суммарный выигрышV ({1, 2, 3}; x0 , T − t0 ) = 45.51 в игре Γv (x0 , T − t0 ) следующим образом:ξ P rop (x0 , T − t0 ) = (5.59, 21.94, 17.98).(5.5)28На рисунках 1,2 графически показано, что β P rop (t) ∈ B(t) (5.2), откуда следует, что пропорциональное решение P rop(x∗ (t), T − t) принадлежит сильнодинамически устойчивому ПРД-ядру C(x∗ (t), T − t).ПродемонстрируемПРД-ядрасвойствоC(x∗ (t), T − t)насильнойдинамическойустойчивостипримерепропорциональногорешенияP rop(x∗ (t), T − t).
Пусть в начальный момент времени t0 игроки договорились использовать пропорциональное решение (5.3), но в некоторыймомент времени tbr ∈ [t0 , T ] они решили выбрать другой дележ из ПРД-ядраC(x∗ (tbr ), tbr , T ) в качестве решения в игре, например, вектор Шепли (1.7).Покажем, что результирующее решение, состоящее из комбинации пропорционального решения и вектора Шепли, также будет принадлежать ПРД-ядруC(x0 , T − t0 ) для всей игры. Сначала рассчитаем вектор Шепли (1.7) ипокажем, что для определенных параметров он принадлежит C(x∗ (t), T − t):Sh1 (x∗ (t), T − t) = 4.5t3 − 5.41t2 − 6.15t + 7.14.(5.6)Выражения для 2, 3-го игроков имеют аналогичный вид (см.
[23]).Рассчитаем ПРД для вектора Шепли β Sh (t) по формуле (2.1):β1Sh (t) = −13.5t2 + 10.81t + 6.15.(5.7)Выражения для 2, 3-го игроков имеют аналогичный вид (см. [23]).Нетрудно проверить, что полученное ПРД β Sh (t) принадлежит множествуB(t). Откуда следует, что Sh(x∗ (t), T − t) ∈ C(x∗ (t), T − t).Зафиксируем момент пересмотра игроками выбранного пропорциональногорешения (5.4) на вектор Шепли tbr =415и рассчитаем результирующее решение.ПРД для результирующего решения имеет следующий вид: β P rop (t), t ∈ [t0 , tbr ],β(t) = β Sh (t), t ∈ (t , T ].brПутеминтегрированияβi (t),(5.8)поtможнодля результирующего решения ξ(x∗ (t), T − t), i(5.8)получить=формулу1, 3. В соответ-ствии с ξi (x∗ (t), T − t) игроки разделят суммарный выигрыш в игре29Γv (x0 , T − t0 ) следующим образом:ξ(x0 , T − t0 ) = (6.28, 21.47, 17.76).На рисунках 1, 2 изображено множество B(t) (5.2), ПРД для пропорционального решения (5.4) β P rop (t) (сплошная линия) и ПРД для результирующегорешения (5.8) β(t) (пунктирная линия).
Видно, что при заданных параметрах(5.1) модели оба ПРД принадлежат множеству B(t).Рисунок 1.1. Оси: β1 , β2 , t.β3 находится с помощью нормирующего условия в (5.2).Из принадлежности ПРД для результирующего решения β(t) множествуB(t) следует принадлежность самого результирующего решения ξ(x∗ (t), T − t)сильно-динамическому ПРД-ядру C(x∗ (t), T − t), аналогичное верно для пропорционального решения:ξ(x∗ (t), T − t), ξ P rop (x∗ (t), T − t) ∈ C(x∗ (t), T − t).Таким образом, нам удалось продемонстрировать свойство сильной динамической устойчивости ПРД-ядра C(x∗ (t), T − t).Нарисункахξ(x∗ (t), T− t)3,4изображено,(пунктирнаялиния)чтоирезультирующеерешениепропорциональноерешение30Рисунок 1.2.
Оси: β1 , β2 , β3 . Добавлена виртуальная ось t для отображенияизменения множества B(t) во времени.ξ P rop (x∗ (t), T−t)(сплошнаялиния)принадлежатC-ядруC(x∗ (t), T − t) в игре. Из утверждения 1.3.2. следует, что ПРД-ядроC(x∗ (t), T − t) является подмножеством C-ядра C(x∗ (t), T − t).31Рисунок 1.3. Оси: ξ1 , ξ2 , t.ξ3 находится с помощью нормирующего условия в (1.4).Рисунок 1.4. Оси: ξ1 , ξ2 , ξ3 . Добавлена виртуальная ось t для отображенияизменения множества C(x∗ (t), T − t) во времени.32ГЛАВА 2КООПЕРАТИВНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ СДИНАМИЧЕСКИМ ОБНОВЛЕНИЕМ ИНФОРМАЦИИ§ 1.Определение усеченной подыгрыВ этой главе будем рассматривать два типа игр, дифференциальные игры спредписанной продолжительностью Γ(x0 , T − t0 ) и бесконечной продолжительностью Γ(x0 , t0 ).
Рассуждения и доказательства для этих двух классов игр вданном случае схожи. Исходная игра Γ(x0 , T − t0 ) уже определена в главе 1.Определим игру Γ(x0 , t0 ) с бесконечной продолжительностью.Рассмотрим дифференциальную игру n лиц Γ(x0 , t0 ) с бесконечной продолжительностью и начальным состоянием x0 . Динамика игры задается системойобыкновенных дифференциальных уравнений:x ∈ Rn ,ẋ = f (x, u1 , . .
. , un ),ui ∈ Ui ⊂ compRk ,t ∈ [t0 , +∞],(1.1)x(t0 ) = x0 ,для которой предполагаются выполненными условия существования, единственности и продолжимости решений для любого набора измеримых управлений u1 (·), . . . , un (·) [17]. Выигрыш i-го игрока определяется следующим образом:∫+∞Ki (x0 , t0 ; u1 , . . . , un ) =hi (x(τ ), u1 (τ ), .
. . , un (τ ))e−r(τ −t0 ) dτ,i = 1, . . . , n,t0где hi (x, u1 , . . . , un ) представляет собой непрерывную функцию, x(t) - решениезадачи Коши для системы (1.1) при управлениях u(t) = (u1 (t), . . . , un (t)) иr ≥ 0 - это дискаунт фактор.Предположим, что в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) информация обновляетсяв моменты времени t = t0 + j∆t, j = 0, . . . , l, здесь l =T∆t− 1, 0 < ∆t <T задает время между моментами обновления информации. В игре Γ(x0 , t0 )33с бесконечной продолжительностью в качестве T = +∞, поэтому l = +∞.В моменты времени t = t0 + j∆t игроки получают точную информацию обуравнениях движений и функциях выигрыша на временном интервале [t0 +j∆t, t0 +j∆t+T ], здесь ∆t < T < T (∆t < T < +∞) задает временной горизонт,на котором игрокам известна информация об игре.















