Диссертация (1149189), страница 9
Текст из файла (страница 9)
, l, удовлетво-55ряющих системе неравенств ∀j = 0, . . . , l, S ⊂ N :l[∑ξim (x∗m (t), t, t0 + m∆t + T )−m=j+1−ξim (x∗m,1 , t0]+ (m + 1)∆t, t0 + m∆t + T ) +[]j ∗j ∗+ ξi (xj (t), t, t0 + j∆t + T ) − ξi (xj,1 , t0 + (j + 1)∆t, t0 + j∆t + T ) ≥≥l[∑Vm (S; x∗m,0 , t0 + m∆t, t0 + m∆t + T )−m=j+1Vm (S; x∗m,1 , t0]+ (m + 1)∆t, t0 + m∆t + T ) +−][∗∗+ Vj (S; xj (t), t, t0 + j∆t + T ) − Vj (S; xj,1 , t0 + (j + 1)∆t, t0 + j∆t + T ) ,(5.13)существует хотя бы один набор ξij (x∗j (t), t, t0 + j∆t + T ), i = 1, . .
. , n, j = 0, . . . , lудовлетворяющий:∑ jξi (x∗j (t), t, t0 + j∆t + T ) ≥i∈S≥ Vj (S; x∗j , t, t0 + j∆t + T ),∀j = 0, . . . , l,S ⊂ N. (5.14)Докажем это от противного. Допустим, что для дележей удовлетворяющих(5.11) и (5.14) не выполняется (5.13). Покажем, что для ∀j = 0, . . . , l выполняется:∑ξij (x∗j (t), t, t0 + j∆t + T ) − Vj (S; x∗j (t), t, t0 + j∆t + T ) ≥i∈S≥∑ξij (x∗j,1 , t0 +(j +1)∆t, t0 +j∆t+T )−Vj (S; x∗j,1 , t0 +(j +1)∆t, t0 +j∆t+T ),i∈S(5.15)тогда на из (5.14) получается, что знак правой и левой части всегда положительный, а из (5.11) следует, что в этом случае (5.15) выполняется.Теорема доказана.Покажемтеперь,чтоесливкаждойусеченнойподыгреΓ̂j (x∗j , t, t0 + j∆t + T ) игроки будут выбирать в качестве принципа оптимальности сильно динамически устойчивое ПРД-ядро C j (x∗j (t), t, t0 + j∆t + T )56(глава 1, (3.1)), то результирующее решение, каждый элемент которогоопределен по формуле (3.3), будет являться сильно динамически устойчивымПРД-ядром, рассчитанным на основе результирующей характеристическойфункции V (S; x̂∗ (t), T − t) (4.1).Теорема 2.5.4.
Пусть в каждой усеченной подыгре Γ̂j (x∗j , t, t0 + j∆t + T )Wj (x∗j (t), t, t0 + j∆t + T ) = C j (x∗j (t), t, t0 + j∆t + T ) ̸= ∅,где ∀t ∈ [t0 + j∆t, t0 + j∆t + T ], j = 0, . . . , l, тогдаˆ ∗ (t), T − t),Ŵ (x̂∗ (t), T − t) = C(x̂∀t ∈ [t, T ],ˆ ∗ (t), T − t) - это сильно динамически устойчивое ПРД-ядро, рассчигде C(x̂танное на основе характеристической функции V (S; x̂∗ (t), T − t) (4.1).Доказательство.РезультирующеерешениеŴ (x̂∗ (t), T− t)состоитизвекторовˆ ∗ (t), T − t), каждый из которых определяется с помощью ПРД набораξ(x̂дележей ξj (x∗j (t), t, t0 + j∆t + T ) ∈ C j (x∗j (t), t, t0 + j∆t + T ), j = 0, . .
. , l по формуле (3.2). По построению ПРД для каждого дележа из сильно динамическиустойчивого ПРД-ядра удовлетворяет следующей системе неравенств (глава 1,(2.3)):)d(∗∗−Vj (N ; xj (t), t, t0 + j∆t + T ) − Vj (N \ S; xj (t), t, t0 + j∆t + T ) ≥dt)∑ jd(≥βi (t, x̂∗ (t)) ≥ −Vj (S; x∗j (t), t, t0 + j∆t + T ,dti∈S)∑ jd(∗∗Vj (N ; xj (t), t, t0 + j∆t + T ) , ∀S ⊂ N.
(5.16)βi (t, x̂ (t)) = −dti∈NТаким образом, результирующее решение Ŵ (x̂∗ (t), T − t) определяется с помощью (5.16) для t ∈ [t0 + j∆t, t0 + j∆t + T ], j = 0, . . . , l.ˆ ∗ (t), T − t) (5.4). Покажем, что эта системаВыпишем выражение для C(x̂сводится к (5.16). Рассмотрим отдельно одно из ограничений в (5.4) при t ∈[t0 + j∆t, t0 + (j + 1)∆t] и подставим туда выражение для V (S; x̂∗ (t), T − t) (4.1):57l)d(d( ∑ [∗Vk (S; x∗k,0 , t0 + k∆t, t0 + k∆t + T )−−V (S; x̂ (t), T − t) = −dtdtk=j+1]∗− Vk (S; xk,0 , t0 + (k + 1)∆t, t0 + k∆t + T ) +[])∗∗+ Vj (S; xj (t), t, t0 + j∆t + T ) − Vj (S; xj,0 , t0 + (j + 1)∆t, t0 + j∆t + T ) .(5.17)Из (5.17) видно, что для t ∈ [t0 + j∆t, t0 + (j + 1)∆t], j = 0, .
. . , l под знакомпроизводной находится только одно слагаемое зависящее от t, поэтому))d(d(∗∗−V (S; x̂ (t), T − t) = −Vj (S; xj (t), t, t0 + j∆t + T ) .dtdt(5.18)Подставим (5.18) и аналогичные формулы для V (N ; x̂∗ (t), T − t) и V (N \S; x̂∗ (t), T − t) в (5.4):)d(−Vj (N ; x̂∗ (t), t, t0 + j∆t + T ) − Vj (N \ S; x̂∗ (t), t, t0 + j∆t + T ) ≥dt)∑d(∗∗β̂i (t, x̂ (t)) ≥ −≥Vj (S; xj (t), t, t0 + j∆t + T ) ,dti∈S)∑d(∗∗β̂i (t, x̂ (t)) = −Vj (N ; x̂ (t), t, t0 + j∆t + T ) , ∀S ⊂ N.dti∈NТакимобразом,сильнодинамическиустойчивоеПРД-ядроˆ ∗ (t), T − t), рассчитанное на основе результирующей характеристиC(x̂ческой функции V (S; x̂∗ (t), T − t), совпадает с результирующим решением Ŵ (x̂∗ (t), T − t), рассчитанным с помощью комбинации решенийC j (x∗j (t), t, t0 + j∆t + T ) в усеченных подыграх.Теорема доказана.Таким образом, в этом разделе было показано, что если игроки в каждой усеченной подыгре Γ̂j (xj,0 , t0 +j∆t, t0 +j∆t+T ) в качестве принципа оптимальностибудут выбирать пропорциональное решение, вектор Шепли, дележ из С-ядраили дележ из сильно динамически устойчивого ПРД-ядра, то результирующийдележ также будет являться пропорциональным решением, вектором Шепли,дележом из С-ядра или дележом из сильно динамически устойчивого ПРД-ядрав игре Γ(x0 , T − t0 ) с динамическим обновлением информации.58Доказанные теоремы в этом параграфе для пропорционального решения,вектора Шепли, C-ядра и сильно динамически устойчивого ПРД-ядра в частности означает, что для того, чтобы вычислить их в игре Γ(x̂∗ (t), T −t) с динамическим обновлением информации не необходимо рассчитывать P ropj (x∗j (t), t, t0 +j∆t + T ), Shj (x∗j (t), t, t0 + j∆t + T ), Cj (x∗j (t), t, t0 + j∆t + T ), C j (x∗j (t), t, t0 +j∆t + T ) для каждой усеченной подыгры Γ̂j (x∗j , t, t0 + j∆t + T ).
Достаточно лишь вычислить значения результирующей характеристической функции∗ˆV (S; x̂∗ (t), T − t), S ⊂ N и использовать их при расчете P rop(x̂(t), T − t),ˆ ∗ (t), T − t) в качестве характеристическойˆ ∗ (t), T − t), Ĉ(x̂∗ (t), T − t), C(x̂Sh(x̂функции. Без этого результата нельзя было бы построить Ĉ(x̂∗ (t), T − t), т.к.построение C-ядра с помощью формул 3.2 и 3.3 не представляется конструктивным.§ 6.Кооперативная игра добычи ограниченного ресурса с динамическим обновлением информацииРассмотрим игру добычи ограниченного ресурса на ограниченном временном интервале.
Решение игры двух лиц в классическом виде представлено в[48]. Проблема динамической устойчивости была изучена Дэвидом Янгом [47].В этом примере представлена игра добычи ограниченного ресурса с динамическим обновлением информации для трех лиц. В качестве принципа оптимальности используется C-ядро. Характеристическая функция рассчитывается также,как это сделано в [39]. В последней части примера показано свойство сильнойдинамической устойчивости. Модель игры с бесконечной продолжительностьюможет быть построена аналогично и была рассмотрена в деталях в работе [22].Исходная игра. Уравнения движения, описывающие изменение запаса ресурса x(t) ∈ X ⊂ R, имеют следующий вид:3∑√ẋ = a x(t) − bx(t) −ui ,i=1где ui - уровень добычи игрока i = 1, 3.x(t0 ) = x0 ,59Запишем функцию выигрыша игрока i:∫TKi (x0 , t0 ; u) =hi (x(τ ), u(τ ))dτ,t0здесьhi (x(τ ), u(τ )) =√ui (τ ) − √cix(τ )ui (τ ),i = 1, 3,где ci - константа, ci ̸= ck , ∀i ̸= k = 1, 3.Усеченная подыгра.
Исходная игра Γ(x0 , T −t0 ) определена на временноминтервале [t0 , T ]. Предположим, что для любого t ∈ [t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . . , l, игроки имеют усеченную информацию об игре. Она включает в себя информацию об уравнениях движения и функциях выигрыша на временноминтервале [t0 +j∆t, t0 +j∆t+T ]. Смоделируем это с помощью усеченной подыгры Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ). Уравнения движения и начальные данныеимеют следующий вид:3∑√ẋ = a x(t) − bx(t) −ui ,x(t0 + j∆t) = xj,0 .(6.1)i=1функция выигрыша игрока i:t0 +j∆t+T∫Kij (xj,0 , t0 + j∆t, t0 + j∆t + T ; u) =hi (x(τ ), u(τ ))dτ.t0 +j∆tРассмотрим случай, когда игроки соглашаются на кооперацию в усеченнойподыгре Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ). Тогда игроки будут действовать исходяиз максимизации их суммарного выигрыша.Кооперативная траектория.
Максимальный суммарный выигрыш вкаждой усеченной подыгре Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ) имеет следующийвид [48]:√W j (t, x) = Aj (t) x + C j (t),(6.2)где функции Aj (t), C j (t) удовлетворяют системе дифференциальных уравне-60ний:Ȧj (t) =b jA (t) −23∑i=1 [ 1] ,Aj (t)4 ci + 2aĊ j (t) = − Aj (t),2jA (t0 + j∆t + T ) = 0, C j (t0 + j∆t + T ) = 0.Кооперативная траектория x∗j (t) в каждой усеченной подыгре может бытьвычислена на временном интервале следующим образом [48]:2t∫√1∗2∗ϖj (t0 + j∆t, τ )−1 dτ ,xj (t) = ϖj (t0 + j∆t, t) xj,0 + a ·2t0 +j∆tгде t ∈ [t0 + j∆t, t0 + j∆t + T ] и∫tϖj (t0 + j∆t, t) = expt0 +j∆t1− b +23∑i=11 dτ. []2Aj (τ )4 ci + 2Начальное положение для кооперативной траектории в каждой усеченнойподыгре устанавливается из предыдущей усеченной подыгры: x∗0,0 = x0 иx∗j,0 = x∗j−1 (t0 + j∆t) для 1 ≤ j ≤ l.
Определим условно кооперативную траекторию x̂∗ (t) в игре Γ(x0 , T − t0 ):x̂∗j (t) = x∗j (t),t ∈ [t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . . , l.Характеристическая функция. Для того, чтобы распределить максимальный суммарный выигрыш между игроками в каждой усеченной подыгренеобходимо определить значения характеристической функции Vj (S; xj,0 , t0 +j∆t, t0 + j∆t + T ) (Vj (S; x∗j (t), t, t0 + j∆t + T )) для каждой коалиции S ⊂ N .В соответствии с формулой (2.7) максимальный суммарный выигрыш игроков Wj (t0 + j∆t, xj,0 ) (6.2) соответствует значению характеристической функции Vj (N ; xj,0 , t0 + j∆t, t0 + j∆t + T )) коалиции S = N в усеченной подыгреΓ̂jv (xj,0 , t0 + j∆t, t0 + j∆t + T ):Vj (N ; x∗j (t), t, t0 + j∆t + T ) = Wj (t, x∗j (t)),(6.3)61где t ∈ [t0 + j∆t, t0 + j∆t + T ], j = 0, .
. . , l. Далее, нам необходимо определитьзначения характеристической функции для следующих коалиций:{1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}.Для каждой коалиции вида {i}, i = 1, 3 нам необходимо определить равновесиепо Нэшу в усеченной подыгре Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ) и как результатVj ({i}; x∗j (t), t, t0 + j∆t + T ).Коалиции, состоящие из одного игрока. Равновесие по Нэшу в усеченной подыгре Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ) определяется следующими стратегиями игроков:uji (t, x) =x4[ci + Aji (t)/2]2,i = 1, 3,где функции Aji (t) для i = 1, 3 находятся из системы дифференциальных уравнений:Ȧji (t)=bAji (t) 2+∑1k̸=i8(ck + Ajk (t)/2)2−14(ci + Aji (t)/2),aĊij (t) = − Aji (t),2jAi (t0 + j∆t + T ) = 0, Cij (t0 + j∆t + T ) = 0.Выигрыш игрока i = 1, 3 в ситуации равновесия по Нэшу определяетсяфункцией:√Vij (t, x) = Aji (t) x + Cij (t),i = 1, 3.Таким образом, значение характеристической функции для коалиций состоящих из одного игрока S = {i}, i ∈ N вычисляется следующим образом:Vj ({i}; x∗j (t), t, t0 + j∆t + T ) = Vij (t, x∗j (t)),(6.4)где t ∈ [t0 + j∆t, t0 + j∆t + T ], j = 0, .
. . , l.Коалиции, состоящие из двух игроков. В соответствии с формулой(2.7) значение характеристической функции Vj (S; xj,0 , t0 + j∆t, t0 + j∆t + T )(Vj (S; x∗j (t), t, t0 + j∆t + T )) для коалиций состоящих из двух игроков S =62{1, 2}, {1, 3}, {2, 3} определяется, как наилучший ответ коалиции против страE,jE,jE,jEтегий, входящих в ситуацию равновесия по Нэшу uN= (uN, uN, uN)вj123усеченной подыгре Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ), используемых игроками невходящими в коалицию. В нашем случае это означает, что игроки из коалиции S действуют как один игрок и максимизируют свой суммарный выигрыш.Используя этот подход, мы определим равновесие между двумя игроками: комбинированный игрок (коалиция S), игрок не входящий в коалицию S (коалицияN/S).РассмотримформулыдляVj (S; xj,0 , t0 + j∆t, t0 + j∆t + T )(Vj (S; x∗j (t), t, t0 + j∆t + T )) в случае, когда S = {1, 2}, формулы длявычисления остальных коалиций можно получить по такому же принципу.















