Диссертация (1149189), страница 10
Текст из файла (страница 10)
Значения выигрышей игроков в ситуации равновесия по Нэшу имеютследующий вид:√jjV{1,2}(t, x) = Aj{1,2} (t) x + C{1,2}(t),√V3j (t, x) = Aj3 (t) x + C3j (t),jгде функции Aj{1,2} (t), Aj3 (t), C{1,2}(t), C3j (t) удовлетворяют системе дифферен-циальных уравнений:[]∑b11+−,jj2 8(c3 + A3 (t)/2)24(c+A(t)/2)k{1,2}[]k∈Sb ∑11Ȧj3 (t) = Aj3 (t)+,−jj228(c+A4(c+A(t)/2)(t)/2)k33{1,2}k∈SaajĊ{1,2}(t) = − Aj{1,2} (t), Ċ3j (t) = − Aj3 (t)22Ȧj{1,2} (t) = Aj{1,2} (t)со следующими ограничениями Aj{1,2} (t0 + j∆t + T ) = 0, Aj3 (t0 + j∆t + T ) = 0,jC{1,2}(t0 + j∆t + T ) = 0, C3j (t0 + j∆t + T ) = 0.Таким образом, значение характеристической функции коалиции S = {1, 2}вычисляется следующим образом:jVj ({1, 2}; x∗j (t), t, t0 + j∆t + T ) = V{1,2}(t, x∗j (t)),где t ∈ [t0 + j∆t, t0 + j∆t + T ], j = 0, . .
. , l.(6.5)63Концепция решения. Пусть игроки в каждой кооперативной усеченнойподыгре Γ̂jv (xj,0 , t0 +j∆t, t0 +j∆t+T ) используют в качестве принципа оптимальности C-ядро Cj (x∗j (t), T −t) (Cj (x0 , T −t0 )). Это означает, что игроки в каждойусеченной подыгре выбирают дележ ξj (x∗j , t, t0 + j∆t + T ) ∈ Cj (x∗j (t), T − t) последующему правилу:∑ jξi (x∗j , t, t0 + j∆t + T ) ≥ Vj (S; x∗j (t), t, t0 + j∆t + T ),S ⊂ N,i∈Sдля любого t ∈ [t0 +j∆t, t0 +j∆t+T ], j = 0, .
. . , l. Тогда результирующий векторˆ ∗ (t), T − t) для любого набора дележей в усеченных подыграх ξj (x∗ , t, t0 +ξ(x̂jj∆t + T ) ∈Cj (x∗j (t), T− t), t ∈ [t0 + j∆t, t0 + j∆t + T ], j = 0, . . . , l может бытьвычислен по формуле (3.3). Через Ĉ(x̂∗ (t), T − t) (Ĉ(x0 , T − t0 )) обозначимˆ ∗ (t), T − t) (ξ(xˆ 0 , T − t0 )), построенных с помощью (3.2),множество векторов ξ(x̂(3.3).На основе результатов, полученных в § 4 и § 5, решение Ĉ(x̂∗ (t), T −t) можнопостроить по следующему правилу:∑ˆ ∗ (t), T − t) ≥ V (S; x̂∗ (t), T − t),ξ(x̂S ⊂ N,(6.6)i∈Sгде V (S; x̂∗ (t), T − t) вычисляется по формуле (4.1)Далее на примере конкретных дележей из Ĉ(x̂∗ (t), T − t) покажем, чтопостроенное решение является сильно ∆t-динамически устойчивым в игреΓ(x0 , T − t0 ).Численный пример. Рассмотрим численный пример игры добычи ограниченного ресурса заданного на временном интервале длинной T − t0 = 4, вкотором информация об игре известна на временном интервале с продолжительностью T = 2 и обновляется каждый ∆t = 1 временной интервал.
Зафиксируем следующие параметры для уравнения движения a = 5, b = 0.3, дляфункции выигрыша c1 = 0.15, c2 = 0.65, c3 = 0.45 и для начальных условийt0 = 0, x0 = 250.На графике 2.5. показаны оптимальные стратегии для первого игрока в игрес динамическим обновлением информации (сплошная линия) и оптимальныестратегии в исходной игре [48] (пунктирная линия).64Рисунок 2.5. Оптимальные стратегии игрока 1 в игре с динамическимобновлением информации (сплошная линия) и оптимальные стратегии висходной игре [48] (пунктирная линия).Условно кооперативная траектория x̂∗ (t) составлена из кооперативных траекторий в усеченных подыграх Γ̂j (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) с уравнениямидвижения (6.1).
На рисунке 2.6. представлено сравнение условно кооперативной траектории x̂∗ (t) (сплошная линия) в игре с динамическим обновлениеминформации и кооперативной траектории x∗ (t) (пунктирная линия) в исходнойигре Γ(x0 , T − t0 ) [48]. Видно, что в случае ограниченной информации выработка ресурсов происходит быстрее, т.к. игроки ориентируются на урезанныйвременной интервал. Ось абсцисс на рисунке 2.6. определяет время t, ось ординат определяет запас ресурса x.На основе значений характеристических функцийVj (S; x∗j (t), t, t0 + j∆t + T ),t ∈ [t0 + j∆t, t0 + (j + 1)∆t],S ⊂ N,i = 0, . . . , l,вычисленных в (6.3), (6.4), (6.5) получим выражение для результирующей характеристической функции V (S; x̂∗ (t), T − t) (4.1), t ∈ [t0 , T ].
Далее с помощью(6.6) построим Ĉ(x̂∗ (t), T − t) в игре с динамическим обновлением информацииΓ(x0 , T − t0 ) (см. Рис.2.9., Рис.2.10.).Продемонстрируем свойство сильной ∆t динамической устойчивости решения Ĉ(x̂∗ (t), T −t). Предположим, что в начале игры Γ(x0 , T −t0 ) игроки догово∗ˆрились использовать пропорциональное решение P rop(x̂(t), T − t) (5.1) (далее65Рисунок 2.6. Условно кооперативная траектория x̂∗ (t) (сплошная линия) вигре с динамическим обновлением информации и кооперативная траекторияx∗ (t) (пунктирная линия) в исходной игре [48].∗ˆпокажем, что при заданных параметрах P rop(x̂(t), T −t) ∈ Ĉ(x̂∗ (t), T −t)). Те-перь предположим, что в некоторый момент времени tbr = t0 + m∆t ∈ [t0 , T ] игроки решили, что пропорциональное решение больше их не устраивает и выбраˆ ∗ (t), T −t),ли другой дележ из Ĉ(x̂∗ (tbr ), T −tbr ), например, вектор Шепли Sh(x̂t ∈ [tbr , T ] (5.2).
Рассчитаем ПРД для пропорционального решения и вектораШепли по формулам (3.1).Пусть m = 2, тогда ПРД для комбинированного решения (3.2) имеет следующий вид:β̂(t, x̂∗ ) = β̂ P rop (t, x̂∗ ), t ∈ [t0 , tbr ], β̂ Sh (t, x̂∗ ),t ∈ (tbr , T ].(6.7)На графике 2.8. изображены ПРД пропорционального решения, который выбрали игроки в начале игры β̂ P rop (t, x̂∗ ) (глава 1, (5.3)) (сплошная линия) иПРД β̂(t, x̂∗ ) для комбинированного решения (6.7) (пунктирная линия).Проинтегрируем комбинированное решение β̂(t, x̂∗ ) (6.7) по t и получим соˆ ∗ (t), T −t).
В соответствии сответствующий дележ (3.3), обозначим его через ξ(x̂ˆ ∗ (t), T −t) игроки разделят суммарный выигрыш в игре Γ(x0 , T −t0 )дележом ξ(x̂с динамическим обновлением информации следующим образом:ˆ ∗ (t), T − t) = (12.3, 30.2, 16.8).ξ(x̂66Рисунок 2.7. Условно кооперативная траектория x̂∗ (t) (сплошная линия) вигре с динамическим обновлением информации и соответствующиекооперативные траектории в усеченных подыграх (пунктирные линии).На рисунках 2.9., 2.10. можно наблюдать, что дележ соответствующий комˆ ∗ (t), T − t) (пунктирная линия) принадлежитбинированному решению ξ(x̂Ĉ(x̂∗ (t), T − t) (выделенная область) для всех t ∈ [t0 , T ].
Это показываетсвойство сильной δt-динамической устойчивости Ĉ(x̂∗ (t), T − t), т.к. дележˆ ∗ (t), T − t) был построен путем отклонения игроков от пропорциональногоξ(x̂∗ˆрешения P rop(x̂(t), T − t) (сплошная линия) в момент времени tbr = t0 + j∆tˆ ∗ (tbr ), T − tbr ).в пользу вектора Шепли Sh(x̂67Рисунок 2.8. ПРД β̂ P rop (t, x̂∗ ) для пропорционального решения (сплошнаялиния), ПРД β̂(t, x̂∗ ) для комбинированного решения (6.7) (пунктирнаялиния).Рисунок 2.9. Оси: ξ1 , ξ3 , t. ξ2 можно вычислить используя нормировочноеусловие.68Рисунок 2.10.
Оси: ξ1 , ξ2 , ξ3 . Добавлена виртуальная ось t для отображенияизменения множества Ĉ(x∗ (t), T − t) во времени.69ГЛАВА 3КООПЕРАТИВНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ СПРЕДПИСАННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ,ДИНАМИЧЕСКИМ ОБНОВЛЕНИЕМ ИНФОРМАЦИИИ СТОХАСТИЧЕСКИМ ПРОГНОЗОМ§ 1.Определение комбинированной усеченной подыгрыРассмотрим кооперативную дифференциальную игру Γ(x0 , T − t0 ), определенную в первой главе. Правая часть f (x, u1 , . .
. , un ) уравнений движения (1.1)имеет следующий вид:f0 (x, u1 , . . . , un ), t ∈ [t0 , t0 + ∆t]...f (x, u1 , . . . , un ) = fj (x, u1 , . . . , un ), t ∈ (t0 + j∆t, t0 + (j + 1)∆t]...f (x, u , . . . , u ), t ∈ (t + l∆t, t + (l + 1)∆t],l1n00где l =T −t0∆t− 1, t0 < ∆t < T . Правые части уравнений движения различнына каждом временном интервале (t0 + j∆t, t0 + (j + 1)∆t]. Внутри каждогоинтервала игроки имеют информацию о правых частях уравнения движенияfj (x, u1 , . . . , un ) на этом интервале, но они не имеют информацию об уравнениях движения на оставшемся временном интервале (t0 + (j + 1)∆t, T ].
Для того,чтобы компенсировать отсутствующую информацию об уравнениях движенияигроки используют прогноз для уравнений движения на временном интервале (t0 + (j + 1)∆t, T ] основанный на знаний о правой части уравнений движения fj (x, u1 , . . . , un ) на текущем временном интервале. В момент времениt = t0 + (j + 1)∆t информация о правых частях уравнений движения на интер-70вале (t0 +(j +1)∆t, t0 +(j +2)∆t] становиться известной, прогноз для уравненийдвижения на временном интервале обновляется.
Подобные задачи часто появляются в реальных процессах, т.к. информация об игре на больших временныхинтервалах не всегда известна точно, поэтому целесообразно использовать прогноз.Пусть t ∈ (t0 + j∆t, t0 + (j + 1)∆t]. На временном интервале (t0 + j∆t, t0 +(j + 1)∆t] заданы следующие уравнения движения:ẋ = fj (x, u1 , .
. . , un ),j = 0, . . . , l,t ∈ [t0 + j∆t, t0 + (j + 1)∆t],а на временном интервале (t0 + (j + 1)∆t, T ] прогноз для уравнений движениязадан следующим образом:dx = fj (x, u1 , . . . , un )dt + σ(t, x)dz(t),j = 0, . . . , l,t ∈ [t0 + (j + 1)∆t, T ],где σ(t, x) - это m×θ матрица и z(t) ∈ Rθ - это Винеровский случайный процесс.В моменты времени t = t0 + j∆t, j = 0, . . . , l игроки получают информациюо правой части уравнений движения на очередном ∆t временном интервале ипереопределяют свои стратегии.В течение первого временного интервала [t0 , t0 + ∆t] игроки имеют точнуюинформацию об игре на интервале [t0 , t0 +∆t] и прогноз на временном интервале(t0 + ∆t, T ]. В момент времени t = t0 + ∆t информация об игре обновляетсяи на втором интервале (t0 + ∆t,t0 + 2∆t] игроки имеют точную информациюна (t0 + ∆t, t0 + 2∆t] и прогноз на интервале [t0 + 2∆t, T ]. Обозначим xj,0 =x(t0 + j∆t).Определение 3.1.1.
Пусть j = 0, . . . , l. Комбинированная усеченнаяподыгра Γ̂j (xj,0 , t0 + j∆t, T ) определена на временном интервале [t0 + j∆t, T ]следующим образом. На временном интервале [t0 + j∆t, t0 + (j + 1)∆t] уравнения движения, функция выигрыша в усеченной подыгре игре и исходной игреΓ(x0 , T − t0 ) совпадают. Но на интервале (t0 + (j + 1)∆t, T ] усеченная подыграΓ̂j (xj,0 , t0 + j∆t, T ) является стохастической игрой. Уравнения движения ифункция выигрыша в комбинированной усеченной подыгре имеют следующий71вид:dx = fj (x, u1 , .
. . , un )dt+I(j, t)·σ(t, x)dz(t),x(t0 +j∆t) = xj,0 ,t ∈ [t0 +j∆t, T ],(1.1)гдеI(j, t) =0,t ∈ [t0 + j∆t, t0 + (j + 1)∆t],1,t ∈ (t0 + (j + 1)∆t, T ],а выигрыш игрока i ∈ N определяется математическим ожиданиемT ∫jKi (x, t0 + j∆t, T ; u) = Ehi (x(τ ), u(τ ))dτ + qi (x(T )) .(1.2)(1.3)t0 +j∆t§ 2.Решение комбинированной кооперативной усеченной подыгрыРассмотримкомбинированнуюусеченнуюкооперативнуюподыгруΓ̂j (xj,0 , t0 + j∆t, T ) на временном интервале [t0 + j∆t, T ] с начальнымусловием x(t0 + j∆t) = xj,0 . В кооперативной постановке игрокам необходимомаксимизировать суммарный выигрышT ∫∑ j∑ jKi (xj,0 , t0 + j∆t, T ; u ) =Ehi (x(τ ), u(τ ))dτ + qi (x(T ))(2.1)i∈Ni∈Nt0 +j∆tпри условииdx = fj (x, u1 , .















