Диссертация (1149189), страница 6
Текст из файла (страница 6)
На интервалах [t0 +j∆t, t0 +j∆t + T ], j = 0, . . . , l (j = 0, . . . , +∞) строится игра. С помощью уравненийГамильтона–Якоби–Беллмана [32] можно определить кооперативное поведение(кооперативные стратегии, траекторию) в каждой подобной усеченной игре.Рисунок 2.1. Каждый овал показывает усеченную информацию, котораяизвестна игрокам в течение временного интервала [t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . . , l.В течение первого временного интервала [t0 , t0 + ∆t] игроки имеют точную информацию о структуре игры на интервале [t0 , t0 + T ]. В момент времени t = t0 + ∆t информация об игре обновляется, и на втором интервале(t0 + ∆t,t0 + 2∆t] игроки имеют точную информацию о структуре игры на интервале (t0 + ∆t, t0 + ∆t + T ] и т.д.
Чтобы смоделировать подобный процесс введем следующее определение (Рис.2.1.). Обозначим xj,0 = x(t0 + j∆t), x0,0 = x0 .Определение 2.1.1. Пусть j = 0, . . . , l. Усеченная подыгра Γ̂j (xj,0 , t0 +j∆t, t0 + j∆t + T ) определена на временном интервале [t0 + j∆t, t0 + j∆t + T ]34следующим образом. На временном интервале [t0 +j∆t, t0 +j∆t+T ] уравнениядвижения, функция выигрыша в усеченной игре и исходной игре совпадают:ẋ = f (x, u1 , .
. . , un ),x(t0 + j∆t) = xj,0 ,t0 +j∆t+T∫Kij (xj,0 , t0 + j∆t, t0 + j∆t + T ; u) =hi (τ, x(τ ), u(τ ))e−r(τ −t0 ) dτ.(1.2)(1.3)t0 +j∆tПод исходной игрой в определении 2.1.1. будем понимать игру Γ(x0 , T − t0 ) спредписанной продолжительностью, тогда дискаунт фактор может приниматьнулевое значение r ≥ 0 и l =T∆t− 1, где T < +∞.
Либо игру Γ(x0 , t0 ) сбесконечной продолжительностью, тогда l = +∞ и дискаунт фактор r > 0. Дляигры с бесконечной продолжительностью предполагается также, что выигрышв игре (в любой усеченной подыгре) рассчитывается от момента времени t0 ; вформуле (1.3) дисконтирование выигрыша начинается с момента времени t0 .Рисунок 2.2. Поведение игроков в условиях усеченной информации можетбыть смоделировано с помощью набора усеченных подыгрΓ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . . .
, l.35§ 2.Решение кооперативной усеченной подыгрыРассмотрим усеченную кооперативную подыгру Γ̂j (xj,0 , t0 +j∆t, t0 +j∆t+T )на временном интервале [t0 + j∆t, t0 + j∆t + T ] с начальным условием x(t0 +j∆t) = xj,0 . В кооперативной постановке игрокам необходимо максимизироватьсуммарный выигрыш∑Kij (xj,0 , t0 + j∆t, t0 + j∆t + T ; uj ) =i∈N=∑t0 +j∆t+T∫hi (x(τ ), u(τ ))e−r(τ −t0 ) dτ (2.1)i∈N t +j∆t0при условииẋ = f (x, u1 , . . . , un ),(2.2)x(t0 + j∆t) = xj,0 .Это задача оптимального управления. Необходимые условия для ее решенияи соответствующие управления могут быть определены с помощью уравненияГамильтона-Якоби-Беллмана [32].
Обозначим максимальное значение суммарного выигрыша игроков (2.1) через W (j∆t) (t, x):}{∑ jjW (j∆t) (t, x) = maxK(x,t;u) ,iju(2.3)i∈Nгде x, t - начальные позиция и время подыгры усеченной игры Γ̂j (x, t, t0 + j∆t +T ).Теорема 2.2.1. Предположим, что существует непрерывно дифференцируемая функция W (j∆t) (t, x) : [t0 + j∆t, t0 + j∆t + T ] × Rm → R, удовлетворяющая следующей системе уравнений в частных производных:(j∆t)− Wt(t, x) == maxu{n∑}hi (t, x, u)e−r(τ −t0 ) + Wx(j∆t) (t, x)f (x, u1 , . . .
, un )(2.4)W (j∆t) (t0 + j∆t + T , x) = 0.(2.5)i=1при условии36Предположим, что максимум в (2.4) достигается при u = u∗j (t). Тогда u =u∗j (t) является оптимальным в задаче управления, определяемой (2.1), (2.2).Траекторию, соответствующую u = u∗j (t), будем называть кооперативнойи обозначать через x∗j (t).
В соответствии с рассматриваемым подходом в каждый момент времени игрокам доступна ограниченная информация о структуреигры Γ(x0 , T − t0 ) (Γ(x0 , t0 )). Этой информации недостаточно, чтобы определить кооперативное поведение для игроков во всей игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )).Вместо кооперативной траектории в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) будем строитьусловно кооперативную траекторию:Определение 2.2.1. Условно кооперативная траектория {x̂∗ (t)}Tt=t0∗({x̂∗ (t)}+∞t=t0 ) - это комбинация кооперативных траекторий xj (t) в усеченныхподыграх Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ):x∗0 (t) t ∈ [t0 , t0 + ∆t],···{x̂∗ (t)}lt=t0 = x∗j (t) t ∈ (t0 + j∆t, t0 + (j + 1)∆t],···x∗ (t) t ∈ (t + l∆t, t + (l + 1)∆t],00l(2.6)где для игры Γ(x0 , T −t0 ) с предписанной продолжительностью t0 +(l +1)∆t =T и T < ∞, а для игры Γ(x0 , t0 ) с бесконечной продолжительностью l = +∞и соответственно t0 + (l + 1)∆t = +∞.На временном интервале [t0 , t0 + ∆t] траектория x∗0 (t) является кооперативной в усеченной подыгре Γ̂0 (x0 , t0 , t0 + T ).
В момент времени t = t0 + ∆t впозиции x∗0 (t0 + ∆t) информация об игре обновляется. На временном интервале (t0 + ∆t, t0 + 2∆t] игроки двигаются вдоль кооперативной траектории x∗1 (t)в усеченной подыгре Γ̂1 (x∗0 (t0 + ∆t), t0 + ∆t, t0 + ∆t + T ). В момент времениt = t0 + j∆t в позиции x∗j−1 (t0 + j∆t) информация об игре обновляется. Условнокооперативная траектория x̂∗ (t) на временном интервале (t0 +j∆t, t0 +(j +1)∆t]определена, как комбинация частей кооперативных траекторий x∗j (t) в усеченных подыграх Γ̂j (x∗j−1 (t0 + j∆t), t0 + j∆t, t0 + j∆t + T ) (Рис. 2.3.). Введем сле-37дующие обозначения: x∗j,0 = x∗j−1 (t0 + j∆t) = x∗j (t0 + j∆t). Тогда усеченнаяподыгра может быть записана в следующем виде: Γ̂j (x∗j,0 , t0 + j∆t, t0 + j∆t + T ).Рисунок 2.3.
Условно кооперативная траектория {x̂∗ (t)}Tt=t0 определена, каккомбинация кооперативных траекторий x∗j (t) в усеченных подыграхΓ̂j (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) на интервалах (t0 + j∆t, t0 + (j + 1)∆t].Пунктирные линии отображают части кооперативных траекторий, которые неиспользуются игроками, т.е. которые не являются оптимальными в текущейусеченной подыгреКооперативная усеченная подыгра.Перейдем к рассмотрению ко-оперативной дифференциальной игры Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) и семейства подыгр Γ̂jv (x∗j (t), t, t0 + j∆t + T ) вдоль кооперативной траектории x∗j (t),∀t ∈ [t0 , T ] в форме характеристической функции.
Допустим, что в каждойусеченной подыгре Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) существует ситуация равноEENEвесия по Нэшу uN= (uNj1,j , . . . , un,j ). Тогда для каждой коалиции S ⊂ N иусеченной подыгры с номером j = 0, . . . , l (l = +∞ для исходной игры Γ(x0 , t0 ))определим значения характеристической функции так, как это сделано в [39]:38Vj (S; x∗j,0 , t, t0 + j∆t + T ) =0,S = {∅},∑ j ∗EmaxKi (xj (t), t, t0 + j∆t + T ; u∗j,S , uNj,N\S ), S ⊂ N,u,i∈Si=i∈SNEuj =u,j∈N \Sjn∑ jS = N. max Ki (x∗j (t), t, t0 + j∆t + T ; u∗j ),u(2.7)i=1В этом подходе предполагается, что фиксируется некоторая ситуация равновеEENEсия по Нэшу uN= (uN/ S,j1,j , .
. . , un,j ), игроки k, не входящие в коалицию k ∈Eиспользуют равновесные по Нэшу стратегии {uNk,j }, тогда как игроки из коа-лиции S максимизирует свой суммарный выигрыш.Любой дележ ξj (x∗j (t), t, t0 + j∆t + T ) в кооперативной усеченной подыгреΓ̂jv (x∗j , t, t0 + j∆t + T ) должен удовлетворять следующей системе неравенств∀i ∈ N :ξij (x∗j (t), t, t0 + j∆t + T ) ≥ Vj ({i}; x∗j (t), t, t0 + j∆t + T ),∑ jξi (x∗j (t), t, t0 + j∆t + T ) = Vj (N ; x∗j (t), t, t0 + j∆t + T ).i∈NОбозначим множество всевозможных дележей для усеченной подыгрыΓ̂jv (x∗j (t), t, t0 + j∆t + T ) через Ej (x∗j (t), t, t0 + j∆t + T ).
Предположим, что длякаждой усеченной подыгры определено непустое решение:Wj (x∗j , t, t0 + j∆t + T ) ⊂ Ej (x∗j (t), t, t0 + j∆t + T ).Это может быть C-ядро, НМ-решение, N-ядро или вектор Шепли.§ 3.Концепция решения в исходной игре с динамическим обновлением информацииЛогично предположить, что распределение суммарного выигрыша междуигроками в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) вдоль условно кооперативной траектории {x̂∗ (t)}Tt=t0 ({x̂∗ (t)}+∞t=t0 ) определено, как комбинация дележей на временныхинтервалах [t0 + j∆t, t0 + (j + 1)∆t], j = 0, . . . , l (j = 0, . .
. , +∞). Эту конструкцию будем называть новой концепцией решения.39Комбинация семейства множеств Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) не позволяет получить решение в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) непосредственно.Для каждого j = 0, . . . , l (j = 0, . . . , +∞) решение в усеченной подыгреΓ̂jv (x∗j,0 , t0 +j∆t, t0 +j∆t+T ) определено для временного интервала [t0 +j∆t, t0 +j∆t + T ]. Но информация об игре обновляется с шагом ∆t, а использованиетакого решения на временном интервале [t0 + j∆t, t0 + (j + 1)∆t] не представляется возможным.
Необходимая часть решения может быть получена спомощью процедуры распределения дележа для каждой усеченной подыгры.ПРД также обеспечивает свойство динамической устойчивости новой концепции решения и возможность определять решения внутри временного интервала[t0 + j∆t, t0 + j∆t + T ].Длятого,(Γ(x0 , t0 ))чтобынеобходимопостроитьопределитьрешениеПРДдлявΓ(x0 , T− t0 )усеченныхподыгригревсехΓ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . .
. , l (j = 0, . . . , +∞). Обозначимсемейство подыгр для Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) вдоль кооперативной траектории x∗j (t) через Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), где t ∈ (t0 + j∆t, t0 + j∆t + T ]- начальный момент времени подыгры. Характеристическая функция вдольx∗j (t) в семействе подыгр Γ̂jv (x∗j (t), t, t0 + j∆t + T ) определена также, как и в(2.7).
Обозначим через Ej (x∗j (t), t, t0 + j∆t + T ) множество дележей в подыгреΓ̂jv (x∗j (t), t, t0 + j∆t + T ).Предположим, что в каждой усеченной подыгре Γ̂jv (x∗j,0 , t0 +j∆t, t0 +j∆t+T )решение Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ̸= ∅ вдоль кооперативной траектории x∗j (t) выбрано. Также предположим, что для любой усеченной подыгрыΓ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) в начальной позиции x∗j,0 выбран дележξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ∈ Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T )и соответствующее ПРДβj (t, x∗j ) = [β1j (t, x∗j ), . .
. , βnj (t, x∗j )],t ∈ (t0 + j∆t, t0 + j∆t + T ],40что гарантирует динамическую устойчивость выбранного дележа [17]:ξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) =t0 +j∆t+T∫βj (t, x∗j )e−r(τ −t0 ) dt.t0 +j∆tПРД βj (t, x∗j ) может быть получена путем дифференцирования дележаξtj (x∗j , t, t0 + j∆t + T ), соответствующая теорема представлена в [47]:Теорема 2.3.1. Если функция ξj (x∗j , t, t0 + j∆t + T ) является непрерывнодифференцируемой по t и x∗j , тогдаβj (t, x∗j )][j ∗= − ξt (xj , t, t0 + j∆t + T ) −[] []j∗∗ ∗j∗j− ξx∗j (xj , t, t0 + j∆t + T ) f xj , u1 (τ ), . . . , un (τ ) . (3.1)Новая концепция решения в игре Γ(x0 , T −t0 ) (Γ(x0 , t0 )) состоит из комбинации решений Wj (x∗j,0 , t0 +j∆t, t0 +j∆t+T ) (соответствующих ПРД) в усеченныхподыграх Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . . . , l (j = 0, .















