Диссертация (1149189), страница 13
Текст из файла (страница 13)
. . , l, здесь l =T∆t− 1, t0 < ∆t < Tзадает время между моментами обновления информации. В эти моменты игроки получают точную информацию об уравнениях движений и функции выигрыша на временном интервале [t0 + j∆t, T j ]. Однако, игроки точно не знаютдлительность этого интервала, т.к. T j является случайной величиной, но еераспределение известно. В течение первого временного интервала [t0 , t0 + ∆t]игроки имеют точную информацию о структуре игры на интервале [t0 , T 0 ], гдеT 0 - случайная величина, которая принимает значения из [t0 + ∆t, T ]. В моментвремени t = t0 + ∆t информация об игре обновляется и на втором интервале(t0 + ∆t,t0 + 2∆t], игроки имеют точную информацию о структуре игры на интервале (t0 + ∆t, T 1 ], где T 1 - случайная величина, которая принимает значенияиз [max(t0 +2∆t, T 0 ), T ]. Чтобы смоделировать такой процесс введем следующееопределение.
Обозначим xj,0 = x(t0 + j∆t).Определение 4.1.1. Пусть j = 0, . . . , l. Случайная усеченная подыграΓ̂j (xj,0 , t0 + j∆t) определена на интервале [t0 + j∆t, T j ], где T j - случайнаявеличина, которая принимает значения из [max(t0 + (j + 1)∆t, T j−1 ), T ], T j−1- реализация случайного информационного горизонта в случайной усеченнойподыгре Γ̂j−1 (xj−1,0 , t0 + (j − 1)∆t). Уравнения движения и функция выигрыша в случайной усеченной подыгре и исходной игре Γ(x0 , T − t0 ) на временном85интервале [t0 + j∆t, T j ] совпадают:ẋ = f (x, u1 , .
. . , un ),x(t0 + j∆t) = xj,0 .Функция выигрыша игрока i ∈ N имеет следующий вид:tT∫∫jKi (xj,0 , t0 + j∆t; u) =hi (x(τ ), u(τ ))dτ dFj (t),t0 +j∆t(1.1)t0 +j∆tгде Fj (t) - это функция распределения случайной величины T j :∫T∫Tt0 +j∆tПредположим,что(1.2)dFj (t) = 1.dFj (t) =max(t0 +(j+1)∆t,T j−1 )реализацияслучайнойвеличиныT j−1вигреΓ̂j−1 (xj−1,0 , t0 + (j − 1)∆t) превышает время t = t0 + (j + 1)∆t:T j−1 > t0 + (j + 1)∆t,тогда значение случайного информационного горизонта T j должно превышатьреализацию T j−1 , т.к.
информация об игре уже известна на временном интервале [t0 +(j−1)∆t, T j−1 ]. Поэтому в формуле (1.2) вероятность того, что случайнаявеличина T j примет значение из интервала [t0 + j∆t, T j−1 ], равна нулю:max(t0 +(j+1)∆t,Tj−1 )∫dFj (t) = 0.t0 +j∆tВ большинстве статей, посвященных изучению кооперативных дифференциальных игр со случайной продолжительностью [44], [45], [16], функция распределения случайной величины T j определяется на бесконечном временноминтервале. В данной постановке T j принимает значения на конечном временном интервале, т.к. исходная игра определена на конечном интервале [t0 , T ].В соответствии с [10] формула для выигрыша игрока i ∈ N (1.1) для каждойслучайной усеченной подыгры Γ̂j (xj,0 , t0 + j∆t) может быть записана в следу-86ющем виде:∫TKij (xj,0 , t0 + j∆t; u) =t0 +j∆t∫thi (x(τ ), u(τ ))dτ dFj (t) =t0 +j∆t∫T(1 − Fj (τ ))hi (x(τ ), u(τ ))dτ,=(1.3)t0 +j∆tгде Fj (t) = 0 для t ∈ [t0 + j∆t, max(t0 + (j + 1)∆t, T j−1 )).§ 2.РешениекооперативнойслучайнойусеченнойподыгрыРассмотрим усеченную случайную кооперативную подыгру Γ̂j (xj,0 , t0 + j∆t)на временном интервале [t0 + j∆t, T j ] с начальным условием x(t0 + j∆t) = xj,0 .В кооперативной постановке игрокам необходимо максимизировать суммарныйвыигрышn∑Kij (xj,0 , t0i=1+ j∆t; uj ) =∫Tn∑(1 − Fj (τ ))hi (x(τ ), u(τ ))dτ(2.1)x(t0 + j∆t) = xj,0 .(2.2)i=1 t +j∆t0при условииẋ = f (x, u1 , .
. . , un ),Это задача оптимального управления. Необходимые условия для ее решенияи соответствующие управления могут быть определены с помощью уравненияГамильтона-Якоби-Беллмана [45]. Обозначим максимальное значение суммарного выигрыша игроков (2.1) через W (j∆t) (t, x):{}∑ jjW (j∆t) (t, x) = maxK(x,t;u) ,ijui∈Nгде x, t - начальная позиция и время начала подыгры усеченной игры Γ̂j (x, t).Теорема 4.2.1. Предположим, что существует непрерывно дифференцируемая функция W (j∆t) (t, x) : [t0 + j∆t, T j ] × Rm → R, удовлетворяющая сле-87дующей системе уравнений в частных производныхfj (t)(j∆t)W (j∆t) (t, x) = Wt(t, x)+1 − Fj (t)}{ n∑+ maxhi (x, u) + Wx(j∆t) (t, x)f (x, u1 , . . .
, un ) (2.3)ui=1при условииlim W (j∆t) (t, x) = 0,t→Tгде fj (t) - функция плотности для случайной величины T j (1.2). Предположим, что максимум в (2.3) достигается при u = u∗j (t). Тогда u = u∗j (t)является оптимальным в задаче управления, определяемой (2.1), (2.2).Траекторию, соответствующую u = u∗j (t), будем называть кооперативной иобозначать через x∗j (t). Условно кооперативную траекторию {x̂∗ (t)}Tt=t0 во всейигре Γ(x0 , T − t0 ) определим так же, как и в главе 2:{x̂∗ (t)}lt=t0 = x∗j (t),t ∈ (t0 + j∆t, t0 + (j + 1)∆t],где j = 0, .
. . , l и t0 + (l + 1)∆t = T . Введем следующие обозначения: x∗j,0 =x∗j−1 (t0 + j∆t) = x∗j (t0 + j∆t).Кооперативная случайная усеченная подыгра. Перейдем к рассмотрению кооперативной дифференциальной игры Γ̂jv (x∗j,0 , t0 + j∆t) и семействаподыгр Γ̂jv (x∗j (t), t) вдоль кооперативной траектории x∗j (t), ∀t ∈ [t0 , T ] в форме характеристической функции. Для каждой коалиции S ⊂ N и усеченной подыгры с номером j = 0, . . . , l определим значения характеристическойфункции Vj (S; x∗j (t), t) так, как это сделано в главе 2 и [39]. В этом подходе предполагается, что фиксируется некоторая ситуация равновесия по НэшуEENEuN= (uN/ S, используj1,j , . .
. , un,j ), игроки k, не входящие в коалицию k ∈Eют равновесные по Нэшу стратегии {uNk,j }, тогда как игроки из коалиции Sмаксимизирует свой суммарный выигрыш.Определим дележ ξj (x∗j (t), t) для каждой кооперативной случайной усеченной подыгры Γ̂jv (x∗j (t), t). Обозначим множество всевозможных дележей для усеченной подыгры Γ̂jv (x∗j (t), t) через Ej (x∗j (t), t).88§ 3.Концепция решения в исходной игре со случайным обновлением информацииВ качестве принципа оптимальностиWj (x∗j (t), t) ⊂ Ej (x∗j (t), t).В каждой случайной усеченной подыгре Γ̂jv (x∗j (t), t) будем использовать аналогсильно динамически устойчивое ПРД-ядро C j (x∗j (t), t) определенного в главе 1для случая игры с предписанной продолжительностью [23].
Переформулируемэто решение для случая игр со случайной продолжительностью, но сначалавведем понятие ПРД для игр со случайной продолжительностью.Определение 4.3.1. Функция βj (t, x∗j ), t ∈ [t0 + j∆t, T j ] называется процедурой распределения дележа ξj (x∗j,0 , t0 + j∆t) ∈ Ej (x∗j,0 , t0 + j∆t), если выполняетсяξj (x∗j,0 , t0∫T+ j∆t) =(1 − Fj (τ ))βj (t, x∗j (t))dτ.t0 +j∆tПредположим, что функция Vj (S; x∗j (t), t) является непрерывно дифференцируемой по t, t ∈ [t0 +j∆t, T ]. Далее определим следующее множество векторовBj (t, x∗j ):Bj (t, x∗j ){= βj (t) = (β1j (t), . .
. , βnj (t)) :]d [−Vj (S; x∗j (t), t) − Vj (N \ S; x∗j (t), t) ≥dt∑]d [≥(1 − Fj (t))βij (t, x∗j (t)) ≥ −Vj (S; x∗j (t), t) ,dti∈S}∑]d [j∗∗Vj (N ; xj (t), t) , ∀S ⊂ N (. 3.1)(1 − Fj (t))βi (t, xj (t)) = −dti∈NПредположим, что Bj (t, x∗j ) ̸= ∅, j = 0, . . . , l. Тогда с помощью множества Bj (t, x∗j ) можно определить следующее множество векторов C j (x∗j (t), t)(3.1), ПРД βj (t, x∗j (t)) каждого из которых принадлежит множеству Bj (t, x∗j ).В условиях постановки игры в главы 1 и в [23] было показано, что это множество является подмножеством C-ядра, это означает, что каждый элемент89ξj (x∗j (t), t) ∈ C j (x∗j (t), t) этого множества является дележом.
Также было доказано свойство сильной динамической устойчивости этого принципа оптимальности.Перейдем к определению решения в игре Γ(x0 , T − t0 ) со случайным обновлением информации. Для того, чтобы построить такое решение будем использовать семейство множеств Bj (t, x∗j ), j = 0, .
. . , l. Сначала мы построимрезультирующее множество ПРД для всей игры Γ(x0 , T − t0 ) следующим образом: для каждого набора βj (t, x∗j ) ∈ Bj (t, x∗j ), j = 0, . . . , l мы определяемфункцию β̂(t, x̂∗ ), которая будет использоваться в результирующем ПРД длявсей игры (также, как это было сделано в главе 2):β̂(t, x̂∗ ) = (1 − Fj (t))βj (t, x∗j ),t ∈ [t0 + j∆t, (j + 1)∆t],(3.2)где βj (t, x∗j ) ∈ Bj (t, x∗j ), j = 0, . . . , l.
Множество всевозможных функций β̂(t, x̂∗ )(3.2) для разных βj (t, x∗j ) ∈ Bj (t, x∗j ), j = 0, . . . , l мы обозначим через B̂(t, x̂∗ ).Функция β̂(t, x̂∗ ) ∈ B̂(t) определяет следующий результирующий векторˆ ∗ (t), T − t). Пусть t ∈ [t0 + j∆t, t0 + (j + 1)∆t], тогда положим:ξ(x̂t0 +(m+1)∆t∫T∫l∑ ∗∗ˆξ(x̂ (t), T −t) = β̂(τ, x̂ (τ ))dτ =(1 − Fm (t))βm (τ, x∗m (τ ))dτ +tm=j+1+t0 +m∆tt0 +(j+1)∆t∫(1 − Fj (t))βj (τ, x∗j (τ ))dτ (3.3)tдля j = 0, . . . , l. Обозначим через Ŵ (x0 , T − t0 ) множество всех векторовˆ 0 , T − t0 ), построенных на основе (3.2), (3.3).
В игре Γ(x0 , T − t0 ) со слуξ(xчайным обновлением информации будем использовать Ŵ (x0 , T − t0 ) в качестверешения и будем называет его результирующим решением.Результирующее решение Ŵ (x0 , T − t0 ) является динамически устойчивымпо построению. Оказывается, что Ŵ (x0 , T − t0 ) обладает также свойством сильной динамической устойчивости.Теорема 4.3.1. Пусть Ŵ (x̂∗ (t), T − t) ̸= ∅, тогда результирующее решение Ŵ (x0 , T −t0 ) является сильно динамически устойчивым в игре Γ(x0 , T −t0 )90со случайным обновлением информации.Доказательство. Предположим, что в игре Γ(x0 , T − t0 ) со случайнымобновлением информации игроки согласились выбрать результирующий векˆ 0 , T − t0 ) ∈ Ŵ (x0 , T − t0 ).
Это означает, что в течение игры, в кажтор ξ(xдой кооперативной случайной усеченной подыгре Γ̂jv (x∗j,0 , t0 + j∆t) они будутвыбирать дележ ξj (x∗j,0 , t0 + j∆t) ∈ C j (x∗j,0 , t0 + j∆t) с соответствующим ПРДβj (t, x∗j ) ∈ Bj (t, x∗j ), t ∈ [t0 +j∆t, T ]. Таким образом, в каждой усеченной подыгре игроки будут использовать ПРД β̂(t, x̂∗ ) = βj (t, x∗j ) и распределять выигрышмежду собой следующим образом:∫T∗β̂(τ, x̂ (τ ))dτ =l ∫∑j=0t0t0 +(j+1)∆t(1 − Fj (t))βj (t, x∗j )dt,t0 +j∆tгде t ∈ [t0 + j∆t, t0 + (j + 1)∆t], β̂(t, x̂∗ ) ∈ B̂(t, x̂∗ ).Предположим, что в момент времени t = tbr , где tbr ∈ [t0 + k∆t, T ],k = 0, .















