Диссертация (1149189), страница 11
Текст из файла (страница 11)
. . , un )dt + I(j, t) · σ(t, x)dz(t),x(t0 + j∆t) = xj,0 ,(2.2)где I(j, t) - это индикаторная функция определенная в (1.2).Это задача оптимального управления. Необходимые условия для ее решенияи соответствующие управления могут быть определены с помощью уравненияГамильтона-Якоби-Беллмана [47]. Доказательство следующей теоремы является частным случаем теоремы в [47], но в данном случае элементы ковариационной матрицы Ω(τ, x∗j ) обращаются в ноль на интервале [t0 + j∆t, t0 + (j + 1)∆t],72что описывается индикаторной функцией I(j, t). Обозначим максимальное значение суммарного выигрыша игроков (2.1) через W (j∆t) (t, x):{}∑ jW (j∆t) (t, x) = maxKi (x, t, T ; uj ) ,jui∈Nгде x, t - начальные позиция и время подыгры усеченной игры Γ̂j (x, t, T ).Теорема 3.2.1.
Предположим, что существует дважды непрерывно дифференцируемая функция W (j∆t) (t, x) : [t0 +j∆t, T ]×Rm → R, удовлетворяющаяследующей системе уравнений в частных производных−(j∆t)(t, x)Wtm1 ∑(j∆t)−I(j, t)σ h,· (t, x(t))σ ζ,· (t, x(t))T Wxh ,xζ (t, x) =2h,ζ=1{ n}∑= maxhi (t, x, u) + Wx(j∆t) (t, x)fj (x, u1 , . . . , un )(2.3)ui=1при условииW(j∆t)(T, x) =∑q(x(T )).i∈NПредположим, что максимум в (2.3) достигается при u = u∗j (t). Тогда u =u∗j (t) является оптимальным в задаче управления, определяемой (2.1), (2.2).Траекторию, соответствующую u = u∗j (t), будем называть кооперативной и обозначать через x∗j (t).
Определим условно кооперативную траекторию{x̂∗ (t)}Tt=t0 в игре Γ(x0 , T − t0 ) также, как и в главе 2:{x̂∗ (t)}lt=t0 = x∗j (t),t ∈ (t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . . , l,где t0 + (l + 1)∆t = T .Кооперативная комбинированная усеченная подыгра. Перейдем крассмотрению кооперативной дифференциальной игры Γ̂jv (x∗j,0 , t0 +j∆t, T ) и семейства подыгр Γ̂jv (x∗j (t), t) вдоль кооперативной траектории x∗j (t), ∀t ∈ [t0 , T ]в форме характеристической функции.
Для каждой коалиции S ⊂ N и усеченной подыгры с номером j = 0, . . . , l определим значения характеристическойфункции так, как это сделано во главе 2 и в [39]. Любой дележ ξj (x∗j , t, T ) в73кооперативной комбинированной усеченной подыгре Γ̂jv (x∗j (t), t, T ) должен удовлетворять следующей системе неравенств:ξij (x∗j (t), t, T ) ≥ Vj ({i}; x∗j (t), t, T ), i ∈ N,∑ jξi (x∗j (t), t, T ) = Vj (N ; x∗j (t), t, T ).i∈NОбозначим множество всевозможных дележей для усеченной подыгрыΓ̂jv (x∗j (t), t, T ) через Ej (x∗j (t), t, T ). Предположим, что для каждой усеченнойподыгры выбрано непустое решениеWj (x∗j (t), t, T ) ⊂ Ej (x∗j (t), t, T ).Это может быть C-ядро, НМ-решение, N-ядро или вектор Шепли.§ 3.Концепция решения в исходной игре с динамическим обновлением информации и стохастическимпрогнозомДля того, чтобы построить решение в исходной игре Γ(x0 , T − t0 ) с динамическим обновлением информации необходимо определить ПРД для всех усеченных подыгр Γ̂jv (x∗j,0 , t0 + j∆t, T ), j = 0, .
. . , l. Обозначим семейство подыгр дляΓ̂jv (x∗j,0 , t0 + j∆t, T ) вдоль кооперативной траектории x∗j (t) через Γ̂jv (x∗j (t), t, T )где t ∈ (t0 + j∆t, T ] - начальный момент времени комбинированной подыгры. Характеристическая функция вдоль x∗j (t) в семействе подыгр Γ̂jv (x∗j (t), t, T )определена также, как и в главе 2 (2.7). Обозначим через Ej (x∗j (t), t, T ) множество дележей в подыгре Γ̂jv (x∗j (t), t, T ).Предположим, что в каждой комбинированной усеченной подыгреΓ̂jv (x∗j,0 , t0 + j∆t, T ) решение Wj (x∗j,0 , t0 + j∆t, T ) ̸= ∅ вдоль кооперативной траектории x∗j (t) выбрано. Далее из этого решения для любой комбинированнойусеченной подыгры Γ̂jv (x∗j,0 , t0 + j∆t, T ) в начальной позиции x∗j,0 игроки договорились о выборе дележа:ξ j (x∗j,0 , t0 + j∆t, T ) ∈ Wj (x∗j,0 , t0 + j∆t, T )74и соответствующего ПРД:βj (t, x∗j ) = [β1j (t, x∗j ), .
. . , βnj (t, x∗j )],t ∈ (t0 + j∆t, T ],что гарантирует динамическую устойчивость выбранного дележа [17]:T ∫∗∗∗ξj (xj,0 , t0 + j∆t, T ) = Eβj (t, xj )dt + qi (xj (T )) .t0 +j∆tПРД βj (t, x∗j ) может быть получена путем дифференцирования дележаξtj (x∗j , t, T ). Доказательство следующей теоремы является частным случаем теоремы в [47], но в данном случае элементы ковариационной матрицы Ω(τ, x∗j )обращаются в ноль на интервале [t0 + j∆t, t0 + (j + 1)∆t], что описываетсяиндикаторной функцией I(j, t).Теорема 3.3.1. Если функция ξj (x∗j , t, T ) является дважды непрерывнодифференцируемой по t и x∗j , тогдаβj (t, x∗j )[] []j ∗j∗= − ξt (xj , t, T ) − ξx∗j (xj , t, T ) −m[]∑1(j∆t) ∗h,ζ∗− I(j, t)Ω (τ, xj ) ξxh ,xζ (xj , t, T )|t=τ , (3.1)2h,ζ=1где Ω(t, x) = σ(t, x)σ(t, x)T - это ковариационная матрица, I(j, t) - это индикаторная функция определенная в (1.2).Определим результирующее решение в игре Γ(x0 , T − t0 ) с динамическимобновлением информации, как комбинацию решений Wj (x∗j,0 , t0 + j∆t, T ) (соответствующих ПРД) в усеченных подыграх Γ̂jv (x∗j,0 , t0 + j∆t, T ), j = 0, .
. . , l.Пусть для каждого дележа ξj (x∗j,0 , t0 + j∆t, T ) ∈ Wj (x∗j,0 , t0 + j∆t, T ) существует ПРД βj (t, x∗j ). Определим результирующее ПРД для всей игры Γ(x0 , T − t0 )также, как это сделано в главе 2:β̂(t, x̂∗ ) = βj (t, x∗j ),t ∈ [t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . .
, l.(3.2)С помощью результирующего ПРД β̂(t, x̂∗ ) определим результирующий векˆ ∗ (t), T − t) также, как это сделано в главе 2. Пусть t ∈ [t0 + j∆t, t0 + (j +тор ξ(x̂751)∆t], тогда:ˆ ∗ (t), T − t) =ξ(x̂=l∑m=j+1∫Tβ̂(τ, x̂∗ (τ ))dτ + q(x̂∗ (T )) =tt0 +(m+1)∆t∫tβm (τ, x∗m (τ ))dτ + ∫0 +j∆tβj (τ, x∗j (τ ))dτ + q(x∗l (T )). (3.3)tt0 +m∆tВ частности:∫Tˆ 0 , T − t0 ) =ξ(xβ̂(τ, x̂∗ (τ ))dτ.t0ˆ ∗ (t), T − t) не требует определения функции βj (t, x∗ ) наПостроение ξ(x̂jвсем временном интервале, на котором определен соответствующий дележξj (x∗j,0 , t0 + j∆t, T ).
Нам же необходимо, чтобы βj (t, x∗j ) было определено только на интервале (t0 + j∆t, t0 + (j + 1)∆t]. Последнее слагаемое в (3.1) на этоминтервале равняется нулюm[]∑1(j∆t)h,ζ∗∗− I(j, t)Ω (t, xj ) ξxh ,xζ (t, xj ) = 0,2t ∈ (t0 + j∆t, t0 + (j + 1)∆t],h,ζ=1потому что Ω(t, x) = σ(t, x)σ(t, x)T , а индикаторная функция I(j, t) = 0 для t ∈[t0 +j∆t, t0 +(j+1)∆t]. Таким образом, часть [t0 +j∆t, t0 +(j+1)∆t] формулы длярасчета βj (t, x∗j ) является верной в случае, если дележ ξj (x∗j , t, T ) только одинраз непрерывно дифференцируем по t и x∗j .
Следующее утверждение приведембез доказательства, т.к. оно аналогично доказательству утверждения 2.3.1.ˆ 0 , T − t0 ) ∈ Ŵ (x0 , T − t0 )Утверждение 3.3.1.Результирующий вектор ξ(xи результирующее ПРД β̂(t, x̂∗ ) разделяет суммарный выигрыш игроков (2.1)вдоль условно кооперативной траектории x̂∗ (t) в игре Γ(x0 , T − t0 ), где ∀t ∈[t0 , T ]:n ∫∑i=1 t0tβ̂i (τ, x̂∗ (τ ))dτ =n ∫∑thi (x̂∗ (τ ), û∗ (τ ))dτ.i=1 t0Через Ŵ (x̂∗ (t), T − t) (Ŵ (x0 , T − t0 )) обозначим множество результируюˆ ∗ (t), T − t) (ξ(xˆ 0 , T − t0 )), построенных с помощью (3.2), (3.3).щих векторов ξ(x̂76В соответствии с подходом, решение в игре Γ(x0 , T − t0 ) с динамическим обновлением информации определено, как Ŵ (x0 , T − t0 ).
Решение Ŵ (x0 , T − t0 )является динамически устойчивым по построению. Покажем, что Ŵ (x0 , T − t0 )обладает и свойством сильной динамической устойчивостью.Теорема 3.3.2. Решение Ŵ (x0 , T − t0 ) является сильно ∆t-динамическиустойчивым в игре Γ(x0 , T − t0 ) с динамическим обновлением информации истохастическим прогнозом.ˆ 0 , T − t0 ) ∈ Ŵ (x0 , T −Доказательство. Пусть 0 ≤ j ≤ l и дележ ξ(xt0 ) порождает ПРД β̂(t, x̂∗ ).
Тогда для любого 0 ≤ k < j существуетξ(x∗k,0 , T − t0 + k∆t) ∈ W (x∗k,0 , T − t0 + k∆t) с ПРД βk (t, x∗k ) таким, чтоβ̂(t, x̂∗ ) = βk (t, x∗k ),t ∈ [t0 + k∆t, t0 + (k + 1)∆t),0 ≤ k ≤ j − 1.Следовательно,t0∫+j∆t∗β̂(τ, x̂ (τ ))dτ =j−1 ∫∑k=0t0t0 +(k+1)∆tβk (t, x∗k (t))dt.t0 +k∆tПредположим, что ξ ′′ ∈ W (x∗j,0 , t0 + j∆t). Тогда для любого j ≤ k ≤ l − 1существует ξk (x∗k,0 , T − t0 + k∆t) ∈ W (x∗k,0 , T − t0 + k∆t) с ПРД βk (t, x∗k ) такое,что β̂(t, x̂∗ ) = βk (t, x∗k ) для t ∈ [t0 + k∆t, t0 + (k + 1)∆t) иt0 +(m+1)∆t∫l∑′′ξ =βm (τ, x∗m (τ ))dτ + q(x∗l (T )).m=jt0 +m∆tТаким образом,t0∫+j∆tl∑β̂(τ, x̂ (τ ))dτ + ξ =∗t0′′m=0t0 +(m+1)∆t∫βm (τ, x∗m (τ ))dτ + q(x∗l (T )) ∈t0 +m∆t∈ Ŵ (x0 , T − t0 ).Теорема доказана.77§ 4.Кооперативная игра добычи ограниченного ресурса с динамическим обновлением информации истохастическим прогнозомРассмотрим игру добычи ограниченного ресурса.
Решение игры двух лиц вклассическом виде представлено в [48]. Проблема динамической устойчивостибыла изучена Дэвидом Янгом [47]. В этом примере рассматривается аналогичная игра с динамическим обновлением информации и стохастическим прогнозом. Уравнения движения, функция выигрыша для исходной игры аналогичнытому, что описано в главе 2.Комбинированная усеченная подыгра. Исходная игра Γ(x0 , T − t0 )определена на временном интервале [t0 , T ]. Предположим, что для любогоt ∈ [t0 + j∆t, t0 + (j + 1)∆t], j = 0, .
. . , l, игроки имеют комбинированную усеченную информацию об игре. Она включает в себя информацию об уравненияхдвижения, функциях выигрыша на временном интервале [t0 +j∆t, t0 +(j +1)∆t]и прогноз на временно интервале (t0 +(j +1)∆t, T ]. Смоделируем это с помощьюкомбинированной усеченной подыгры Γ̂j (xj,0 , t0 + j∆t, T ).















