Диссертация (1149189), страница 7
Текст из файла (страница 7)
. . , +∞). Пусть длякаждого дележа ξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ∈ Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T )существует ПРД βj (t, x∗j ). Определим результирующее ПРД для всей игрыΓ(x0 , T − t0 ) (Γ(x0 , t0 )) следующим образом:Определение 2.3.1. Результирующее ПРД β̂(t, x̂∗ ) определяется длякаждого набора ξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ∈ Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T )с соответствующими ПРД βj (t, x∗j ) следующим образом:β0 (t, x∗0 ), t ∈ [t0 , t0 ∆t],···β̂(t, x̂∗ ) = βj (t, x∗j ), t ∈ [t0 + j∆t, t0 + (j + 1)∆t],···β (t, x∗ ), t ∈ [t + l∆t, t + (l + 1)∆t],l00l(3.2)где для игры Γ(x0 , T −t0 ) с предписанной продолжительностью t0 +(l +1)∆t =T и T < ∞, а для игры Γ(x0 , t0 ) с бесконечной продолжительностью l = +∞и соответственно t0 + (l + 1)∆t = +∞.41Рисунок 2.4.
Комбинация ПРД βj (t, x∗j ) определенных для каждогоξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ∈ Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . . . , lопределяет распределение суммарного выигрыша между игроками с помощьюβ̂(t, x̂∗ ).С помощью результирующего ПРД β̂(t, x̂∗ ) определим следующий вектор:ˆ ∗ (t), T − t) - это векторОпределение 2.3.2. Результирующий вектор ξ(x̂определенный с помощью результирующего ПРД β̂(t, x̂∗ ) следующим образом,пусть t ∈ [t0 + j∆t, t0 + (j + 1)∆t]:ˆ ∗ (t), T − t) =ξ(x̂=l∑m=j+1∫Tβ̂(τ, x̂∗ (τ ))e−r(τ −t0 ) dτ =tt0 +(m+1)∆t∫tβm (τ, x∗m (τ ))e−r(τ −t0 ) dτ + ∫0 +j∆tβj (τ, x∗j (τ ))e−r(τ −t0 ) dτ ,tt0 +m∆t(3.3)в частности:∫Tˆ 0 , T − t0 ) =ξ(xβ̂(τ, x̂∗ (τ ))e−r(τ −t0 ) dτ,t0где для игры Γ(x0 , T − t0 ) с предписанной продолжительностью l =T∆t−1 иT < ∞, а для игры Γ(x0 , t0 ) с бесконечной продолжительностью T = +∞ и42соответственно l = +∞.
Для игры Γ(x0 , t0 ) вектор определенный с помощьюˆ ∗ (t), t).формулы (3.3) будем обозначать через ξ(x̂Введем понятие результирующего решения в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) сдинамическим обновлением информации:Определение 2.3.3. Результирующее решение Ŵ (x̂∗ (t), T −t) (Ŵ (x̂∗ (t), t))ˆ ∗ (t), T −t) (ξ(x̂ˆ ∗ (t), t)), построенных с помощью- это множество векторов ξ(x̂(3.2), (3.3) для всевозможных результирующих ПРД β̂(t, x̂∗ ).ˆ ∗ (t), T − t)Покажем, что с помощью результирующего вектора ξ(x̂ˆ ∗ (t), t)) и соответственно результирующего решения Ŵ (x̂∗ (t), T − t)(ξ(x̂(Ŵ (x̂∗ (t), t)) можно разделить фактический суммарный выигрыш между игроками:ˆ 0 , T − t0 ) ∈Утверждение 2.3.1.Любой результирующий вектор ξ(xˆ 0 , t0 ) ∈ Ŵ (x0 , t0 )) и соответствующее результирующее ПРДŴ (x0 , T −t0 ) (ξ(xβ̂(t, x̂∗ (t)) распределяет текущий суммарный выигрыш игроков (2.1) вдольусловно кооперативной траектории x̂∗ (t) в игре с предписанной продолжительностью Γ(x0 , T − t0 ) (с бесконечной продолжительностью Γ(x0 , T − t0 )),т.е.
∀t ∈ [t0 , T ] (∀t ∈ [t0 , +∞]) выполняется:n ∫∑tβ̂i (τ, x̂∗ (τ ))e−r(τ −t0 ) dτ =i=1 t0n ∫∑thi (x̂∗ (τ ), û∗ (τ ))e−r(τ −t0 ) dτ.(3.4)i=1 t0Доказательство. Пусть ∀t ∈ [t0 + j∆t, t0 + (j + 1)∆t], тогда правая часть(3.4) может быть записана:n ∫t∑t∫n∑∗∗−r(τ −t0 )∗∗−r(τ −t0 )hi (x̂ (τ ), û (τ ))edτ =dτ + hi (xj (τ ), uj (τ ))ei=1 t0i=1j−1n ∑∑+i=1 m=0j∆t(m+1)∆t∫hi (x∗m (τ ), u∗m (τ ))e−r(τ −t0 ) dτ . (3.5)m∆tИз определения β̂(t, x̂∗ (t)) в (3.2) и (3.5) следует, что для доказательства (3.4)необходимо показать, что ∀t ∈ [t0 + j∆t, t0 + (j + 1)∆t] выполняется следующее43равенство∫tn∑β̂i (τ, x̂∗ (τ ))e−r(τ −t0 ) dτ =i=1 t +j∆t0∫tn∑hi (x∗j (τ ), u∗j (τ ))e−r(τ −t0 ) dτ.(3.6)i=1 t +j∆t0В самом деле, максимальный суммарный выигрыш игроков в усеченной подыгре Γ̂j (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) равен W (j∆t) (t0 + j∆t, x∗j,0 ) (2.3), это значит, чтов соответствии с определением этой функции, для ∀t ∈ [t0 + j∆t, t0 + j∆t + T ]:{}∑ j∗jW (j∆t) (t, x̂∗ (t)) = maxK(x(t),t;u) =jiju=n∑i=1t0 +j∆t+T∫i∈Nhi (x∗j (τ ), u∗j (τ ))e−r(τ −t0 ) dτ =n∑t0 +j∆t+T∫i=1tβij (τ, x∗j (τ ))e−r(τ −t0 ) dτ.t(3.7)Тем не менее для ∀t ∈ [t0 + j∆t, t0 + j∆t + T ] верноW (j∆t) (t0 + j∆t, x∗j,0 ) − W (j∆t) (t, x̂∗ (t)) =∫tn∑hi (x∗j (τ ), u∗j (τ ))e−r(τ −t0 ) dτ.i=1 t +j∆t0(3.8)Из (3.7) и (3.8) следует, что для ∀t ∈ [t0 + j∆t, t0 + (j + 1)∆t]∫tn∑i=1 t +j∆t0hi (x∗j (τ ), u∗j (τ ))e−r(τ −t0 ) dτ =∫tn∑βij (τ, x∗j (τ ))e−r(τ −t0 ) dτ.i=1 t +j∆t0По определению β̂(τ, x∗j (τ )) на интервале [t0 +j∆t, t0 +(j+1)∆t] результирующееПРД β̂(τ, x̂∗ (τ )) = βj (τ, x∗j (τ )).
Утверждение доказано.В соответствии с новой концепцией, результирующее решение в игреΓ(x0 , T − t0 ) (Γ(x0 , t0 )) с динамическим обновлением информации определенокак Ŵ (x0 , T −t0 ) (Ŵ (x0 , t0 )). Результирующее решение Ŵ (x0 , T −t0 ) (Ŵ (x0 , t0 ))является динамически устойчивым по построению. Также оказывается, что онообладает и свойством сильной динамической устойчивости:Определение 2.3.4. Решение Ŵ (x0 , T − t0 ) (Ŵ (x0 , t0 )) называется сильно∆t-динамически устойчивым, если для каждого j = 0, . . .
, l (j = 0, . . . , +∞) и44каждого ξ(x0 , T − t0 ) ∈ W (x0 , T − t0 ) (ξ(x0 , t0 ) ∈ W (x0 , t0 )) соответствующееПРД β(t, x∗ ) удовлетворяет условиюt0∫+j∆tβ(τ, x∗ (τ ))e−r(τ −t0 ) dτ ⊕ W (x∗j,0 , T − t0 + j∆t) ⊂ W (x0 , T − t0 )t0t∫(3.9)0 +j∆tβ(τ, x∗ (τ ))e−r(τ −t0 ) dτ ⊕ W (x∗j,0 , t0 + j∆t) ⊂ W (x0 , t0 ) ,(3.10)t0в котором a ⊕ A = {a + a′ : a′ ∈ A}.Теорема 2.3.2. Результирующее решение Ŵ (x0 , T − t0 ) (Ŵ (x0 , t0 )) является сильно ∆t-динамически устойчивым в игре Γ(x0 , T − t0 ) с предписаннойпродолжительностью (Γ(x0 , t0 ) с бесконечной продолжительностью).ˆ 0 , T − t0 ) ∈Доказательство. Пусть 0 ≤ j ≤ l (0 ≤ j ≤ +∞) и дележ ξ(xˆ 0 , t0 ) ∈ Ŵ (x0 , t0 )) порождает результирующее ПРД β̂(t, x̂∗ ).Ŵ (x0 , T − t0 ) (ξ(xТогда для любого 0 ≤ k < j существует ξ(x∗k,0 , T − t0 + k∆t) ∈ W (x∗k,0 , T − t0 +k∆t) (ξ(x∗k,0 , t0 + k∆t) ∈ W (x∗k,0 , t0 + k∆t)) с ПРД βk (t, x∗k ) таким, чтоβ̂(t, x̂∗ ) = βk (t, x∗k ),t ∈ [t0 + k∆t, t0 + (k + 1)∆t),0 ≤ k ≤ j − 1.Следовательно,t0∫+j∆t∗−r(τ −t0 )β̂(τ, x̂ (τ ))edτ =j−1 ∫∑k=0t0t0 +(k+1)∆tβk (t, x∗k (t))e−r(τ −t0 ) dt.t0 +k∆tПредположим, что ξ ′′ ∈ W (x∗j,0 , T − t0 + j∆t) (ξ ′′ ∈ W (x∗j,0 , t0 + j∆t)).
Тогдадля любого j ≤ k ≤ l (j ≤ k ≤ +∞) существует ξk (x∗k,0 , T − t0 + k∆t) ∈W (x∗k,0 , T − t0 + k∆t) (ξk (x∗k,0 , t0 + k∆t) ∈ W (x∗k,0 , t0 + k∆t)) с ПРД βk (t, x∗k )такое, что β̂(t, x̂∗ ) = βk (t, x∗k ) для t ∈ [t0 + k∆t, t0 + (k + 1)∆t) иt0 +(m+1)∆t∫l∑′′ξ =βm (τ, x∗m (τ ))e−r(τ −t0 ) dτ ,m=jt0 +m∆tгде для игры Γ(x0 , T − t0 ) с предписанной продолжительностью l =T∆t−1 иT < ∞, а для игры Γ(x0 , t0 ) с бесконечной продолжительностью T = +∞ исоответственно l = +∞.45Таким образом,t0∫+j∆t∗−r(τ −t0 )β̂(τ, x̂ (τ ))el∑dτ + ξ =′′m=0t0t0 +(m+1)∆t∫βm (τ, x∗m (τ ))e−r(τ −t0 ) dτ ∈t0 +m∆t∈ Ŵ (x0 , T − t0 ),где для игры Γ(x0 , T − t0 ) с предписанной продолжительностью l =T∆t−1 иT < ∞, а для игры Γ(x0 , t0 ) с бесконечной продолжительностью T = +∞ исоответственно l = +∞.Теорема доказана.§ 4.Построение характеристической функции в игре сдинамическим обновлением информацииВ этой и следующей главе все результаты будут описаны для игры Γ(x0 , T −t0 ) с предписанной продолжительностью, для игр с бесконечной продолжительностью рассуждения аналогичны.
Также для простоты будем считать, дискаунтфактор в выражении для функции выигрыша и во всех связанных с ней местахr = 0, поэтому множитель e−r(τ −t0 ) = 1.В качестве характеристической функции в дифференциальной игреΓ(x0 , T − t0 ) с динамическим обновлением информации будем использовать понятие результирующей характеристической функции:Определение 2.4.1.
Результирующей характеристической функциейV (S; x̂∗ (t), T − t) в игре Γ(x̂∗ (t), T − t) с динамическим обновлением информации будем называть функцию, которая вычисляется с помощью значений характеристических функций Vj (S; x∗j (t), t, t0 + j∆t + T ) в каждой текущей усеченной подыгре Γ̂jv (x∗j (t), t, t0 + j∆t + T ) вдоль условно кооперативной траектории x̂∗ (t) для j = 0, . . . , l, ∀t ∈ [t0 + j∆t, t0 + j∆t + T ]. Пусть46t ∈ [t0 + j∆t, t0 + (j + 1)∆t], тогда:∗V (S; x̂ (t), T − t) =l[∑Vm (S; x∗m,0 , t0 + m∆t, t0 + m∆t + T )−m=j+1[+−Vj (S; x∗j (t), t, t0Vm (S; x∗m,1 , t0]+ (m + 1)∆t, t0 + m∆t + T ) ++ j∆t + T ) −Vj (S; x∗j,1 , t0]+ (j + 1)∆t, t0 + j∆t + T ) , (4.1)где x∗j,0 = x̂∗ (t0 + j∆t) и x∗j,1 = x̂∗ (t0 + (j + 1)∆t).ˆ 0 , T − t0 ), которыйПокажем, что в этом случае результирующий вектор ξ(xмы используем, чтобы распределить выигрыш между игроками, можно считатьдележом в игре Γ(x0 , T − t0 ) с определенной результирующей характеристической функцией V (S; x0 , T − t0 ):ˆ 0 , T − t0 ) является дележомТеорема 3.4.1 Результирующий вектор ξ(xв игре Γ(x0 , T − t0 ) с динамическим обновлением информации, если для ∀t ∈[t0 + j∆t, t0 + (j + 1)∆t], j = 0, .
. . , l выполняется следующее условие:ξij (x∗j (t), t, t0 + j∆t + T ) − Vj ({i}; x∗j (t), t, t0 + j∆t + T ) ≥≥ ξij (x∗j,1 , t0 + (j + 1)∆t, t0 + j∆t + T ) − Vj ({i}; x∗j,1 , t0 + (j + 1)∆t, t0 + j∆t + T ).(4.2)Доказательство. Необходимо показать, что для ∀t ∈ [t0 , T ] выполняютсяследующие условия:n∑ξˆi (x̂∗ (t), T − t) = V (N ; x̂∗ (t), T − t),(4.3)ξˆi (x̂∗ (t), t) ≥ V ({i}; x̂∗ (t), T − t).(4.4)i=1ˆ ∗ (t), T − t) и V (S; x̂∗ (t), T − t) левую частьВ соответствии с определением ξ(x̂47(4.3) можно переписать следующим образом:n∑n ∫∑Tξˆi (x̂∗ (t), T − t) =i=1nl∑ ∑ =i=1m=j+1=n∑[i=1i=1 tβ̂(τ, x̂∗ (τ ))dτ = j∆t∫ ∗βm (τ, xm (τ ))dτ +βj (τ, x∗m (τ ))dτ =(m+1)∆t∫tm∆tl∑[ m ∗ξi (xm,0 , t0 + m∆t, t0 + m∆t + T )−m=j+1]− ξim (x∗m,1 , t0 + (m + 1)∆t, t0 + m∆t + T ) +][]+ ξij (x∗j (t), t, t0 + j∆t + T ) − ξij (x∗j,1 , t0 + (j + 1)∆t, t0 + j∆t + T ) , (4.5)V (N ; x0 , T −t0 ) в правой части определяется в (4.1). Так как в (4.5) выполняетсяn∑ξij (x∗j (t), t, t0 + j∆t + T ) = Vj (N ; x∗j (t), t, t0 + j∆t + T ),j = 0, .
. . , l,i=1то (4.3) верно.Перейдем к доказательству (4.4). Подставим выражение для ξˆi (x̂∗ (t), T − t)и V ({i}; x̂∗ (t), T − t) в левую часть (4.4). В правую часть (4.4) подставим (4.1)V ({i}; x0 , T − t0 ):[l∑ξim (x∗m,0 , t0 + m∆t, t0 + m∆t + T )−m=j+1]− ξim (x∗m,1 , t0 + (m + 1)∆t, t0 + m∆t + T ) +[]j ∗j ∗+ ξi (xj (t), t, t0 + j∆t + T ) − ξi (xj,1 , t0 + (j + 1)∆t, t0 + j∆t + T ) ≥[l∑≥Vm ({i}; x∗m,0 , t0 + m∆t, t0 + m∆t + T )−m=j+1]− Vm ({i}; x∗m,1 , t0 + (m + 1)∆t, t0 + m∆t + T ) +[+Vj ({i}; x∗j (t), t, t0+ j∆t + T ) −Vj ({i}; x∗j,1 , t0]+ (j + 1)∆t, t0 + j∆t + T )(4.6)48(4.6) выполняется для ∀t ∈ [t0 , T ], если для ∀m = 0, .















