Диссертация (1149189), страница 12
Текст из файла (страница 12)
Уравнения движенияи начальные данные имеют такой вид:[ √]dx = aj x(t) − bj x(t) − u1 − u2 dt + I(j, t) · σx(t)dz(t),(4.1)x(t0 + j∆t) = xj,0 ,0,I(j, t) =1,гдеt ∈ [t0 + j∆t, t0 + (j + 1)∆t],t ∈ (t0 + (j + 1)∆t, T ].Функция выигрыша игрока i в стохастической игре Γ̄j (x, t0 + j∆t, T ) имеетследующий видKij (x, t0 + j∆t, T ; u1 , u2 ) = E ∫Tt0 +j∆thi (x(τ ), u(τ ))dτ + q(x(T )).Рассмотрим случай, когда игроки соглашаются на кооперацию в усеченной78подыгре Γ̂j (xj,0 , t0 + j∆t, T ), тогда игроки будут действовать исходя из максимизации их суммарного выигрыша.Кооперативная траектория.
Максимальный суммарный выигрыш вкаждой усеченной подыгре Γ̂j (xj,0 , t0 + j∆t, T ) имеет следующий вид [48]:√W j (t, x) = Aj (t) x + C j (t),(4.2)где функции Aj (t), C j (t) удовлетворяют системе дифференциальных уравнений:[]bj1112][],Ȧ (t) =I(j, t) · σ +Aj (t) − [−Aj (t)Aj (t)824 c1 + 24 c2 + 2ajĊ j (t) = − Aj (t), Aj (T ) = 0, C j (T ) = 0.2jКооперативная траектория x∗j (t) в комбинированной усеченной подыгреΓ̂j (xj,0 , t0 + j∆t, T ) может быть вычислена на временном интервале следующимобразом [48]:2t∫√1∗2ϖj (t0 + j∆t, τ )−1 dτ ,xj (t) = ϖj (t0 + j∆t, t) x∗j,0 + aj2t0 +j∆tгде t ∈ [t0 + j∆t, T ] и∫tϖj (t0 + j∆t, t) = expt0 +j∆tAj (τ )11− bj + [+][]22 dτ.2Aj (τ )Aj (τ )8 c1 + 28 c2 + 2Начальное положение для кооперативной траектории в каждой усеченнойподыгре определяется из предыдущей усеченной подыгры: x∗0,0 = x0 и x∗j,0 =x∗j−1 (t0 + j∆t) для 1 ≤ j ≤ l.
Определим условно кооперативную траекториюx̂∗ (t) в игре Γ(x0 , T − t0 ) с динамическим обновлением информации и стохастическим прогнозом:x̂∗j (t) = x∗j (t),t ∈ [t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . . , l.Характеристическая функция. Для того, чтобы распределить максимальный суммарный выигрыш между игроками в каждой комбинированной79усеченной подыгре осталось определить значения характеристической функцииVj (S; xj,0 , t0 +j∆t, T ) (Vj (S; x∗j (t), t, T )), т.к.
N = 2. В соответствии с формулой вглаве 2 (2.7) максимальный суммарный выигрыш игроков Wj (t0 +j∆t, xj,0 ) (4.2)соответствует значению характеристической функции Vj (N ; xj,0 , t0 +j∆t, T ) коалиции S = N в усеченной подыгре Γ̂jv (xj,0 , t0 + j∆t, T ):Vj (N ; x∗j (t), t, T ) = Wj (t, x∗j (t)),t ∈ [t0 + j∆t, T ],j = 0, . . . , l.В соответствии с формулой в главе 2 (2.7) значение характеристическойфункции для коалиций S = {1}, {2} состоящих из одного игрока Vj ({i}; xj,0 , t0 +j∆t, T ) (Vj ({i}; x∗j (t), t, T )) вычисляется с помощью равновесия по Нэшу. Равновесие по Нэшу в комбинированной усеченной подыгре Γ̂j (xj,0 , t0 + j∆t, T )определяется следующими стратегиями игроков:uji (t, x) =x4[ci + Aji (t)/2]2,i = 1, 2,где функции Aji (t) находятся из системы дифференциальных уравнений:[]bj 1 211Ȧji (t) = Aji (t)+ σ +,−288(cj + Aj3−i (t)/2)24(ci + Aji (t)/2)ajĊij (t) = − Aji (t),2jAi (T ) = 0, Cij (T ) = 0, i = 1, 2.Выигрыш игрока i = 1, 2 в ситуации равновесия по Нэшу определяетсяфункцией:√Vij (t, x) = Aji (t) x + Cij (t).(4.3)Таким образом, значение характеристической функции для коалиций состоящих из одного игрока S = {i}, i ∈ N вычисляются следующим образом:Vj ({i}; x∗j (t), t, T ) = Vij (t, x∗j (t)),t ∈ [t0 + j∆t, T ],j = 0, .
. . , l(4.4)Концепция решения. Пусть игроки в каждой кооперативной комбинированной усеченной подыгре Γ̂jv (xj,0 , t0 + j∆t, T ) используют в качестве принципаоптимальности пропорциональное решение описанное в [47]:ξij (x∗j (t), t, T )Vj ({i}; x∗j (t), t, T )= ∑2∗k=1 Vj ({i}; xj (t), t, T )[]Vj ({1, 2}; x∗j (t), t, T ) .(4.5)80Далее на основе формулы (3.2) для набора пропорциональных решенийξj (x∗j , t, T ), t ∈ [t0 + j∆t, T ], j = 0, . .
. , l (4.5) в комбинированных усеченныхподыграх построим результирующее ПРД во всей игре β̂(t, x̂∗ ) и на основе форˆ ∗ (t), T − t).мулы (3.3) результирующий вектор ξ(x̂Численный пример. Рассмотрим численный пример игры добычи ограниченного ресурса, заданного на временном интервале длинной T − t0 = 4,информация об игре обновляется каждый ∆t = 1 временной интервал. Зафиксируем следующие параметры модели:a0 = 10,b0 = 0.5,a1 = 9,b1 = 0.8,a2 = 12,b2 = 0.5,a3 = 8,b3 = 1.6.(4.6)Параметры для функции выигрыша положим равными c1 = 0.05, c2 = 0.1,q1 = 1.5, q2 = 1, а начальные условия t0 = 0, x0 = 1.Условно кооперативная траектория x̂∗ (t) составлена из кооперативных траекторий в усеченных подыграх Γ̂j (x∗j,0 , t0 + j∆t, T ) с уравнениями движения(4.1).
Если параметр σ = 0, то прогноз является неслучайным и предполагается, что игроки считают, что информация об игре на временном интервале[t0 + j∆t, T ] не изменится. Если σ ̸= 0, то прогноз становиться стохастическим.Следующая симуляция дает возможность сравнить неслучайный прогноз, стохастический прогноз и решение без использования прогноза. Решение с использованием прогноза рассчитано для σ = 2.На рисунке 3.1. представлено сравнение условно кооперативной траекторииx̂∗ (t) (сплошная линия) со стохастическим прогнозом, неслучайным прогнозом(толстая пунктирная линия) и без прогноза x∗ (t) (тонкая пунктирная линия).Уровень запасов ресурсов x∗ (t) без прогноза растет быстрее всего.
В случаенеслучайного прогноза рост происходит медленно, а для стохастического прогноза еще медленнее. Но это не означает, что уменьшаются выигрыши.На графике изображена суммарная плотность выигрыша игроков:∗∗h1,2 (x̂ (t), û (t)) =2∑i=1hi (x̂∗ (t), û∗ (t))81Рисунок 3.1. Траектория уровня запаса ресурсов: без прогноза (тонкаяпунктирная линия), с неслучайным прогнозом (толстая пунктирная линия), состохастическим прогнозом (сплошная линия).вдоль условно кооперативной траекторий x̂∗ (t) для дифференциальной игры снеслучайным прогнозом (толстая пунктирная линия), со стохастическим прогнозом (сплошная линия) и без прогноза (тонкая пунктирная линия).
Видно,что в начале игры наибольшее значение суммарной плотности функции выигрыша соответствует подходу со стохастическим прогнозом, а наименьшее значение соответствует подходу без прогноза. Для уровня запасов ресурсов картинакардинально другая.Отобразим на рисунке 3.3. суммарный выигрыш игроков:∫TK c (t, T ) =√h1,2 (x̂∗ (τ ), û∗ (τ ))dτ + (q1 + q2 ) x̂∗ (T ),t ∈ [0, T ]tвдоль траектории x̂∗ (t) с помощью сплошной линии.
Суммарный выигрышво всей игре для подхода со стохастическим прогнозом K c (0, T ) = 34.04,K c (0, T ) = 34.00 для неслучайного прогноза и K c (0, T ) = 33.54 для случаябез прогноза. Пунктирные линии на графике 3.3. отображают ожидаемые значения выигрышей игроков в текущих комбинированных усеченных подыграхΓ̂j (xj,0 , t0 + j∆t, T ) (тонкие сплошные линии). Они меняются в моменты вре-82Рисунок 3.2. Плотность суммарного выигрыша h1,2 (x̂∗ (t), û∗ (t)): без прогноза(тонкая пунктирная линия), с неслучайным прогнозом (толстая пунктирнаялиния), со стохастическим прогнозом (сплошная линия).мени t = j = 1, 2, 3, из-за чего образуются скачки. Проанализируем графики3.2., 3.3. На графике 3.3.
суммарный кооперативный выигрыш K c (0, T ) слабоотличается для трех приведенных подходов прогнозирования. Но на графике3.2. видно главное различие в динамике изменения выигрыша. Неслучайныйпрогноз (толстая пунктирная линия) оказался достаточно осторожным в сравнении с подходом, который не использует прогноза (тонкая пунктирная линия),в данном случае игроки решают израсходовать максимальное количество ресурсов в начале игры и получить как можно больше выигрыша. Стохастическийпрогноз (толстая сплошная линия) оказывается еще более осторожным.Далее рассчитаем численное значение пропорционального решения в каждой усеченной подыгре (4.4). На основе формулы (3.2) построим результирующее ПРД во всей игре β̂(t, x̂∗ ).83Рисунок 3.3. Суммарный выигрыш игроков K c (t, T ): без прогноза (тонкаяпунктирная линия), с неслучайным прогнозом (толстая пунктирная линия), состохастическим прогнозом (толстая сплошная линия).
Ожидаемые значениявыигрышей игроков в текущих комбинированных усеченных подыграхΓ̂j (xj,0 , t0 + j∆t, T ) (тонкие сплошные линии).Рисунок 3.4. ПРД для неслучайного прогноза (тонкие линии) и длястохастического прогноза (толстые линии). β̂1 (t, x̂∗ ) - ПРД для первого игрока(сплошная линия), β̂2 (t, x̂∗ ) - ПРД для второго игрока (пунктирная линия).84ГЛАВА 4КООПЕРАТИВНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ СПРЕДПИСАННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ И СОСЛУЧАЙНЫМ ОБНОВЛЕНИЕМ ИНФОРМАЦИИ§ 1.Определение случайной усеченной подыгрыРассмотрим кооперативную дифференциальную игру Γ(x0 , T − t0 ) определенную в первой главе. Предположим, что информация об игре обновляется вмоменты времени t = t0 + j∆t, j = 0, .















