Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 8
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
. . , n.k=k0Интерпретация ПРД следующая: βi(k) – выплата игроку i на шаге k.Обозначим через M(x0 ) – кооперативный принцип оптимальности в игре Γ(k0, x0), M(xN (k)) принцип оптимальности M(x0 ), реализуемый в подыгреΓ(k, xN (k)).Определение 9. Вектор-функция β(k) = (β1(k), . . . , βn(k)) называется состоятельной во времени ПРД [17, 16], если при любом l, таком что, k0 ≤ l ≤K − 1 выполняется следующее равенствоξi (k0, x0) =lXβi (k) + ξi (l + 1, xN (l + 1)), i = 1, .
. . , n,k=k0где ξi (k0, x0) ∈ M(x0), ξi (l + 1, xN (l + 1)) ∈ M(x∗(l + 1)).Теорема 8. Вектор-функция β(k) = (β1 (k), . . . , βn (k)), гдеβi (k) = ξi (k, xN (k)) − ξi (k + 1, xN (k + 1)),i = 1, . . . , n(2.2.5)является состоятельной во времени ПРД.Доказательство. Покажем сначала, что вектор βi (k), определенный в (2.2.5),действительно является процедурой распределения дележа:K−1Xk=k0βi (k) =∞X(ξi (k, xN (k)) − ξi (k + 1, xN (k + 1))) = ξi (k0, x0)−k=k0− ξi (K, xN (K)) = ξi (k0, x0) − f (K)(xN (K))T Pi (K)xN (K).56Теперь покажем, что βi(k) – состоятельная во времени ПРД:lXNβi (k) + ξi (l + 1, x (l + 1)) =k=k0lX(ξi(k, xN (k)) − ξi (k + 1, xN (k + 1)))+k=k0+ ξi (l + 1, xN (l + 1)) = ξi (k0, x0) − ξi(l + 1, xN (l + 1)) + ξi (l + 1, xN (l + 1)) == ξi (k0, x0).Теорема доказана.Согласно теореме 7 в рассматриваемом классе игр динамически-устойчиваяпроцедура распределения дележа для ES-вектора имеет следующий видX1βi(k) = x (k) Θi (k) + (ΘN (k) −Θi (k)) xN (k)+ni∈NK−1XX1T+E{wl Θi(l + 1) + (ΘN (l + 1) −Θi (l + 1)) wl }−nl=ki∈NX1NT− x (k + 1) Θi (k + 1) + (ΘN (k + 1) −Θi (k + 1)) xN (k + 1)−ni∈NK−1XX1−E{wlT Θi (l + 1) + (ΘN (l + 1) −Θi (l + 1)) wl }.nNTi∈Nl=k+1ПустьX1Θi (k) + (ΘN (k) −Θi (k)) = Si(k),ni∈Nтогдаβi(k) =xN (k)T Si (k) − (A(k) + B(k)M N (k))T Si (k + 1)(A(k) + B(k)M N (k)) xN (k)++ E{wkT Si (k + 1)wk }.572.2.4Условие устойчивости ES-вектора против иррациональногоповедения игроковКонкретизируем условие устойчивости против иррационального поведения игроков [66] для ES-вектора в рассматриваемом классе игр.Предположим, что если на шаге k происходит распад максимальной коалиции, то игроки узнают об этом до выбора ими стратегий ui (k).Определение 10.
ES-вектор ξ(k0, x0) = (ξ1(k0, x0), . . . , ξn (k0, x0)) удовлетворяет условию устойчивости против иррационального поведения игроков [66],если выполнено неравенствоlXβi (k) + v(i, xN (l + 1)) ≥ v(i, x0),i = 1, . . . , n(2.2.6)k=k0при любом k0 ≤ l ≤ K − 1, где β(k) = (β1 (k), . . .
, βn (k)) состоятельная вовремени ПРД, соответствующая ξ(k0, x0).Выведем достаточное условие для выполнения условия устойчивости против иррационального поведения игроков. Заметим, чтоlXNβi (k) + v(i, x (l + 1)) − v(i, x0) =k=k0lX(βi (k) + v(i, xN (k + 1)) − v(i, xN (k))).k=k0Тогда для выполнения условия Янга достаточно, чтобыβi (k) + v(i, xN (k + 1)) − v(i, xN (k)) ≥ 0 i = 1, . . . , n,k0 ≤ k ≤ K − 1.Вычислив β(k) по формуле (2.2.5), перепишем это условие в виде:Pv(N, xN (k)) −v(i, xN (k))i∈Nv(i, xN (k)) +− v(i, xN (k + 1))−P n NNv(N, x (k + 1)) −v(i, x (k + 1))i∈N−+ v(i, xN (k + 1)) − v(i, xN (k)) ≥ 0.nИлиv(N, xN (k)) − v(N, xN (k + 1)) +Xi∈N(v(i, xN (k + 1)) − v(i, xN (k)) ≥ 0.58Тогда согласно теоремам 6,7 получаем достаточное условие:xN (k)T (ΘN (k) −XΘi (k) − (A(k) + B(k)M N (k))T (QN (k + 1)−i∈N−XΘi(k + 1))(A(k) + B(k)M N (k)))xN (k)+i∈N+ E{wkT (ΘN (k + 1) −XΘi (k + 1))wk } ≥ 0.
(2.2.7)i∈NПустьΘN (k) −XΘi (k) = Z(k).(2.2.8)i∈NДостаточное условие принимает вид:xN (k)T (Z(k) − (A(k) + B(k)M N (k))T Z(k + 1)(A(k) + B(k)M N (k))xN (k)++ E{wkT Z(k)wk } ≥ 0. (2.2.9)Сформулируем полученный результат в виде утверждения.Утверждение 2. Если в линейно-квадратичной стохастической игре со случайной продолжительностью процедура распределения ES-вектора β(k) вычисляется по правилу (2.2.5), то для выполнения условия устойчивости ESвектора против иррационального поведения игроков достаточно, чтобы длялюбого k0 ≤ k ≤ K −1 выполнялось неравенство (2.2.9), где Z(k) вычисляетсяпо правилу (2.2.8), xN (k) – кооперативная траектория.2.3ПримерРассмотрим пример стохастической линейно-квадратичной игры двух лиц.
Пустьдинамика игры задается системойx(k + 1) = x(k) + u1(k) + u2(k) + w(k),k0 ≤ k ≤ L < ∞,k0 ∈ T+ ,x(k0) = x0.(2.3.1)59Случайная величина L принимает значения от 0 до 3 с некоторыми вероятностями. Заданы вероятности qk того, что игра закончится на шаге k, если онасостоялась на (k − 1)-м, 0 ≤ qk ≤ 1, k = 0, . . . , 3, q3 = 1. Будем предполагать,что выигрыши игроков имеют вид:XL−1 222J1(k0, x0, u) = E0, 1x (k) − u1 (k) +0, 001x (L) ,w,LJ2 (k0, x0, u) = Ew,Lk=k0XL−1 k=k00, 1x2(k) − 2u22(k) +0, 001x2(L) ,Каждый игрок стремится максимизировать свой выигрыш.Согласно теореме 6 для нахождения равновесия по Нэшу необходимо решить системуТогда(1 + M1N E (k) + M2N E (k))Θ1(k + 1)(1 + M1N E (k) + M2N E (k))−− Θ1 (k) + 0, 1f (k) − f (k)(M1N E (k))2 = 0,NENENENE(1+M(k)+M(k))Θ(k+1)(1+M(k)+M(k))−21212− Θ2 (k) + 0, 1f (k) − 2f (k)(M1N E (k))2 = 0,M1N E (k) = −(−f (k) + Θ1 (k + 1))−1Θ1 (k + 1)×× (1 + M2N E (k)),M2N E (k) = −(−2f (k) + Θ2 (k + 1))−1Θ2 (k + 1)×× (1 + M1N E (k)), k = 0, .
. . , 2, Θi (3) = 0, 001f (3), i = 1, 2.2Θ1 (k + 1),2Θ1(k + 1) + Θ2 (k + 1) − 2f (k)Θ2(k + 1)M2N E (k) = −,2Θ1(k + 1) + Θ2 (k + 1) − 2f (k)M1N E (k) = −Θ1(k) = 0, 1f (k) +4f (k)Θ1(k + 1)(f (k) − Θ1 (k + 1)).(2Θ1(k + 1) + Θ2 (k + 1) − 2f (k))260Θ2(k) = 0, 1f (k) +f (k)Θ2(k + 1)(4f (k) − Θ2 (k + 1)).(2Θ1(k + 1) + Θ2 (k + 1) − 2f (k))2Пусть q0 = 1/2, q1 = 1/4, q2 = 1/3, q3 = 1. Тогда f (3) =14,f (2) =38,f (1) = 12 , f (0) = 1.Θ1 (3) = 0, 00025,Θ1(2) = 0, 0378,Θ1(1) = 0, 0944,Θ1(0) = 0, 2164Θ2 (3) = 0, 00025,Θ2(2) = 0, 0378,Θ2 (1) = 0, 0971,Θ2 (0) = 0, 2255.J1(k0, x0, uN E ) =0, 2164x20 + 0, 0944E{w02} + 0, 0378E{w12} + 0, 00025E{w22}.J2(k0, x0, uN E ) =0, 2255x20 + 0, 0971E{w02} + 0, 0378E{w12} + 0, 00025E{w22}.Найдем теперь решение кооперативной игры.
Для этого необходимо решитьследующую систему матричных уравнений(1 + M N (k))2ΘN (k + 1) − ΘN (k)++0, 2f (k) − f (k)(M1N (k))2 − 2f (k)(M2N (k))2 = 0,−1ΘN (k + 1) − f (k)ΘN (k + 1) ΘN (k + 1)A(k),M N (k) = − ΘN (k + 1)ΘN (k + 1) − 2f (k)k = 1, . . . , K − 1, ΘN (K) = 0, 002f (K).ПолучаемM1N (k) = −2ΘN (k + 1),3ΘN (k + 1) − 2f (k)61ΘN (k + 1),3ΘN (k + 1) − 2f (k)2f (k)ΘN (k + 1)ΘN (k) = 0, 2f (k) −.(3ΘN (k + 1) − 2f (k))M2N (k) = −ТогдаΘN (3) = 0, 0005,ΘN (2) = 0, 0755,ΘN (1) = 0, 1976,ΘN (0) = 0, 4809,JN (k0, x0, uN E ) =0, 4809x20 + 0, 1976E{w02} + 0, 0755E{w12} + 0, 0005E{w22}.Найдём ES-вектор.ξ1(k0, x0) =0, 2359x20 + 0, 0974E{w02} + 0, 0378E{w12} + 0, 00025E{w22}.ξ2(k0, x0) =0, 2449x20 + 0, 1002E{w02} + 0, 0378E{w12} + 0, 00025E{w22}.Построим динамически-устойчивую процедуру распределения ES-вектора.β1(0) = 0, 0398(x∗(0))2 + 0, 0975E{w02},β1(1) = 0, 0345(x∗(1))2 + 0, 0378E{w12},β1 (2) = 0, 0375(x∗(2))2 + 0, 00025E{w22},β2(0) = 0, 0426(x∗(0))2 + 0, 1002E{w02},β2 (1) = 0, 037(x∗(1))2 + 0, 0378E{w12},β2 (2) = 0, 0375(x∗(2))2 + 0, 00025E{w22}.Проверим выполнение условия (2.2.9).
При k = 0:0, 02667(xN (0))2 + 0, 039E{w02} ≥ 0.62При k = 1:0, 0061(xN (1))2 + 0, 0061E{w12} ≥ 0.При k = 2:0, 000000209(xN (2))2 + 0, 000000209E{w22} ≥ 0.Таким образом, в данном примере выполняется условие устойчивости ESвектора против иррационального поведения игроков.63Глава 3Линейно-квадратичные дискретные игры cнетрансферабельными выигрышамиВ предыдущих главах рассматривались игры с трансферабельными полезностями, в таких моделях игроки имеют возможность перераспределять выигрыши между членами коалиции. Однако возможны ситуации, когда накладывается запрет или некоторые ограничения на трансферы, причиной этого может стать, например, отсутствие единого средства обмена.
В этих случаях игрыназываются нетрансферабельными, и считается, что игроки не могут перераспределять между собой выигрыши. В данной главе рассматриваются линейноквадратичные дискретные игры c нетрансферабельными выигрышами.3.1Линейно-квадратичные дискретные игры снетрансферабельными выигрышами с предписаннойпродолжительностьюРассмотрим дискретную линейно-квадратичную неантагонистическую игру nлиц, состояние которой в каждый момент времени задается вектором x(k), изменяющимся согласно системе уравненийx(k + 1) =A(k)x(k) +nXBi (k)ui(k),(3.1.1)i=1k0 ≤ k ≤ K < ∞,k0, K ∈ T+ ,x(k0) = x0 ,где x ∈ Rm – вектор-столбец, ui ∈ Rr – вектор-столбец управления игрока i,i = 1, . .
. , n ; A(k), Bi(k) – матрицы размерности (m × m) и (m × r) соответственно, x(k0) = x0 – начальное состояние. Обозначим через N = {1, . . . , n}множество всех игроков. Выигрыш игрока i ∈ N обозначим через Ji (k0, x0, u),64где u = (u1, . . . , un). Будем предполагать, что выигрыш игрока i имеет вид:Ji(k0, x0, u) =K−1XTx (k)Pi (k)x(k) +uTi (k)Ri(k)ui(k)k=k0++ xT (K)Pi(K)x(K),∀i = 1, . . . , n, (3.1.2)где Pi (k) – симметричные отрицательно полуопределенные матрицы размерности (m × m), Ri (k) – симметричные отрицательно определенные матрицыразмерности (r × r), i = 1, . .
. , n. Каждый игрок стремится максимизироватьсвой выигрыш. При этом считаем, что игроки не могут перераспределять между собой выигрыши.Предполагается, что игроки выбирают только стратегии вида ui (k, x) =Mi (k)x, k = k0, . . . , K − 1, i = 1, . . . , n. Обозначим построенную выше игруΓ(k0, x0).3.1.1Теорема о существовании равновесия по НэшуНайдем решение бескоалиционной игры Γ(k0, x0). В качестве принципа оптимальности будем рассматривать равновесие по Нэшу [53].Необходимые и достаточные условия существования равновесия по Нэшув линейно-квадратичных дискретных играх приведены в [39]. Приведем здесьэту теорему, переформулированную в текущих обозначениях.Теорема 9.