Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 7
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
. . , K, qK = 1.Обозначим через N = {1, . . . , n} множество всех игроков. Выигрыш игрокаi ∈ N обозначим через Ji(k0 , x0, u), где u = (u1, . . . , un). Будем предполагать,что выигрыш игрока i имеет вид:Ji(k0, x0, u) = Ew,LXL−1 k=k0xT (k)Pi(k)x(k) + uTi (k)Ri(k)ui(k) ++ xT (L)Pi(L)x(L) ,∀i = 1, . . . , n, (2.0.2)где Pi (k) – симметричные матрицы размерности (m×m), Ri (k) – симметричныематрицы размерности (r × r), i = 1, .
. . , n. Каждый игрок стремится максими-48зировать свой выигрыш.Предполагается,чтоигрокивыбираюттолькостратегиивидаui(k, x) = Mi (k)x, k0 ≤ k ≤ L, i = 1, . . . , n. Обозначим построенную вышеигру Γ(k0, x0).ПоложимTi (k, x(k), u(k)) = xT (k)Pi(k)x(k) + uTi (k)Ri(k)ui(k),i = 1, . . . , n,k = k0, . . . , K − 1,Ti(K, x(K)) = xT (K)Pi(K)x(K).Согласно [19] можно записать (2.0.2) в следующем виде:( K−1XYTi(m, x(m), u(m))+(1 − qk )Ji(k0, x0, u) = Ewm=k0k<Kk≥0+ Ti(K, x(K)) +K−1Xqjj=0Y(1 − qk )k<j XjTi(m, x(m), u(m))m=k0k≥0)∀i = 1, .
. . , n. (2.0.3)Принимая во внимание, чтоYKXqj(1 − qk ) = 1,j=0k<jk≥0получаем выигрыши игроков:( K−1k−1 YXXJi(k0, x0, u) = ETi (k, x(k), u(k)) 1 −qj(1 − qs ) +wj=0k=k0s<js≥0)K−1X Y+ Ti(K, x(K)) 1 −(1 − qs )qjj=0s<js≥0∀i = 1, . . . , n. (2.0.4)492.1Бескоалиционные игрыНайдем решение бескоалиционной игры Γ(k0, x0). В качестве принципа оптимальности будем рассматривать равновесие по Нэшу [53].Необходимые и достаточные условия существования равновесия по Нэшув линейно-квадратичных дискретных стохастических играх приведены в [38].Уточним условия теоремы для линейно-квадратичных дискретных стохастических игр со случайной продолжительностью.Введем обозначения:f (k) =Yk−1X1−qj(1 − qs) .j=0s<js≥0Заметим, что f (k) > 0 для всех k = k0, .
. . , K − 1, f (K) ≥ 0.Пусть Q− (T+) – множество отрицательных на T+ матриц.Теорема 6. Для того чтобы в игре Γ(k0, x0) существовало единственное вклассе допустимых равновесие по Нэшу необходимо и достаточно, чтобы система матричных уравненийnnXXNET(A(k) +Bi (k)Mi (k)) Θi (k + 1)(A(k) +Bi(k)MiN E (k))i=1i=1− Θi (k) + f (k)Pi(k) + f (k)MiN E (k)T Ri (k)MiN E (k) = 0,MiN E (k) = −(f (k)Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)×XNE×Θ(k+1)(A(k)+B(k)M(k)), k = k0, . . .
, K − 1,ijjj6=i Θ (K) = P (K)f (K), i = 1, . . . , nii(2.1.1)имела единственное решение {MiN E (k), Θi (k)}, в виде вещественных матрицразмерности r × m и m × m соответственно, где Θi(k) – симметричны длялюбого i ∈ N , для которого (f (k)Ri(k) + BiT (k)Θi(k + 1)Bi(k)) ∈ Q−(T+ ),i = 1, . .
. , n.50Тогда набор стратегийENE{uN(k)x,i (k, x) = Mii = 1, . . . , n}(2.1.2)будет являться равновесием по Нэшу в игре Γ(k0, x0), при этом выигрышигрока i в равновесии равенJi(k0, x0, uNE)=xT0 Θi (k0)x0+K−1XE{wkT Θi(k + 1)wk },i = 1, . . . , n.k=k0Доказательство. Доказательство напрямую следует из [39] Corollary 6.4, c. 306,Remark 6.4, c.
281 и вида (2.0.4) выигрышей игроков.2.2Кооперативные игрыВ данном параграфе будем искать кооперативные решения рассмотренной игры. Предполагаем, что игроки могут объединяться и перераспределять суммарный выигрыш. Исследуем различные способы построения кооперативныхрешений для данного класса игр.2.2.1Игры в форме характеристической функцииПо аналогии с § 1.3.2. можно построить характеристическую функцию v(S, x0) :2N → R в классе стохастических игр по следующему правилу:v(S, x0) = max J S (uN E /uS ).ui ,i∈SEгде (uN E /uS ) = {uN/ S,j ,j ∈ui, i ∈ S}.Пусть S ⊂ N , s = |S|, i1, . . .
, is – игроки, входящие в коалицию S. Введемобозначения 1.2.1 аналогично(§ 1.2.KPPТогда J S =Ji = ExT (k)PS (k)x(k) + uTS (k)RS (k)uS (k) 1 −wi∈Sk=k0)Pk−1Q.j=0 qjs<j (1 − qs )s≥0Для построения характеристической функции сформулируем теорему.51Теорема 7. Для того чтобы существовал единственный набор стратегий{u0i (k, x) = Mi0 (k)x,i ∈ S},доставляющий максимум J S (k0, x0, u) при фиксированном наборе стратегий{ūj (k, x) = M̄j (k)x,j∈/ S}необходимо и достаточно, чтобы:1. Система матричных уравненийX(A(k)+Bj (k)M̄j (k) + BS (k)MS0 (k))T ΘS (k + 1)(A(k)+j ∈S/X+Bj (k)M̄j (k) + BS (k)MS0 (k)) − ΘS (k) + f (k)PS (k)+j ∈S/+ f (k)MS0 (k)T RS (k)MS0 (k) = 0,MS0 (k) = −(f (k)RS (k) + BST (k)ΘS (k + 1)BS (k))−1BST (k)×X×Θ(k+1)(A(k)+Bj (k)M̄j (k)), k = k0 , . .
. , K − 1,Sj ∈S/ Θ (K) = P (K)f (K)SSбыла разрешима относительно {MS0 (k), ΘS (k)}, в виде вещественных, ограниченных матриц размерности rs × m и m × m соответственно, гдеΘS (k) – симметричны.2. (f (k)RS (k) + BST (k)ΘS (k + 1)BS (k)) ∈ Q− (T+).Тогда набор стратегийu0(k, x) = {ūj = M̄j (k)x,u0i = Mi0 (k)x(k), i ∈ S},(2.2.1)0M (k) i1 0 Mi2 (k), доставляет максимумгде Mi0 (k) – i-й блок матрицы MS0 (k) = ...
Mi0s (k)j∈/ S,52J S (k0, x0, u), иS0J (k0, x0, u ) =xT0 ΘS (k0)x0+K−1XE{wkT ΘS (k + 1)wk }.k=k0Доказательство. Замкнем систему (2.0.1) допустимым набором управленийu(k, x) = {ūj (k, x) = M̄j (k)x,x(k + 1) = (A(k) +j∈/ S,Xui (k, x) = Mi (k)x,Bj (k)M̄j (k))x(k) +Xi ∈ S}:Bi (k)ui(k) + w(k)i∈Sj ∈S/илиx(k + 1) = (A(k) +XBj (k)M̄j (k))x(k) + BS (k)uS (k) + w(k),(2.2.2)j ∈S/гдеM (k) i1 Mi2 (k) x(k).uS (k) = ... Mis (k)Тогда систему (2.2.2) можно рассмотреть как систему с одним управлениемuS (k) и функционалом J S . Согласно [27], чтобы существовало единственноеуправление, доставляющее максимум J S , необходимо и достаточно, чтобы выполнялись условия теоремы, что и требовалось доказать.Обозначим{u∗i }i∈S = arg max J S (uN E /uS ).ui ,i∈SТогда, если набор стратегий{u∗i = Mi∗ (k)x, i ∈ S}53∗M (k) i1 ∗ Mi2 (k) можно найти из системысуществует, то согласно теореме 7, MS∗ (k) = ...
Mi∗s (k)X(A(k)+Bj (k)MjN E (k) + BS (k)MS∗ (k))T Θ∗S (k + 1)(A(k)+j ∈S/X+Bj (k)MjN E (k) + BS (k)MS∗ (k)) − Θ∗S (k) + f (k)PS (k)+j ∈S/+ f (k)MS∗ (k)T RS (k)MS∗ (k) = 0,MS∗ (k) = −(f (k)RS (k) + BST (k)Θ∗S (k + 1)BS (k))−1BST (k)Θ∗S (k + 1)×X×(A(k)+Bj (k)MjN E (k)) k = 1, .
. . , K − 1,j ∈S/ Θ∗ (K) = P (K)f (K).SSПри этомSJ (k0, x0, uNE/u∗S )=xT0 Θ∗S x0+K−1XE{wkT Θ∗S (k + 1)wk }.k=k0Согласно определению характеристической функции получаемv(S, x0) =xT0 Θ∗S x0+K−1XE{wkT Θ∗S (k + 1)wk }.k=k0После построения характеристической функции в качестве кооперативного решения можно использовать один из известных принципов оптимальности, например, вектор Шепли, C-ядро и другие.2.2.2ES-векторВ качестве решения кооперативной игры будем рассматривать ES-вектор, предложенный в работе [49].54Определение 7. Вектор ξ(k) = (ξ1(k), .
. . , ξn (k)) называется ES-вектором,еслиv(N, x0) −ξi (k0, x0) = v(i, x0) +Pv(i, x0)i∈N, i ∈ N,(2.2.3)nгде v(i, x0) – выигрыш игрока i в равновесии по Нэшу, v(N, x0) – кооперативныйвыигрыш.Заметим, что в работе [49] предполагается, что характеристическая функция строится стандартным образом, а значит v(i, x0) – это выигрыш, которыйможет гарантировать себе игрок, при условии, что оставшиеся игроки играютпротив него. В нашем же случае v(i, x0) – выигрыш, который может гарантировать себе игрок i, при условии, что оставшиеся игроки используют равновесныестратегии, т.е. v(i, x0) – выигрыш игрока i в равновесии по Нэшу. Подобным образом строится кооперативное решение в работе [2]. Согласно теоремам 6 и 7 врассматриваемом классе игр ES-вектор может быть вычислен по формуле:X1Tξi(k0 , x0) = x0 Θi (k0) + (ΘN (k0) −Θi (k0)) x0+ni∈NK−1XX1E{wkT Θi (k + 1) + (ΘN (k + 1) −Θi(k + 1)) wk } i ∈ N.
(2.2.4)nk=k0i∈NЗдесь Θi(k) – решение системы (2.1.1), ΘN (k) – решение системы(A(k) + B(k)M N (k))T ΘN (k + 1)(A(k) + B(k)M N (k)) − ΘN (k)+f (k)P (k) + f (k)M N (k)T R(k)M N (k) = 0,2.2.3M N (k) = −(f (k)R(k) + B T (k)ΘN (k + 1)B(k))−1B T (k)×× ΘN (k + 1)A(k), k = 1, . . . , K − 1, ΘN (K) = P (K)f (K).Динамическая устойчивость ES-вектораNNПусть набор стратегий uN = (uN1 , . .
. , un ) доставляет максимум J . Траекто-рию xN (k), которая реализуется при замыкании системы (2.0.1) набором стра-55тегий uN , будем называть оптимальной.Определение 8. Вектор-функцию β(k) = (β1(k), . . . , βn (k)), k0 ≤ k ≤ K − 1назовем процедурой распределения дележа (ПРД) [17, 16] если,ξi (k0, x0) =K−1Xβi (k) + f (K)(xN (K))T Pi (K)xN (K),i = 1, .