Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 3
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
В данной главе рассматриваетсякооперативный вариант линейно-квадратичных дискретных игр с бесконечнойпродолжительностью.Рассмотрим дискретную линейно-квадратичную неантагонистическую игру n лиц, состояние которой в каждый момент времени задается вектором x(k),изменяющимся согласно системе уравненийx(k + 1) =A(k)x(k) +nXBi (k)ui(k),i=1k ≥ k0 ,k0 ∈ T+ ,(1.0.1)x(k0) = x0,где x ∈ Rm – вектор-столбец, ui ∈ Rr – вектор-столбец управления игрока i,i = 1, . . . , n ; A(k), Bi(k) ∈ Z(T+) – (m×m) и (m×r) – матрицы соответственно,x(k0) = x0 – начальное состояние, T+ – множество неотрицательных целыхчисел, Z(T+) – множество ограниченных на T+ матриц.Обозначим через N = {1, .
. . , n} множество всех игроков. Выигрыш игрокаi ∈ N обозначим через Ji(k0 , x0, u), где u = (u1, . . . , un). Будем предполагать,14что выигрыш игрока i имеет вид:Ji(k0 , x0, u) =∞X(xT (k)Pi(k)x(k) + uTi (k)Ri(k)ui(k)),∀i = 1, . . . , n, (1.0.2)k=k0где Pi (k) = PiT (k),Ri (k) = RiT (k) ∈ Z(T+) – (m × m) и (r × r) – матрицысоответственно, i = 1, . . . , n. Каждый игрок стремится максимизировать свойвыигрыш.Определение 1. Набор стратегий вида{ui(k, x) = Mi (k)x,i = 1, .
. . , n}(1.0.3)будем называть допустимым, если выполняются условия:1) Mi (k) ∈ Z(T+),i = 1, . . . , n;2) Система (1.0.1), замкнутая набором стратегий (1.0.3), т. е. системаx(k + 1) = (A(k) +nXBi (k)Mi(k))x(k)i=1равномерно асимптотически устойчива (при k → ∞) [27].Предполагается, что игроки выбирают только допустимые стратегии видаui(k, x) = Mi (k)x, k ≥ k0, i = 1, . . . , n.
Обозначим построенную выше игруΓ(k0, x0). Это обозначение показывает, что игра началась в момент времениk = k0 из состояния x(k0) = x0.1.1Бескоалиционные линейно-квадртичные дискретныеигрыДовольно часто в реальной жизни встречаются такие конфликтные ситуации,когда кооперация или соглашение невозможны или запрещены правилами игры.Игры, описывающие подобные процессы, называют бескоалиционными. Найдемрешение бескоалиционной игры Γ(k0, x0).15В качестве принципа оптимальности будем рассматривать равновесие поНэшу [53].Определение 2 ([53]). Набор стратегийENE{uN(k)x, i = 1, .
. . , n}i (k, x) = Miбудем называть равновесием по Нэшу, если этот набор допустим в смыслеопределения 1 и имеет местоJi (k0, x0, uN E ) ≥ Ji (k0, x0, uN E /ui),i = 1, . . . , n,где ui – произвольная стратегия игрока i, такая что набор стратегий {uN E /ui}принадлежит классу допустимых.Здесь {uN E /ui} обозначает такой набор стратегий, что все игроки j 6= iEиспользуют стратегии uNj , а игрок i – стратегию ui .1.1.1Теорема о существовании равновесия по НэшуВ работе Т. Башара и Г.
Олсдера [39] была сформулирована теорема о нахождении равновесия по Нэшу в линейно-квадратичных дискретных играх с бесконечной продолжительностью в стационарном случае, когда матрицы A, Bi,Pi , Ri постоянны на протяжении всей игры. В данном параграфе приводитсяаналог этой теоремы для нестационарного случая. В теореме приведены необходимые и достаточные условия для существования равновесия по Нэшу в игреΓ(k0, x0). Пусть Q+(T+) ⊂ Z(T+) – множество положительных ограниченныхна T+ матриц.Теорема 1. Для того чтобы в игре Γ(k0, x0) существовало единственное вклассе допустимых равновесие по Нэшу необходимо и достаточно, чтобы си-16стема матричных уравненийnnXXNET(A(k) +Bi(k)Mi (k)) Θi (k + 1)(A(k) +Bi (k)MiN E (k))−i=1i=1 − Θ (k) − P (k) − M N E (k)T R (k)M N E (k) = 0,iiiii(1.1.1)MiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×X× (A(k) +Bj (k)MjN E (k)), i = 1, .
. . , nj6=iимела единственное решение {MiN E (k), Θi (k)} ∈ Z(T+), в виде вещественных,ограниченных матриц размерности r × m и m × m соответственно, где Θi(k)– симметричны для любого i ∈ N , для которого выполняется:1. Набор стратегийE{uN= MiN E (k)x(k),ii = 1, . . . , n}(1.1.2)допустимым в смысле определения 1.2. (−Ri (k) + BiT (k)Θi(k + 1)Bi(k)) ∈ Q+(T+ ),i = 1, . . . , n.Тогда набор стратегий (1.1.2) будет являться равновесием по Нэшу в игреΓ(k0, x0), при этом выигрыш игрока i в равновесии равенJi(k0, x0, uN E ) = −xT0 Θi(k0 )x0,i = 1, . .
. , n.Доказательство. Необходимость. Пусть ситуацияENEuN E = (uN1 , . . . , un )является равновесием по Нэшу. Тогда для любых i = 1, . . . , n, и ui выполняется:Ji(k0, x0, uN E /ui) ≤ Ji(k0, x0, uN E ).EЭто значит, что uNявляется оптимальным управлением в задаче следующегоiвида:x(k + 1) = (A(k) +Xj6=iBj (k)MjN E (k))x(k) + Bi (k)ui(k)17с начальным условием x(k0) = x0 и функционалом Ji(k0, x0, uN E /ui). В [27]выведены условия для существования единственного оптимального управленияв задаче такого типа. Согласно [27]E{uN= −(−Ri (k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)(A(k)+iX+Bj (k)MjN E (k))x(k), i = 1, . .
. , n},j6=iгде Θi (k) – симметричные ограниченные матрицы m-го порядка, для которыхвыполнены условияnnXXNET(A(k) +Bi (k)Mi (k)) Θi (k + 1)(A(k) +Bi (k)MiN E (k))−i=1i=1 − Θ (k) − P (k) − M N E (k)T R (k)M N E (k) = 0,iiiiiMiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×X× (A(k) +Bj (k)MjN E (k)), i = 1, .
. . , n,j6=i(−Ri (k) + BiT (k)Θi(k + 1)Bi(k)) ∈ Q+(T+ ).Откуда и следует необходимость теоремы.Достаточность. Покажем, что доказательство достаточности следует из[27]. Действительно, при замыкании системы (1.0.1) набором допустимых управлений {uN E /ui}, она превращается в систему с одним управлением:Xx(k + 1) = (A(k) +Bj (k)MjN E (k))x(k) + Bi(k)ui(k).(1.1.3)j6=iДля ui существуют такие MiN E (k) и Θi(k) – симметричная, что для них выполняетсяnnXXNET(A(k) +Bi (k)Mi (k)) Θi (k + 1)(A(k) +Bi (k)MiN E (k))−i=1i=1 − Θ (k) − P (k) − M N E (k)T R (k)M N E (k) = 0,iiiiiMiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×X× (A(k) +Bj (k)MjN E (k)), i = 1, .
. . , n,j6=i18(−Ri (k) + BiT (k)Θi(k + 1)Bi(k)) ∈ Q+(T+ ).EТогда согласно [10], uNi (k) – единственное оптимальное управление для систе-мы (1.1.3) с функционалом Ji , то естьJi(k0, x0, uN E /ui) ≤ Ji(k0, x0, uN E ),i = 1, . . . , n.Значит набор управлений (1.1.2) является равновесием по Нэшу.При этом выигрыши игроков в ситуации равновесия по Нэшу будут равны:Ji (k0, x0, uN E ) = −xT0 Θi (k0)x0,1.1.2i = 1, . . . , n.ПримерПустьN = {1, 2},x(k + 1) = e−k x(k) +J1 =∞ X(k + 1)29(k + 2)2x (k)−2(k + 2)2 e2k (k + 3)21x(k) + u (k)u(k) ,(k + 3)2∞ X2(k + 2)28(k + 3)2−x (k)3(k + 3)2 e2k (k + 4)21x(k) + u (k)u(k) .(k + 4)2k=k0J2 =11u1(k) +u2(k),k+2k+3k=k0TTTTТогда для нахождения равновесия по Нэшу необходимо проверить разре-19шимость системы2M(k + 1)29(k + 2)22−ke +Θ1(k + 1) − Θ1 (k) +− 2k−22k+32(k+2)e(k+3)2M2Θ21 (k + 1)e−k + k+3 =0−1Θ(k+1)1(k + 2)2 −+2(k+3)(k + 2)22M2(k + 2)28(k + 3)21−ke +Θ2(k + 1) − Θ2 (k) +− 2k−22k+23(k+3)e(k+4)2M1Θ22 (k + 1)e−k + =0 k+2−1Θ(k+1)2+(k + 3)2 −2(k + 4)(k + 3)21Θ1 (k + 1) −kM2M1 (k) = −e +1Θk+2k+31 (k + 1)−+(k + 3)2(k + 2)2M1Θ(k+1)21−ke +M2 (k) = −1Θ2 (k + 1) k + 3k+2−+(k + 4)2(k + 3)2Заметим, что(k + 1)2Θ1(k) =,2(k + 2)22(k + 2)2Θ2(k) =,3(k + 3)23(k + 2)M1 (k) = −,ek4(k + 3)M2 (k) = −ekявляются решениями этой системы.Проверим теперь является ли набор управленийu1 (k, x) = M1 (k)x(k),допустимым в смысле определения 1:u2(k, x) = M2 (k)x(k)201)|M1 (k)| < 6; |M2 (k)| < 12.2)Проверим равномерно асимптотическую устойчивость системыx(k + 1) = H(k)x(k),гдеH(k) = e−k −I[k0, x(k0)] =+∞X3(k + 2) 4(k + 3)−.ekekxT (k)x(k) = x20(1 + H 2 (k0) + H 2 (k0)H 2(k0 + 1)+k=k0+ H 2 (k0)H 2 (k0 + 1)H 2(k0 + 2) .
. .).А так как H 2 (k) – убывающая функция при k ∈ T+ , H 2 (0) = 172 и H(k) < e−kпри k > 4 тоI[k0, x(k0)] < x20(1 + 172 + 174 + 176 + 178 + 1710(1 + e−1) + e−2 + e−3 + . . .) = x20 ∗ −1 e∗ (1 + 172 + 174 + 176 + 178 + 1710= x20p,−11−e −1 eгде p = 1 + 172 + 174 + 176 + 178 + 1710.1 − e−1Тогдаx20 ≤ I[k0, x(k0)] ≤ px20,откуда и следует равномерная асимптотическая устойчивость.Таким образом, набор стратегийu1(k, x) = −3(k + 2)x(k),eku2(k, x) = −4(k + 3)x(k)ekявляется допустимым, а следовательно является равновесием по Нэшу в рассматриваемой игре.
При этом игроки получают выигрышиJ1 =−x20(k0 + 1)2,2(k0 + 2)2J2 =2(k0−x203(k0+ 2)2.+ 3)2211.2Кооперативные линейно-квадратичные дискретныеигрыРассмотрим теперь кооперативный вариант описанной игры. Будем предполагать, что условиями игры допускаются совместные действия игроков, то естьигроки могут объединяться с целью обеспечения максимального суммарноговыигрыша и перераспределять его между членами коалиции. В данном параграфе рассмотрены решения, основанные на построении характеристическойфункции. Также исследуется вопрос динамической устойчивости полученныхрешений и выполнение для них устойчивости против иррационального поведения игроков.1.2.1Игры в форме характеристической функцииИспользование характеристической функции при построении кооперативныхрешений позволяет оценить возможности коалиций и вклад каждого игрока,что является основой для получения схем распределения суммарного выигрыша.Для определенной линейно-квадратичной дискретной игры Γ(k0, x0) характеристическую функциюv(S, x0) : 2N → Rбудем строить по следующему правилу (см.