Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 10
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 10 страницы из PDF
. . , n ; A(k), Bi(k) ∈ Z(T+) – (m×m) и (m×r) – матрицы соответственно,x(k0) = x0 – начальное состояние.Выигрыш игрока i ∈ N обозначим через Ji (k0, x0, u), где u = (u1, . . . , un).Будем предполагать, что выигрыш игрока i имеет вид:Ji(k0 , x0, u) =∞X(xT (k)Pi(k)x(k) + uTi (k)Ri(k)ui(k)),∀i = 1, . . . , n, (3.2.2)k=k0где Pi (k) = PiT (k),Ri (k) = RiT (k) ∈ Z(T+) – (m × m) и (r × r) – матрицысоответственно, i = 1, . . .
, n. Каждый игрок стремится максимизировать свойвыигрыш. При этом считаем, что игроки не могут перераспределять междусобой выигрыши.Предполагается, что игроки выбирают только допустимые в смысле определения 1 стратегии вида ui(k, x) = Mi (k)x, k ≥ k0, i = 1, . . . , n. Обозначимпостроенную выше игру Γ(k0, x0).743.2.1Парето-оптимальное решениеВ качестве принципа оптимальности в кооперативной игре Γ(k0, x0) будем рассматривать Парето-оптимальное решение.Пусть игроки соглашаются использовать вектор весов α = (α1, . .
. , αn ) :nPαi = 1,0 < αi < 1 для нахождения оптимального решения.i=1Тогда (см. [51, 44, 50, 65, 46]) оптимальные стратегии игроков могут бытьполучены как решения следующей задачи максимизации:nXmaxαi Ji (k0, x0, u),(u1 ,...,un )(3.2.3)i=1где движение системы описывается уравнением (3.2.1).Обозначим uα (k) = (uα1 (k), . . . , uαn(k)) – оптимальный набор стратегий игроков:(uα1 , .
. . , uαn )И J α (k0, x0, u) =nP= arg max(u1 ,...,un )αi Ji(k0, x0, u), P α (k) =α R (k)O 1 1 Oα2 R2 (k)αR (k) = ......OOαi=1nPαi Ji(k0 , x0, u).αi Pi (k),(3.2.4)k ≥ k0 ,i=1i=1ТогдаnXJ (k0, x0, u) =∞X...O...O ,...... . . . αn Rn (k)k ≥ k0 .(xT (k)P α (k)x(k) + u(k)Rα(k)u(k)).(3.2.5)k=k0НахождениеПарето-оптимальногорешениесводитсяклинейно-квадратичной задаче оптимального управления (3.2.1)-(3.2.5) с одним управлением u(k).Согласно [27], для cуществования единственного в классе допустимых набора стратегий{uα1 (k) = Miα (k)x,i = 1, . . .
, n},75доставляющего максимум J α (k0, x0, u) необходимо и достаточно, чтобы:1. Система матричных уравнений(A(k) + B(k)M α (k))T Θα (k + 1)(A(k) + B(k)M α (k)) − Θα (k)− − P α (k) − M α (k)T Rα (k)M α (k) = 0,M α (k) = −(−Rα (k) + B T (k)Θα(k + 1)B(k))−1B T (k)Θαk + 1)A(k),k ≥ k0(3.2.6)была разрешима относительно {M α (k), Θα(k)}, в виде вещественных, ограниченных матриц размерности rs × m и m × m соответственно, где Θα (k)– симметричны для всех k ≥ k0.2.
Набор стратегий{uα1 (k) = Miα (k)x,i = 1, . . . , n},(3.2.7)αM (k) 1 α M2 (k) , был бы допустимым вгде Miα (k) – i-й блок матрицы M α (k) = ... αM (k)смысле определения 1.3. (−Rα (k) + B T (k)Θα(k + 1)B(k)) ∈ Q+(T+).Тогда кооперативную траекторию xα (k) мы можем найти, решив систему:x(k + 1) = A(k)x(k) + B(k)uα(k).(3.2.8)А выигрыши игроков при кооперации:Jiα (k0, x0, uα)=∞ Xk=k0(xα (k))T Pi (k)xα (k) + (uαi (k))T Ri(k)uαi (k) .
(3.2.9)763.2.2Динамическая устойчивость Парето-оптимального решенияАналогично параграфу 3.1.3 для рассматриваемого класса игр будем строитьпроцедуру распределения выигрыша, позволяющую избежать неустойчивостьПарето-оптимального решения.Определение 14.
Вектор-функцию β(k) = (β1(k), . . . , βn(k)), k ≥ k0 назовемпроцедурой распределения выигрыша [54, 55] если, X∞ ∞XαTααTα(x (k)) Pi (k)x (k) + (ui (k)) Ri(k)ui (k) =βi(k),k=k0i = 1, . . . , n.k=k0Определение 15. Парето-оптимальное решение называется динамическиустойчивым [54, 55], если существует такая процедура распределения выигрыша, что выполняется условие индивидуальной рациональности∞Xβi (k) ≥ Vi (l, xα(l)),∀l ≥ k0 ,i = 1, . . . , n,(3.2.10)k=lгде Vi (l, xα(l)) – выигрыш игрока i в ситуации равновесия по Нэшу в подыгреΓ(l, xα(l)). А такая процедура распределения выигрыша называется состоятельной во времени.В работе [56] была предложена процедура распределения выигрыша длядифференциальных игр с нетрансферабельными выигрышами, которая позволяет избежать неустойчивость Парето-оптимального решения.
Приведем аналог этой процедуры для рассматриваемого класса игр.Пусть ηi (k) ≥ 0 – такие функции, для которых выполняется:Jiα (k0 , x0, uα )− Vi (k0, x0) =∞Xηi(k).k=k0Теорема 12. Если для некоторого Парето-оптимального решения выполняетсяJiα (k0 , x0, uα ) ≥ Vi (k0, x0),i = 1, .
. . , n,77то процедура распределения выигрыша β(k) видаβi(k) = ηi(k) − Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))i = 1, . . . , n,k > k0 (3.2.11)гарантирует выполнение условия индивидуальной рациональности этогоПарето-оптимального решения вдоль всей кооперативной траектории, т.е.выполняется∞Xβi (k) ≥ Vi (l, xα(l)),∀l > k0 ,i = 1, . .
. , n.(3.2.12)k=lДоказательство. Покажем сначала, что β(k) действительно является процедурой распределения выигрыша:∞Xβi (k) =∞Xηi (k) − Vi (∞, xα(∞)) + Vi (k0, x0) =k=k0k=k0= Jiα (k0, x0, uα ) − Vi (k0, x0) + Vi (k0, x0) = Jiα (k0, x0, uα ). (3.2.13)Здесь Vi (∞, xα(∞)) = lim Vi (k, xα(k)) = 0. Значит β(k) удовлетворяет опредеk→∞лению 14.Покажем теперь выполнение условия индивидуальной рациональности.
Согласно (3.2.11)∞Xk=lβi (k) =∞Xηi(k) − Vi (∞, xα(∞)) + Vi (l, xα(l)) =k=l=∞Xηi (k) + Vi (l, xα(l)) ≥ Vi (l, xα(l)), (3.2.14)k=lчто и требовалось доказать.3.2.3Условие устойчивости Парето-оптимального решенияпротив иррационального поведения игроковОпределение 16. Оптимальное по Парето решение (J1α (k0, x0, uα ), . . . ,Jnα (k0, x0, uα)) удовлетворяет условию устойчивости против иррационального78поведения игроков [66] в игре Γ(k0, x0), если выполнено неравенствоlXβi (k) + Vi (l + 1, xα(l + 1)) ≥ Vi (k0, x0),i = 1, .
. . , n(3.2.15)k=k0при любом l ≥ k0, где β(k) = (β1 (k), . . . , βn (k)) состоятельная во временипроцедура распределения выигрыша (J1α (k0, x0, uα ), . . . , Jnα (k0, x0, uα )).Тогда для выполнения условия (3.2.15) достаточно, чтобы для любого i =1, . . . , n выполнялосьβi (k) + Vi (k + 1, xα(k + 1)) − Vi (k, xα(k)) ≥ 0,k ≥ k0 .Согласно системе (3.2.6) и теореме 1 можно переписать это условие в виде:βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!Θi (k) xα (k) ≥ 0,k ≥ k0 .
(3.2.16)Заметим также, что при вычислении процедуры распределения выигрышапо формуле (3.2.11) достаточное условие (3.2.16) выполняется всегда.Действительно, если βi (k) = ηi(k) − Vi (k + 1, xα(k + 1)) + Vi (k, xα(k)), тоβi (k) + Vi (k + 1, xα(k + 1)) − Vi (k, xα(k)) = ηi(k),k ≥ k0 ,где ηi(k) ≥ 0 для любого k ≥ k0 .Сформулируем полученные результаты.Теорема 13.
В линейно-квадратичных дискретных играх с нетрансферабельными выигрышами с бесконечной продолжительностью условие устойчивости против иррационального поведения игроков выполнено для любого Паретоотимального решения, состоятельная во времени процедура распределениявыигрыша β(k) которого удовлетворяет неравенствам:79βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!Θi (k) xα (k) ≥ 0,k ≥ k0 . (3.2.17)Здесь Θi (k) – решение системы (1.1.1), M α (k) – решение системы (3.2.6),xα (k) – кооперативная траектория.Утверждение 4.
Если для некоторого Парето-оптимального решения влинейно-квадратичных дискретных играх с нетрансферабельными выигрышами с бесконечной продолжительностью выполняетсяJiα (k0 , x0, uα ) ≥ Vi (k0, x0),i = 1, . . . , n,и процедура распределения выигрыша β(k) вычисляется по формуле (3.2.11),то условие условие устойчивости против иррационального поведения игроковвыполнено для этого Парето-отимального решения.3.3Пример.
Игра стабилизации государственного долгаРассмотрим игру стабилизации государственного долга [35]. Уравнение ростагосударственного долга имеет вид:d(k + 1) = rd(k) + f (k) − m(k),d(0) = d0 ,где d(k) – объем реального государственного долга, f (k) – реальные первичныйдефицит государственного бюджета, m(k) – сеньораж, rd(k) – размер обслуживания государственного долга по ставке номинального процента r > 0.Целью фискальных органов является минимизация функционала:k∞ X1J1 =((f (k) − f )2 + η(m(k) − m)2 + λ(d(k) − d)2),1+ρk=080целью монетарных органов является минимизация функционала:k∞ X1J2 =((m(k) − m)2 + γ(d(k) − d)2 ).1+ρk=0Здесь f ,m,d – заданные параметры.После заменыx1(k) =11+ρ k2(d(k) − d),1x2(k) = (f − m + (r − 1)d)1+ρu1(k) =u2(k) = k2(f (k) − f ), k2(m(k) − m)11+ρ11+ρ k+12,задача сводится к виду (3.2.1)-(3.2.2) с матрицами 1211 r 1+ρA= 12 ,101+ρλ 0γ 0 , P2 = ,P1 = 0 00 0 12 12 11 1+ρ − 1+ρ B1 = , B2 = ,00R11 = 1,R12 = η,R21 = 0,R22 = 1.Согласно теореме 1 для нахождения равновесия по Нэшу необходимо ре-шить систему(A(k) + B1(k)M1N E (k) + B2 (k)M2N E (k))T Θi (k + 1)(A(k) + B1(k)M1N E (k)++ B2 (k)M2N E (k)) − Θi (k) + Pi (k) + MjN E (k)T Rij (k)MjN E (k)++ MiN E (k)T Rii (k)MiN E (k) = 0,MiN E (k) = −(−Rii(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)× × (A(k) + Bj (k)M N E (k)), i = 1, 2, j 6= i.j81ENEТогда ситуация uN E = (uN1 , u2 ) является равновесием по Нэшу, гдеENEuN(k)x(k).
Выигрыши равныi (k, x) = MiJi = xT0 Θi (k0)x0.Непосредственной проверкой можно показать, что при λ = 121= 41 , s = 2, γ = 11+ρ12, η= 1,= −0.073 −0.166 x(k),NEu2 (k, x) = 0.142 0.318 x(k),EuN1 (k, x)0.656 0.354 x0 ,J1 = xT0 0.354 0.8441.273 0.613 x0 .J2 = xT0 0.613 1.4440.656 0.354 x(k),V (1, x(k)) = xT (k) 0.354 0.8441.273 0.613 x(k),V (2, x(k)) = xT (k) 0.613 1.444Согласно (3.2.6) для нахождения Парето-оптимального решения решаемсистему:(A(k) + B1M1α + B2 M2α )T Θα (k + 1)(A(k) + B1 M1α + B2 M2α )− − Θα (k) + P α (k) + M α (k)T Rα (k)M α (k) = 0,M α (k) = −(Rα (k) + B T (k)Θα(k + 1)B(k))−1× × B T (k)Θα(k + 1)A(k).82αR11O,Здесь P α (k) = αP1 (k) + (1 − α)P2(k), Rα (k) = O αR21 + (1 − α)R22B(k) = B1 (k) B2 (k) .Для α = 0, 45M1α = (−0.227− 0.507),M2α = (0.102 0.228),0.681 0.413 x0 ,J1(uα ) = xT0 0.413 0.9411.2230 0.491 x0 .J2 (uα) = xT0 0.491 1.139Если, например, x0 = −3 2 , тогдаJ1α (k0, x0, uα ) − V1 (k0, x0) = −0.107,J2α (k0, x0, uα ) − V2 (k0, x0) = −0.216.Таким образом, в начальной точке условие индивидуальной рациональностивыполняется (в данном примере мы рассматриваем проблему минимизации,поэтому в условии индивидуальной рациональности неравенства имеют противоположный знак).Но уже на следующем шагеJ1α (k1, x1, uα) − V1 (k1, x1) = 0.0504.Это значит, что возникает неустойчивость Парето-оптимального решения.