Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 9
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 9 страницы из PDF
[39] Для того чтобы в игре Γ(k0, x0) существовало единственноев классе допустимых равновесие по Нэшу необходимо и достаточно, чтобы65cистема матричных уравненийnnXXNET(A(k) +Bi(k)Mi (k)) Θi (k + 1)(A(k) +Bi (k)MiN E (k))−i=1i=1− Θi (k) − Pi (k) − MiN E (k)T Ri (k)MiN E (k) = 0,MiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×X× (A(k) +Bj (k)MjN E (k)), k = k0, . .
. , K − 1,j6=i Θ (K) = −P (K), i = 1, . . . , nii(3.1.3)имела единственное решение {MiN E (k), Θi (k)}, в виде вещественных матрицразмерности r × m и m × m соответственно, где Θi(k) – симметричны длялюбого i ∈ N .Тогда набор стратегийENE{uN(k)x,i (k, x) = Mii = 1, . . .
, n}(3.1.4)будет являться равновесием по Нэшу в игре Γ(k0, x0), при этом выигрышигрока i в равновесии равенJi(k0, x0, uN E ) = −xT0 Θi(k0 )x0,3.1.2i = 1, . . . , n.Парето-оптимальное решениеВ качестве принципа оптимальности в кооперативной игре Γ(k0, x0) будем рассматривать Парето-оптимальное решение.Пусть игроки соглашаются использовать вектор весов α = (α1, . . . , αn ) :nPαi = 1,0 < αi < 1 для нахождения оптимального решения.i=1Тогда (см. [51, 44, 50, 65, 46]) оптимальные стратегии игроков могут бытьполучены как решения следующей задачи максимизации:max(u1 ,...,un )nXαi Ji (k0, x0, u),i=1где движение системы описывается уравнением (3.1.1).(3.1.5)66Обозначим uα (k) = (uα1 (k), .
. . , uαn(k)) – оптимальный набор стратегий игроков:(uα1 , . . . , uαn )И J α (k0, x0, u) =nP= arg max(u1 ,...,un )αi Ji(k0, x0, u), P α (k) =i=1Rα (k) = J (k0, x0, u) =i=1nPαi Ji(k0 , x0, u).αi Pi (k),(3.1.6)k = k0 , . . . , K,i=1α1 R1 (k)O...OТогдаαnXK−1XO...Oα2 R2 (k) .
. .O ,......... O. . . αn Rn (k)k = k0, . . . , K − 1.(xT (k)P α (k)x(k) + u(k)Rα (k)u(k)) + xT (K)P α(K)x(K).k=k0Нахождение(3.1.7)Парето-оптимальногорешениесводитсяклинейно-квадратичной задаче оптимального управления (3.1.1)-(3.1.7) с одним управлением u(k).Согласно [42], cуществует единственный в классе допустимых набор стратегий{uα1 (k) = Miα (k)x,i = 1, . .
. , N },доставляющий максимум J α (k0 , x0, u) где Miα (k) – i-й блок матрицы67M1α (k) α M2 (k) ,{M α (k), Θα(k)} – решение системы матричных уравненийM α (k) = ... Mnα (k)αT αααα(A(k)+B(k)M(k))Θ(k+1)(A(k)+B(k)M(k))−Θ(k)−P(k)−− M α (k)T Rα (k)M α (k) = 0,M α (k) = −(−Rα (k) + B T (k)Θα (k + 1)B(k))−1B T (k)Θα k + 1)A(k),k = 1, . .
. , K − 1, Θα (K) = −P α (K)(3.1.8)в виде вещественных матриц размерности rn × m и m × m соответственно, гдеΘα (k) – симметричны. Здесь B(k) = (B1(k), . . . , Bn (k)).Тогда кооперативную траекторию xα (k) мы можем найти, решив систему:x(k + 1) = A(k)x(k) + B(k)uα(k).(3.1.9)А выигрыши игроков при кооперации:K−1XJiα (k0, x0, uα) =(xα (k))T Pi (k)xα(k) + (uαi(k))T Ri (k)uαi(k) +k=k0+ (xα (K))T Pi (K)xα(K). (3.1.10)3.1.3Динамическая устойчивость Парето-оптимального решенияВ играх с нетрансферабельными выигрышами временная состоятельность решения сводится к выполнению следующих условий (см.
[21] § 8.4):1. Парето-оптимальность решения должна сохраняться в подыграх вдоль кооперативной траектории;2. Должно выполняться условие индивидуальной рациональности на всемпромежутке игры.68Если при нахождении Парето-оптмального решения игроки выбирают один итот же весовой коэффициент α во всей игре, то условие 1 выполняется. Поэтому исследование Парето-оптимального решения на динамическую устойчивостьсводится к проверке выполнения индивидуально рациональности, т.е. условия2.Найдется такой вектор α, что в начале игры Γ(k0, x0) на кооперативнойтраектории xα (k) выполняется условие индивидуальной рациональности дляПарето-оптимального решения [69]:Jiα (k0, x0, uα) ≥ Vi (k0, x0),i = 1, .
. . , n.(3.1.11)Здесь Vi (k0, x0) – выигрыш игрока i в ситуации равновесия по Нэшу в игреΓ(k0, x0).Но в процессе игры может так случиться, что в некоторый момент l, k0 ≤l ≤ K для некоторого игрока i ∈ N условие индивидуальной рациональностине будет выполняться:Jiα (l, xα(l), uα) < Vi (l, xα(l)).(3.1.12)Здесь Vi (l, xα(l)) – выигрыш игрока i в ситуации равновесия по Нэшу вподыгре Γ(l, xα(l)).Для избежания неустойчивости Парето-оптимального решения согласноработам [54, 55, 69], будем пользоваться процедурой распределения выигрыша,построенной специальным образом.Определение 11.
Вектор-функцию β(k) = (β1 (k), . . . , βn (k)), k0 ≤ k ≤ K − 1назовем процедурой распределения выигрыша [54, 55] если,K−1Xk=k0αTα(x (k)) Pi (k)x (k) +(uαi (k))T Ri(k)uαi (k) K−1X=βi(k),k=k0i = 1, . . . , n.69Определение 12. Парето-оптимальное решение называется динамическиустойчивым [54, 55], если существует такая процедура распределения выигрыша β(k), что выполняется условие индивидуальной рациональностиK−1Xβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)),k=l∀l, k0 ≤ l ≤ K,i = 1, . . . , n, (3.1.13)где Vi (l, xα(l)) – выигрыш игрока i в ситуации равновесия по Нэшу в подыгреΓ(l, xα(l)).
А такая процедура распределения выигрыша называется состоятельной во времени.В работе [69] была предложена процедура распределения выигрыша длядифференциальных игр с нетрансферабельными выигрышами, которая позволяет избежать неустойчивость Парето-оптимального решения. Приведем аналог этой процедуры для рассматриваемого класса игр.Теорема 10. Если для некоторого Парето-оптимального решения выполняетсяJiα (k0 , x0, uα ) ≥ Vi (k0, x0),i = 1, . . . , n,то процедура распределения выигрыша β(k) видаJiα (k0, x0, uα) − Vi (k0, x0)βi(k) =− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))K − 1 − k0i = 1, .
. . , n,k = 1, . . . , K − 1 (3.1.14)гарантирует выполнение условия индивидуальной рациональности этогоПарето-оптимального решения вдоль всей кооперативной траектории, т.е.выполняетсяK−1Xβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)),k=l∀l, k0 ≤ l ≤ K,i = 1, . . . , n. (3.1.15)70Доказательство.
Покажем сначала, что β(k) действительно является процедурой распределения выигрыша:K−1Xβi (k) =k=k0K−1Xk=k0Jiα (k0, x0, uα) − Vi (k0, x0)− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))K − 1 − k0!== Jiα (k0, x0, uα ) − Vi (k0, x0) − Vi (K, xα(K)) + Vi (k0, x0) =K−1X=(xα(k))T Pi (k)xα(k) + (uαi (k))T Ri (k)uαi(k) +k=k0+ (xα (K))T Pi (K)xα(K) − (xα(K))T Pi (K)xα(K) =K−1X=(xα(k))T Pi (k)xα(k) + (uαi (k))T Ri (k)uαi(k) . (3.1.16)k=k0Значит β(k) удовлетворяет определению 11.Покажем теперь выполнение условия индивидуальной рациональности. Согласно (3.1.14)K−1Xβi (k) =k=lK−1Xk=l=Jiα (k0, x0, uα)− Vi (k0, x0)− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))K − 1 − k0!=K − l − k0 α(J (k0, x0, uα ) − Vi(k0 , x0)) − Vi (K, xα(K)) + Vi (l, xα(l)).
(3.1.17)K − 1 − k0 iЗаметим, что в (3.1.17)K − l − k0 α(Ji (k0, x0, uα ) − Vi (k0, x0)) ≥ 0,K − 1 − k0−Vi (K, xα(K)) = −(xα (K))T Pi (K)xα(K) ≥ 0,в силу теоремы 9 и отрицательной определенности матриц Pi (K).71ТогдаK − l − k0 α(Ji (k0, x0, uα) − Vi (k0, x0)) − Vi (K, xα(K)) + Vi (l, xα(l)) ≥K − 1 − k0≥ Vi (l, xα(l)),т.е.K−1Xβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)),k=l∀l, k0 ≤ l ≤ K,i = 1, . . . , n,что и требовалось доказать.3.1.4Условие устойчивости Парето-оптимального решения противиррационального поведения игроковРассмотрим ещё один важный аспект устойчивости – условие устойчивости против иррационального поведения игроков [66].
Для дифференциальных игр снетрансферабельными выигрышами это условие рассмотрено в работе [40].Определение 13. Оптимальное по Парето решение (J1α (k0, x0, uα ), . . . ,Jnα (k0, x0, uα)) удовлетворяет условию устойчивости против иррациональногоповедения игроков [66] в игре Γ(k0, x0), если выполнено неравенствоlXβi (k) + Vi (l + 1, xα(l + 1)) ≥ Vi (k0, x0),i = 1, . . . , n(3.1.18)k=k0при любом k0 ≤ l ≤ K − 1, где β(k) = (β1 (k), . . .
, βn (k)) состоятельная вовремени процедура распределения выигрыша (J1α (k0, x0, uα ), . . . , Jnα (k0, x0, uα )).Тогда для выполнения условия (3.1.18) достаточно, чтобы для любого i =1, . . . , n выполнялосьβi (k) + Vi (k + 1, xα (k + 1)) − Vi (k, xα(k)) ≥ 0,k0 ≤ k ≤ K − 1.72Согласно системе (3.1.8) и теореме 9 можно переписать это условие в виде:βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!Θi (k) xα (k) ≥ 0,k0 ≤ k ≤ K − 1. (3.1.19)Заметим также, что при вычислении процедуры распределения выигрышапо формуле (3.1.14) достаточное условие (3.1.19) выполняется всегда.Действительно, если βi (k) =Jiα (k0 ,x0 ,uα )−Vi (k0 ,x0 )K−1−k0− Vi (k + 1, xα(k + 1)) +Vi (k, xα(k)), тоβi (k) + Vi (k + 1, xα(k + 1)) − Vi (k, xα(k)) =гдеJiα (k0 ,x0 ,uα )−Vi (k0 ,x0 )K−1−k0Jiα (k0, x0, uα ) − Vi (k0, x0),K − 1 − k0≥ 0 для любого i = 1, .
. . , n.Сформулируем полученные результаты.Теорема 11. В линейно-квадратичных дискретных играх с нетрансферабельными выигрышами с предписанной продолжительностью условие устойчивости против иррационального поведения игроков выполнено для любого Паретоотимального решения, состоятельная во времени процедура распределениявыигрыша β(k) которого удовлетворяет неравенствам:βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!− Θi (k) xα (k) ≥ 0,k0 ≤ k ≤ K − 1.
(3.1.20)Здесь M α (k) – решение системы (3.1.8), Θi (k) – решение системы (3.1.3),xα (k) – кооперативная траектория.Утверждение 3. Если для некоторого Парето-оптимального решения влинейно-квадратичных дискретных играх с нетрансферабельными выигрышами с предписанной продолжительностью выполняетсяJiα (k0 , x0, uα ) ≥ Vi (k0, x0),i = 1, . . .
, n,73и процедура распределения выигрыша β(k) вычисляется по формуле (3.1.14),то условие условие устойчивости против иррационального поведения игроковвыполнено для этого Парето-отимального решения.3.2Линейно-квадратичные дискретные игрыс нетрансферабельными выигрышами с бесконечнойпродолжительностьюРассмотрим дискретную линейно-квадратичную неантагонистическую игру nлиц, состояние которой в каждый момент времени задается вектором x(k), изменяющимся согласно системе уравненийx(k + 1) =A(k)x(k) +nXBi (k)ui(k),i=1k ≥ k0 ,k0 ∈ T+ ,(3.2.1)x(k0) = x0,где x ∈ Rm – вектор-столбец, ui ∈ Rr – вектор-столбец управления игрока i,i = 1, .