Диссертация (1149192), страница 9

Файл №1149192 Диссертация (Кооперация в дискретных линейно-квадратичных играх) 9 страницаДиссертация (1149192) страница 92019-06-292019-06-29СтудИзба

Кооперация в дискретных линейно-квадратичных играх

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 9)

[39] Для того чтобы в игре Γ(k0, x0) существовало единственноев классе допустимых равновесие по Нэшу необходимо и достаточно, чтобы65cистема матричных уравненийnnXXNET(A(k) +Bi(k)Mi (k)) Θi (k + 1)(A(k) +Bi (k)MiN E (k))−i=1i=1− Θi (k) − Pi (k) − MiN E (k)T Ri (k)MiN E (k) = 0,MiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×X× (A(k) +Bj (k)MjN E (k)), k = k0, . .

. , K − 1,j6=i Θ (K) = −P (K), i = 1, . . . , nii(3.1.3)имела единственное решение {MiN E (k), Θi (k)}, в виде вещественных матрицразмерности r × m и m × m соответственно, где Θi(k) – симметричны длялюбого i ∈ N .Тогда набор стратегийENE{uN(k)x,i (k, x) = Mii = 1, . . .

, n}(3.1.4)будет являться равновесием по Нэшу в игре Γ(k0, x0), при этом выигрышигрока i в равновесии равенJi(k0, x0, uN E ) = −xT0 Θi(k0 )x0,3.1.2i = 1, . . . , n.Парето-оптимальное решениеВ качестве принципа оптимальности в кооперативной игре Γ(k0, x0) будем рассматривать Парето-оптимальное решение.Пусть игроки соглашаются использовать вектор весов α = (α1, . . . , αn ) :nPαi = 1,0 < αi < 1 для нахождения оптимального решения.i=1Тогда (см. [51, 44, 50, 65, 46]) оптимальные стратегии игроков могут бытьполучены как решения следующей задачи максимизации:max(u1 ,...,un )nXαi Ji (k0, x0, u),i=1где движение системы описывается уравнением (3.1.1).(3.1.5)66Обозначим uα (k) = (uα1 (k), .

. . , uαn(k)) – оптимальный набор стратегий игроков:(uα1 , . . . , uαn )И J α (k0, x0, u) =nP= arg max(u1 ,...,un )αi Ji(k0, x0, u), P α (k) =i=1Rα (k) = J (k0, x0, u) =i=1nPαi Ji(k0 , x0, u).αi Pi (k),(3.1.6)k = k0 , . . . , K,i=1α1 R1 (k)O...OТогдаαnXK−1XO...Oα2 R2 (k) .

. .O ,......... O. . . αn Rn (k)k = k0, . . . , K − 1.(xT (k)P α (k)x(k) + u(k)Rα (k)u(k)) + xT (K)P α(K)x(K).k=k0Нахождение(3.1.7)Парето-оптимальногорешениесводитсяклинейно-квадратичной задаче оптимального управления (3.1.1)-(3.1.7) с одним управлением u(k).Согласно [42], cуществует единственный в классе допустимых набор стратегий{uα1 (k) = Miα (k)x,i = 1, . .

. , N },доставляющий максимум J α (k0 , x0, u) где Miα (k) – i-й блок матрицы67M1α (k) α M2 (k) ,{M α (k), Θα(k)} – решение системы матричных уравненийM α (k) =  ... Mnα (k)αT αααα(A(k)+B(k)M(k))Θ(k+1)(A(k)+B(k)M(k))−Θ(k)−P(k)−− M α (k)T Rα (k)M α (k) = 0,M α (k) = −(−Rα (k) + B T (k)Θα (k + 1)B(k))−1B T (k)Θα k + 1)A(k),k = 1, . .

. , K − 1, Θα (K) = −P α (K)(3.1.8)в виде вещественных матриц размерности rn × m и m × m соответственно, гдеΘα (k) – симметричны. Здесь B(k) = (B1(k), . . . , Bn (k)).Тогда кооперативную траекторию xα (k) мы можем найти, решив систему:x(k + 1) = A(k)x(k) + B(k)uα(k).(3.1.9)А выигрыши игроков при кооперации:K−1XJiα (k0, x0, uα) =(xα (k))T Pi (k)xα(k) + (uαi(k))T Ri (k)uαi(k) +k=k0+ (xα (K))T Pi (K)xα(K). (3.1.10)3.1.3Динамическая устойчивость Парето-оптимального решенияВ играх с нетрансферабельными выигрышами временная состоятельность решения сводится к выполнению следующих условий (см.

[21] § 8.4):1. Парето-оптимальность решения должна сохраняться в подыграх вдоль кооперативной траектории;2. Должно выполняться условие индивидуальной рациональности на всемпромежутке игры.68Если при нахождении Парето-оптмального решения игроки выбирают один итот же весовой коэффициент α во всей игре, то условие 1 выполняется. Поэтому исследование Парето-оптимального решения на динамическую устойчивостьсводится к проверке выполнения индивидуально рациональности, т.е. условия2.Найдется такой вектор α, что в начале игры Γ(k0, x0) на кооперативнойтраектории xα (k) выполняется условие индивидуальной рациональности дляПарето-оптимального решения [69]:Jiα (k0, x0, uα) ≥ Vi (k0, x0),i = 1, .

. . , n.(3.1.11)Здесь Vi (k0, x0) – выигрыш игрока i в ситуации равновесия по Нэшу в игреΓ(k0, x0).Но в процессе игры может так случиться, что в некоторый момент l, k0 ≤l ≤ K для некоторого игрока i ∈ N условие индивидуальной рациональностине будет выполняться:Jiα (l, xα(l), uα) < Vi (l, xα(l)).(3.1.12)Здесь Vi (l, xα(l)) – выигрыш игрока i в ситуации равновесия по Нэшу вподыгре Γ(l, xα(l)).Для избежания неустойчивости Парето-оптимального решения согласноработам [54, 55, 69], будем пользоваться процедурой распределения выигрыша,построенной специальным образом.Определение 11.

Вектор-функцию β(k) = (β1 (k), . . . , βn (k)), k0 ≤ k ≤ K − 1назовем процедурой распределения выигрыша [54, 55] если,K−1Xk=k0αTα(x (k)) Pi (k)x (k) +(uαi (k))T Ri(k)uαi (k) K−1X=βi(k),k=k0i = 1, . . . , n.69Определение 12. Парето-оптимальное решение называется динамическиустойчивым [54, 55], если существует такая процедура распределения выигрыша β(k), что выполняется условие индивидуальной рациональностиK−1Xβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)),k=l∀l, k0 ≤ l ≤ K,i = 1, . . . , n, (3.1.13)где Vi (l, xα(l)) – выигрыш игрока i в ситуации равновесия по Нэшу в подыгреΓ(l, xα(l)).

А такая процедура распределения выигрыша называется состоятельной во времени.В работе [69] была предложена процедура распределения выигрыша длядифференциальных игр с нетрансферабельными выигрышами, которая позволяет избежать неустойчивость Парето-оптимального решения. Приведем аналог этой процедуры для рассматриваемого класса игр.Теорема 10. Если для некоторого Парето-оптимального решения выполняетсяJiα (k0 , x0, uα ) ≥ Vi (k0, x0),i = 1, . . . , n,то процедура распределения выигрыша β(k) видаJiα (k0, x0, uα) − Vi (k0, x0)βi(k) =− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))K − 1 − k0i = 1, .

. . , n,k = 1, . . . , K − 1 (3.1.14)гарантирует выполнение условия индивидуальной рациональности этогоПарето-оптимального решения вдоль всей кооперативной траектории, т.е.выполняетсяK−1Xβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)),k=l∀l, k0 ≤ l ≤ K,i = 1, . . . , n. (3.1.15)70Доказательство.

Покажем сначала, что β(k) действительно является процедурой распределения выигрыша:K−1Xβi (k) =k=k0K−1Xk=k0Jiα (k0, x0, uα) − Vi (k0, x0)− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))K − 1 − k0!== Jiα (k0, x0, uα ) − Vi (k0, x0) − Vi (K, xα(K)) + Vi (k0, x0) =K−1X=(xα(k))T Pi (k)xα(k) + (uαi (k))T Ri (k)uαi(k) +k=k0+ (xα (K))T Pi (K)xα(K) − (xα(K))T Pi (K)xα(K) =K−1X=(xα(k))T Pi (k)xα(k) + (uαi (k))T Ri (k)uαi(k) . (3.1.16)k=k0Значит β(k) удовлетворяет определению 11.Покажем теперь выполнение условия индивидуальной рациональности. Согласно (3.1.14)K−1Xβi (k) =k=lK−1Xk=l=Jiα (k0, x0, uα)− Vi (k0, x0)− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))K − 1 − k0!=K − l − k0 α(J (k0, x0, uα ) − Vi(k0 , x0)) − Vi (K, xα(K)) + Vi (l, xα(l)).

(3.1.17)K − 1 − k0 iЗаметим, что в (3.1.17)K − l − k0 α(Ji (k0, x0, uα ) − Vi (k0, x0)) ≥ 0,K − 1 − k0−Vi (K, xα(K)) = −(xα (K))T Pi (K)xα(K) ≥ 0,в силу теоремы 9 и отрицательной определенности матриц Pi (K).71ТогдаK − l − k0 α(Ji (k0, x0, uα) − Vi (k0, x0)) − Vi (K, xα(K)) + Vi (l, xα(l)) ≥K − 1 − k0≥ Vi (l, xα(l)),т.е.K−1Xβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)),k=l∀l, k0 ≤ l ≤ K,i = 1, . . . , n,что и требовалось доказать.3.1.4Условие устойчивости Парето-оптимального решения противиррационального поведения игроковРассмотрим ещё один важный аспект устойчивости – условие устойчивости против иррационального поведения игроков [66].

Для дифференциальных игр снетрансферабельными выигрышами это условие рассмотрено в работе [40].Определение 13. Оптимальное по Парето решение (J1α (k0, x0, uα ), . . . ,Jnα (k0, x0, uα)) удовлетворяет условию устойчивости против иррациональногоповедения игроков [66] в игре Γ(k0, x0), если выполнено неравенствоlXβi (k) + Vi (l + 1, xα(l + 1)) ≥ Vi (k0, x0),i = 1, . . . , n(3.1.18)k=k0при любом k0 ≤ l ≤ K − 1, где β(k) = (β1 (k), . . .

, βn (k)) состоятельная вовремени процедура распределения выигрыша (J1α (k0, x0, uα ), . . . , Jnα (k0, x0, uα )).Тогда для выполнения условия (3.1.18) достаточно, чтобы для любого i =1, . . . , n выполнялосьβi (k) + Vi (k + 1, xα (k + 1)) − Vi (k, xα(k)) ≥ 0,k0 ≤ k ≤ K − 1.72Согласно системе (3.1.8) и теореме 9 можно переписать это условие в виде:βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!Θi (k) xα (k) ≥ 0,k0 ≤ k ≤ K − 1. (3.1.19)Заметим также, что при вычислении процедуры распределения выигрышапо формуле (3.1.14) достаточное условие (3.1.19) выполняется всегда.Действительно, если βi (k) =Jiα (k0 ,x0 ,uα )−Vi (k0 ,x0 )K−1−k0− Vi (k + 1, xα(k + 1)) +Vi (k, xα(k)), тоβi (k) + Vi (k + 1, xα(k + 1)) − Vi (k, xα(k)) =гдеJiα (k0 ,x0 ,uα )−Vi (k0 ,x0 )K−1−k0Jiα (k0, x0, uα ) − Vi (k0, x0),K − 1 − k0≥ 0 для любого i = 1, .

. . , n.Сформулируем полученные результаты.Теорема 11. В линейно-квадратичных дискретных играх с нетрансферабельными выигрышами с предписанной продолжительностью условие устойчивости против иррационального поведения игроков выполнено для любого Паретоотимального решения, состоятельная во времени процедура распределениявыигрыша β(k) которого удовлетворяет неравенствам:βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!− Θi (k) xα (k) ≥ 0,k0 ≤ k ≤ K − 1.

(3.1.20)Здесь M α (k) – решение системы (3.1.8), Θi (k) – решение системы (3.1.3),xα (k) – кооперативная траектория.Утверждение 3. Если для некоторого Парето-оптимального решения влинейно-квадратичных дискретных играх с нетрансферабельными выигрышами с предписанной продолжительностью выполняетсяJiα (k0 , x0, uα ) ≥ Vi (k0, x0),i = 1, . . .

, n,73и процедура распределения выигрыша β(k) вычисляется по формуле (3.1.14),то условие условие устойчивости против иррационального поведения игроковвыполнено для этого Парето-отимального решения.3.2Линейно-квадратичные дискретные игрыс нетрансферабельными выигрышами с бесконечнойпродолжительностьюРассмотрим дискретную линейно-квадратичную неантагонистическую игру nлиц, состояние которой в каждый момент времени задается вектором x(k), изменяющимся согласно системе уравненийx(k + 1) =A(k)x(k) +nXBi (k)ui(k),i=1k ≥ k0 ,k0 ∈ T+ ,(3.2.1)x(k0) = x0,где x ∈ Rm – вектор-столбец, ui ∈ Rr – вектор-столбец управления игрока i,i = 1, .

Характеристики

Тип файла

PDF-файл

Размер

455,7 Kb

Материал

Кооперация в дискретных линейно-квадратичных играх

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

kooperacija-v-diskretnyh-linejno-kvadratichnyh-igrah.rar

Кооперация в дискретных линейно-квадратичных играх

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.