Диссертация (1149192), страница 5

Файл №1149192 Диссертация (Кооперация в дискретных линейно-квадратичных играх) 5 страницаДиссертация (1149192) страница 52019-06-292019-06-29СтудИзба

Кооперация в дискретных линейно-квадратичных играх

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

Дележ ϕ(k0, x0) = (ϕ1(k0, x0), . . . , ϕn(k0, x0)) удовлетворяетусловию устойчивости против иррационального поведения игроков [66], есливыполнено неравенствоlXβi (k) + v(i, x∗(l + 1)) ≥ v(i, x0),i = 1, . . . , n(1.2.5)k=k0при любом l ≥ k0, где β(k) = (β1 (k), . . . , βn (k)) состоятельная во времениПРД, соответствующая дележу ϕ(k0, x0).29Интерпретировать (1.2.5) можно следующим образом: до момента l + 1игроки образуют максимальную коалицию и используют стратегии, максимизирующие суммарный выигрыш, получают при этом "накопленные выигрыши"lPβi (k) согласно ПРД β(k).

В момент l + 1 происходит распад максимальнойk=k0коалиции, и в подыгре Γ(l + 1, x∗(l + 1)) игрок i, играя индивидуально, получа-ет выигрыш v(i, x∗(l + 1)). Таким образом, условие (1.2.5) гарантируют, что вслучае распада максимальной коалиции в некоторый момент времени, игрокиполучат не меньше, чем если бы играли индивидуально изначально.Выведем достаточное условие устойчивости против иррационального поведения игроков в линейно-квадратичных дискретных играх. Заметим, чтоlX∗βi (k) + v(i, x (l + 1)) − v(i, x0) =k=k0lX(βi(k) + v(i, x∗(k + 1)) − v(i, x∗(k))).k=k0Тогда для выполнения условия достаточно, чтобыβi (k) + v(i, x∗(k + 1)) − v(i, x∗(k)) ≥ 0 i = 1, .

. . , n,k ≥ k0 .В разделе 1.3.2 было показано, что в линейно-квадратичной дискретной игреv(i, x∗(k)) можно определить по следующему правилуv(i, x∗(k)) = −x∗T (k)Θ∗i (k)x∗(k),где Θ∗i (k) – решение системы матричных уравненийX(A(k)+Bj (k)MjN E (k) + Bi (k)Mi∗(k))T Θ∗i (k + 1)(A(k)+j∈N,j6=iX+Bj (k)MjN E (k) + Bi (k)Mi∗(k)) − Θ∗i (k) − Pi (k)− j∈N,j6=i− Mi∗ (k)T RS (k)Mi∗(k) = 0,Mi∗ (k) = −(−RS (k) + BST (k)Θ∗i (k + 1)BS (k))−1BST (k)Θ∗i (k + 1)×X× (A(k) +Bj (k)MjN E (k)).j∈N,j6=i(1.2.6)30Тогдаβi(k) + v(i, k + 1) − v(i, k) = βi (k) + x∗T (k)Θ∗i (k)x∗(k)−− x∗T (k + 1)Θ∗i (k + 1)x∗(k + 1) = βi (k) + x∗T (k)(Θ∗i (k)−− (A(k) +nXBj (k)MiN )T Θ∗i (k+ 1)(A(k) +i=1nXBj (k)MiN ))x∗(k),i=1NM (k) 1 N M2 (k) согласно разделу 4.1 находятся из системы:где MN (k) =  ...

NMn (k)(A(k) + BN (k)MN (k))T ΘN (k + 1)(A(k) + BN (k)MN (k))−− ΘN (k) − PN (k) − M N (k)T RN (k)M N (k) = 0, M (k) = −(−R (k) + B T (k)Θ (k + 1)B (k))−1B T (k)Θ (k + 1)A(k).NNNNNNN(1.2.7)Получаем, что еслиβi(k) + x∗T(k)(Θ∗i (k)− (A(k) +nXBj (k)MiN )T Θ∗i (k + 1)(A(k)+i=1+nXBj (k)MiN ))x∗(k) ≥ 0i=1выполнено для всех i = 1, . . . , n и при всех k ≥ k0, то дележ будет удовлетворятьусловию устойчивости против иррационального поведения игроков.

Сформулируем полученный результат в виде утверждения.Утверждение 1. Для того чтобы в линейно-квадратичной дискретной игре сбесконечной продолжительностью дележ был устойчив против иррационального поведения игроков достаточно, чтобы для любого i ∈ N выполнялось:nX∗T∗βi(k) + x (k)(Θi (k) − (A(k) +Bj (k)MiN )T Θ∗i (k + 1)(A(k)+i=1+nXi=1Bj (k)MiN ))x∗(k) ≥ 0,k ≥ k0 ,31где Θ∗i (k) – решение системы (1.2.7), MiN (k) – решение системы (1.2.6), x∗(k)– оптимальная кооперативная траектория, β(k) – состоятельная во временипроцедура распределения этого дележа.1.2.3Условие устойчивости против иррационального поведенияигроков в играх с неполной информациейБудем предполагать, что Γ(k0, x0) – игра с неполной информацией, т.е.

еслив момент (k, x∗(k)) кто-то из игроков ведет себя иррационально и происходитраспад максимальной коалиции, то остальные игроки узнают об этом толькона шаге k + 1. Пусть wi(k, x(k), ui(k)) = xT (k)Pi(k)x(k) + uTi (k)Ri(k)ui(k).Определение 6. Дележ ϕ(k0, x0) = (ϕ1(k0, x0), . . . , ϕn(k0, x0)) удовлетворяетусловию устойчивости против иррационального поведения игроков [66] в игреΓ(k0, x0) с неполной информацией, если неравенстваlXβi (k) + wi (l + 1, x∗(l + 1), uNi (l + 1))+k=k0+ min v(i, x(l + 2)) ≥ v(i, x0),uN \i (l+1)i = 1, .

. . , n (1.2.8)выполнены при любом l ≥ k0, где β(k) = (β1 (k), . . . , βn (k)) состоятельная вовремени ПРД, соответствующая дележу ϕ(k0, x0).Интерпретировать это условие можно следующим образом: до момента l+1игроки образуют максимальную коалицию, используя стратегии, максимизирующие суммарный выигрыш, и получают при этом "накопленные выигрыши"lPβi (k) согласно ПРД β(k). В момент l + 1 происходит распад максимальнойk=k0коалиции, но игроку i на шаге l + 1 об этом неизвестно и он продолжает исполь-∗Nзовать управление uNi , получая на этом шаге выигрыш wi (l + 1, x (l + 1), ui (l +1)), в то время как остальные игроки могут использовать произвольный наборстратегий uN \i из класса допустимых.

Далее в подыгре Γ(l + 2, x(l + 2)) игрок32i, играя индивидуально, гарантирует себе выигрышmin v(i, x(l + 2)), здесьuN \i (l+1)x(l + 2) = A(l + 1)x∗(l + 1) + Bi(l + 1)uNi (l + 1) +XBj (l + 1)uj (l + 1).j∈N \iТаким образом, если это условие выполняется, то даже в случае распада максимальной коалиции в некоторый момент l + 1, игроки получат не меньше, чемесли бы играли индивидуально изначально.Пусть Θ∗i (k) – решение системы (1.2.7), MiN (k) – решение системы (1.2.6)тогда, условие устойчивости против иррациональности игроков принимает видlXβi (k) + x∗T (l + 1)(Pi(k) + (MiN (l + 1))T Ri (l + 1)MiN (l + 1))x∗(l + 1)−k=k0− max xT (l + 2)Θ∗i (l + 2)x(l + 2) ≥ −xT0 Θ∗i (k0)x0 (1.2.9)uN \i (l+1)1.2.4Пропорциональное решениеРассмотрим ещё одно кооперативное решение игры, при построении которого не требуется вычислять все значения характеристической функции. Как иранее, предполагаем, что игроки действуют совместно с целью максимизациисуммарного выигрыша:NJ (k0, x0, u(k)) =NXJi (k0, x0, u(k)).i=1Пусть набор стратегий uN=NN(uN1 , .

. . , un ), где ui (k)i = 1, . . . , n, доставляет максимум J N (k0, x0, u(k)), т.е.uN = arg max J N (k0, x0, u(k)).ui ,i=1,...,n=MiN (k)x(k),33M1N (k) N M2 (k) из системыТогда согласно теореме 2 можем найти MN (k) =  ... MnN (k)(A(k) + BN (k)MN (k))T ΘN (k + 1)(A(k) + BN (k)MN (k))−− ΘN (k) − PN (k) − M N (k)T RN (k)M N (k) = 0, M (k) = −(−R (k) + B T (k)Θ (k + 1)B (k))−1B T (k)Θ (k + 1)A(k).NNNNNNNПри этомJ N (k0, x0, uN (k)) = −xT0 ΘN (k0)x0.Пусть upri – стратегия игрока i, максимизирующая его выигрыш при условии,что остальные игроки используют стратегии uNj , т.е.Nupri = arg max Ji (u /ui ), i = 1, . .

. , n.uiprМожем найти управление upri согласно теореме 2. Mi (k) будем искать какрешение системыXBj (k)MjN (k) + Bi(k)Mipr )T Θi,pr (k + 1)(A(k)+(A(k)+j∈N,j6=iX+Bj (k)MjN (k)Bi(k)Mipr ) − Θi,pr (k) − Pi (k)− j∈N,j6=i− Mipr (k)T Ri (k)Mipr (k) = 0,Mipr (k) = −(−Ri(k) + BiT (k)Θi,pr (k + 1)Bi(k))−1BiT (k)Θi,pr (k + 1)×X×(A(k)+Bj (k)MjN (k)), i ∈ N.j∈N,j6=iПри этомTJi(k0, x0, uN /upri ) = −x0 Θi,pr (k0 )x0 .Введем обозначенияλi = Ji(k0, x0, uN /upri ),i = 1, . .

. , n,34Λ=nXλi .i=1Векторαpr = (α1pr , ..., αnpr )будем называть пропорциональным решением диcкретной игры [59], еслиαiprop =λi NJ (k0, x0, uN ).Λ.1.3Решение дискретной игры с выигрышами игроков,содержащими перекрестные слагаемыеРассмотрим теперь некоторое обобщение исходной модели. Пусть выигрышиигроков имеют видJi(k0, x0, u) =∞X(xT (k)Pi(k)x(k) + 2uTi (k)Qi(k)x(k) + uTi (k)Ri(k)ui(k)),k=k0i = 1, .

. . , n. (1.3.1)Слагаемые вида uTi (k)Qi(k)x(k) будем называть перекрестными.Обозначим черезhi (k, x(k), u(k)) = xT (k)Pi(k)x(k) + 2uTi (k)Qi(k)x(k) + uTi (k)Ri(k)ui(k).Сделаем замену переменныхui = ui + Lix,i = 1, . . . , n(1.3.2)При этом Li будем выбирать так, чтобы после замены переменных коэффициенты при перекрестных слагаемых стали нулевыми (см., например, [12]).hi (k, x(k), u(k)) = xT (k)Pi(k)x(k) + 2(ui + Lix)T Qi(k)x(k) + (ui + Lix)T ×× Ri (k)(ui + Lix) = xT (k)(Pi(k) + 2LTi Qi + LTi Ri Li)x(k) + 2ui(Qi(k)++ Ri Li)x(k) + ui Ri (k)ui .35Тогда, если Li = −Ri−1Qi, тоhi (k, x(k), u(k)) = xT (k)(Pi(k) − QTi (Ri−1)T Qi )x(k) + uiRi (k)ui .Система (1) после замене переменных (1.3.2) принимает видx(k + 1) = (A(k) −nXBi Ri−1Qi)x(k)i=1Выигрыши игроковJi =∞X+nXBi ui .(1.3.3)i=1(xT (k)(Pi(k) − QTi (Ri−1)T Qi)x(k) + uTi (k)Ri(k)ui(k)),i = 1, .

. . , n.k=k0(1.3.4)Тогда для системы (1.3.3) c функционалами (1.3.4) можно переформулироватьтеоремы 1,2.Теорема 4. Для того чтобы в игре Γ(k0, x0) существовало единственное вклассе допустимых равновесие по Нэшу необходимо и достаточно, чтобы система матричных уравненийnnXX−1(A(k) −BiRi Qi +Bi(k)MiN E (k))T ×i=1i=1nnXX−1× Θi(k + 1)(A(k) −Bi Ri Qi +Bi (k)MiN E (k))−i=1i=1− Θi(k) − Pi (k) + QTi (Ri−1)T Qi − MiN E (k)T Ri (k)MiN E (k) = 0,MiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×nXX−1×(A(k)−BRQ+Bj (k)MjN E (k)), i = 1, .

. . , ni iii=1j6=iимела единственное решение {MiN E (k), Θi (k)} ∈ Z(T+), в виде вещественных,ограниченных матриц размерности r × m и m × m соответственно, где Θi(k)– симметричны для любого i ∈ N , для которого выполняется:1. Набор стратегийE{uN= MiN E (k)x(k),ii = 1, . . . , n}(1.3.5)36допустимым в смысле определения 1.2. (−Ri (k) + BiT (k)Θi(k + 1)Bi(k)) ∈ Q+(T+ ),i = 1, .

. . , n.Тогда набор стратегий (1.3.5) будет являться равновесием по Нэшу в игреΓ(k0, x0), при этом выигрыш игрока i в равновесии равенJi(k0, x0, uN E ) = −xT0 Θi(k0 )x0,i = 1, . . . , n.Теорема 5. Для того чтобы существовал единственный набор стратегий{u0i = Mi0 (k)x,i ∈ S},доставляющий максимум J S (k0, x0, u) при фиксированном наборе стратегий{ūj = M̄j (k)x,j∈/ S}необходимо и достаточно, чтобы:1. Система матричных уравненийnXX−1(A(k)−BRQ+Bj (k)M̄j (k) + BS (k)MS0 (k))T ×i iii=1j ∈S/nXX−1×Θ(k+1)(A(k)−BRQ+Bj (k)M̄j (k) + BS (k)MS0 (k))−Si iii=1j ∈S/X− ΘS (k) −(Pi (k) − QTi (Ri−1)T Qi ) − MS0 (k)T RS (k)MS0 (k) = 0,i∈SMS0 (k) = −(−RS (k) + BST (k)ΘS (k + 1)BS (k))−1BST (k)ΘS (k + 1)×nXX−1× (A(k) −Bi Ri Qi +Bj (k)M̄j (k))i=1j ∈S/была разрешима относительно {MS0 (k), ΘS (k)}, в виде вещественных, ограниченных матриц размерности rs × m и m × m соответственно, гдеΘS (k) – симметрична.2.

Набор стратегийu0(k) = {ūj = M̄j (k)x,j∈/ S,u0i = Mi0 (k)x(k),i ∈ S},(1.3.6)37Mi01 (k) 0 Mi2 (k), был бы допустимымгде Mi0 (k) – i-й блок матрицы MS0 (k) =  ... Mi0s (k)в смысле определения 1.3. (−RS (k) + BST (k)ΘS (k + 1)BS (k)) ∈ Q+(T+ ).Тогда набор стратегий (1.3.6) доставляет максимум J S (k0, x0, u) иJ S (k0, x0, u0) = −xT0 ΘS (k0)x0.1.4Пример. Планирование производства в условиях конкуренцииРассмотрим пример планирования производства в условиях конкуренции. Решение данного примера для случае непрерывного времени можно найти в [49].Предполагаем, что функция спроса имеет вид:g(k) = a − [q1(k) + q2 (k)],(1.4.1)где a – положительная постоянная и qi(k), i ∈ {1, 2} – скорость роста производства фирмы i.

Характеристики

Тип файла

PDF-файл

Размер

455,7 Kb

Материал

Кооперация в дискретных линейно-квадратичных играх

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

kooperacija-v-diskretnyh-linejno-kvadratichnyh-igrah.rar

Кооперация в дискретных линейно-квадратичных играх

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.