Автореферат (Кооперация в дискретных линейно-квадратичных играх), страница 2
Описание файла
Файл "Автореферат" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
, n} является равновесием по Нэшу,то выигрыш игрока i в равновесии равен Ji(k0, x0, uN E ) = −xT0 Θi (k0)x0,i=1, . . . , n, где MiN E , Θi (k) – решение соответствующих матричных уравнений.В § 1.2 строится характеристическая функция для рассматриваемого класса игр по правилу v(S, x0) = max J S (k0, x0, uN E /uS ). Здесь S ⊂ui ,i∈S4Basar T. and Olsder G.J. Dynamic Noncooperative Game Theory, 2nd edition, Classics in Applied Mathematics,SIAM, Philadelphia, 1999.
536 p.8N,J S (k0, x0, u) =PJi (k0, x0, u),где u = (u1, . . . , un), (uN E /uS ) =i∈SE{uNj ,j∈/ S,ui, i ∈ S}. Предполагается, что игроки из коалиции S использу-ют стратегии, которые являются наилучшим ответом на некоторое фиксированное равновесие по Нэшу в игре Γ(k0, x0). Идея построения характеристическойфункции в такой форме была предложена Л.А. Петросяном и Д. Заккуром5.Формулируется теорема о существовании набора стратегий, доставляющего максимум произвольной сумме функционалов, которая используется припостроении характеристической функции.
Согласно этой теореме получаем значения характеристической функции v(S, x0) = −xT0 Θ∗S (k0)x0, где Θ∗S (k) – решение соответствующей системы матричных уравнений.NПусть набор стратегий {uNi = Mi (k)x,i = 1, . . . , n} доставляет мак-симум J N (k0, x0, u), тогда J N (k0 , x0, uN ) = −xT0 ΘN (k0)x0..Траекторию x∗(k), которая реализуется при замыкании системы (1) набором стратегий uN , будем называть оптимальной.В данном параграфе также исследуется вопрос динамической устойчивости полученных кооперативных решений.Пусть C(k0, x0) – множество дележей в игре Γ(k0, x0). M(k0 , x0) ⊂C(k0, x0) – кооперативный принцип оптимальности в этой игре. Γ(k, x∗(k))подыгра игры Γ(k0, x0), которая начинается в момент времени k из состоянияx∗(k).
В этой подыгре введем характеристическую функцию v(S, x∗(k)) такимже образом, как она была введена в игре Γ(k0, x0). Пусть C(x∗(k)) – множестводележей подыгры. Обозначим через M(x∗ (k)) ⊂ C(x∗(k)) принцип оптимальности M ⊂ C, реализуемый в подыгре Γ(k, x∗(k)).Определение 2.
Пусть ϕ(k0, x0) ∈ M, тогда вектор-функцию β(k) =(β1(k), . . . , βn(k)), k ≥ k0 назовем процедурой распределения дележа (ПРД)6,7∞Pесли ϕi (k0, x0) =βi (k), i = 1, . . . , n.k=k05Leon Petrosian, Georges Zaccour. Time-consistent Shapley value allocation of pollution cost reduction //Journal of Economic Dynamic and Control, 27 (2003), 381-398.6Петросян Л.А. Построение сильно динамически устойчивых решений в кооперативных дифференциальных играх // Вестн.
С.-Петерб. ун-та, 4, (1992), 33–387Петросян Л.А., Н.Н. Данилов. Устойчивость решений в неантагонистических дифференциальных играхс трансферабельными выигрышами // Вестн. Ленингр. ун-та, 1, (1979), 46–54.9Определение 3. Вектор-функция β(k) = (β1(k), . . . , βn(k)) называется состоятельной во времени ПРД6,7, если при любом l ≥ k0 выполняется следу-ющее равенствоϕi (k0, x0) =lXβi (k) + ϕi (l + 1, x∗(l + 1)), i = 1, . . . , n,k=k0где ϕi(k0, x0) ∈ M, ϕi(l + 1, x∗(l + 1) ∈ M(x∗(l + 1)).Теорема 1. Пусть ϕi (k, x∗(k) ∈ M(x∗ (k)), тогда вектор-функция β(k) =(β1(k), . . .
, βn(k)), гдеβi (k) = ϕi (k, x∗(k)) − ϕi (k + 1, x∗(k + 1)),i = 1, . . . , n(4)является состоятельной во времени ПРД.Далее сформулированы достаточные условия устойчивости против иррационального поведения игроков кооперативных решений.Определение 4. Дележ ϕ(k0, x0) = (ϕ1(k0, x0), . .
. , ϕn(k0, x0)) удовлетворяет условию устойчивости против иррационального поведения игроков2 , есливыполнено неравенствоlXβi (k) + v(i, x∗(l + 1)) ≥ v(i, x0),i = 1, . . . , n(5)k=k0при любом l ≥ k0, где β(k) = (β1 (k), . . . , βn (k)) состоятельная во времениПРД, соответствующая дележу ϕ(k0, x0).Утверждение 1. Для того чтобы в линейно-квадратичной дискретной игре сбесконечной продолжительностью дележ был устойчив против иррационального поведения игроков достаточно, чтобы для любого i ∈ N выполнялось:βi(k) + x∗T(k)(Θ∗i (k)− (A(k) +nXBj (k)MiN )T Θ∗i (k + 1)(A(k)+i=1+nXBj (k)MiN ))x∗(k) ≥ 0,k ≥ k0 ,i=1β(k) – состоятельная во времени процедура распределения этого дележа.10В данной главе также строится пропорциональное решение.
Полученныерешения проиллюстрированы на примере игры планирования производства вусловиях конкуренции.Во второй главе исследуются стохастические линейно-квадратичныедискретные игры со случайной продолжительностью. Рассматривается игра nлиц, динамика системы описывается системой уравненийx(k + 1) = A(k)x(k) +nXBi (k)ui(k) + w(k),i=1где k0 ≤ k ≤ L < ∞, k0 ∈ T+, x ∈ Rm , ui ∈ Rr , A(k), Bi(k) – матрицы размерности (m × m) и (m × r) соответственно, w(k) – m-мерный вектор возмущений,w(k0), .
. . , w(k) – взаимонезависимые случайные вектора с нулевым математическими ожиданиями и матрицами дисперсий W (k). Игра начинается в моментk0 из состояния x0, момент ее окончания является реализацией случайной величины L, принимающей значения от k0 до K с вероятностями qk , 0 ≤ qk ≤ 1,k = 0, . . . , K, qK = 1. Выигрыш игрока i имеет вид:Ji(k0, x0, u) = Ewk ,LXL−1 k=k0Tx (k)Pi(k)x(k) +uTi (k)Ri(k)ui(k)++ xT (L)Pi(L)x(L) ,∀i = 1, . . .
, n,где Pi (k), Ri (k) – симметричные матрицы размерности (m × m) и (r × r) соответственно. Каждый игрок стремится максимизировать свой выигрыш. Игрокивыбирают только стратегии вида ui(k, x) = Mi (k)x, k0 ≤ k ≤ L, i = 1, . . . , n.Находится некооперативное и коoперативное решение описанной игры.Характеристическая функции строится по правилу, указанному в первой главе.В качестве дележа находится ES-вектор8 ξ(k0, xN (k0)). В данной главе для нахождения равновесия по Нэшу и кооперативного решения по аналогии с первойглавой формулируются соответствующие теоремы, исследуется вопрос динамической устойчивости ES-вектора.
Выводятся достаточные условия, гарантирующие устойчивость ES-вектора против иррационального поведения игроков дляэтих решений.8Driessen T. S. H. and Y. Funaki. Coincidence of and collinearity between game theoretic solutions // ORSpektrum. 1991. N 13.
P. 15–30.11Теорема 2. Вектор-функция β(k) = (β1 (k), . . . , βn (k)), гдеβi (k) = ξi(k, xN (k)) − ξi (k + 1, xN (k + 1)),i = 1, . . . , n(6)является состоятельной во времени ПРД.Утверждение 2. Если в линейно-квадратичной стохастической игре со случайной продолжительностью процедура распределения ES-вектора вычисляется по правилу (6), то для выполнения условия устойчивости ES-векторапротив иррационального поведения игроков достаточно, чтобы для любогоk0 ≤ k ≤ K − 1 выполнялось неравенствоxN (k)T (Z(k) − (A(k) + B(k)M N (k))T Z(k + 1)(A(k) + B(k)M N (k))xN (k)++ E{wkT Z(k)wk } ≥ 0, (7)где Z(k) вычисляется по правилу ΘN (k) −PΘi (k) = Z(k), xN (k) – коопера-i∈Nтивная траектория.ΘN (k), M N (k) – решения системы матричных уравнений, соответствующих теореме о нахождении кооперативного решения, Θi (k) – решение системыматричных уравнений, соответствующих теореме о нахождении равновесия поНэшу.
Приводится пример.Третья глава посвящена линейно-квадратичным дискретным играм снетрансферабельными выигрышами. Предполагается, что игроки не могут перераспределять выигрыши между собой.В § 3.1 исследуются игры с предписанной продолжительностью. Динамика игры описывается уравнением (1), k = 1, . . . , K − 1, выигрыши игроковимеют видJi(k0, x0, u) =K−1Xk=k0Tx (k)Pi (k)x(k) +uTi (k)Ri(k)ui(k)++ xT (K)Pi(K)x(K),∀i = 1, . . . , n, (8)где Pi (k) – симметричные отрицательно полуопределенные матрицы размерности (m × m).
Ri (k) – симметричные отрицательно определенные матрицыразмерности (r × r). Каждый игрок стремится максимизировать свой выигрыш. Для таких задач находится Парето-оптимальное решение и исследуется12его устойчивость, где под устойчивостью мы понимаем выполнение индивидуальной рациональности на всем промежутке игры. Здесь следует отметить, чтов подавляющем большинстве случаев индивидуальная рациональность на всемпромежутке игры может не выполняться, даже если игра развивается вдольПарето-оптимальной траектории. Обозначим uα (k) = (uα1 (k), .
. . , uαn (k)) – оптимальный набор стратегий игроков, xα (k) – кооперативную Парето-оптимальнуютраекторию, Vi (k, x(k)) – выигрыш игрока i в ситуации равновесия по Нэшу в подыгре, которая начинается в момент времени k из состояния xα (k),Vi (k, x(k)) = −xT (k)Θi(k)x(k). Пусть uαi (k) = M α (k)xα(k),i = 1, . . . , n.Л.А.
Петросяном и Д.В.К. Янгом9 была предложена процедура распределения выигрыша для дифференциальных игр с нетрансферабельными выигрышами, которая позволяет избежать неустойчивость Парето-оптимальногорешения. В данной главе выводится аналог этой процедуры для рассматриваемого класса игр.Теорема 3. Если для некоторого Парето-оптимального решения выполняется Jiα (k0, x0, uα ) ≥ Vi (k0, x0),i = 1, . . .
, n, то процедура распределения выиг-рыша β(k) видаJiα (k0, x0, uα) − Vi (k0, x0)βi (k) =− Vi (k + 1, xα(k + 1)) + Vi (k, xα(k)),K − 1 − k0(9)где i = 1, . . . , n, k = 1, . . . , K − 1, гарантирует выполнение условия индивидуальной рациональности этого Парето-оптимального решения вдоль всейкооперативной траектории, т.е. ∀l, k0 ≤ l ≤ K,K−1Pβi (k) + (xα (K))T Pi (K)xα(K) ≥ Vi (l, xα(l)).i = 1, . .
. , n выполняетсяk=lТакже исследован вопрос выполнения устойчивости против иррацио-нального поведения игроков для Парето-отимального решения.Теорема 4. В линейно-квадратичных дискретных играх с нетрансферабельными выигрышами с предписанной продолжительностью условие устойчивостипротив иррационального поведения игроков выполнено для любого Паретоотимального решения, состоятельная во времени процедура распределения9Yeung D.W.K.
and L.A. Petrosyan (2014). A Time-consistent Solution Formula for Bargaining Problem inDifferential Games. Int. Game Theory Rev., 16(4), 1450016.13выигрыша β(k) которого удовлетворяет неравенствам:βi(k) + (xα(k))T (A(k) + B(k)M α (k))T Θi (k + 1)(A(k) + B(k)M α (k))−!Θi (k) xα (k) ≥ 0,k0 ≤ k ≤ K − 1. (10)Утверждение 3. Если для некоторого Парето-оптимального решения влинейно-квадратичных дискретных играх с нетрансферабельными выигрышами с предписанной продолжительностью выполняется Jiα (k0, x0, uα ) ≥Vi (k0, x0),i = 1, .
. . , n, и процедура распределения выигрыша β(k) вычисля-ется по формуле (9), то условие устойчивости против иррационального поведения игроков выполнено для этого Парето-отимального решения.В § 3.2 исследуются игры с нетрансферабельными выигрышами с бесконечной продолжительностью. Динамика игры описывается уравнением (1),выигрыши игроков имеют вид (2). Находится Парето-оптимальное решение иисследуется вопрос его устойчивости. По аналогии с § 3.1 здесь формулируетсяследующие теорема и утверждение.Пусть ηi(k)≥0 – такие функции, для которых выполняется:∞Pηi (k).Jiα (k0, x0, uα) − Vi (k0, x0) =k=k0Теорема 5.
Если для некоторого Парето-оптимального решения выполняет-ся Jiα (k0, x0, uα ) ≥ Vi (k0, x0),i = 1, . . . , n, то процедура распределения выиг-рыша β(k) видаβi(k) = ηi(k) − Vi (k + 1, xα(k + 1)) + Vi (k, xα(k))i = 1, . . . , n,k > k0 (11)гарантирует выполнение условия индивидуальной рациональности этогоПарето-оптимального решения вдоль всей кооперативной траектории, т.е.выполняется∞Xβi (k) ≥ Vi (l, xα(l)),∀l > k0 ,i = 1, . . .