Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 4
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
[58]):v(S, x0) = max J S (k0, x0, uN E /uS ).ui ,i∈SЗдесьS ⊂ N,J S (k0, x0, u) =XJi(k0, x0, u),где u = (u1, . . . , un),i∈SE(uN E /uS ) = {uN/ S,j ,j ∈ui , i ∈ S}.22При построении характеристической функции по указанной схеме предполагается, что игроки из коалиции S используют стратегии, которые являютсянаилучшим ответом на некоторое фиксированное равновесие по Нэшу в игреΓ(k0, x0).
Идея построения характеристической функции в такой форме былапредложена в [58]. Заметим, что такой подход к решению кооперативных игр существенно облегчает вычислительный процесс, но построенная таким образомхарактеристическая функция в общем случае может не являться супераддитивной.В работе [12] подобным образом строится характеристическая функция длялинейно-квадратичных дифференциальных игр.Пусть s = |S|, i1 , . . .
, is – игроки, входящие в коалицию S.Введем обозначение u i1 ui2 uS (k) = , BS = (Bi1 , . . . , Bis ),. . . uisPS =XPi ,i∈SSТогда J =Pi∈SJi (k0, x0, u) =∞Pk=k0RO ... i1 O Ri2 . . .RS = . . . . . . . . .O O ...OO.. . .Ris(1.2.1)(xT (k)PS (k)x(k) + uTS (k)RS (k)uS (k)).Для построения характеристической функции сформулируем следующуютеорему.Теорема 2. Для того чтобы существовал единственный набор стратегий{u0i (k, x) = Mi0 (k)x,i ∈ S},23доставляющий максимум J S (k0, x0, u) при фиксированном наборе стратегий{ūj (k, x) = M̄j (k)x,j∈/ S}необходимо и достаточно, чтобы:1. Система матричных уравненийX(A(k) +Bj (k)M̄j (k) + BS (k)MS0 (k))T ΘS (k + 1)(A(k)+j ∈S/X+Bj (k)M̄j (k) + BS (k)MS0 (k)) − ΘS (k) − PS (k)−/ j ∈S− MS0 (k)T RS (k)MS0 (k) = 0,MS0 (k) = −(−RS (k) + BST (k)ΘS (k + 1)BS (k))−1BST (k)ΘS (k + 1)×X× (A(k) +Bj (k)M̄j (k))j ∈S/была разрешима относительно {MS0 (k), ΘS (k)}, в виде вещественных, ограниченных матриц размерности rs × m и m × m соответственно, гдеΘS (k) – симметричны.2.
Набор стратегийu0(k, x) = {ūj (k, x) = M̄j (k)x,u0i (k, x) = Mi0 (k)x,j∈/ S,i ∈ S},(1.2.2)Mi01 (k) 0 Mi2 (k), был бы допустимымгде Mi0 (k) – i-й блок матрицы MS0 (k) = ... Mi0s (k)в смысле определения 1.3. (−RS (k) + BST (k)ΘS (k + 1)BS (k)) ∈ Q+(T+ ).Тогда набор стратегий (1.2.2) доставляет максимум J S (k0, x0, u) иJ S (k0, x0, u0) = −xT0 ΘS (k0)x0.24Доказательство. Замкнем систему (1.0.1) допустимым набором управленийu(k) = {ūj = M̄j (k)x,j∈/ S,x(k + 1) = (A(k) +ui = Mi (k)x(k),Xi ∈ S}:Bj (k)M̄j (k))x(k) +XBi (k)ui(k)i∈Sj ∈S/илиx(k + 1) = (A(k) +XBj (k)M̄j (k))x(k) + BS (k)uS (k),(1.2.3)j ∈S/гдеM (k) i1 Mi2 (k) x(k).uS (k) = ...
Mis (k)Тогда систему (1.2.3) можно рассмотреть как систему с одним управлениемuS (k) и функционалом J S . Согласно [27], чтобы существовало единственноеуправление, доставляющее максимум J S , необходимо и достаточно, чтобы:1. Система матричных уравненийX(A(k) +Bj (k)M̄j (k) + BS (k)MS0 (k))T ΘS (k + 1)(A(k)+j ∈S/X+Bj (k)M̄j (k) + BS (k)MS0 (k)) − ΘS (k) − PS (k)−/ j ∈S− MS0 (k)T RS (k)MS0 (k) = 0,MS0 (k) = −(−RS (k) + BST (k)ΘS (k + 1)BS (k))−1BST (k)ΘS (k + 1)×X× (A(k) +Bj (k)M̄j (k))j ∈S/была разрешима относительно {MS0 (k), ΘS (k)}, в виде вещественных, ограниченных матриц размерности rs×m and m×m соответственно, где ΘS (k)– симметрична.252.
Управление u0S (k) = MS0 (k)x(k) было бы допустимым в смысле определения 1.3. (−RS (k) + BST (k)ΘS (k + 1)BS (k)) ∈ Q+(T+ ).Тогдауправлениеu0S (k)доставляетмаксимумфункционалуJ S (k0, x0, u0) = −xT0 ΘS (k0)x0, где u0(k) = {ūj = M̄j (k)x,Mi0 (k)x(k),JSj ∈/ S,иu0i =i ∈ S}, что и требовалось доказать.Перейдем теперь к построению характеристической функции. Обозначим{u∗i }i∈S = arg max J S (uN E /uS ).ui ,i∈SТогда, если набор стратегий{u∗i = Mi∗ (k)x, i ∈ S}∗M (k) i1 ∗ Mi2 (k) можно найти из системысуществует, то согласно теореме 2, MS∗ (k) = ...
∗Mis (k)X(A(k)+Bj (k)MjN E (k) + BS (k)MS∗ (k))T Θ∗S (k + 1)(A(k)+j ∈S/X+Bj (k)MjN E (k) + BS (k)MS∗ (k)) − Θ∗S (k) − PS (k)−/ j ∈S− MS∗ (k)T RS (k)MS∗ (k) = 0,MS∗ (k) = −(−RS (k) + BST (k)Θ∗S (k + 1)BS (k))−1BST (k)Θ∗S (k + 1)×X× (A(k) +Bj (k)MjN E (k)).j ∈S/При этомJ S (k0, x0, uN E /u∗S ) = −xT0 Θ∗S (k0)x0.26Согласно определению характеристической функцииv(S, x0) = −xT0 Θ∗S (k0)x0.После построения характеристической функции в качестве кооперативногорешения можно использовать один из известных принципов оптимальности,например, вектор Шепли, C-ядро и другие.1.2.2Условие устойчивости против иррационального поведенияигроковВ динамических играх важным свойством кооперативного решения являетсяего динамическая устойчивость. В случае, если дележ динамически устойчив,он остается оптимальным в любой подыгре вдоль оптимальной траектории, приусловии, что игроки руководствуются принципом оптимальности, выбранным вначале игры.
Понятие динамической устойчивости впервые было введено Петросяном Л.А. в работе [14]. Но даже если дележ обладает этим свойством, игроки не застрахованы от иррационального поведения других игроков, котороеможет привести к распаду максимальной коалиции. Поэтому актуальным является условие устойчивости против иррационального поведения игроков, предложенное Д.В.К.
Янгом в работе [66]. В данном параграфе рассматриваетсявопрос динамической устойчивости кооперативного решения и конкретизируется условие Янга для линейно-квадратичных дискретных игр .NNПусть набор стратегий uN = (uN1 , . . . , un ) доставляет максимум J . Опти-мальной будем называть траекторию x∗(k), которая реализуется при замыканиисистемы (1.0.1) набором стратегий uN .Определим множество дележей в дискретной кооперативной игре:C = {ϕ(k0, x0) = (ϕ1(k0, x0), .
. . , ϕn(k0 , x0)) :nXϕi(k0, x0) = v(N, x0),i=1ϕi (k0, x0) ≥ v(i, x0),i = 1, . . . , n}.27Обозначим через M ⊂ C – кооперативный принцип оптимальности.Пусть Γ(k, x∗(k)) подыгра игры Γ(k0, x0), которая начинается в момент времени k из состояния x∗ (k). В этой подыгре введем характеристическую функцию v(S, x∗(k)) таким же образом, как она была введена в игре Γ(k0, x0). Тогдамножество дележей подыгры имеет видC(x∗(k)) = {ϕ(k, x∗(k)) = (ϕ1(k, x∗(k)), . . .
, ϕn(k, x∗(k))) :nXϕi (k, x∗(k)) = v(N, x∗(k)),ϕi (k, x∗(k)) ≥ v(i, x∗(k)),i = 1, . . . , n}.i=1Обозначим через M(x∗ (k)) ⊂ C(x∗(k)) принцип оптимальности M ⊂ C, реализуемый в подыгре Γ(k, x∗(k)).Определение 3. Пусть ϕ(k0, x0) ∈ M, тогда вектор-функцию β(k) = (β1(k),. . . , βn(k)), k ≥ k0 назовем процедурой распределения дележа (ПРД) [17, 16]если,ϕi (k0, x0) =∞Xβi (k),i = 1, . . . , n.k=k0Интерпретация ПРД следующая: βi(k) – выплата игроку i на шаге k.Определение 4.
Вектор-функция β(k) = (β1(k), . . . , βn(k)) называется состоятельной во времени ПРД [17, 16], если при любом l ≥ k0 выполняетсяследующее равенствоϕi (k0, x0) =lXβi (k) + ϕi (l + 1, x∗(l + 1)), i = 1, . . . , n,k=k0где ϕi(k0, x0) ∈ M, ϕi(l + 1, x∗(l + 1) ∈ M(x∗(l + 1)).Эти понятия впервые введены Петросяном Л.А. в работах [17], [16]. В определении 4 значение ϕi (k0, x0) представляет собой сумму двух слагаемых. Первоеявляется "накопленным выигрышем" игрока i к моменту времени l + 1, есливыплаты сделаны согласно ПРД β(k), а второе является выигрышем игрока i вподыгре Γ(l+1, x∗(l+1)) при условии, что при решении подыгры Γ(l+1, x∗(l+1))используется тот же принцип оптимальности, что и при решении игры Γ(k0 , x0).28Теорема 3.
Пусть ϕi (k, x∗(k) ∈ M(x∗ (k)), тогда вектор-функция β(k) =(β1(k), . . . , βn(k)), гдеβi (k) = ϕi(k, x∗(k)) − ϕi (k + 1, x∗(k + 1)),i = 1, . . . , n(1.2.4)является состоятельной во времени ПРД.Доказательство. Покажем сначала, что вектор βi (k), определенный в (1.2.4),действительно является процедурой распределения дележа. Из равномернойасимптотической устойчивости системы (1.0.1) имеем:∞Xk=k0βi (k) =∞X(ϕi(k, x∗(k)) − ϕi(k + 1, x∗(k + 1))) = ϕi (k0, x0)−k=k0− ϕi (∞, x∗(∞)) = ϕi (k0, x0),где ϕi(∞, x∗(∞)) = lim ϕi (k, x∗(k)) = 0.k→∞Теперь покажем, что βi(k) – состоятельная во времени ПРД:lX∗βi (k) + ϕi (l + 1, x (l + 1)) =lX(ϕi(k, x∗(k)) − ϕi(k + 1, x∗(k + 1)))+k=k0k=k0+ ϕi(l + 1, x∗(l + 1)) = ϕi(k0, x0) − ϕi(l + 1, x∗(l + 1)) + ϕi (l + 1, x∗(l + 1)) == ϕi (k0, x0).Теорема доказана.Предположим, что если на шаге k происходит распад максимальной коалиции, то игроки узнают об этом до выбора ими стратегий ui (k).Определение 5.