Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 5
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
Дележ ϕ(k0, x0) = (ϕ1(k0, x0), . . . , ϕn(k0, x0)) удовлетворяетусловию устойчивости против иррационального поведения игроков [66], есливыполнено неравенствоlXβi (k) + v(i, x∗(l + 1)) ≥ v(i, x0),i = 1, . . . , n(1.2.5)k=k0при любом l ≥ k0, где β(k) = (β1 (k), . . . , βn (k)) состоятельная во времениПРД, соответствующая дележу ϕ(k0, x0).29Интерпретировать (1.2.5) можно следующим образом: до момента l + 1игроки образуют максимальную коалицию и используют стратегии, максимизирующие суммарный выигрыш, получают при этом "накопленные выигрыши"lPβi (k) согласно ПРД β(k).
В момент l + 1 происходит распад максимальнойk=k0коалиции, и в подыгре Γ(l + 1, x∗(l + 1)) игрок i, играя индивидуально, получа-ет выигрыш v(i, x∗(l + 1)). Таким образом, условие (1.2.5) гарантируют, что вслучае распада максимальной коалиции в некоторый момент времени, игрокиполучат не меньше, чем если бы играли индивидуально изначально.Выведем достаточное условие устойчивости против иррационального поведения игроков в линейно-квадратичных дискретных играх. Заметим, чтоlX∗βi (k) + v(i, x (l + 1)) − v(i, x0) =k=k0lX(βi(k) + v(i, x∗(k + 1)) − v(i, x∗(k))).k=k0Тогда для выполнения условия достаточно, чтобыβi (k) + v(i, x∗(k + 1)) − v(i, x∗(k)) ≥ 0 i = 1, .
. . , n,k ≥ k0 .В разделе 1.3.2 было показано, что в линейно-квадратичной дискретной игреv(i, x∗(k)) можно определить по следующему правилуv(i, x∗(k)) = −x∗T (k)Θ∗i (k)x∗(k),где Θ∗i (k) – решение системы матричных уравненийX(A(k)+Bj (k)MjN E (k) + Bi (k)Mi∗(k))T Θ∗i (k + 1)(A(k)+j∈N,j6=iX+Bj (k)MjN E (k) + Bi (k)Mi∗(k)) − Θ∗i (k) − Pi (k)− j∈N,j6=i− Mi∗ (k)T RS (k)Mi∗(k) = 0,Mi∗ (k) = −(−RS (k) + BST (k)Θ∗i (k + 1)BS (k))−1BST (k)Θ∗i (k + 1)×X× (A(k) +Bj (k)MjN E (k)).j∈N,j6=i(1.2.6)30Тогдаβi(k) + v(i, k + 1) − v(i, k) = βi (k) + x∗T (k)Θ∗i (k)x∗(k)−− x∗T (k + 1)Θ∗i (k + 1)x∗(k + 1) = βi (k) + x∗T (k)(Θ∗i (k)−− (A(k) +nXBj (k)MiN )T Θ∗i (k+ 1)(A(k) +i=1nXBj (k)MiN ))x∗(k),i=1NM (k) 1 N M2 (k) согласно разделу 4.1 находятся из системы:где MN (k) = ...
NMn (k)(A(k) + BN (k)MN (k))T ΘN (k + 1)(A(k) + BN (k)MN (k))−− ΘN (k) − PN (k) − M N (k)T RN (k)M N (k) = 0, M (k) = −(−R (k) + B T (k)Θ (k + 1)B (k))−1B T (k)Θ (k + 1)A(k).NNNNNNN(1.2.7)Получаем, что еслиβi(k) + x∗T(k)(Θ∗i (k)− (A(k) +nXBj (k)MiN )T Θ∗i (k + 1)(A(k)+i=1+nXBj (k)MiN ))x∗(k) ≥ 0i=1выполнено для всех i = 1, . . . , n и при всех k ≥ k0, то дележ будет удовлетворятьусловию устойчивости против иррационального поведения игроков.
Сформулируем полученный результат в виде утверждения.Утверждение 1. Для того чтобы в линейно-квадратичной дискретной игре сбесконечной продолжительностью дележ был устойчив против иррационального поведения игроков достаточно, чтобы для любого i ∈ N выполнялось:nX∗T∗βi(k) + x (k)(Θi (k) − (A(k) +Bj (k)MiN )T Θ∗i (k + 1)(A(k)+i=1+nXi=1Bj (k)MiN ))x∗(k) ≥ 0,k ≥ k0 ,31где Θ∗i (k) – решение системы (1.2.7), MiN (k) – решение системы (1.2.6), x∗(k)– оптимальная кооперативная траектория, β(k) – состоятельная во временипроцедура распределения этого дележа.1.2.3Условие устойчивости против иррационального поведенияигроков в играх с неполной информациейБудем предполагать, что Γ(k0, x0) – игра с неполной информацией, т.е.
еслив момент (k, x∗(k)) кто-то из игроков ведет себя иррационально и происходитраспад максимальной коалиции, то остальные игроки узнают об этом толькона шаге k + 1. Пусть wi(k, x(k), ui(k)) = xT (k)Pi(k)x(k) + uTi (k)Ri(k)ui(k).Определение 6. Дележ ϕ(k0, x0) = (ϕ1(k0, x0), . . . , ϕn(k0, x0)) удовлетворяетусловию устойчивости против иррационального поведения игроков [66] в игреΓ(k0, x0) с неполной информацией, если неравенстваlXβi (k) + wi (l + 1, x∗(l + 1), uNi (l + 1))+k=k0+ min v(i, x(l + 2)) ≥ v(i, x0),uN \i (l+1)i = 1, .
. . , n (1.2.8)выполнены при любом l ≥ k0, где β(k) = (β1 (k), . . . , βn (k)) состоятельная вовремени ПРД, соответствующая дележу ϕ(k0, x0).Интерпретировать это условие можно следующим образом: до момента l+1игроки образуют максимальную коалицию, используя стратегии, максимизирующие суммарный выигрыш, и получают при этом "накопленные выигрыши"lPβi (k) согласно ПРД β(k). В момент l + 1 происходит распад максимальнойk=k0коалиции, но игроку i на шаге l + 1 об этом неизвестно и он продолжает исполь-∗Nзовать управление uNi , получая на этом шаге выигрыш wi (l + 1, x (l + 1), ui (l +1)), в то время как остальные игроки могут использовать произвольный наборстратегий uN \i из класса допустимых.
Далее в подыгре Γ(l + 2, x(l + 2)) игрок32i, играя индивидуально, гарантирует себе выигрышmin v(i, x(l + 2)), здесьuN \i (l+1)x(l + 2) = A(l + 1)x∗(l + 1) + Bi(l + 1)uNi (l + 1) +XBj (l + 1)uj (l + 1).j∈N \iТаким образом, если это условие выполняется, то даже в случае распада максимальной коалиции в некоторый момент l + 1, игроки получат не меньше, чемесли бы играли индивидуально изначально.Пусть Θ∗i (k) – решение системы (1.2.7), MiN (k) – решение системы (1.2.6)тогда, условие устойчивости против иррациональности игроков принимает видlXβi (k) + x∗T (l + 1)(Pi(k) + (MiN (l + 1))T Ri (l + 1)MiN (l + 1))x∗(l + 1)−k=k0− max xT (l + 2)Θ∗i (l + 2)x(l + 2) ≥ −xT0 Θ∗i (k0)x0 (1.2.9)uN \i (l+1)1.2.4Пропорциональное решениеРассмотрим ещё одно кооперативное решение игры, при построении которого не требуется вычислять все значения характеристической функции. Как иранее, предполагаем, что игроки действуют совместно с целью максимизациисуммарного выигрыша:NJ (k0, x0, u(k)) =NXJi (k0, x0, u(k)).i=1Пусть набор стратегий uN=NN(uN1 , .
. . , un ), где ui (k)i = 1, . . . , n, доставляет максимум J N (k0, x0, u(k)), т.е.uN = arg max J N (k0, x0, u(k)).ui ,i=1,...,n=MiN (k)x(k),33M1N (k) N M2 (k) из системыТогда согласно теореме 2 можем найти MN (k) = ... MnN (k)(A(k) + BN (k)MN (k))T ΘN (k + 1)(A(k) + BN (k)MN (k))−− ΘN (k) − PN (k) − M N (k)T RN (k)M N (k) = 0, M (k) = −(−R (k) + B T (k)Θ (k + 1)B (k))−1B T (k)Θ (k + 1)A(k).NNNNNNNПри этомJ N (k0, x0, uN (k)) = −xT0 ΘN (k0)x0.Пусть upri – стратегия игрока i, максимизирующая его выигрыш при условии,что остальные игроки используют стратегии uNj , т.е.Nupri = arg max Ji (u /ui ), i = 1, . .
. , n.uiprМожем найти управление upri согласно теореме 2. Mi (k) будем искать какрешение системыXBj (k)MjN (k) + Bi(k)Mipr )T Θi,pr (k + 1)(A(k)+(A(k)+j∈N,j6=iX+Bj (k)MjN (k)Bi(k)Mipr ) − Θi,pr (k) − Pi (k)− j∈N,j6=i− Mipr (k)T Ri (k)Mipr (k) = 0,Mipr (k) = −(−Ri(k) + BiT (k)Θi,pr (k + 1)Bi(k))−1BiT (k)Θi,pr (k + 1)×X×(A(k)+Bj (k)MjN (k)), i ∈ N.j∈N,j6=iПри этомTJi(k0, x0, uN /upri ) = −x0 Θi,pr (k0 )x0 .Введем обозначенияλi = Ji(k0, x0, uN /upri ),i = 1, . .
. , n,34Λ=nXλi .i=1Векторαpr = (α1pr , ..., αnpr )будем называть пропорциональным решением диcкретной игры [59], еслиαiprop =λi NJ (k0, x0, uN ).Λ.1.3Решение дискретной игры с выигрышами игроков,содержащими перекрестные слагаемыеРассмотрим теперь некоторое обобщение исходной модели. Пусть выигрышиигроков имеют видJi(k0, x0, u) =∞X(xT (k)Pi(k)x(k) + 2uTi (k)Qi(k)x(k) + uTi (k)Ri(k)ui(k)),k=k0i = 1, .
. . , n. (1.3.1)Слагаемые вида uTi (k)Qi(k)x(k) будем называть перекрестными.Обозначим черезhi (k, x(k), u(k)) = xT (k)Pi(k)x(k) + 2uTi (k)Qi(k)x(k) + uTi (k)Ri(k)ui(k).Сделаем замену переменныхui = ui + Lix,i = 1, . . . , n(1.3.2)При этом Li будем выбирать так, чтобы после замены переменных коэффициенты при перекрестных слагаемых стали нулевыми (см., например, [12]).hi (k, x(k), u(k)) = xT (k)Pi(k)x(k) + 2(ui + Lix)T Qi(k)x(k) + (ui + Lix)T ×× Ri (k)(ui + Lix) = xT (k)(Pi(k) + 2LTi Qi + LTi Ri Li)x(k) + 2ui(Qi(k)++ Ri Li)x(k) + ui Ri (k)ui .35Тогда, если Li = −Ri−1Qi, тоhi (k, x(k), u(k)) = xT (k)(Pi(k) − QTi (Ri−1)T Qi )x(k) + uiRi (k)ui .Система (1) после замене переменных (1.3.2) принимает видx(k + 1) = (A(k) −nXBi Ri−1Qi)x(k)i=1Выигрыши игроковJi =∞X+nXBi ui .(1.3.3)i=1(xT (k)(Pi(k) − QTi (Ri−1)T Qi)x(k) + uTi (k)Ri(k)ui(k)),i = 1, .
. . , n.k=k0(1.3.4)Тогда для системы (1.3.3) c функционалами (1.3.4) можно переформулироватьтеоремы 1,2.Теорема 4. Для того чтобы в игре Γ(k0, x0) существовало единственное вклассе допустимых равновесие по Нэшу необходимо и достаточно, чтобы система матричных уравненийnnXX−1(A(k) −BiRi Qi +Bi(k)MiN E (k))T ×i=1i=1nnXX−1× Θi(k + 1)(A(k) −Bi Ri Qi +Bi (k)MiN E (k))−i=1i=1− Θi(k) − Pi (k) + QTi (Ri−1)T Qi − MiN E (k)T Ri (k)MiN E (k) = 0,MiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×nXX−1×(A(k)−BRQ+Bj (k)MjN E (k)), i = 1, .
. . , ni iii=1j6=iимела единственное решение {MiN E (k), Θi (k)} ∈ Z(T+), в виде вещественных,ограниченных матриц размерности r × m и m × m соответственно, где Θi(k)– симметричны для любого i ∈ N , для которого выполняется:1. Набор стратегийE{uN= MiN E (k)x(k),ii = 1, . . . , n}(1.3.5)36допустимым в смысле определения 1.2. (−Ri (k) + BiT (k)Θi(k + 1)Bi(k)) ∈ Q+(T+ ),i = 1, .
. . , n.Тогда набор стратегий (1.3.5) будет являться равновесием по Нэшу в игреΓ(k0, x0), при этом выигрыш игрока i в равновесии равенJi(k0, x0, uN E ) = −xT0 Θi(k0 )x0,i = 1, . . . , n.Теорема 5. Для того чтобы существовал единственный набор стратегий{u0i = Mi0 (k)x,i ∈ S},доставляющий максимум J S (k0, x0, u) при фиксированном наборе стратегий{ūj = M̄j (k)x,j∈/ S}необходимо и достаточно, чтобы:1. Система матричных уравненийnXX−1(A(k)−BRQ+Bj (k)M̄j (k) + BS (k)MS0 (k))T ×i iii=1j ∈S/nXX−1×Θ(k+1)(A(k)−BRQ+Bj (k)M̄j (k) + BS (k)MS0 (k))−Si iii=1j ∈S/X− ΘS (k) −(Pi (k) − QTi (Ri−1)T Qi ) − MS0 (k)T RS (k)MS0 (k) = 0,i∈SMS0 (k) = −(−RS (k) + BST (k)ΘS (k + 1)BS (k))−1BST (k)ΘS (k + 1)×nXX−1× (A(k) −Bi Ri Qi +Bj (k)M̄j (k))i=1j ∈S/была разрешима относительно {MS0 (k), ΘS (k)}, в виде вещественных, ограниченных матриц размерности rs × m и m × m соответственно, гдеΘS (k) – симметрична.2.
Набор стратегийu0(k) = {ūj = M̄j (k)x,j∈/ S,u0i = Mi0 (k)x(k),i ∈ S},(1.3.6)37Mi01 (k) 0 Mi2 (k), был бы допустимымгде Mi0 (k) – i-й блок матрицы MS0 (k) = ... Mi0s (k)в смысле определения 1.3. (−RS (k) + BST (k)ΘS (k + 1)BS (k)) ∈ Q+(T+ ).Тогда набор стратегий (1.3.6) доставляет максимум J S (k0, x0, u) иJ S (k0, x0, u0) = −xT0 ΘS (k0)x0.1.4Пример. Планирование производства в условиях конкуренцииРассмотрим пример планирования производства в условиях конкуренции. Решение данного примера для случае непрерывного времени можно найти в [49].Предполагаем, что функция спроса имеет вид:g(k) = a − [q1(k) + q2 (k)],(1.4.1)где a – положительная постоянная и qi(k), i ∈ {1, 2} – скорость роста производства фирмы i.