Диссертация (Кооперация в дискретных линейно-квадратичных играх), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация в дискретных линейно-квадратичных играх". PDF-файл из архива "Кооперация в дискретных линейно-квадратичных играх", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Пусть для рыночной цены имеет место следующее уравнениеp(k + 1) = s(a − [q1(k) + q2 (k)] − p(k));p(0) = p0 > 0.Здесь s ∈ [0, ∞) – заданный параметр. Доход фирмы i полагаем равным p(k)qi(k).Для простоты будем предполагать, что производственные затраты обеих фирмописываются одной и той же функцией1C(qi) = cqi + qi2 ,2где c > 0 – заданный параметр. Пусть ρ > 0 – параметр дисконтирования.38Цель фирмы i заключается в нахождении такого программного управленияqi ≥ 0, которое доставляет максимум функционалуk∞ X1Ji(qi ) =(p(k)qi(k) − C(qi(k))),1+ρk=0при условии, что система развивается в соответствии с динамикой (1.4.1) иqi(k) ≥ 0 для всех k ≥ 0. После замены k21(p(k) − c),x1 (k) =1+ρ k+121x2(k) = (s(a − c) − c),1+ρ k21u1(k) =(q1(k) − p(k) + c),1+ρ k21(q2(k) − p(k) + c)u2(k) =1+ρзадача сводится к виду (1.0.1)-(1.0.2) с матрицами 1 12211−3s1−s1+ρ1+ρA=, 12 , Bi = 1001+ρ1p0 − c12 01P =, R = − , x0 = 2.210 0(s(a − c) − c)1+ρСогласно теореме 1 для нахождения равновесия по Нэшу необходимо ре-шить систему(A(k) + B1 (k)M1N E (k) + B2(k)M2N E (k))T Θi (k + 1)(A(k) + B1 (k)M1N E (k) + B2 (k)M2N E (k)) − Pi (k) − MiN E (k)T Ri (k)MiN E (k) = Θi (k),MiN E (k) = −(−Ri(k) + BiT (k)Θi(k + 1)Bi(k))−1BiT (k)Θi(k + 1)×× (A(k) + Bj (k)MjN E (k)), i = 1, 2, j 6= i.ENEТогда ситуация uN E = (uN1 , u2 ) является равновесием по Нэшу, гдеENEuN(k)x(k).
Выигрыши равныi (k, x) = MiJi = −xT0 Θi (k0)x0.39Непосредственной проверкой можно показать, что при s = 1,= 0, 014 −0, 069 x(k),NEu2 (k, x) = 0, 014 −0, 069 x(k),EuN1 (k, x)11+ρ 12=115и соответствующие выигрыши равны−0, 521 0, 104 x0 .J1 = J2 = −xT0 0, 104 −0, 517Перейдем к рассмотрению кооперативного варианта. Для нахождения J Nможем пользоваться теоремой 2. Тогда необходимо решить систему(A(k) + B1M1N + B2 M2N )T ΘN (k + 1)(A(k) + B1 M1N + B2 M2N )−− ΘN (k) − PN (k) − M N (k)T RN (k)M N (k) = 0, M (k) = −(−R (k) + B T (k)Θ (k + 1)B (k))−1B T (k)Θ (k + 1)A(k).NNNNNNNНабор стратегий, доставляющий максимум J N , имеет видuN1=uN2= 0, 028 −0, 139 x(k).Для вычисление оптимального дележа с использованием характеристическойфункции имеем:v(1, 2, x0) = J N−1, 042 0, 209 x0 ,= −xT0 0, 209 −1, 038−0, 521 0, 104 x0 .v(1, x0) = v(2, x0) = −xT0 0, 104 −0, 517 1В случае x0 = , значения характеристической функции равны1v(1, 2, x0) = 1, 662, v(1, x0) = v(2, x0) = 0, 829.Вектор Шепли [61] имеет вид ϕSh = (0, 83; 0, 83).40Проверим теперь выполнение условия устойчивости против иррационального поведения игроков в нашем примере.
Имеем−0, 521 0, 104 x∗(k),v(i, x∗(k)) = −x∗T (k) 0, 104 −0, 519−0, 521 0, 104 x∗(k).ϕSh (k) = −1/2x∗T (k) 0, 104 −0, 517Тогда∗Tβi (k) + x (k)(Θi(k) − (A(k) +nXBj (k)MiN )T Θi (k + 1)(A(k)+i=1+nXSh∗TBj (k)MiN ))x∗(k) = ϕShi (k) − ϕi (k + 1) + x (k)(Θi(k)−i=1−(A(k) +nXBj (k)MiN )T Θi (k+ 1)(A(k) +i=1nXBj (k)MiN ))x∗(k) =i=10, 0001 −0, 0005 x∗(k) ≥ 0,= x∗T (k) −0, 0005 0, 002поскольку это выполнено для всех i = 1, . . .
, n и при всех k ≥ k0, то дележбудет удовлетворять условию устойчивости против иррационального поведенияигроков.Проверим, теперь выполняется ли условие устойчивости против иррационального поведения игроков в игре планирования производства в условияхконкуренции с неполной информацией.Найдемmin v(i, x(l + 2)).
ЗдесьuN \i (l+1)x(l + 2) = A(l + 1)x∗(l + 1) + B1(l + 1)uN1 (l + 1) + B2 (l + 1)u2(l + 1),N ∗∗где uN1 (l + 1) = M1 x (l + 1), u2 (l + 1) = M2 x (l + 1).41Пусть M1N Nm1m , M2 = 1 . Тогда=mNm22 12 1211−smNm1 )x∗1(l + 1)+1 −s1+ρ1+ρ 12 1211+ (1 − smNm2 )x∗2(l + 1),2 −s1+ρ1+ρ 121x∗2(l + 1).x2(l + 2) =1+ρ1x1(l + 2) = (−3s1+ρ 12Можно показать, что при θ11 > 00min v(i, x(l + 2)) = x∗T (l + 1) uN \i (l+1)0021 θ12(1+ρ θ11− θ22)При заданных значениях параметров x∗(l + 1).00 x∗(l + 1).min v(i, x(l + 2)) = −x∗T (l + 1) uN \i (l+1)0 −0, 002(1.4.2)(1.4.3)Тогда при l = 1 получаемβi(k0) + wi (1, x∗(1), uNi (1)) + min v(i, x(2)) − v(i, x0) =uN \i (1)−0, 0008 0, 003 x∗(0) ≤ 0.= −x∗T (0) 0, 003 −0, 008Это значит, что на первом шаге условие устойчивости против иррациональногоповедения игроков не выполняется.
Можно также заметить, что условие (1.2.9)начинает выполняться только с третьего шага.1.5Пример. Игра с тремя участникамиРассмотрим численный пример линейно-квадратичной игры трёх лиц. Найдёмравновесие по Нэшу, построим характеристическую функцию, убедимся в её42супераддетивности и рассмотрим вопрос динамической устойчивости кооперативного решения.N = {1, 2, 3},x(k + 1) = x(k) + u1 (k) + u2(k) + u3(k),∞XJ1 =−x2(k) − u21(k) ,k=k0∞XJ2 =k=k0∞XJ3 =k=k0−x2(k) − 2u22(k) ,−x2(k) − 3u23(k) .Тогда для нахождения равновесия по Нэшу необходимо проверить разрешимость системы23PMiN E (k) Θ1(k + 1) − Θ1 (k) + 1 + (M1N E (k))2 = 0,1+i=123PMiN E (k) Θ2(k + 1) − Θ2 (k) + 1 + 2(M2N E (k))2 = 0,1+i=123P 1+MiN E (k) Θ3(k + 1) − Θ3 (k) + 1 + 3(M3N E (k))2 = 0,i=1Θ1 (k + 1)(1 + M2N E (k) + M3N E (k))NE(k)=−M,11+Θ(k+1)1Θ2 (k + 1)(1 + M1N E (k) + M3N E (k))NEM(k)=−,22+Θ(k+1)2Θ3 (k + 1)(1 + M1N E (k) + M2N E (k))NE M3 (k) = −.3 + Θ3 (k + 1)Решая систему, получаем:Θ1 (k) = 1, 275,M1N E (k) = −0, 196,J1 = −1, 275x20,Θ2 (k) = 1, 177,M2N E (k) = −0, 181,J2 = −1, 177x20,Θ3 (k) = 1, 151,M3N E (k) = −0, 118,J3 = −1, 151x20.43Перейдем к рассмотрению кооперативного варианта.
Для нахождения J Nможем пользоваться теоремой 2. Тогда необходимо решить систему 1 + B N M N (k) 2 ΘN (k + 1) − ΘN (k) + 3 − (M N (k))T RN M N (k) = 0,TT MN (k) = −(−RN (k) + BN(k)ΘN (k + 1)BN (k))−1BN(k)ΘN (k + 1).N−1 0 0M (k) 1 N NЗдесь M (k) = M2 (k) , RN = 0 −2 0 , BN = 1 1 1 .N0 0 −3M3 (k)Набор стратегий, доставляющий максимум J N , имеет видuN1 (k) = −0, 471x(k),uN2 (k) = −0, 236x(k),uN1 (k) = −0, 157x(k).Для вычисление оптимального дележа с использованием характеристическойфункции имеем:v(N, x0) = −3, 471x20.Для нахождения v({1, 2}, x0) необходимо решить систему2{1,2}NE1 + B{1,2}M(k) + M3 (k) Θ{1,2}(k + 1) − Θ{1,2}(k) + 2−{1,2} − (M {1,2}(k))T R(k) = 0,{1,2} MTM{1,2}(k) = −(−R{1,2}(k) + B{1,2}(k)Θ{1,2}(k + 1)B{1,2}(k))−1× × B T (k)Θ{1,2}(k + 1)(1 + M N E (k)).3{1,2}Θ{1,2}(k) = 2.406,v({1, 2}, x0) = −2.406x20.44Для нахождения v({1, 3}, x0) необходимо решить систему2{1,3}NE1 + B{1,3}M(k) + M2 (k) Θ{1,3}(k + 1) − Θ{1,3}(k) + 3−{1,3} − (M {1,3}(k))T R(k) = 0,{1,3} MTM{1,3}(k) = −(−R{1,3}(k) + B{1,3}(k)Θ{1,3}(k + 1)B{1,3}(k))−1× × B T (k)Θ{1,3}(k + 1)(1 + M N E (k)).2{1,3}Θ{1,3}(k) = 2.396,v({1, 3}, x0) = −2.396x20.Для нахождения v({2, 3}, x0) необходимо решить систему2{2,3}NE1 + B{2,3}M(k) + M1 (k) Θ{2,3}(k + 1) − Θ{2,3}(k) + 5−{2,3} − (M {2,3}(k))T R(k) = 0,{2,3} MTM{2,3}(k) = −(−R{2,3}(k) + B{2,3}(k)Θ{2,3}(k + 1)B{2,3}(k))−1× × B T (k)Θ{2,3}(k + 1)(1 + M N E (k)).1{2,3}Θ{2,3}(k) = 2, 525,v({2, 3}, x0) = −2, 525x20.Заметим, что построенная характеристическая функция является супераддитивной.Тогда вектор Шепли имеет вид:∗2ϕSh1 (k) = −1, 1525x (k) ,∗2ϕSh1 (k) = −1, 168x (k) ,∗2ϕSh3 (k) = −1, 1505x (k) .Состоятельная во времени процедура распределения дележа:β1 (k) = −1, 1525x∗(k)2 + 1, 1525x∗(k + 1)2 = −0.996x∗(k)2,β2 (k) = −1, 168x∗(k)2 + 1, 168x∗(k + 1)2 = −1.009x∗(k)2,45β3 (k) = −1, 1505x∗(k)2 + 1, 1505x∗(k + 1)2 = −0.994x∗(k)2.Покажем, что для вектора Шепли выполняется условие устойчивости противиррационального поведения игроков.−0.996x∗(k)2 + 1.251x∗(k)2 ≥ 0,−1.009x∗(k)2 + 1.156x∗(k)2 ≥ 0,−0.994x∗(k)2 + 1.13x∗(k)2 ≥ 0,Значит, согласно утверждению 1, достаточные условия выполнены и рассматриваемый делёж устойчив против иррационального поведения игроков.46Глава 2Стохастические линейно-квадратичные дискретные игрысо случайной продолжительностьюВ настоящее время одной из основных задач теории динамических и дифференциальных игр является описание процессов наиболее приближенных креальным.
Одной из проблем, возникающих при описании реальных процессовпринятия решения, является вопрос возникновения неопределенности. Действительно, в жизни зачастую будущее состояние невозможно предсказать точно.Поэтому, математические модели исследуемых задач должны учитывать возможность возникновения неопределенности в различных её проявлениях. Так,актуальными является исследования конфликтно-управляемых систем с недетерминированными переходами из состояния в состояние. Игры, описывающиетакие модели, называют стохастическими. Впервые стохастические игры рассмотрены Л.
Шепли [62]. Т. Башар первым получил аналитическое решениестохастических квадратичных игр [37]. В настоящее время класс стохастических игр подробно освещен в литературе, актуальными являются работы, исследующие кооперативные стохастические игры [36, 57, 67, 68, 18].Ещё один вид неопределенности, который может возникнуть при описанииреальных процессов, это случайная продолжительность развития процесса. Виграх, описывающих такие задачи предполагается, что игра заканчивается внекоторый случайный момент времени. В настоящее время ведётся активноеисследование дифференциальных и многошаговых игр со случайной продолжительностью. Данной тематике посвящены, например, работы [19, 23, 34].В данной главе предпринята попытка объединить два рассмотренных виданеопределенности применительно к линейно-квадратичным дискретным играм.Исследуются линейно-квадратичные дискретные стохастические игры со слу-47чайной продолжительностью.
Находится коoперативное решение игры в видеES-вектора, предложенного в работе [45]. И рассматривается проблема динамической устойчивости [17, 16] кооперативного решения.Рассмотрим дискретную линейно-квадратичную неантагонистическую игру n лиц, состояние которой в каждый момент времени задается вектором x(k),изменяющимся согласно системе уравненийx(k + 1) = A(k)x(k) +nXBi (k)ui(k) + w(k),(2.0.1)i=1k0 ≤ k ≤ L < ∞,k0 ∈ T+ ,x(k0) = x0,где x ∈ Rm – вектор-столбец, ui ∈ Rr – вектор-столбец управления игрока i,i = 1, .
. . , n ; A(k), Bi(k) – матрицы размерности (m×m) и (m×r) соответственно, x(k0) = x0 – начальное состояние, w(k) – m-мерный вектор возмущений,w(k0), . . . , w(k) – взаимонезависимые случайные вектора с нулевым математическими ожиданиями и матрицами дисперсий W (k). Игра начинается в моментk0 из состояния x0, однако, момент ее окончания не фиксирован заранее, а является реализацией некоторой случайной величины L. Случайная величина Lпринимает значения от k0 до K с некоторыми вероятностями. Заданы вероятности qk того, что игра закончится на шаге k, если она состоялась на (k − 1)-м,0 ≤ qk ≤ 1, k = 0, .