Диссертация (1145439), страница 42
Текст из файла (страница 42)
Равновесные по Нэшу стратегии в задаче (3.3), (3.23) со случайными горизонтами планирования имеют видNγ1τ=εδ1τ Aτ2εδ2τ Aτ1N,γ=,2τδ1τ Aτ2 + δ2τ Aτ1 + αAτ1 Aτ2 Pττ +1δ1τ Aτ2 + δ2τ Aτ1 + αAτ1 Aτ2 Pττ +1(3.28)некооперативные выигрыши –ViN (τ, x) = Aτi ln x + Biτ , i = 1, 2 ,гдеδ1τ + C1τAτ1 =nPn1 =τ +11−θn1nP1 −τj=0aj1δ2τ + C2τ, Aτ2 =αPττ +11−1−nPω n2nP2 −τj=0aj2αPττ +1θn1nP1 −τn1 =τ +1j=1,nPωn2n2 =τ +1nP2 −τj=1Pττ +1(3.29)δ1n1 −τ −j D1j,Pττ +1NNNδ2τ ln(γ2τ)+αAτ2 Pττ +1 ln(ε−γ1τ−γ2τ)+C2τB2τ =n2 =τ +11−NNNδ1τ ln(γ1τ)+αAτ1 Pττ +1 ln(ε−γ1τ−γ2τ)+C1τB1τ =nPδ2n2 −τ −j D2j.(3.30)Доказательство.
Сначала запишем стратегию игрока i, когда его оппонент покидает игру.Для этого используем результаты, полученные для модели с фиксированными горизонтамипланирования (см. (3.13)), откудаuait =niXδitln(uait )t=τni −τXajiln x +j=0гдеDij=ε(1 − ai )x,1 − ati=jXl=0ali³lnεjPp=0ni −τXδini −τ −j Dij ,j=1´+apijXl=1alijXln(api ) .p=1(3.31)250Как обычно, в моделях «рыбных войн» функции выигрыша ищем в виде ViN (τ, x) =NAτi ln x + Biτ и предполагаем линейный вид стратегий игроков uNiτ = γiτ x, i = 1, 2.Тогда, используя связи между функциями выигрыша (3.26) и (3.27), запишем уравненияБеллмана в видеNNNAτ1 ln x + B1τ = δ1τ ln(γ1τx) + Pττ +1 (αAτ1 ln(εx − γ1τx − γ2τx) + B1τ ) +nXnXn1 −τ1 −τXjθn1 (a1 ln x +δ1n1 −τ −j D1j ) ,+C1τn1 =τ +1j=0NNNAτ2 ln x + B2τ = δ2τ ln(γ2τx) + Pττ +1 (αAτ2 ln(εx − γ1τx − γ2τx) + B2τ ) +nXnXn2 −τ2 −τXj+C2τω n2 (a2 ln x +δ2n2 −τ −j D2j ) .n2 =τ +1(3.32)j=1j=0(3.33)j=1Максимизируя, получим равновесные по Нэшу стратегииNγ1τ=εδ1τ Aτ2εδ2τ Aτ1N,γ=.2τδ1τ Aτ2 + δ2τ Aτ1 + αAτ1 Aτ2 Pττ +1δ1τ Aτ2 + δ2τ Aτ1 + αAτ1 Aτ2 Pττ +1Подставляя в (3.32) и (3.33), получим коэффициенты Aτi и Biτ в виде (3.29), (3.30).Следовательно, равновесные по Нэшу стратегии и выигрыши определены в виде ViN (τ, x) =Aτi ln x + Biτ , i = 1, 2, и приступим к определению кооперативного поведения игроков.4.3.3.2.
Кооперативное равновесиеДля построения кооперативных стратегий и выигрышей игроков применяется арбитражная схема Нэша для всего периода продолжения игры. Таким образом, необходиморешить следующую задачу:(V1c (1, x) − V1N (1, x))(V2c (1, x) − V2N (1, x)) =n1nnhXXX=(θn1ω n2δ1t ln(uc1t ) +n1 =1+nX1 −1n2 =1n2Xωn2 (δ1t ln(uc1t ) +t=1·(ω n2+n1 =1θn1 (n1Xt=1δ2t ln(uc2t ) +n2Xt=n1 +1t=1iδ1t ln(ua1t )) − V1N (1, x)) ·t=n2 +1nhXn2 =1nX2 −1n2 =n1n1XnXn1 =n2θn1n2Xδ2t ln(uc2t ) +t=1i,δ2t ln(ua2t )) − V2N (1, x)) → cmaxcu1t ,u2t ≥0(3.34)Nгде ViN (1, x) = ANi ln x + Bi , i = 1, 2 – выигрыши в равновесии по Нэшу, определенные в(3.28)-(3.30).251Аналогично лемме 3.1 получим связь между функциями Беллмана (кооперативнымивыигрышами) при наступлении моментов времени τ и τ + 1:n1nXXcτcτ +1 cV1 (τ, x) = δ1 ln(u1τ ) + Pτ V1 (τ + 1, x) + C1τθn1δ1t ln(ua1t ) ,V2c (τ, x) = δ2τ ln(uc2τ ) + Pττ +1 V2c (τ + 1, x) + C2τn1 =τ +1nXωn2n2 =τ +1t=τn2Xδ2t ln(ua2t ) .t=τТеорема 3.4.
Кооперативные выигрыши в задаче (3.3), (3.23) со случайными горизонтами планирования имеют видn−k+1 iGn−k+1 ln(εx − uc1n−k − uc2n−k ) +Vic (n − k, x) = δin−k ln(ucin−k ) + αPn−k+k−1Xn−l n−ln−l+1ccc)] +− γ2n−lPn−k[δi ln(γin−l) + αPn−lln(ε − γ1n−ll=2n−1 n−1c+Pn−k [δi ln(γin−1)ccnn− γ2n−1) + Pn−1Bi ] +αAi ln(ε − γ1n−1+ Pn−1+kXn−lPn−kCin−l Vil (ni ) ,(3.35)l=1гдеV1l (n1 )nX=n1 =n−l+1G1k =kXθn1n1Xδ1tln(ua1t ) ,V2l (n2 )nX=ωn2n2 =n−l+1t=n−ln−lnδ1n−l αk−l Pn−k+ αk A1 Pn−k, G2k =kXn2Xδ2t ln(ua2t ) ,t=n−ln−lnδ2n−l αk−l Pn−k+ αk A2 Pn−k.l=1l=1Кооперативные стратегии связаны какcγ2n−k=cδ1n−k δ2n−k ε − δ2n−k γ1n−kG1k,δ1n−k G2k(3.36)cδ1n−k εγ1n−1G21.(3.37)cδ1n−1 εG2k + γ1n−1(G1k G21 − G11 G2k )cСтратегия первого игрока на последнем шаге – γ1n−1определяется из решения одногоcγ1n−k=из уравнений условий первого порядка, напримерnαA1 Pn−1(V2c (1, x) − V2N (1, x)) +ccε − γ1n−1− γ2n−1´nαA2 Pn−1−(V1c (1, x) − V1N (1, x)) = 0 .ccε − γ1n−1− γ2n−1−³ δ n−1+ c2γ2n−1Доказательство.
Определим кооперативные выигрыши агентов Vic (τ, x) при наступлениив игре момента времени τ какn1nnnXθn1 h X ωn2 Xδ1t ln(uc1t ) +nnPPu1τ ,...,u1nn1 =τθl n2 =n1ωl t=τV1c (τ, x) = cmaxcl=τ+nX1 −1n2 =τωn2nPωll=τl=τn2Xt=τioδ1t ln(uc1t ) + V1a (τ, n1 ) ,(3.38)252V2c (τ, x)n2nnnXωn2 h X θn1 X= cmaxcδ2t ln(uc2t ) +nnPPu2τ ,...,u2nn2 =τωl n1 =n2θl t=τl=τ+nX2 −1n1 =τl=τθn1nPωln1Xδ2tln(uc2t )io+V2a (τ, n2 ).(3.39)t=τl=τНачнем с ситуации наступления момента времени n. Так как на следующем шаге n + 1выигрыши обоих игроков нулевые, то оптимальные кооперативные стратегии совпадают сравновесными по Нэшу, а выигрыши имеют видNx) = Ai ln x + Bi , i = 1, 2 ,Vic (n, x) = δin ln(ucin ) = ViN (n, x) = δin ln(γinгдеAi =δin, Bi =δinNln(γ1n)=δin(3.40)³ε´ln, i = 1, 2 .2Теперь предположим, что в игре наступил момент времени n−1.
Следовательно, задача(3.34) принимает вид(V1c (n − 1, x) − V1N (n − 1, x))(V2c (n − 1, x) − V2N (n − 1, x)) →maxuc1n−1 ,uc2n−1,(3.41)гдеnV1c (n − 1, x) = δ1n−1 ln(uc1n−1 ) + Pn−1V1c (n, (εx − uc1n−1 − uc2n−1 )α ) + C1n−1 θnnV2c (n − 1, x) = δ2n−1 ln(uc2n−1 ) + Pn−1V2c (n, (εx − uc1n−1 − uc2n−1 )α ) + C2n−1 ωnnXδ1t ln(ua1t ) ,t=n−1nXδ2t ln(ua2t ) .t=n−1Запишем задачу (3.41) в виде³nδ1n−1 ln(uc1n−1 ) + Pn−1(αA1 ln(εx − uc1n−1 − uc2n−1 ) + B1 ) +nX+C1n−1 θn´δ1t ln(ua1t ) − V1N (n − 1, x) ·t=n−1³n(αA2 ln(εx − uc1n−1 − uc2n−1 ) + B2 ) +· δ2n−1 ln(uc2n−1 ) + Pn−1+C2n−1 ωnnX´δ2t ln(ua2t ) − V2N (n − 1, x) .t=n−1cx, i = 1, 2. ТогдаКак обычно ищем стратегии игроков в линейном виде ucin−1 = γin−1условия первого порядка примут вид253³ δ n−1´nPn−1αA1−(V2c (n − 1, x) − V2N (n − 1, x)) −ccε − γ1n−1− γ2n−1nPn−1αA2−(V1c (n − 1, x) − V1N (n − 1, x)) = 0 ,ccε − γ1n−1 − γ2n−1nPn−1αA1−(V2c (n − 1, x) − V2N (n − 1, x)) +ccε − γ1n−1 − γ2n−1´nPn−1αA2−(V1c (n − 1, x) − V1N (n − 1, x)) = 0 .ccε − γ1n−1 − γ2n−11cγ1n−1³ δ n−1+ c2γ2n−1(3.42)(3.43)Вычитая (3.43) из (3.42), получим следующее соотношение:V1c (n − 1, x) − V1N (n − 1, x) =cδ1n−1 γ2n−1(V1c (n − 1, x) − V2N (n − 1, x)) ,cδ2n−1 γ1n−1подставляя которое в (3.42), получим связь между кооперативными стратегиями игроковcγ2n−1cnδ1n−1 δ2n−1 ε − δ2n−1 γ1n−1(δ1n−1 + Pn−1αA1 )=.n−1 n−1nδ1 (δ2 + Pn−1 αA2 )(3.44)Перейдем к ситуации, когда в игре наступил момент времени n − 2.
Тогда задача (3.34)примет вид(V1c (n − 2, x) − V1N (n − 2, x))(V2c (n − 2, x) − V2N (n − 2, x)) →maxuc1n−2 ,uc2n−2 ,uc1n−1 ,uc2n−1,(3.45)гдеV1c (n − 2, x) = δ1n−2 ln(uc1n−2 ) +n1nXXn−1 c+Pn−2V1 (n−1, (εx−uc1n−2 −uc2n−2 )α )+C1n−2θn1δ1t ln(ua1t ) ,n1 =n−1t=n−2n−2− 2, x) = δ2 ln(uc2n−2 ) +n2nXXn−1 cccα+Pn−2 V2 (n−1, (εx−u1n−2 −u2n−2 ) )+C2n−2ω n2δ2t ln(ua2t ) .n2 =n−1t=n−2V2c (nПерепишем задачу (3.45) в виде³n−1 n−1nδ1n−2 ln(uc1n−2 ) + Pn−2(δ1 + Pn−1αA1 )α ln(εx − uc1n−2 − uc2n−2 ) +n−1 n−1cnccn+Pn−2(δ1 ln(γ1n−1) + Pn−1αA1 ln(ε − γ1n−1− γ2n−1) + Pn−1B1 ) +nnn1´XXXn−1tataN+Pn−2 C1n−1 θnδ1 ln(u1t ) + C1n−2θn1δ1 ln(u1t ) − V1 (n − 2, x) ·³t=n−1n1 =n−1t=n−2nn−1 n−1αA2 )α ln(εx − uc1n−2 − uc2n−2 ) +(δ2 + Pn−1· δ2n−2 ln(uc2n−2 ) + Pn−2nccncn−1 n−1B2 ) +) + Pn−1− γ2n−1αA2 ln(ε − γ1n−1) + Pn−1(δ2 ln(γ2n−1+Pn−2nnn2´XXXn−1ω n2δ2t ln(ua2t ) − V2N (n − 2, x) → max .C2n−1 ωnδ2t ln(ua2t ) + C2n−2+Pn−2t=n−1n2 =n−1t=n−2254cИща стратегии в линейном виде ucin−2 = γin−2x, i = 1, 2, запишем условия первогопорядка для задачи (3.45)³ δ n−2 αP n−1 (δ n−1 + αA P n ) ´1 n−11(V2c (n−2, x)−V2N (n−2, x)) −− n−2 1cccγ1n−2ε − γ1n−2 − γ2n−2n−1nPn−2α(δ2n−1 +αA2 Pn−1) c−(V1 (n−2, x)−V1N (n−2, x)) = 0 ,ccε − γ1n−2 − γ2n−2n) cαP n−1 (δ n−1 + αA1 Pn−1− n−2 1c(V2 (n−2, x)−V2N (n−2, x)) +cε − γ1n−2 − γ2n−2³ δ n−2 αP n−1 (δ n−1 +αA P n ) ´2 n−1(V1c (n−2, x)−V1N (n−2, x)) = 0 ,+ c2 − n−2 c2cγ2n−2ε − γ1n−2 − γ2n−2n−1 n³ P n−1 δ n−1αA1 Pn−2Pn−1 ´ cn−2 1−(V2 (n−2, x)−V2N (n−2, x)) −cccγ1n−1ε − γ1n−1 − γ2n−1nP n−1 αA2 Pn−1− n−2c(V1c (n−2, x)−V1N (n−2, x)) = 0 ,cε − γ1n−1 − γ2n−1n−1 nαA1 Pn−2Pn−1−(V2c (n−2, x)−V2N (n−2, x)) +ccε − γ1n−1 −γ2n−1n−1 n³ P n−1 δ n−1αA2 Pn−2Pn−1 ´ c2+ n−2−(V1 (n−2, x)−V1N (n−2, x)) = 0 .cccγ2n−1ε − γ1n−1− γ2n−1(3.46)(3.47)(3.48)(3.49)Вычитая (3.49) из (3.48) и (3.47) из (3.46), получим следующие равенства:V1c (n− 2, x) −V1N (ncδ1n−2 γ2n−2− 2, x) = n−2 c (V2c (n − 2, x) − V2N (n − 2, x)) ,δ2 γ1n−2V1c (n − 2, x) − V1N (n − 2, x) =иcδ1n−1 γ2n−1(V2c (n − 2, x) − V2N (n − 2, x))cδ2n−1 γ1n−1ccγ2n−2δ1 γ2n−1=.ccγ1n−2δ2 γ1n−1(3.50)Подставляя первое соотношение в (3.46), получим связь между кооперативными стратегиями игроковcγ2n−2n−1n−1 ncδ1n−2 δ2n−2 ε − δ2n−2 γ1n−2(δ1n−2 + αδ1n−1 Pn−2+ α2 A1 Pn−2Pn−1 )=.n−2 n−2n−1 n−1n−1 n2δ1 (δ2 + αδ2 Pn−2 + α A2 Pn−2 Pn−1 )ОбозначимnnαA1 ,αA1 , G21 = δ2n−1 + Pn−1G11 = δ1n−1 + Pn−1n−1 nn−1Pn−1 ,+ α2 A1 Pn−2G12 = δ1n−2 + αδ1n−1 Pn−2n−1 nn−1Pn−1 .+ α2 A2 Pn−2G22 = δ2n−2 + αδ2n−1 Pn−2Тогда стратегии (3.44) и (3.51) запишем в видеcγ2n−1=ccG11G12δ1n−1 δ2n−1 ε − δ2n−1 γ1n−1δ1n−2 δ2n−2 ε − δ2n−2 γ1n−2c,γ=.2n−2δ1n−1 G21δ1n−2 G22(3.51)255cИспользуя (3.50), можно выразить стратегию второго игрока γ1n−2на шаге n − 2 черезcстратегию первого игрока γ1n−1на шаге n − 1cγ1n−2= δ1n−2 εcγ1n−1G21.cδ1n−1 εG22 + γ1n−1(G12 G21 − G11 G22 )Функции выигрыша примут видn−1 1V1c (n − 2, x) = δ1n−2 ln(uc1n−2 ) + αPn−2G1 ln(εx − uc1n−2 − uc2n−2 ) +n−1 n−1cnccn+Pn−2[δ1 ln(γ1n−1) + Pn−1αA1 ln(ε − γ1n−1− γ2n−1) + Pn−1B1 ] +nnn1XXXn−1+Pn−2C1n−1 θnδ1t ln(ua1t ) + C1n−2θn1δ1t ln(ua1t ) ,V2c (n− 2, x) =t=n−1n−2δ2 ln(uc2n−2 )n1 =n−1+n−1 2αPn−2G1ln(εx −t=n−2cu1n−2 −uc2n−2 ) +n−1 n−1cnccn+Pn−2[δ2 ln(γ2n−1) + Pn−1αA2 ln(ε − γ1n−1− γ2n−1) + Pn−1B2 ] +nnn2XXXn−1+Pn−2C2n−1 ωnδ2t ln(ua2t ) + C2n−2ω n2δ2t ln(ua2t ) .t=n−1n2 =n−1t=n−2Аналогичная процедура для случая, когда в игре наступает момент времени n − 3 даеткооперативные стратегии в видеcγ2n−3=cδ1n−3 δ2n−3 ε − δ2n−3 γ1n−3G13,δ1n−3 G23гдеn−2n−2 n−1n−2 n−1 nG13 = δ1n−3 + αδ1n−2 Pn−3+ α2 δ1n−1 Pn−3Pn−2 + α3 A1 Pn−3Pn−2 Pn−1 ,n−2n−2 n−1n−2 n−1 nG23 = δ2n−3 + αδ2n−2 Pn−3+ α2 δ2n−1 Pn−3Pn−2 + α3 A2 Pn−3Pn−2 Pn−1иcγ1n−3=cδ1n−3 εγ1n−1G21.cδ1n−1 εG23 + γ1n−1(G13 G21 − G11 G23 )Функции выигрыша примут видn−2 iG2 ln(εx − uc1n−3 − uc2n−3 ) +Vic (n − 3, x) = δin−3 ln(ucin−3 ) + αPn−3ccn−1cn−2 n−2)] +− γ2n−2ln(ε − γ1n−2) + αPn−2[δi ln(γ1n−2+Pn−3ccncn−2 n−1 n−1) + Bi )]+Vi3 (ni ) ,−γ2n−1(αAi ln(ε−γ1n−1)+Pn−1Pn−2 [δi ln(γ1n−1+Pn−3гдеV13 (n1 )n−2C1n−2+Pn−3nXn1 =n−1θn1n1Xt=n−2=n−2 n−1Pn−3Pn−2 C1n−1 θnδ1t ln(ua1t ) + C1n−3nXn1 =n−2nXδ1t ln(ua1t ) +t=n−1n1Xθn1t=n−3δ1t ln(ua1t ) ,256V23 (n2 )n−2+Pn−3C2n−2nXn2Xωn2n2 =n−1=n−2 n−1Pn−3Pn−2 C2n−1 ωnδ2t ln(ua2t ) + C2n−3t=n−2nXnXδ2t ln(ua2t ) +t=n−1n2Xω n2n2 =n−2δ2t ln(ua2t ) .t=n−3Продолжая процесс до наступления в игре момента времени k, получим кооперативныевыигрыши в виде (3.35) и кооперативные стратегии в виде (3.36), (3.37).Следовательно, все параметры выражены через одну неизвестную стратегию первогоc, для определения которой необходимо решить одно изигрока на последнем шаге – γ1n−1уравнений условий первого порядка.