Диссертация (1145439), страница 41
Текст из файла (страница 41)
. . , γ2n ) =nXaj2 ln x +j=0гдеjB =jXal2l=0³εln jPp=0´+ap2jXal2nXδ2n−j B j ,(3.13)j=1j³X´lnap2 , n = n2 − n1 .p=1l=1Выигрыш второго игрока V2aN (xN n1 , δ2 )[n1 , n2 ], когда он участвует в процессе эксплуатации индивидуально после некооперативного поведения игроков – это выигрыш (3.13) сначальным размеров популяции xN n1 (см. (3.6) при n = n1 ):V2 (x, δ2 )[n1 , n2 ] =nXaj2ln(xN n1nX)+δ2n−j B j .j=1j=0Следовательно, все выигрыши кроме кооперативных в задаче (3.8) определены. Дляопределения кооперативного поведения в n1 -шаговой игре определим кооперативные стратегии, начиная с шага n1 . Аналогично, стратегии предполагаются линейными функциямиccuc1t = γ1tx, uc2t = γ2tx, и необходимо максимизировать произведение Нэша (3.8).Считаем, что после момента времени n1 первый игрок получает в качестве компенсациидолю k от оставшегося ресурса, а второй игрок продолжает процесс эксплуатации с доли(1 − k) неиспользованного ресурса.В одношаговой игре выигрыш первого игрока имеет видccccccH11(γ11, γ21; x) = ln(γ11x) + δ1 ln(k(εx − γ11x − γ21x)α ) =ccc) + δ1 ln k ,− γ21) + a1 ln(ε − γ11= (1 + a1 ) ln x + ln(γ11второго игрока –ccccx) + δ2 V2ac (xcn1 , δ2 )[n1 , n2 ] =; x) = ln(γ21, γ21(γ11H21nnXXcccx)α ) +δ2n+1−j B j =x) + δ2aj2 ln((1 − k)(εx − γ11x − γ21= ln(γ21j=1j=0c)+= ln(γ21n+1Xaj2 ln x +j=0+n+1Xcc)+aj2 ln(ε − γ11− γ21j=1nXj=1δ2n+1−j B j+ δ2nXj=0aj2 ln(1 − k) .244Теперь рассмотрим задачу (3.8) с двумя шагами.
Функция выигрыша первого игрока вдвухшаговой игре имеет видccccccccccH12(γ11, γ12, γ12, γ22; x) = ln(γ12x) + δ1 H11c (γ11, γ21; (εx − γ12x − γ22x)α ) =ccc= ln(γ12x) + δ1 (1 + a1 ) ln(εx − γ12x − γ22x)α +ccc+δ1 (ln(γ11) + a1 ln(ε − γ11− γ21) + δ1 ln k) =ccc= (1 + a1 + a21 ) ln x + ln(γ12) + a1 (1 + a1 ) ln(ε − γ12− γ22)+ccc) + δ12 ln k ,− γ21) + δ1 a1 ln(ε − γ11+δ1 ln(γ11второго игрока –ccccccccccH22(γ11, γ21, γ12, γ22; x) = ln(γ22x) + δ2 H21c (γ11, γ21; (εx − γ12x − γ22x)α ) =n+1Xcccc) + δ2x − γ22x)α +x) + δ2 ln(γ21aj2 ln(εx − γ12= ln(γ22j=0+δ2n+1Xaj2ln(ε −cγ11−cγ21)+c= ln(γ22)+n+2Xaj2 ln x +n+2Xj=0+δ2δ2n+2−j B j+δ22aj2ln(ε −nXaj2 ln(1 − k) =j=0j=1j=1n+1XnXcccaj2 ln(ε − γ12− γ22) + δ2 ln(γ21)+j=1cγ11−cγ21)j=1+nXδ2n+2−j B jj=1+δ22nXaj2 ln(1 − k) .j=0Для определения кооперативного поведения в этой двухшаговой игре необходимо решить следующую задачу:cccccH2 = (H12(γ11, γ21, γ12, γ22; x) − V1N (x, δ1 )[n1 − 1, n1 ]) ·ccccc·(H22(γ11, γ21, γ12, γ22; x) − [V2N (x, δ2 )[n1 − 1, n1 ] + V2aN (xN n1 , δ2 )[n1 , n2 ]]) =cc= (H21− V1N )(H22− Ṽ2N ) →maxc ,γ c ,γ c ,γ cγ1121 12 22,(3.14)где Ṽ2N обозначено выражение в квадратных скобках.Условия первого порядка имеют видn+1Paj2³´δ1δ1 a1∂Hj=1cc= c −(H22− Ṽ2N )−(H12−V1N ) = 0 ,ccccc∂γ11γ11 ε−γ11 −γ21ε−γ11−γ21n+1P jδa2 ´2³∂H 2δ1 a1δ2j=1cNc=−(H22 − Ṽ2 )+ c −(H12−V1N ) = 0 ,ccccc∂γ21ε−γ11 −γ21γ21 ε−γ11 −γ212δ2(3.15)(3.16)245n+2Paj2³´2∂H1a1 + a1j=1cc(H22− Ṽ2N ) −= c −(H12−V1N ) = 0 ,ccccc∂γ12γ12 ε−γ12 −γ22ε−γ12−γ22n+2P ja2 ´³∂H 2a1 + a211j=1ccN(H12−V1N ) = 0 .=−(H22 − Ṽ2 )+ c −ccccc∂γ22ε−γ12 −γ22γ22 ε−γ12 −γ222(3.17)(3.18)Вычитая (3.16) из (3.15) и (3.18) из (3.17), получимcδ2 γ11c(H12− V1N ) ,cδ1 γ21γccc− Ṽ2N ) = 12(H22− V1N ) .(H12cγ22c(H22− Ṽ2N ) =(3.19)(3.20)Откудаcca2 γ11γ12=.cca1 γ21γ22(3.21)Подставляя (3.19) и (3.20) в (3.15) и (3.16), получимδ2 ³1−cγ211 ³1−cγ22ca1 γ11+n+1Pcaj2 γ21´j=1c(H12− V1N ) = 0 ,ccε − γ11 − γ21n+2P j cc(a1 + a21 )γ12a2 γ22 ´+j=1c(H12− V1N ) = 0 .ccε − γ12 − γ22Откудаcγ21=ccε − γ12ε − γ11(1 + a1 + a21 )(1 + a1 )c,γ=.22n+1n+2P jP ja2a2j=0(3.22)j=0Подставляя (3.22) в (3.21), получим следующее соотношение:cεγ11cγ12=εa1n+2Pj=0aj2+cγ11(n+2Pj=1aj2 (1n+2Pj=1aj2+ a1 +a21 )− (a1 +a21 )n+2Pj=0.aj2 ))Следовательно, все параметры выражены через одну неизвестную стратегию первогоc, для определения которой необходимо решить одно изигрока на последнем шаге – γ11уравнений (3.15)–(3.18).
К сожалению, аналитическое решение не может быть получено,поэтому ниже будут представлены результаты численного моделирования.Продолжая процесс для n1 -шаговой игры получим кооперативные выигрыши в виде(3.9), (3.10) и кооперативные стратегии в виде (3.11), (3.12).2464.3.3. Случайные времена участия в процессе эксплуатацииВ данном разделе исследовано расширение предыдущей модели, в которой учитываетсяслучайная природа реальных процессов.Пусть первый агент эксплуатирует возобновляемый ресурс на протяжении n1 моментоввремени, а второй – на протяжении n2 моментов времени.
n1 является дискретной случайной величиной с диапазоном значений {1, . . . , n} и соответствующими вероятностями{θ1 , . . . , θn }. n2 – дискретная случайная величина с тем же диапазоном и вероятностями{ω1 , . . . , ωn }. Предполагается, что горизонты планирования независимы. Следовательно,решается задача (3.3), (3.7) со случайными временами участия в процессе эксплуатации.Выигрыши агентов определяются как математические ожидания:H1 = En1nXδ1tln(u1t )I{n1 ≤n2 } +n2³Xt=1=nXhθn1n1 =1ω n2n2 =n1H2 = Eδ2tn1Xδ1tln(u1t ) +t=1ln(u2t )I{n2 ≤n1 } +=n2 =1ωn2nhXn1 =n2ωn2n2 =1t=1nXt=n2 +1nX1 −1n1³Xδ2tn2³Xθn1δ2tln(u2t ) +t=1δ1t´iδ1t ln(ua1t ) ,n1Xln(u1t ) +t=1t=n2 +1n2Xln(u2t ) +t=1n2X´oδ1t ln(ua1t ) I{n1 >n2 } =n1Xln(u1t ) +t=1nXn2nXδ1tδ2t´ln(ua2t )oI{n2 >n1 } =t=n1 +1nX2 −1θn1n1 =1n1³Xδ2tln(u2t ) +t=1´iδ2t ln(ua2t ) ,n2X(3.23)t=n1 +1где uait ≥ 0 – стратегия i-го игрока, когда его оппонент покидает игру, в момент времени t,i = 1, 2.4.3.3.1.
Равновесие по НэшуДля определения кооперативного поведения используется арбитражная схема Нэша,где в качестве точки статус-кво выступают выигрыши при некооперативном поведении.Поэтому, начнем с определения равновесных по Нэшу стратегий. Выигрыши (функцииБеллмана) игроков за весь период продолжения игры имеют видnnXV1N (1, x) = maxNuN11 ,...,u1n+nX1 −1ω n2V2N (1, x)+ln(uN1t )θn1n1Xt=1n1X+δ1t ln(uN1t ) +δ1tln(ua1t )´io,t=n2 +1nnXNuN21 ,...,u2nn1 =1δ1tωn2n2 =n1t=1= maxnX2 −1nhXn1 =1n2³Xn2 =1θn1n2 =1n1³Xt=1ωn2nhXθn1n1 =n2δ2t ln(uN2t ) +n2Xδ2t ln(uN2t ) +t=1n2Xt=n1 +1´io.δ2t ln(ua2t )247В дальнейшем исследовании необходимы выигрыши агентов при наступлении в игремомента времени τ , τ = 1, 2, . .
.. Заметим, что вероятности того, что первый игрок, например, продолжит участвовать в процессе эксплуатации τ, τ + 1, . . . , n временных моментовимеют видθτθτ +1θn, P,..., P.nnnPθlθlθll=τl=τl=τСледовательно, при наступлении момента времени τ функции Беллмана игроков ViN (τ, x),i = 1, 2 примут видV1N (τ, x)n1nnnXθn1 h X ωn2 X= maxδ1t ln(uN1t ) +nnPPNNu1τ ,...,u1nn1 =τθl n2 =n1ωl t=τl=τ+nX1 −1n2 =τωn2nPωll=τn2Xδ1tln(uN1t )io+V1a (τ, n1 ),(3.24)t=τl=τn2nnnXωn2 h X θn1 Xδ2t ln(uN2t ) +nnPPNNu2τ ,...,u1nn2 =τωl n1 =n2θl t=τV2N (τ, x) = maxl=τ+nX2 −1n1 =τθn1nPωll=τn1Xioaδ2t ln(uN)+V(τ,n),22t2(3.25)t=τl=τгдеV1a (τ, n1 ) =nX1 −1n2 =τn1nXn22 −1ωn2 Xθ n1 Xtaaδln(u),V(τ,n)=δ2t ln(ua2t )211t2nnPPn1 =τωl t=n2 +1θl t=n1 +1l=τl=τ– выигрыши игроков, когда игрок i, i = 1, 2 эксплуатирует ресурс индивидуально, и для ихопределения используются результаты предыдущего раздела.Для определения равновесия по Нэшу в задаче (3.3), (3.23) со случайными горизонтами планирования необходима связь между ViN (τ, x) и ViN (τ + 1, x), которая получена вследующем утверждении.Лемма 3.1.
Некооперативные выигрыши игроков при наступлении моментов τ и τ + 1связаны какτ +1 NV1N (τ, x) = δ1τ ln(uNV1 (τ + 1, x) + C1τ1τ ) + PτnXθn1n1Xn1 =τ +1V2N (τ, x)=δ2τln(uN2τ )+Pττ +1 V2N (τ+ 1, x) + C2τnXn2 =τ +1ω n2δ1t ln(ua1t ) ,(3.26)t=τn2Xt=τδ2t ln(ua2t ) ,(3.27)248гдеnPPττ +1=nPωlθlωτ1θτ1, C1τ = P,C=2τnnnnPP P .θlωlθlθlωll=τ +1nPl=τ +1nPl=τl=τωll=τl=τl=τl=τДоказательство. Проведем доказательство для первого игрока, а для второго – процедурааналогична. Из (3.24) запишем функцию Беллмана первого игрока при наступлении в игремомента времени τV1N (τ, x)nnn θ XXθn1ωn2 ττN)+ln(u= maxδ1τ1nnnPPP ·NuN1τ ,...,u1nn1 =τ +1θl n2 =τωlθll=τl=τl=τn1nXn2n1 −1hXioω n2 Xωn2 XtNtNa·δln(u)+δln(u)+V(τ,n)=111t11t1nnPPn2 =n1n2 =τωl t=τωl t=τl=τl=τnXθτ τ= Pδ1 ln(uN1τ ) +nn1 =τ +1θll=τn1nθn1 h X ωn2 XτN(δ1t ln(uN1t ) + δ1 ln(u1τ )) +nnPPθl n2 =n1ωl t=τ +1l=τnX1 −1+n2 =τl=τiω n2tNτNa(δ1 ln(u1t ) + δ1 ln(u1τ )) + V1 (τ, n1 ) =nPωl t=τ +1n2Xl=τ=δ1τln(uN1τ )nX+n1 =τ +1n1nθn1 h X ωn2 Xδ1t ln(uN1t ) +nnPPn=nt=τ+1θl 2 1ωll=τnX1 −1+n2 =τ +1ωn2nPωll=τn2Xiaδ1t ln(uN)+V(τ,n)=11t1t=τ +1l=τnPnX= δ1τ ln(uN1τ ) +n1 =τ +1nPθl h Xωl Xn1nθn1 l=τ +1ωn2 l=τ +1δ1t ln(uN1t ) +nnnnPPPPn=nt=τ+1θlθlωlωl21l=τ +1nP+nX1 −1n2 =τ +1ωn2nPl=τ +1ωll=τ +1nPωl Xn2ωlδ1tln(uN1t )t=τ +1l=τl=τ +1l=τnPωln1iωτ Xl=τ +1taa+Pδln(u)+V(τ+1,n)=111t1nnPt=τωlωll=τl=τ=δ1τl=ττ +1 NV1 (τln(uN1τ )+Pτ+ 1, x)+C1τnXθn1n1 =τ +1гдеnPPττ +1=ωlnPl=τ +1nPl=τl=τωlθlωτ1, C1τ = PnnP .θlωlθll=τ +1nPl=τl=τn1Xt=τδ1t ln(ua1t ) ,249Аналогично получим связь между V2N (τ, x) и V2N (τ + 1, x) в видеV2N (τ, x) = δ2ττ +1 Nln(uNV2 (τ2τ )+Pτ+ 1, x)+C2τnXωn2n2Xn2 =τ +1δ2t ln(ua2t ) ,t=τгдеθτ1C2τ = P.nnPθlωll=τl=τТеорема 3.3.