Диссертация (1145439), страница 25
Текст из файла (страница 25)
Ограничение (3.4) выполняется, т.к.a1un1 (1 − s) + un2 s = εиnP(a1 )jj=0>nPnPnP(a2 )j − 1 =j=0nP(a1 )j +(a2 )j = a1(a1 )j + a2j=0nPnPj=0j=0nP(a1 )j + a2j=0(a2 )j(a2 )j − 1(a2 )j +j=1n−1Pn−1Pj=0(a1 )j(a1 )j +j=1j=1j=1n−1Pn−1PnP(a1 )jj=1nP(a2 )j >j=1(a2 )j .j=0Запишем выигрыш первого игрока в n-шаговой игреH1n (un1 , un2 ) =nX(a1 )j ln x +j=0εh³= lnAk1 (a1 )n−k + (a1 )n−1 δ1 ln(1 − s) ,k=1гдеAk1nXkP(a2 )jkkPk´P(a1 )j X(a1 )j ijj=0j=1( (a1 ) ).j=1kP(a1 )jj=0kP(a2 )j − 1j=1j=0А выигрыш второго игрока равенH2n (un1 , un2 )=nXj(a2 ) ln x +j=0Ak2= lnεkP(a1 )jj=1kP(a1 )jj=0Ak2 (a2 )n−k + (a2 )n−1 δ2 ln s ,k=1гдеh³nXkP(a2 )j − 1j=0kkPk´P(a2 )j X(a2 )j ij j=1j=0( (a2 ) ).j=1142Теперь устремим горизонт планирования к бесконечности и получим равновесие по Нэшу в задаче (3.1), (3.3) [154]:ū1 =εa1 (1 − a2 )εa2 (1 − a1 ), ū2 =,(a1 + a2 − a1 a2 )(1 − s)(a1 + a2 − a1 a2 )sεx − ū1 (1 − s)x − ū2 sx =εa1 a2x,a1 + a2 − a1 a2и условие (3.4) выполняется, т.к.ū1 (1 − s) + ū2 s =ε(a1 + a2 − 2a1 a2 )< ε.a1 + a2 − a1 a2Исследуем асимптотическое поведение системы.
При использовании оптимальных поНэшу стратегий динамика развития популяции принимает видtP³xt+1´ αj tεa1 a2j=1= (εxt − ū1 (1 − s)xt − ū2 sxt )α =xα0 , t = 1, 2, . . .a1 + a2 − a1 a2и при t → ∞ стремится к стационарному состоянию³α´ 1−αεa1 a2x̄ =.a1 + a2 − a1 a2Таким же способом перехода от конечной к бесконечной задаче управления возобновляемыми ресурсами получено кооперативное равновесие. При этом игроки максимизируютобщий дисконтированный доход на конечном и бесконечном промежутке времени:nX,δ t (µ1 ln((1 − s)xt ut1 ) + µ2 ln(sxt ut2 )) → maxt t(3.5)δ t (µ1 ln((1 − s)xt ut1 ) + µ2 ln(sxt ut2 )) → max,t t(3.6)u1 ,u2 ≥0t=0∞Xu1 ,u2 ≥0t=0где 0 < δ < 1 – общий коэффициент дисконтирования, 0 < µ1 , µ2 < 1 – весовые коэффициенты (µ1 + µ2 = 1), отражающие значимость игроков.Теорема 3.2. Кооперативное равновесие в задаче (3.1), (3.5) имеет видuct1 =εµ1tPaj (1j=0, uct2 =− s)εµ2tP, t = 1, .
. . , n ,aj sj=0а в задаче (3.1), (3.6) –uc1 =εµ2 (1 − a)εµ1 (1 − a), uc2 =,1−ss143гдеa = αδ .При этом динамика развития популяции принимает видtPαjtxct = (εa)j=1 xα0 , t = 1, 2, . . . ,и стационарный размер популяции при использовании кооперативных стратегийαx̄c = (εa) 1−α .Доказательство. аналогично теореме 3.1. Заметим только, что ограничение (3.4) выполняется для конечного:εcnucn1 (1 − s) + u2 s = Pn< ε,ajj=0и бесконечного горизонта:uc1 (1 − s) + uc2 s = ε(1 − a) < ε .Вычислим кооперативный выигрыш в n-шаговой игреH n (un1 , un2 ) =nXaj ln x +j=0где Ak имеет видh³Ak = lnεkPnXAk an−k ,k=1kkPki´Pajaj Xjj=0(a )j=1 µµ1 1 µµ2 2 .ajj=1j=03.3.2.
Кооперативное регулируемое равновесиеВ данном разделе для поддержания кооперативного поведения применяется разработанная в диссертационной работе схема кооперативного регулируемого равновесия с участиемцентра. Задачей центра (арбитра) является контроль над соблюдением кооперативного договора и наказание отклоняющихся агентов путем изменения территории эксплуатации.Обозначим sc – разделение эксплуатируемой территории при кооперативном поведенииобоих игроков. В следующей теореме получено кооперативное регулируемое равновесие дляконечной и бесконечной задачи.144Теорема 3.3.
Кооперативное регулируемое равновесие в задаче (3.1), (3.5) имеет видγ1t (ut2 ) =εµ1tPaj (1j=0−, γ2t (ut1 ) =s∗t2 )εµ2tPj=0, t = 1, . . . , n ,aj s∗t1гдеcs∗t2 = s −sc t1 − sc tct∗tc(u−u),s=s+(u1 − uct2211 ) , t = 1, . . . , n .ctctu2u1Кооперативное регулируемое равновесие в задаче (3.1), (3.6) имеет видγ1 (u2 ) =εµ1 (1 − a),1 − s∗2γ2 (u1 ) =εµ2 (1 − a),s∗1гдеs∗2 = sc −sc1 − scc∗c(u−u),s=s+(u1 − uc1 ) .221uc2uc1Доказательство. Будем считать, что за отклонение от кооперативного равновесия игроковнаказывает центр, как было предложено в главе 2 (см. определение 2.2). Предположим, чтоесли отклоняется первый игрок, то центр увеличивает sc , а если второй – уменьшает sc .Рассмотрим отклонение второго игрока на шаге t в n-шаговой игреut2 = uct2 + ∆.Будем искать стратегию центра в видеs∗t = sc − η t (ut2 − uct2 ).Таким образом, центр наказывает агента, отклоняющегося от кооперативного поведения, изменением эксплуатируемой территории на величину, пропорциональную величинеотклонения.Тогда стратегия наказания первого игрока имеет видγ1t (ut2 ) =εµ1tPaj (1−.s∗t )j=0Для нахождения коэффициента η t необходимо решить задачу максимизации выигрышавторого игрока при использовании данной схемы наказания:nXδ t ln(s∗t xut2 ) → max,tt=0u2 ≥0и динамика развития популяции имеет видxt+1 = (εxt − (1 − s∗t )xt γ1t (ut2 ) − s∗t xt ut2 )α .145Понятие регулируемого равновесия дает нам условие, что максимум должен достигатьсяпри использовании кооперативной стратегии uct2.Для решения этой задачи воспользуемся тем же подходом, что и выше.
Сначала рассмотрим одношаговую игру∗1u2 = uc1= sc − η 1 (u2 − uc12 + ∆, s2 ),γ11 (u2 ) =εµ1.(1 + a)(1 − s∗1 )Функция выигрыша второго игрока принимает видmax{ln(s∗1 xu2 ) + a ln(εx − (1 − s∗1 )xγ11 (u2 ) − s∗1 xu2 )}u2 ≥0и решение u2 этой задачи должно совпадать сuc12 =εµ2,(1 + a)scоткуда получимη1 =sc.uc12Продолжая этот процесс для n-шаговой игры, получимscη = ct .u2tНеравенство (3.4) также выполняется, поскольку(1 − s∗t )γ1t (ut2 ) + s∗t ut2 =ut2εµ1εµ1t c+us(2−)=+ 2ut2 sc −2ctttPPu2ajajj=0(ut2 )2 (sc )2−εµ2tPj=0ajj=0ε= tP(ut2 sc−ajtPj=0εµ2j=0aj − εµ2 )2tP< ε.ajj=0Аналогично, при отклонении первого игрока мы находим стратегию центра в видеs∗t = sc + θt (ut1 − uct1 ),и стратегия наказания второго игрока имеет видγ2t (ut1 ) =εµ2tPj=0aj s∗t.146Для определения коэффициента θt решаем задачу максимизации выигрыша первогоигрока при использовании данной схемы наказания:nXδ t ln((1 − s∗t )xt ut1 ) → max,tu1 ≥0t=0и динамика развития популяции имеет видxt+1 = (εxt − (1 − s∗t )xt ut1 − s∗t xt γ2t (ut1 )) .Откуда получимθt =1 − sc.uct1Аналогичным образом найдено кооперативное регулируемое равновесие для обоих игроков в модели с бесконечным горизонтом планирования.Следствие 3.1.
Вид кооперативного регулируемого равновесия сохраняется и в случае сболее чем одним отклонением.Доказательство. Рассмотрим двухшаговую игру с двумя отклонениями. Тогда в одношаговой игре∗1u2 = uc1= sc − η 1 (u2 − uc12 + ∆1 , s2 ),γ11 (u2 ) =εµ1,(1 + a)(1 − s∗1 )и функция выигрыша второго игрока имеет видmax{ln(s∗1 xu2 ) + a ln(εx − (1 − s∗1 )xγ11 (u2 ) − s∗1 xu2 )} .u2 ≥0Теперь рассмотрим двухшаговую игру в предположении, что в последующей одношаговой игре было отклонение u2 = uc12 + ∆1 .Тогда функция выигрыша для двухшаговой игры примет видmax{ln(s∗2 xu2 ) + δ( выигрыш в одношаговой игре при x = x2 =u2 ≥0= (εx − (1 − s∗2 )xγ12 (u2 ) − s∗2 xu2 )α } == max{ln(s∗2 xu2 ) + δ(ln(s∗1 x2 u12 ) + a ln(εx2 − (1 − s∗1 )x2 γ11 (u2 ) − s∗1 x2 u12 ))} =u2 ≥0= max{ln(s∗2 xu2 ) + δ(ln(s∗1 u12 ) + ln x2 + a ln(ε − (1 − s∗1 )γ11 (u2 ) − s∗1 u12 )+u2 ≥0+a ln x2 )} = max{ln(s∗2 xu2 ) + a(1 + a) ln(εx − (1 − s∗2 )xγ12 (u2 ) − s∗2 xu2 )}+u2 ≥0+δmax{ln(s∗1 u12 )1u2 ≥0+ a ln(ε − (1 − s∗1 )γ11 (u2 ) − s∗1 u12 )} .sc , η 2 =1c2Несложно показать, что максимум достигается в точке uc12 ,u2 , когда η =uc12cs .uc22147Исследуем динамику развития популяции в случае однократного отклонения второгоигрока на k-ом шаге и его возвращения к кооперации в дальнейшем.Следствие 3.2.
При бесконечном числе шагов стационарный размер популяции при отклонении на одном шаге совпадает со стационарным размером популяции в случае кооперативного поведенияα1−α при n → ∞ .xdevn → (εa)Доказательство. Пусть второй игрок отклоняется на шаге kuk2 = uck2 + ∆kи затем продолжает использовать свою кооперативную стратегию uct2.Первый игрок наказывает второго на шаге k в соответствии с теоремой 3.3γ1k (uk2 ) =εµ1kPaj (1−sc+j=0.sc)(uk2uck2−uck2 )Найдем динамику развития популяции в случае отклонения второго игрока (xdevt ) и безотклонений (xct ).Несложно получить, чтоpPkPαkxck = xdev= x εj=1kαjja ´ n−p+1k ³Yαj=1.pP jp=1aj=0На шаге k + 1kP³xck+1 = (xck )α εj=1kPaj ´αc α α, xdevk+1 = (xk ) D ,ajj=0гдеkPD=εajj=1kPkP(sc ∆k )2ajj=0+.εµ2ajj=0Продолжая процесс с шага k + 2, получимpPnPxcnαn=x εαjn ³Yj=1p=1j=1pPj=0aj ´ajαn−p+1nPαn= x (εa)j=1αjn ³Y1 − ap ´αn−p+1,1 − ap+1p=1148pPnPnα j=1xdevn = x εαjn ³Yp=1j=1pPaj ´kPαn−p+1 ³ D j=0kε Pajj=0nPαn= x (εa)j=1αjaj ´αn−k=ajj=1n ³Y1 − ap ´αn−p+1 ³1+p+11−ap=1(sc ∆kkP(aj )2 ´j=0ε 2 µ2kPαn−k.ajj=1Теперь необходимо показать, чтоαα1−α .xcn → (εa) 1−α , xdevn → (εa)Для этого проверим, что при n → ∞n ³Y1 − ap ´αn−p+1Pn =→ 1.1 − ap+1p=1Рассмотрим логарифм от данного выраженияln Pn ==−nPp=1nPαn−p+1 [ln(1 − ap ) − ln(1 − ap+1 )] =p=1p+1)αn−p+1 ln( 1−a)=−1−ap+1nPαn−p+1 ln(1 +p=1ap (1−a)).1−apТак как ln(1 + x) ≤ x, тоln Pn ≤ −nXαpn−p+1 a (1− a).1 − app=1Найдем пределlimnPn→∞ p=1p(1−a)αn−p+1 a 1−a= lim αn+1 (1 − a)pn→∞δan+1(n+1)ln(1/α)n→∞= (1 − a) lim= 0.Откудаlim ln Pn ≤ 0 .n→∞Заметим также, что поскольку Pn ≥ 1, то ln Pn ≥ 0 .Окончательно получимlim Pn = 1 .n→∞nPp=1δp1−ap=(3.7)149Следствие 3.3.
Выполнено условие кооперативного регулируемого равновесия, т.е. наказание отклоняющегося агента (в данном случае – второго) приводит к уменьшению еговыигрыша, а именноJ2dev ≤ J2c .При этом агент (в данном случае – первый), придерживающийся кооперативного договора, имеет преимущество, а именноJ1dev ≥ J1c .Здесь Jic – выигрыш i-го игрока при использовании обоими агентами кооперативныхстратегий, Jidev – выигрыш i-го игрока при отклонении и наказании второго агента,i = 1, 2.Доказательство.
Пусть второй игрок отклоняется на шаге kuk2 = uck2 + ∆kи затем продолжает использовать свою кооперативную стратегию uct2.Первый игрок наказывает второго на шаге k в соответствии с теоремой 3.3γ1k (uk2 ) =εµ1kPaj (1−sc.sc)(uk2uck2+j=0−uck2 )Найдем выигрыш первого игрока при отклонении второго:J1dev=k−1Xtcδ ln((1 − st)xct uc1 )t=0n³´Xc εµ1ct+ δ ln xk kδ t ln((1 − sc )xdev+t u1 ) .P jt=k+1akj=0СледовательноJ1dev−J1c=nXtcδ ln((1 − sct)xdevt u1 )−nXtcδ ln((1 − s)xct uct1)=δ t lnt=k+1t=k+1t=k+1nXПодставляя выражения (3.7), получимJ1dev − J1c ==nP³δ t αt−k ln 1 +t=k+1sc ∆kkP(aj )2 ´j=0kP2ε µ2ajj=1=δkОткуда заметим, чтоJ1dev ≥ J1c .n−kPj=1³aj ln 1 +sc ∆kkP(aj )2 ´j=0kP2ε µ2ajj=1.xdevt.xct150Для второго игрока:J2dev=k−1Xδtln(sc xct uct2)+δknXsc c 2ct− ck xk ∆k ) +δ t ln(sc xdevt u2 ) .u2t=k+1ln(sc xck uck2t=0J2dev − J2c = δ k ln(1 −∆2k2)(uck2 )h³= δ k ln 1 −sc ∆knP+δ t ln(t=k+1kP(aj )2 ´³j=0xdevt)xctsc ∆k1+ε2 µ22=kPn−k(aj )2 ´ P aj ij=0kPε2 µ2j=1.ajj=1Покажем, что при n ≥ 2J2dev ≤ J2c .sc ∆kОбозначим m =kP(aj )2j=0ε2 µ2.
Так как ln(1 + x) ≤ x, тоJ2dev − J2c = δ k [ln(1 −m)µ2+n−kPaj ln(1 +j=1m)]kPaj≤j=1n−kP≤ δkkPm(aj µ2 −aj )j=1j=1kPµ2ajj=1kn−k2 +µ2 a= −mδ k 1−a µ−µk2 (1−a ).Правая часть этого неравенства неположительна. Чтобы показать это, рассмотрим функциюD(k) = 1 − ak − µ2 + µ2 an−k .Заметим, что D(k) возрастает по k. Поэтому, достаточно проверить, что D(1) > 0. Этоэквивалентноµ2 <1−a,1 − an−1которое при n ≥ 2 выполняется. ОтсюдаJ2dev ≤ J2c .Следствие 3.4. Размер наказания отклонившегося агента уменьшается с увеличениемчисла шагов, т.е.Dn+1 < Dn ,где Dn = J2cn − J2dev n .151Доказательство.