Диссертация (1145439), страница 26
Текст из файла (страница 26)
Рассмотрим размер потери в выигрыше второго игрока по сравнению скооперативным выигрышем в n-шаговой игре и в n + 1-шаговой игре:∆n = J2dev − J2c = δ k lnsc ∆kh³kPj=0ε2 µ221−kPsc ∆k(aj )2 ´³(aj )2 ´n−kP jiaj=01+ε2 µkP2j=1.ajj=1Тогда³n+1∆−∆nk= δ lnhkPsc ∆k(aj )2j=01−ε2 µ22´³³kPsc ∆k(aj )2j=01−ε2 µ22³= δ k an+1−k ln 1 +kPsc ∆k(aj )2j=01+kPε2 µ2ajj=1´³sc ∆kP´n+1−kajj=1ikPsc ∆k(aj )2j=01+kPε2 µ2ajj=1kPP j´n−ka=j=1(aj )2 ´j=0kP2ε µ2ajj=1> 0.Заключаем, что∆n+1 > ∆n ,но ∆n+1 < 0 и ∆n < 0, поэтому второй игрок проигрывает меньше в n + 1-шаговой игре.3.3.3. Другие функции развития популяцииРассмотрим случаи, когда скорость роста популяции зависит от размера эксплуатируемой территории.
А именно, функции развития имеют видxt+1 = (εsxt )α , 0 < α < 1(3.8)xt+1 = (εxt )αs , 0 < α < 1 .(3.9)иДля данных случаев найдены равновесия по Нэшу, кооперативные и кооперативные регулируемые равновесия для конечного и бесконечного горизонтов планирования. Приведемдоказательства лишь некоторых утверждений.Теорема 3.4. Равновесие по Нэшу в n-шаговой игре (3.8),(3.2) имеет видεsa2t−1P(a2 )jj=0ut1 =(tP(a1j=0)jtP(a2j=0)jεa1, ut2 =− 1)(1 − s)t−1P(a1 )jj=0tP(a1j=0)jtP, t = 1, . . . , n ,(a2j=0)j−1152а в игре с бесконечным горизонтом (3.8),(3.3):ū1 =εsa2 (1 − a1 )εa1 (1 − a2 ), ū2 =.(a1 + a2 − a1 a2 )(1 − s)a1 + a2 − a1 a2При этом динамика развития популяции принимает видtP³´ αj tεsa1 a2j=1xt =xα0 , t = 1, 2, . .
. ,a1 + a2 − a1 a2и стационарный размер популяции при использовании равновесных по Нэшу стратегий –α³´ 1−αεsa1 a2x̄ =.a1 + a2 − a1 a2Теорема 3.5. Кооперативное равновесие в n-шаговой игре (3.8),(3.5) имеет видuct1 =εsµ1tP, uct2 =aj (1 − s)j=0εµ2, t = 1, . . . , n ,tPjaj=0а в игре с бесконечным горизонтом (3.8),(3.6):uc1 =εsµ1 (1 − a), uc2 = εµ2 (1 − a) .1−sПри этом динамика развития популяции принимает видtPxct= (εsa)j=1αjtxα0 , t = 1, 2, .
. . ,и стационарный размер популяции при использовании кооперативных стратегий –αx̄c = (εsa) 1−α .Теорема 3.6. Кооперативное регулируемое равновесие в задачах (3.8),(3.5) и (3.8),(3.6)имеет видεµ1 (1 − a)s∗2,γ1 (u2 ) =1 − s∗2γ2 (u1 ) = εµ2 (1 − a) ,гдеs∗2 = sc − η2 (u2 − uc2 ) , s∗1 = sc + η1 (u1 − uc1 ) .Коэффициенты для n-шаговой игры (3.8),(3.5)η2t =η1t =где A =tP2sc εA − εµ1 − uct2A,ctuct2 A(εA − εµ1 − u2 A)c21 − scεsc A − εsc µ2 − uct1 (1 − s )A,c2uctεsc A2 + ε(1 − sc )µ2 A − εµ2 − ε(1 − sc )A(A − 1) − uct11 (1 − s )Aaj .j=0Для задачи с бесконечным горизонтом (3.8),(3.6) –η̄2 =(1 − sc )2 µ2s c µ1, η̄1 =.εµ2εµ1 (sc − µ1 − µ2 a)153Доказательство. Доказательство практически аналогично теореме 3.3, поэтому остановимся на некоторых деталях.Рассмотрим отклонение второго игрока на шаге t в n-шаговой игреut2 = uct2 + ∆.Стратегию центра ищем в видеs∗t = sc − η2t (ut2 − uct2 ).Тогда стратегия наказания первого игрока примет видγ1t (ut2 )εs∗t µ1=tPaj (1−.s∗t )j=0Решаем задачу максимизации выигрыша второго игрока при использовании данной схемы наказания для того, чтобы определить коэффициент η2t :nXδ t ln(s∗t xut2 ) → maxtu2 ≥0t=0при динамике развития популяцииxt+1 = (εs∗t xt − (1 − s∗t )xt γ1t (ut2 ) − s∗t xt ut2 )α .Решение этой задачи должно достигаться на uct2.Продолжая процесс для n-шаговой игры, получимεscη2n = cn Pu2 nnPj=0aj − εµ1 − ucn2aj (εj=0nPj=0aj− εµ1 −nP(aj )2j=0ucn2nP.aj )j=0Аналогично найдем коэффициент η1t .Коэффициенты в бесконечной игре получим при t → ∞.
А именноη2t →η1t →sc ε(µ2 + aµ1 )(1 − a) − uc2sc µ1=,uc2ε(µ2 + aµ1 ) − uc2εµ21 − scεsc (µ1 + aµ2 )(1 − a) − uc1 (1 − sc )(1 − sc )2 µ2=.uc1 εsc (µ1 + aµ2 ) − uc1 (1 − sc ) − εa(µ1 + aµ2 )εµ1 (s − µ1 − µ2 a)Замечание. Интересно заметить, что этот же результат, т.е. вид коэффициентов длябесконечной игры, можно получить, если при доказательстве на каждом шаге использоватьстратегию наказания для n-шаговой игры.154Теорема 3.7.
Равновесие по Нэшу в n-шаговой игре (3.9),(3.2) имеет видt−1Pεsa2(sa2 )jεsa1j=0ut1 =(tP(sa1j=0)jtP(sa2(sa1 )jj=0, ut2 =)jt−1P− 1)(1 − s)(j=0tP(sa1)jj=0tP(sa2, t = 1, . . . , n ,)j− 1)sj=0а в игре с бесконечным горизонтом (3.9),(3.3):ū1 =εa2 (1 − sa1 )εa1 (1 − sa2 ), ū2 =.(a1 + a2 − sa1 a2 )(1 − s)(a1 + a2 − sa1 a2 )sПри этом динамика развития популяции принимает видtP³´ (αs)jεsa1 a2(αs)tj=1xt =x0 , t = 1, 2, .
. . ,a1 + a2 − sa1 a2и стационарный размер популяции при использовании равновесных по Нэшу стратегий –αs´ 1−αsεsa1 a2x̄ =.a1 + a2 − sa1 a2³Теорема 3.8. Кооперативное равновесие в n-шаговой игре (3.9),(3.5) имеет видuct1 =εµ1tP(as)j (1, uct2 =− s)j=0εµ2tP, t = 1, . . . , n ,(as)j sj=0а в игре с бесконечным горизонтом (3.9),(3.6):uc1 =εµ1 (1 − sa)εµ2 (1 − sa), uc2 =.1−ssПри этом динамика развития популяции принимает видtPxct= (εsa)(αs)jj=1(αs)tx0, t = 1, 2, . .
. ,и стационарный размер популяции при использовании кооперативных стратегий –αsx̄c = (εsa) 1−αs .Теорема 3.9. Кооперативное регулируемое равновесие в задачах (3.9),(3.5) и (3.9),(3.6)имеет видγ1 (u2 ) =εµ1 (1 − as∗2 ),1 − s∗2γ2 (u1 ) =εµ2 (1 − as∗1 ),s∗1гдеs∗2 = sc − η2 (u2 − uc2 ) , s∗1 = sc + η1 (u1 − uc1 ) .155Коэффициенты для n-шаговой игры (3.9),(3.5)cη2t = sct ·u2·2εB − εµ1 − sc uct2B,tX2εB − εµ1 (B − 1) − sc uctj(asc )j M2 ln(xM2 /B)2B +j=1cη1t = 1 −cts ·u1·2sc B(εB − εµ2 − (1 − sc )uct1B,ttXXccc jc js BM1 − εµ2 (1 − s )j(as ) (B − 1) +j(as ) BM1 ln(xM1 /B)j=0j=1гдеB=tX(asc )j ,j=0M1 = εtXc jc(as ) − εµ2 − (1 − s)uct1tXj=0M2 = ε(asc )j ,j=0tXc j(as ) − εµ1 −sc uct2j=0tX(asc )j .j=0Для задачи с бесконечным временем (3.9),(3.6) –η̄2 =η̄1 =(sc )2 µ1 (1 − asc ),εµ2 (µ1 (1 − asc ) + asc ln(εxasc ))(1 − sc )2 µ2 (1 − asc ).εµ1 (µ2 (1 − asd )(1 − a) + asc ln(εxasc ))3.3.4.
ПРД и условия, стимулирующие кооперативное поведениеРассмотрим задачу управления возобновляемыми ресурсами с бесконечным горизонтомпланирования (3.1), (3.3), (3.6) при использовании одинаковых коэффициентов дисконтирования (δ1 = δ2 = δ).Сначала рассмотрим некооперативное поведение агентов. Выигрыши игроков в равновесии по Нэшу будем искать в виде ViN = Ai ln x+Bi , i = 1, 2. Используя принцип Беллмана[8] запишем уравнения для определения констант:A1 ln x + B1 = ln((1 − s)xū1 ) + δA1 ln(εx − (1 − s)xū1 − sxū2 )α + δB1 ,A2 ln x + B2 = ln(sxū2 ) + aA2 ln(εx − (1 − s)xū1 − sxū2 ) + δB2 .ОткудаA1 = A2 =1,1−a156B1 = B 2 =i1 ha11ln(1 − a) +ln a −ln(2 − a) +ln ε .1−δ1−a1−a1−aАналогично, в случае кооперации, ищем общий выигрыш в виде V = A ln x + B и соответствующее уравнение Беллмана примет видA ln x + B = µ1 ln((1 − s)xuc1 ) + µ2 ln(sxuc2 ) + aA ln(εx − (1 − s)xuc1 − sxuc2 ) + δB ,откудаi11 ha1A=, B=µ1 ln µ1 + µ2 ln µ2 + ln(1 − a) +ln a +ln ε .1−a1−δ1−a1−aИспользуя (2.4), получим вектор Шепли в задаче (3.1), (3.6) в виде111ξ1 (t) = ξ2 (t) = V (t) =ln xct + B ,22(1 − a)2tPгдеxct= (εa)αjj=1txα0 .Тогда динамически устойчивая ПРД примет вид1(ln xct2(1−a)− δ ln xct+1 ) + 21 (1 − δ)B =haa= 12 ln xct − 2(1−a)ln(aε) + 12 µ1 ln µ1 + µ2 ln µ2 + ln(1 − a) + 1−aln a +hi= 12 ln xct + 12 µ1 ln µ1 + µ2 ln µ2 + ln(1 − a) + ln ε .βi (t) = ξi (t) − δξi (t + 1) =11−ailn ε =Теорема 3.10.
В задаче (3.1), (3.6) выполняются условия, стимулирующие кооперативное поведение игроков.Доказательство. Запишем условие, стимулирующее рациональное поведение на каждомшаге (2.8)1112ln ε + [µ1 ln µ1 + (1 − µ1 ) ln(1 − µ1 ) − ln(1 − a) +ln(2 − a)] .− ln xct −22(1 − a)21−aЗаметим, что выражение в квадратных скобках положительное (см. теорему 2.2), следовательно условие выполняется.Аналогично, запишем условие Янга (2.6)1− 2(1−a)(ln x0 − δ t ln xct ) −+1−δ t2(1−δ)1−δ t2(1−δ)ln ε[µ1 ln µ1 + µ2 ln µ2 − ln(1 − a) +21−aln(2 − a) −a1−aln a] .Заметим, что выражение в квадратных скобках положительное (см.
теорему 2.2), следовательно условие выполняется.157Результаты моделированияМоделирование было проведено для следующего набора параметров:δ = 0.1, ε = 0.8, sc = 0.5, α = 0.3, µ1 = 0.55, µ2 = 0.45 .Рассмотрим случай, когда сразу после отклонения игрок возвращается к начальному кооперативному поведению. Число шагов 12. Начальный размер популяции x0 = 0.8. Моментвремени отклонения второго игрока n0 = 5 и размер отклонения ∆ = 0.1.0.50.80.490.70.480.60.470.50.460.40.450.30.440.430.2246810212Рис. 3.1. Размер популяции xt4681012Рис.
3.2. Разделение территории0.30.250.250.20.20.150.150.10.124681012Рис. 3.3. Вылов первого игрока24681012Рис. 3.4. Вылов второго игрокаСтационарный размер популяции при кооперативном поведении составляет 0.2022, чтобольше значения 0.1512 стационарного размера популяции в равновесии по Нэшу.На рисунках показана разница переменных задачи в случае кооперативного поведения(темная линия) и в случае отклонения второго игрока на промежутке [n0 , n0 + 1] (светлаялиния). На рис. 3.1 представлена динамика популяции.
На рис. 3.2 представлено разделениеэксплуатируемой территории (st ). Заметим, что st уменьшается от 0.5 до 0.43 на промежутке [n0 , n0 + 1]. На рис. 3.3 и 3.4 показаны выловы игроков, соответственно (v1t = (1 − st )xt u1t ,158v2t = st xt u2t ). Заметим, что вылов первого игрока немного увеличивается на промежутке[5,7]. Тогда как вылов второго игрока резко падает на промежутке [5,6] и увеличиваетсяпри его возвращении к кооперации.Заметим, что при применении схемы поддержания кооперативного поведения с участием центра, вылов «честного» игрока увеличивается за счет увеличения его территорииэксплуатации на промежутке [n0 , n0 + 1].