Диссертация (1145439), страница 15
Текст из файла (страница 15)
будем искать решение в классе квадратичных форм V (x) =αx2 + βx + γ.Подставляя в уравнение, получим систему для нахождения коэффициентов22ρα = 2αε − c1αµ1 − c2αµ2 ,− cαβ,ρβ = εβ − pc11α − pc22α − cαβ1 µ12 µ222 ργ = − p1 µ1 − p2 µ2 − p1 β − p2 β − β 2 − β 2 .4c14c22c12c24c1 µ14c2 µ2Откуда выразим необходимые коэффициенты:α=c1 c2 µ1 µ2 (2ε − ρ)µ1 µ2 (ρ − 2ε)(p1 c2 + p2 c1 ), β=.c1 µ1 + c2 µ2ε(c1 µ1 + c2 µ2 )ТогдаV 0 (x) =µ1 µ2 (2ε − ρ)(2εx(t)c1 c2 − p1 c2 − p2 c1 ),ε(c1 µ1 + c2 µ2 )откуда получим оптимальные стратегии в виде, указанном в формулировке теоремы.Размер популяции определим решая уравнение (1.9) в случае, когда игроки используютсвои оптимальные кооперативные стратегии.p1 c2 + p2 c1p1 c2 + p2 c1возрастает, а при x0 ≥2εc1 c22εc1 c2убывает неограниченно приближаясь при t → ∞ к этой величине.p1 c2 + p2 c1Поэтому, полученные стратегии допустимы (неотрицательны) при x0 ≥, а2εc1 c2p1 c2 + p2 c1при x0 <условия допустимости принимают вид2εc1 c2np p o³p c + p c´µ1 c 1 + µ2 c 2121 22 1min,≥ (2ε − ρ)− x0 .2c1 c2µ 2 µ12εc1 c2Заметим, что размер популяции при x0 <Следствие 1.2.
При кооперативном поведении устанавливается более щадящий режимэксплуатации, т.е. размер популяции при кооперации большеxc (t) ≥ xN (t) .78Доказательство. Сравним выражения для xN (t) и xc (t), и заметим, что степени у экспонент отрицательны иρ−ε≤2ρ − ε,3откудаe(ρ−ε)t ≥ e2ρ−εt3∀t ≥ 0 ,и, следовательно,xc (t) ≥ xN (t) .Аналогично предыдущему разделу построим кооперативное регулируемое равновесие вслучае, когда игроки сами наказывают друг друга за отклонение от кооперативного договора.Теорема 1.6.
Кооперативное регулируемое равновесие в задаче (1.12),(1.14) имеет видγi (uj (t)) = uci (t) + ηi (uj (t) − ucj (t)) , i, j = 1, 2 , i 6= j ,гдеη1 =µ2 c 21, η2 =.µ1 c 1η1Доказательство. Как и в разделе 2.1.1 при отклонении второго игрока будем искать стратегию наказания первого в видеγ1 (u2 ) = uc1 + η1 (u2 − uc2 ) .Для определения коэффициента η1 решаем задачу максимизации прибыли второго игрока при условии, что первый игрок использует свою стратегию наказания:J2 (γ1 (u2 ), u2 ) → max ,u2 ≥0x0 (t) = εx(t) − γ1 (u2 (t)) − u2 (t) , x(0) = x0 .(1.15)Используя уравнение Гамильтона–Якоби–Беллмана, как в теореме 1.5, находим, чторешение задачи (1.15) имеет видp2 + (η1 + 1)V20 (x)u2 (t) =,2c2гдеV20 (x) =(2ε − ρ)(c1 µ1 (1 + 2η1 ) − c2 µ2 )(2εx(t)c1 c2 − p1 c2 − p2 c1 ).(η1 + 1)2 εc1 (c1 µ1 + c2 µ2 )79Для того, чтобы γ1 было кооперативным регулируемым равновесием, необходимо, чтобырешение задачи (1.15) достигалось на кооперативном решении: u2 (t) = uc2 (t).
Найдем η1 , извида стратегий получимV 0 (x)= V20 (x)(η1 + 1) ,µ2откудаη1 =µ2 c 2.µ1 c 1Действуя аналогично при отклонении первого игрока, ища стратегию наказания второгов видеγ2 (u1 ) = uc2 + η2 (u1 − uc1 ) ,получим утверждение теоремы.Проведем исследование модели наказания в случае отклонения одного из игроков наконечном промежутке времени [t0 , t0 + δ] с последующим возвращением к кооперативномуповедению. При этом будет показан недостаток применения традиционной схемы кооперативного регулируемого равновесия.1 ³ p2 p1 ´+для задачи с отклонением на конечном промежутке2ε c1 c2времени выполнено условие регулируемого равновесияТеорема 1.7.
При x0 ≤J2dev ≤ J2c ,при этом также выполняется, чтоJ1dev ≤ J1c ,где Jic – выигрыш i-го агента при использовании обоими игроками кооперативных стратегий, Jidev – выигрыш i-го агента при отклонении второго игрока на конечном промежуткевремени и его наказании, i = 1, 2.Доказательство. Пусть второй игрок отклоняется на промежутке [t0 , t0 + δ], а первыйигрок его наказывает в соответствии с теоремой 1.6.Итак, игроки используют следующие стратегии:t ≤ t0 ,uc (t) , 1udevuc1 (t) + η1 ∆ , t0 < t ≤ t0 + δ ,1 (t) = uc (t) ,t > t0 + δ ,180uc (t) ,t ≤ t0 , 2udevuc2 (t) + ∆ , t0 < t ≤ t0 + δ ,2 (t) = uc (t) ,t > t0 + δ .2Найдем численность популяции на этих временных промежутках:1.
[0, t0 ]Решая уравнениеx0 (t) = εx(t) − uc1 (t) − uc2 (t) , x(0) = x0 ,где uci определены в теореме 1.5, получимxc (t) =p1 c2 + p2 c12x0 εc1 c2 − c1 p2 − c2 p1+ e−(ε−ρ)t.2εc1 c22εc1 c2(1.16)2. (t0 , t0 + δ]Решая уравнениеx0 (t) = εx(t) − uc1 (t) − η1 ∆ − uc2 (t) − ∆ ,получимx1 (t) = Ce−(ε−ρ)t +p1 c2 + p2 c1 η1 ∆ + ∆−.2εc1 c2ε−ρКонстанту C найдем из условия, что x1 (t0 ) = xc (t0 ). Окончательно получимx1 (t) = xc (t) −η1 ∆ + ∆(1 − e−(ε−ρ)(t−t0 ) ) .ε−ρ3. (t0 + δ, ∞)Решая уравнениеx0 (t) = εx(t) − uc1 (t) − uc2 (t) ,получимx2 (t) =p1 c2 + p2 c1+ Ce−(ε−ρ)t .2εc1 c2Константу C найдем из условия, что x2 (t0 + δ) = x1 (t0 + δ).
Окончательно получимx2 (t) = xc (t) −Запишем в общем видеxc (t) ,xdev (t) =xc (t) − xc (t) −(η1 + 1)∆ −(ε−ρ)(t−t0 −δ)e(1 − e−(ε−ρ)δ ) .ε−ρt ≤ t0 ,(η1 +1)∆(1 − e−(ε−ρ)(t−t0 ) ) ,ε−ρ(η1 +1)∆ −(ε−ρ)(t−t0 −δ)e(1 − e−(ε−ρ)δ ) ,ε−ρt0 < t ≤ t0 + δ ,t > t0 + δ ,(1.17)81где xc (t) определено в (1.16).Найдем стратегии первого игрока на временных промежутках и его выигрыш.1. [0, t0 ]Из теоремы 1.5 получимuc1 (t) =p1µ2 (2ε − ρ)(2εxc (t)c1 c2 − p1 c2 − p2 c1 ),+2c12c1 ε(c1 µ1 + c2 µ2 )где xc (t) определено в (1.16). Тогдаuc1 (t) =µ2 (2ε − ρ)(2x0 εc1 c2 − p1 c2 − p2 c1 )p1+ e−(ε−ρ)t.2c12c1 ε(c1 µ1 + c2 µ2 )(1.18)2.
(t0 , t0 + δ]u1 (t) = uc1 (t) + η1 ∆ .3. (t0 + δ, ∞)u1 (t) =p1µ2 (2ε − ρ)(2εx2 (t)c1 c2 − p1 c2 − p2 c1 )+,2c12c1 ε(c1 µ1 + c2 µ2 )где x2 (t) определено в (1.17).Преобразовав, получимuc (t) ,t ≤ t0 , 1udevuc1 (t) + η1 ∆ ,t0 < t ≤ t0 + δ ,1 (t) = uc (t) + (2ε−ρ)η1 ∆ (e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) , t > t + δ ,01ε−ρгде uc1 (t) определено в (1.18).Запишем подынтегральное выражение в функции выигрыша первого игрокаdev(p1 − c1 udev1 (t))u1 (t) =t ≤ t0 ,(p1 − c1 uc1 (t))uc1 (t) , (p − c uc (t))uc (t) − 2c η ∆uc (t) + η ∆(p − c η ∆) ,t0 < t ≤ t0 + δ ,111 11 111 111 (p − c uc (t))uc (t) + (2ε−ρ)η1 ∆ (e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) ·11 11ε−ρ ·(−2c uc (t) + p − c (2ε−ρ)η1 ∆ (e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) ) , t > t + δ .1101 1ε−ρ(1.19)82Тогда, пользуясь (1.19), выигрыш первого игрока на фиксированном промежутке времени [0, T ] примет видJ1dev == J1c ++RTt0 +δRTdeve−ρt (p1 − c1 udev1 (t))u1 (t) dt =0t0R+δt0[−2c1 η1 ∆uc1 (t) + η1 ∆(p1 − c1 η1 ∆)]dt+1∆[−2c1 uc1 (t) (2ε−ρ)η(e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) +ε−ρ(2ε−ρ)η1 ∆ −(ε−ρ)δ(eε−ρ− 1)·1∆·e−(ε−ρ)(t−t0 −δ) (p1 − c1 (2ε−ρ)η(e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) )] dt .ε−ρПреобразовав, получимJ1dev = J1c −−c1 η1 ∆{2M [ e+η1 ∆[ e−ε(t0 +δ) −e−εt0−ε−ρ(t0 +δ) −e−ρt0−ρ++e(ε−ρ)(t0 +δ) (e−(ε−ρ)δ −1) −(2ε−ρ)(t0 +δ)(eε−ρ2ε−ρ 2(ε−ρ)(t0 +δ) −(ε−ρ)δe(e(ε−ρ)2− e−(2ε−ρ)T )]+− 1)2 (e−(2ε−ρ)(t0 +δ) − e−(2ε−ρ)T )]} ,гдеµ2 (2ε − ρ)(2x0 εc1 c2 − p1 c2 − p2 c1 ).2c1 ε(c1 µ1 + c2 µ2 )Заметим, что выражение во вторых квадратных скобках неотрицательно, а в первыхM=может менять знак.Оценим разницу, используя замечательный предел и разложение производной, получимJ1dev − J1c → −c1 η1 ∆{2M [e−εt0 δ 0 − δe(ε−ρ)(t0 +δ) (e−(2ε−ρ)(t0 +δ) − e−(2ε−ρ)T )]++η1 ∆[e−ρt0 δ 0 + δ 2 (2ε − ρ)e2(ε−ρ)(t0 +δ) (e−(2ε−ρ)(t0 +δ) − e−(2ε−ρ)T )]} ,где δ 0 < δ.При T → ∞ получимJ1dev − J1 c → −c1 η1 ∆{2M e−ε(t0 +δ) (δ 0 − δ) + η1 ∆e−ρ(t0 +δ) (δ 0 + δ 2 (2ε − ρ))} .Заметим, что при M ≤ 0 выигрыш первого игрока при отклонении второго не больше,чем при кооперативном поведении J1dev ≤ J1c .
Как будет показано далее это условие должновыполняться для существования кооперативного регулируемого равновесия.Найдем стратегии второго игрока на временных промежутках и его выигрыш.1. [0, t0 ]Из теоремы 1.5 получимuc2 (t) =p2µ1 (2ε − ρ)(2εxc (t)c1 c2 − p1 c2 − p2 c1 )+,2c22c2 ε(c1 µ1 + c2 µ2 )где xc (t) определено в (1.16). Тогдаuc2 (t) =p2µ1 (2ε − ρ)(2x0 εc1 c2 − p1 c2 − p2 c1 )+ e−(ε−ρ)t.2c22c2 ε(c1 µ1 + c2 µ2 )(1.20)832. (t0 , t0 + δ]u2 (t) = uc2 (t) + ∆ .3. (t0 + δ, ∞)u2 (t) =p2µ1 (2ε − ρ)(2εx2 (t)c1 c2 − p1 c2 − p2 c1 )+,2c22c2 ε(c1 µ1 + c2 µ2 )где x2 (t) определено в (1.17).Преобразовав, получимt ≤ t0 ,uc (t) , 2udevuc2 (t) + ∆ ,t > t0 , t ≤ t0 + δ ,2 (t) = uc (t) + (2ε−ρ)∆ (e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) , t > t + δ ,02ε−ρгде uc2 (t) определено в (1.20).Запишем подынтегральное выражение в функции выигрыша второго игрокаdev(p2 − c2 udev2 (t))u2 (t) = (p2 − c2 uc2 (t))uc2 (t) ,t ≤ t0 , (p − c uc (t))uc (t) − 2c ∆uc (t) + ∆(p − c ∆) ,t0 < t ≤ t0 + δ ,22 222222(e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) ·(p2 − c2 uc2 (t))uc2 (t) + (2ε−ρ)∆ε−ρ ·(−2c uc (t) + p − c (2ε−ρ)∆ (e−(ε−ρ)δ − 1)e−(ε−ρ)(t−t0 −δ) ) , t > t + δ .02 222 ε−ρДалее, действуя аналогично, получим выигрыш второго игрока в видеJ2dev = J2c −−c2 ∆{2L[ e−ε(t0 +δ) −e−εt0−ε−ρ(t0 +δ) −e−ρt0+∆[ e−ρ++e(ε−ρ)(t0 +δ) (e−(ε−ρ)δ −1) −(2ε−ρ)(t0 +δ)(eε−ρ2ε−ρ 2(ε−ρ)(t0 +δ) −(ε−ρ)δe(e(ε−ρ)2− e−(2ε−ρ)T )]+− 1)2 (e−(2ε−ρ)(t0 +δ) − e−(2ε−ρ)T )]} ,гдеL=µ1 (2ε − ρ)(2x0 εc1 c2 − p1 c2 − p2 c1 ).2c2 ε(c1 µ1 + c2 µ2 )Заметим, что выражение во вторых квадратных скобках неотрицательно, а в первыхможет менять знак.Оценим разницу, используя замечательный предел и разложение производной, получимJ2dev − J2c → −c2 ∆{2L[eεt0 δ 0 − δe(ε−ρ)(t0 +δ) (e−(2ε−ρ)(t0 +δ) − e−(2ε−ρ)T )]++∆[e−ρt0 δ 0 + δ 2 (2ε − ρ)e2(ε−ρ)(t0 +δ) (e−(2ε−ρ)(t0 +δ) − e−(2ε−ρ)T )]} ,где δ 0 < δ.84При T → ∞ получимJ2dev − J2c → −c2 ∆{2Le−ε(t0 +δ) (δ 0 − δ) + ∆e−ρ(t0 +δ) (δ 0 + δ 2 (2ε − ρ))} .Таким образом, для того, чтобы стратегия наказания второго игрока являлась кооперативным регулируемым равновесием J2dev ≤ J2c , необходимо, чтобы L ≤ 0.Заметим, что при выполнении L ≤ 0 верно и M ≤ 0, что эквивалентно(2ε − ρ)(2x0 εc1 c2 − p1 c2 − p2 c1 ) ≤ 0 ,т.е.