Диссертация (1145439), страница 23
Текст из файла (страница 23)
. , x0 = x ,(2.9)где xt ≥ 0 – размер ресурса в момент времени t, 0 < α < 1 – коэффициент внутреннегороста, u1t , u2t ≥ 0 – стратегии (интенсивность эксплуатации) игроков в момент времени t(u1t + u2t ≤ xt ).Предполагается логарифмический вид функций выигрышей агентовI1 = ln(u1t ) , I2 = ln(u2t ) .Как уже упоминалось в разделе 3.1, применение логарифмических функций выигрышейявляется общепринятым в экономических задачах, так как связано с задачей максимизациитемпов роста функции производства (в данном случае – интенсивности эксплуатации).Рассматриваются задачи максимизации бесконечных сумм дисконтированных выигрышей двух игроков:J1 =∞Xδ t ln(u1t ) → max , J2 =u1t ≥0t=0∞Xδ t ln(u2t ) → max ,u2t ≥0t=0где 0 < δ < 1 – коэффициент дисконтирования.Рассмотрим случай индивидуального поведения игроков, т.е. ситуацию равновесия поНэшу.
Для определения равновесных стратегий используем метод динамического программирования [8].Пусть V1 (x, y) – функция выигрыша первого игрока, V2 (x, y) – второго. Следуя принципуБеллмана эти функции должны удовлетворять уравнениям³´V1 (x) = max{ln u1 + δV1 (x − u1 − u2 )α } ,0≤u1³αV2 (x) = max{ln u2 + δV2 (x − u1 − u2 )0≤u2Будем искать функции выигрыша в следующем виде:Vi (x, y) = Ai ln x + Bi , i = 1, 2 ,(2.10)´}.(2.11)126где Ai , Bi – константы, зависящие от параметров модели.Тогда для первого игрока из (2.10) получим уравнениеA1 ln x + B1 = ln u1 + aA1 ln(x − u1 − u2 ) + δB1 , a = αδ .(2.12)Традиционно в моделях «рыбных войн» стратегии игроков ищутся в линейном виде:u1 = γ1 x и u2 = γ2 x.
Тогда запишем систему для определения констант: A = 1 + aA ,11 B = ln γ + aA ln(1 − γ − γ ) ,11112решая которую, получимA1 =´11 ³a, B1 =ln γ1 +ln(1 − γ1 − γ2 ) .1−a1−δ1−aАналогично для второго игрока из (2.11) получимA2 ln x + B2 = ln u2 + aA2 ln(x − u1 − u2 ) + δB2 ,A2 =(2.13)´11 ³a, B2 =ln γ2 +ln(1 − γ1 − γ2 ) .1−a1−δ1−aДля определения оптимальных стратегий игроков максимизируем правые части (2.12)и (2.13)1a1a=,=,u1(1 − a)(x − u1 − u2 ) u2(1 − a)(x − u1 − u2 )откуда получимNuN1 = u2 =1−ax,2−aи выигрыши игроков имеют видV1 = V2 =´11 ³a1ln x +ln(1 − a) +ln a −ln(2 − a) .1−a1−δ1−a1−aЗаметим, что полученные некооперативные стратегии участников допустимы, т.к.NuN1 + u2 =2 − 2ax ≤ x.2−aТеперь определим кооперативное равновесие.
При кооперативном поведении игрокимаксимизируют взвешенную сумму своих выигрышей:∞³´Xδ t µ1 ln(u1t ) + µ2 ln(u2t ) → max ,t=0u1t ,u2t ≥0(2.14)где 0 < µ1 , µ2 < 1 – весовые коэффициенты, отражающие значимость игроков (µ1 +µ2 = 1).127Действуя аналогично, используя принцип Беллмана [9], получимuc1 = µ1 (1 − a)x , uc2 = µ2 (1 − a)x ,и выигрыш в случае кооперации равенV1,2 =11ln x +B1,2 ,1−a1−δгдеB1,2 = µ1 ln µ1 + µ2 ln µ2 + ln(1 − a) +aln a .1−aЗаметим, что полученные кооперативные стратегии участников допустимы, т.к.uc1 + uc2 = (1 − a)x ≤ x .Динамика развития популяции при кооперативном поведении агентов имеет видxct+1 = (xct )α aα , t = 0, 1, . . .
,откудаxct=tPαjαt j=1x0 a, t = 1, 2, . . . .(2.15)В качестве решения данной кооперативной игры рассмотрим критерий равного деления, который совпадает с вектором Шепли в игре двух лиц и может быть распространенна принцип пропорционального деления кооперативного выигрыша. Тогда дележ в задаче(2.9),(2.14) примет вид111ξ1 (t) = ξ2 (t) = V1, 2 =ln xct +B1, 2 ,22(1 − a)2(1 − δ)где xct имеет вид (2.15).Рассмотрим схемы поддержания кооперативного поведения в представленной модели.Сначала построим кооперативное регулируемое равновесие в традиционной постановке, т.е.когда игроки сами контролируют поведение друг друга.Теорема 2.1.
Кооперативное регулируемое равновесие в задаче (2.9), (2.14) имеет видγ1 (u2 ) = uc1 +µ1µ2(u2 − uc2 ) , γ2 (u1 ) = uc2 + (u1 − uc1 ) ,µ2µ1где uc1 , uc2 – кооперативные стратегии видаuc1 = µ1 (1 − a)x , uc2 = µ2 (1 − a)x .128Доказательство. Рассмотрим отклонение второго игрокаu2 = uc2 + ∆ .Тогда стратегия наказания, которую будет использовать первый игрок, имеет видγ1 (u2 ) = uc1 + η1 (u2 − uc2 ) .Таким образом, агент, соблюдающий кооперативное соглашение, наказывает отклоняющегося изменением своей кооперативной стратегии на величину, пропорциональную величине отклонения.Для нахождения коэффициента η1 решаем задачу максимизации выигрыша второгоигрока при условии, что первый игрок использует свою стратегию наказания:∞Xδ t ln(u2t ) → maxu2t ≥0t=0при динамике развития популяцииxt+1 = (εxt − γ1 (u2t ) − u2t )α .Понятие кооперативного регулируемого равновесия дает условие: максимум должен достигаться при использовании кооперативной стратегии uc2 .Для решения этой задачи воспользуемся тем же подходом, что и выше.
Решение уравнения Беллмана³´V2 (x) = max{ln u2 + δV2 (x − γ1 (u2 ) − u2 )α }u2 ≥0ищем в видеV2 (x) = A2 ln x + B2 .Тогда для второго игрока получим уравнение Беллмана в следующем виде:A2 ln x + B2 = ln u2 + aA2 ln(x − uc1 − η1 (u2 − uc2 ) − u2 ) + δB2 ,откуда A2 =a1−aи, максимизируя правую часть,u2 =(1 − a)(1 − µ1 (1 − a) + η1 µ2 (1 − a))x.1 + η1Это решение должно совпадать с кооперативной стратегией uc2 = µ2 (1 − a)x , откудаследует, чтоη1 =µ1.µ2129Аналогично при отклонении первого игрока находим стратегию наказания, которуюиспользует второй игрок, в видеγ2 (u1 ) = uc2 + η2 (u1 − uc1 ) .Для определения коэффициента η2 решаем задачу максимизации выигрыша первогоигрока, предполагая, что второй игрок использует стратегию наказания:∞Xδ t ln(u1t ) → maxu1t ≥0t=0при динамикеxt+1 = (εxt − u1t − γ2 (u1t ))α .Откуда получимη2 =µ2.µ1Теперь построим динамически устойчивую процедуру распределения дележа и проверим выполнение условий, стимулирующих кооперативное поведение.Теорема 2.2.
В задаче (2.9),(2.14) выполняются условия, стимулирующие кооперативноеповедение игроков.Доказательство. Динамически устойчивая ПРД (см. определение 2.4) примет вид11aβi (t) = xct + −ln a .22 2(1 − a)Докажем выполнение условия, стимулирующего рациональное поведение на каждомшаге (2.8). Оно примет вид121ln(2 − a)] ≥ 0 .− ln xct + [µ1 ln µ1 + (1 − µ1 ) ln(1 − µ1 ) − ln(1 − a) +221−aРассмотрим выражение в квадратных скобкахµ1 ln µ1 + (1 − µ1 ) ln(1 − µ1 ) − ln(1 − a) +µ1 ln µ1 + (1 − µ1 ) ln(1 − µ1 ) +21−a21−aln(2 − a) >ln(2 − a) ≥21−aln(2 − a) − 1 .Последнее неравенство следует из того, что f (µ1 ) = µ1 ln µ1 +(1−µ1 ) ln(1−µ1 ) достигаетминимума при µ1 =12и f ( 12 ) = − ln 2 > −1.Для завершения доказательства проверим, что2ln(2 − a) − 1 > 0 .1−a(2.16)130Обозначим b =1.1−aТогда (2.16) выполняется, если1((1 + )b )2 > e ,bчто верно.Докажем условие Янга (2.6).
В представленной модели оно имеет вид1− 2(1−a)(ln x0 − δ t ln xct )++1−δ t[µ2(1−δ) 1+1−δ t[µ2(1−δ) 1ln µ1 + (1 − µ1 ) ln(1 − µ1 ) − ln(1 − a) +tPt)(a)t −11= 2(1−a)ln x0 + 2(1−a)ln(a){δ tαj − a(1−δ}+1−δ21−aln(2 − a) −a1−a21−aln(2 − a)] ≥ 0 .ln(a)] =j=1ln µ1 + (1 − µ1 ) ln(1 − µ1 ) − ln(1 − a) +Первое выражение и выражение в квадратных скобках, как уже было показано, положительны. Поэтому необходимо доказать, чтоf (t) = δttXj=1αj −a(1 − δ t )< 0 ∀t ≥ 1 .1−δЗаметим, что f (1) = 0. Поэтому достаточно показать, что функция f (t) убывающая:f 0 (t) = δ t αln δ(1 − a) − αt ln a(1 − δ)< 0 ∀t ≥ 1 .(1 − α)(1 − δ)Обозначим f1 (t) = ln δ(1−a)−αt ln a(1−δ). Эта функция убывает, т.к.
f10 (t) < 0. Осталосьпоказать, что f1 (1) < 0. Введемf2 (α, δ) = f1 (1) = ln δ(1 − a) − α ln a(1 − δ) = ln a(1 − α) + (a − 1) ln α .Функция f2 (α, δ) возрастающая по δ и α, т.к.∂f2 (α, δ)1−α=+α ln α > 1−α+α ln α > 0∂δδ∂f2 (α, δ)= δ − 1 − ln(αδ) + δ ln α > ln α(δ − 1) > 0. И f2 (1, δ) = f2 (α, 1) = 0, следовательно∂αf2 (α, δ) ≤ 0.иОкончательно получим, что условие Янга также выполняется.Как видно, даже в этом простом случае проверка выполнения условия, стимулирующегорациональное поведение на каждом шаге, гораздо проще, чем условия Янга.3.2.2.
Модель с квадратичными выигрышамиРассмотрим задачу управления возобновляемым ресурсом (промысловой популяцией),который развивается в соответствии с линейным биологическим закономxt+1 = εxt − u1t − u2t , x0 = x ,(2.17)131где ε > 1 – коэффициент естественной выживаемости, u1t , u2t ≥ 0 – стратегии (интенсивность эксплуатации) агентов в момент времени t (u1t + u1t ≤ εxt ).Выигрыши игроков на бесконечном промежутке времени имеют видJ1 =∞Xδ t (pu1t − c(u1t )2 ) , J2 =t=0∞Xδ t (pu2t − c(u2t )2 ) ,(2.18)t=0где 0 < δ < 1 – коэффициент дисконтирования, p > 0 – цена продажи единицы ресурса,c > 0 – затраты на вылов.Таким образом, как и в главе 2, выигрыш игрока – это разница между доходом отпродажи ресурса и затратами на вылов, которые, как предполагается, квадратично зависятот интенсивности эксплуатации.Наложим дополнительное ограничение εδ ≥ 1, которое гарантирует, что решения последующих оптимизационных задач достигаются внутри допустимого множества εx−u1−u2 ≥ 0.Рассмотрим случай кооперативного поведения игроков, т.е.
когда агенты максимизируют взвешенную сумму своих выигрышей. Аналогично разделу 3.2.1, используя принципБеллмана, получим кооперативные стратегии в видеuc1p³2(1 − µ1 )(δε2 − 1) ´(1 − µ1 )(ε2 δ − 1)x+1−,=εδ2cεδ(ε − 1)uc2 =µ1 (ε2 δ − 1)p³2µ1 (δε2 − 1) ´x+1−,εδ2cεδ(ε − 1)и выигрыш при кооперации равенV1,2 = Ax2 + Bx + D ,где2pKµ1 (1 − µ1 ),ε−1p2 (εδ − 1)21 − ε2 δp2 (1 − 2µ1 )2+ 4µ1 (1 − µ1 ),K=.D=4c(1 − δ)4cδ(ε − 1)2 (1 − δ)δA = cµ1 (1 − µ1 )K , B = −Заметим, что кооперативные стратегии допустимы, т.к.εx − uc1 − uc2 =c(ε − 1)x + p(εδ − 1)>0cεδ(ε − 1)при нашем предположении εδ ≥ 1.Динамика развития популяции при кооперативном поведении участников имеет видxct+1 =p(1 − δε)1 cxt −, t = 0, 1, .
. . ,δεcδε(ε − 1)132откудаt−1xct1p(1 − δε) X 1=x−, t = 1, 2, . . . .0(δε)tcδε(ε − 1) j=0 (δε)j(2.19)Тогда, пользуясь (2.4), получим компоненты вектора Шепли для нашей модели11ξ1 (t) = ξ2 (t) = V1,2 = (A(xct )2 + Bxct + D) ,22где xct имеет вид (2.19).Аналогично предыдущему разделу в качестве метода поддержания кооперации применим кооперативное регулируемое равновесие в традиционной постановке.Теорема 2.3. Кооперативное регулируемое равновесие в задаче (2.17), (2.18) имеет видµ2µ1(u2 − uc2 ) , γ2 (u1 ) = uc2 + (u1 − uc1 ) ,µ1µ2γ1 (u2 ) = uc1 +где uc1 , uc2 – кооперативные стратегии.Доказательство. Рассмотрим отклонение второго игрокаu2 = uc2 + ∆ .Тогда стратегия наказания, которую будет использовать первый игрок, имеет видγ1 (u2 ) = uc1 + η1 (u2 − uc2 ) .Таким образом, честный агент наказывает отклоняющегося изменением своей кооперативной стратегии на величину, пропорциональную величине отклонения.Для нахождения коэффициента η1 решаем задачу максимизации выигрыша второгоигрока при условии, что первый игрок использует свою стратегию наказания:∞Xt=0δ t (pu2t − c(u2t )2 ) → maxu2t ≥0при динамике развития популяцииxt+1 = εxt − γ1 (u2t ) − u2t .Для решения этой задачи воспользуемся тем же подходом, что и ранее.
Решение уравнения БеллманаV2 (x) = max{pu2 − c(u2 )2 + δV2 (εx − γ1 (u2 ) − u2 )}u2 ≥0ищем в видеV2 (x) = A2 x2 + B2 x + D2 .133Тогда уравнение Беллмана для второго игрока примет видA2 x2 + B2 x + D2 = pu2 − c(u2 )2 + δA2 (εx − uc1 − η1 (u2 − uc2 ) − u2 )2 ++δB2 (εx − uc1 − η1 (u2 − uc2 ) − u2 ) + δD2 .(2.20)Беря производную правой части (2.20) и приравнивая ее к нулю при условии, что решение совпадает с uc2 (что необходимо для кооперативного регулируемого равновесия), получимη1 =p − 2cuc2− 1.2δA2 (ε − uc1 − uc2 ) + δB2Теперь находим константы из (2.20), получимA2 =2pµ21 (ε2 δ − 1)cµ21 (1 − ε2 δ), B2 =,δδ(ε − 1)откуда следует, чтоη1 =µ2.µ1Аналогично при отклонении первого игрока находим стратегию наказания, которуюиспользует второй игрок, в видеγ2 (u1 ) = uc2 + η2 (u1 − uc1 ) .Для определения коэффициента η2 решаем задачу максимизации выигрыша первогоигрока, предполагая, что второй игрок использует стратегию наказания:∞Xδ t ln(u1t ) → maxu1t ≥0t=0при динамикеxt+1 = (εxt − u1t − γ2 (u1t ))α .Откудаη2 =µ1.µ2Теорема 2.4.