Диссертация (1145439), страница 17
Текст из файла (страница 17)
Рассмотрим отклонение второго игрокаE2 (t) = E2c (t) + ∆ .Будем искать стратегию центра в видеs∗ (t) = sc − η1 (E2 (t) − E2c (t)) .Таким образом, центр наказывает игрока, отклоняющегося от кооперативного договора,изменением территории эксплуатации пропорционально величине отклонения.Тогда стратегия наказания первого игрока согласно теореме 2.1 имеет видb1 − µ−11 q1 λ(t)γ1 (E2 (t)) =.ca1 (1 − s + η1 (E2 (t) − E2c (t)))x(t)Для определения коэффициента η1 необходимо решить задачу максимизации прибыливторого игрока при использовании данной схемы наказания:J2 (γ1 (E2 ), E2 ) → max ,E2 ≥0x0 (t) = εx(t) − q1 γ1 (E2 (t))(1 − sc + η1 (t)(E2 (t) − E2c (t)))x(t) −−q2 E2 (t)(sc − η1 (t)(E2 (t) − E2c (t)))x(t) .Пользуясь принципом максимума, запишем гамильтониан1H2 (E2 , s∗ , x) = − a2 E22 (sc − η1 (E2 − E2c ))2 x2 +2³´b1 − µ−11 q1 λ+(b2 − q2 λ2 )E2 (sc − η1 (E2 − E2c ))x + λ2 εx − q1.a1(2.8)91Максимум данной функции достигается при выполнении условия∂H2= x(−a2 E2 (sc − η1 (E2 − E2c ))x + b2 − λ2 q2 ) (sc − η1 (E2 − E2c ) − η1 E2 ) = 0 .∂E2(2.9)Для того, чтобы γ1 было кооперативным регулируемым равновесием, необходимо, чтобырешение задачи (2.8) достигалось на кооперативном равновесии.
Следовательно, уравнение(2.9) должно выполняться при E2 = E2c . При этом выражение в первых скобках отличноот нуля, а выражение во вторых скобках равно нулю приη1 =sc.E2c (t)Рассуждая аналогично при отклонении первого игрока, определим стратегию центраs∗ (t) = sc + η2 (E1 (t) − E1c (t)) ,а стратегию второго игрока в видеγ2 (E1 (t)) =b2 − µ−12 q2 λ(t),ca2 (s + η2 (E1 (t) − E1c (t)))x(t)получимη2 =1 − sc.E1c (t)Таким образом мы доказали следующую теорему.Теорема 2.3. Кооперативным регулируемым равновесием в задаче (2.1),(2.3) являетсяγ1 (E2 (t)) =ε(T −t)b1 − µ−1(µ1 g10 (xc (T )) + µ2 g20 (xc (T )))1 q1 e,a1 (1 − s∗2 (t))x(t)γ2 (E1 (t)) =ε(T −t)b2 − µ−1(µ1 g10 (xc (T )) + µ2 g20 (xc (T )))2 q2 e,a2 s∗1 (t)x(t)гдеs∗2 (t) = sc −1 − scscc∗c(t)=s+(t)),s(E(t)−E(E1 (t) − E1c (t)) ,212E2c (t)E1c (t)и E1c (t), E2c (t), xc (t) удовлетворяют теореме 2.1.Заметим, что при применении предложенной схемы поддержания кооперативного поведения весь контроль за соблюдением кооперативного договора берет на себя центр.
Приэтом, при отклонении одного из участников «честный» игрок продолжает использоватьсвою кооперативную стратегию, но на увеличенной территории эксплуатации.922.2.2. Модель с бесконечным горизонтом планированияРассмотрим бесконечный горизонт планирования в теоретико-игровой задаче управления возобновляемыми ресурсами с участием центра. Пусть, аналогично предыдущемуразделу, центр разделяет территорию на две части: s и 1 − s, где ресурс эксплуатируют дваигрока (страны или фирмы).Динамика развития популяции с учетом эксплуатации описывается уравнениемx0 (t) = εx(t) − q1 E1 (t)(1 − s)x(t) − q2 E2 (t)sx(t) , t ≥ 0, x(0) = x0 ,(2.10)где x(t) ≥ 0 – размер популяции в момент времени t, ε > 0 – коэффициент внутреннего роста, Ei (t) ≥ 0 – промысловые усилия игроков, измеряемые, например, в количествекораблей, участвующих в лове в момент времени t и qi > 0 – коэффициенты возможноговылова на единицу промысловых усилий, i = 1, 2.Предполагаем, что E1 , E2 принадлежат множеству допустимых управлений D1 = D2 =[0, ∞).Цель игроков – минимизация своих затрат, выраженных следующими функционалами:J1 =R∞e−ρt [q1 E1 (t)(1 − s)x(t)(k1 q1 E1 (t)(1 − s)x(t) − p1 )]dt → min ,0J2 =R∞E1 ≥0(2.11)e−ρt [q2 E2 (t)sx(t)(k2 q2 E2 (t)sx(t) − p2 )]dt → min ,E2 ≥00где pi > 0 – цена продажи единицы ресурса, ki > 0 – затраты на вылов, i = 1, 2, 0 < ρ < 1– общий коэффициент дисконтирования, ε > ρ.Таким образом, выигрыш игрока представляется затратами, которые зависят от разницы между затратами на вылов и прибылью от продажи ресурса с учетом дисконтирования.При этом предполагается, что затраты квадратично зависят от вылова.Сделав замену ai = 2ki qi2 , bi = pi qi , получим затраты игроков в следующем виде:J1 =R∞0e−ρt [ 12 a1 (E1 (t))2 (1 − s)2 x2 (t) − b1 E1 (t)(1 − s)x(t)]dt ,J2 =R∞0e−ρt [ 21 a2 (E2 (t))2 s2 x2 (t) − b2 E2 (t)sx(t)]dt .(2.12)Определим кооперативное равновесие в представленной модели.
Так как при кооперации игроки действуют совместно, то необходимо решить следующую задачу оптимальногоуправления:µ1 J1 (E1 ) + µ2 J2 (E2 ) → min ,E1 ,E2 ≥0µ1 , µ 2 > 0 , µ 1 + µ2 = 1 ,где x(t) удовлетворяет (2.10) .(2.13)93Теорема 2.4. Кооперативное равновесие в задаче (2.10)–(2.13) имеет видE1c (t) =2Ax(t) + p1 µ1 + B2Ax(t) + p2 µ2 + B, E2c (t) =,2k1 µ1 q1 (1 − s)x(t)2k2 µ2 q2 sx(t)(2.14)гдеA=(2ε − ρ)µ1 µ2 k1 k2A(p1 k2 + p2 k1 ), B=−.µ1 k 1 + µ2 k 2εk1 k2Размер популяции при кооперативном поведенииp2 k1 + p1 k2 ³p2 k1 + p1 k2 ´ (ρ−ε)tx (t) =+ x0 −e.2εk1 k22εk1 k2c(2.15)Доказательство. Для определения оптимальных стратегий игроков воспользуемся методом динамического программирования [8].
Введем функцию БеллманаZ ∞V (x) = mine−ρt [µ1 J1 (E1 , E2 ) + µ2 J2 (E1 , E2 )] dt .E1 ,E2 ≥00Из уравнения Гамильтона–Якоби–БеллманаhρV (x) = min µ1 ( 21 a1 E12 (1 − s)2 x2 − b1 E1 (1 − s)x)+E1 ,E2 ≥0+µ2 ( 21 a2 E22 s2 x2i− b2 E2 sx) + V 0 (x)(εx − q1 E1 (1 − s)x − q2 E2 sx)(2.16)получим равновесные стратегииE1c =µ2 b2 + q2 V 0 (x)µ1 b1 + q1 V 0 (x), E2c =.µ1 a1 (1 − s)xµ2 a2 sx(2.17)Подставив оптимальные стратегии (2.17) в (2.16), запишемρV (x) = −(µ1 b1 + q1 V 0 (x))2 (µ2 b2 + q2 V 0 (x))2−+ V 0 (x)εx .2µ1 a12µ2 a2Будем искать функцию Беллмана в виде квадратичной формыV (x) = Ax2 + Bx + C .Подставив в уравнение Гамильтона-Якоби-Беллмана (2.16), получим уравнения для нахождения коэффициентов2A2 q12 2A2 q22−+ 2Aε ,ρA=−µ1 a1µ2 a22Aq1 (µ1 b1 + Bq1 ) 2Aq2 (µ2 b2 + Bq2 )ρB = −−+ εB ,µ1 a 1µ2 a 222 ρC = − (µ1 b1 + Bq1 ) − (µ2 b2 + Bq2 ) ,2µ1 a12µ2 a2откудаA=(2ε − ρ)µ1 µ2 (p1 k2 + p2 k1 )(2ε − ρ)µ1 µ2 k1 k2, B=−.µ1 k1 + µ2 k2ε(µ1 k1 + µ2 k2 )94Подставив в (2.17), получим стратегии в виде (2.14).Рассмотрим динамику развития популяции при кооперативном поведении игроков:x0 (t) = εx(t) − q1 E1c (t)(1 − s)x(t) − q2 E2c (t)sx(t) = (ρ − ε)x(t) +(ε − ρ)(p2 k1 + p1 k2 ),2εk1 k2откуда получим кооперативную траекторию xc (t).p1 k2 + p2 k1p1 k2 + p2 k1Заметим, что размер популяции при x0 <возрастает, а при x0 ≥2εk1 k22εk1 k2убывает неограниченно приближаясь при t → ∞ к этой величине.p1 k2 + p2 k1,аПоэтому, полученные стратегии допустимы (неотрицательны) при x0 ≥2εk1 k2p1 k2 + p2 k1при x0 <условия допустимости принимают вид2εk1 k2np p o´³p k + p kµ1 k 1 + µ2 k 2121 22 1min,≥ (2ε − ρ)− x0 .4k1 k2µ 2 µ12εk1 k2Кооперативное регулируемое равновесиеВ данном разделе для поддержания кооперативного поведения агентов эколого-экономической системы применяется кооперативное регулируемое равновесие, при использовании которого игрокам невыгодно отклонятся от кооперативного договора, достигнутого вначале периода планирования.Построим две схемы регулируемого равновесия для представленной модели.
Сначаларассмотрим традиционный подход, где игроки наказывают друг друга за отклонение откооперативного равновесия тем, что они изменяют свои стратегии на величину пропорциональную величине отклонения Ei (t) − Eic (t) (см. раздел 2.1.1).Теорема 2.5.
Кооперативное регулируемое равновесие в задаче (2.10)–(2.13) имеет видγ1 (E2 (t)) = E1c (t) + η1 (t)(E2 (t) − E2c (t)) , γ2 (E1 (t)) = E2c (t) + η2 (t)(E1 (t) − E1c (t)) ,гдеη1 (t) =µ2 q1 a2 s,µ1 q2 a1 (1 − s)η2 (t) =E1c (t), E2c (t) определены в (2.14).Доказательство. Пусть отклоняется второй игрокE2 (t) = E2c (t) + ∆ .1,η1 (t)95Следуя [103], будем искать стратегию наказания первого игрока в видеγ1 (E2 ) = E1c (t) + η1 (E2 (t) − E2c (t)) .Для определения коэффициента η1 необходимо решить задачу минимизации затрат второго игрока при условии, что первый игрок использует стратегию наказания:J2 (γ1 (E2 ), E2 ) → min ,E2 ≥0x0 (t) = εx(t) − q1 γ1 (E2 (t))(1 − s)x(t) − q2 E2 (t)sx(t) .(2.18)Аналогично теореме 2.4 пользуемся методом динамического программирования. Из уравнения Гамильтона–Якоби–БеллманаhρV2 (x) = min 12 a2 E22 s2 x2 − b2 E2 sx+E2 ≥0i+V20 (x)(εx − q1 (E1c + η1 (E2 − E2c ))(1 − s)x − q2 E2 sx)получим стратегию второго игрокаE2 =b2 s + V20 (x)(η1 q1 (1 − s) + q2 s).a2 s2 xПодставив в уравнение, получим(b2 s + V20 (x)(η1 q1 (1 − s) + q2 s))2ρV2 (x) = −+ V20 (x)(εx − q1 (1 − s)x(E1c − η1 E2c )) .2a2 sКак и ранее, ищем функцию Беллмана в виде квадратичной формыV2 (x) = A2 x2 + B2 x + C2 .Тогда стратегия второго игрока примет видE2 =b2 s + (2A2 x + B2 )(η1 q1 (1 − s) + q2 s).a2 s2 x(2.19)Подставляя выражения для кооперативных стратегий (2.16), получим уравнения длянахождения необходимых нам коэффициентов:³2q1 A2η1 q2 A ´2A22 (η1 q1 (1 − s) + q2 s)2+2Aε−q(1−s)(−) ,ρA=−212a2 s2µ1 a1 (1 − s)µ2 a2 s2(b s + B2 (η1 q1 (1 − s) + q2 s))A2 (η1 q1 (1 − s) + q2 s) ρB2 = − 2+2as2³2η1 q2 A2 ´2q1 A2−) −+Bε−q(1−s)(21µ1 a1 (1 − s)µ2 a 2 s³µ b + q1 Bµ2 b 2 + q 2 B ´ −2A2 q1 (1 − s) 1 1− η1.µ1 a1 (1 − s)µ2 a 2 s96Для того, чтобы γ1 было кооперативным регулируемым равновесием, необходимо, чтобырешение задачи (2.18) достигалось на кооперативном равновесии, т.е.
E2 = E2c . Из (2.14) и(2.19) получим условие(2A2 x + B2 )(η1 q11−sq2+ q2 ) = (2Ax + B) .sµ2Используя (2.14) и уравнения для коэффициентов A2 , B2 , получимη1 =µ2 q1 a2 s.µ1 q2 a1 (1 − s)Действуя аналогично при отклонении первого игрока, ища стратегию наказания второгоигрока в видеγ2 (E1 ) = E2c + η2 (E1 − E1c ) ,получим утверждение теоремы.Теперь рассмотрим предложенную в диссертационной работе схему поддержания кооперативного поведения.
Будем считать, что за отклонение игроков наказывает центр, а не онисами, как в традиционной постановке. Обозначим sc – разделение эксплуатируемой территории при кооперативном поведении обоих игроков. Предположим, что если отклоняетсяпервый игрок, то центр увеличивает sc , а если второй – уменьшает sc .Теорема 2.6. Кооперативное регулируемое равновесие в задаче (2.10)–(2.13) имеет видγ1 (E2 ) =2Ax(t) + B + µ1 p12Ax(t) + B + µ2 p2, γ2 (E1 ) =,∗2k1 µ1 q1 (1 − s2 (t))x(t)2k2 µ2 q2 s∗1 (t)x(t)гдеs∗2 (t) = sc −sc1 − scc∗c(E(t)−E(t)),s(t)=s+(E1 (t) − E1c (t)) .221E2c (t)E1c (t)Доказательство. Рассмотрим отклонение второго игрокаE2 (t) = E2c (t) + ∆ .Будем искать стратегию центра в видеs∗ (t) = sc − η(t)(E2 (t) − E2c (t)) .Таким образом, центр наказывает игрока, отклоняющегося от кооперативного договора,изменением территории эксплуатации пропорционально величине отклонения.Тогда стратегия наказания первого игрока имеет видγ1 (E2 ) =2Ax(t) + µ1 p1 + B.2k1 µ1 q1 (1 − sc + η(t)(E2 (t) − E2c (t)))x(t)97Далее необходимо определить коэффициент η.