Диссертация (1145439), страница 14
Текст из файла (страница 14)
Пустьдинамика, соответствующая оптимальному по Нэшу поведению обоих игроков – xN (t). РасNNсмотрим возмущение полученного решения xN (t) + ∆x, uN1 (t) + ∆u1 . Причем x (t), u1 (t)удовлетворяют уравнению (1.9), a ∆x удовлетворяет уравнению ∆x0 = ε∆x − ∆u1 (т.к.N(xN )0 + ∆x0 = εxN − uN1 − u2 + ε∆x − ∆u1 ).Выигрыш при оптимальном поведении равенZ T2NNNJ1 =[p̂1 uN1 (t) − ĉ1 (u1 (t)) ] dt + g1 (x (T )) .0Возмущенный выигрыш равенZ TN2NJ1 =[p̂1 uN1 (t) + p̂1 ∆u1 (t) − ĉ1 (u1 (t) + ∆u1 (t)) ] dt + g1 (x (T ) + ∆x(T )) .0Рассмотрим разницу выигрышейZJ1N − J1 =Tĉ1 ∆u1 (t)2 − λ1 (t)∆u1 (t) dt + g1 (xN (T )) − g1 (xN (T ) + ∆x(T )) =0Z TZ T20N=ĉ1 ∆u1 (t) dt − g1 (x (T ))∆x(T ) −λ1 (t)∆u1 (t) dt =00Z TZ T20N=ĉ1 ∆u1 (t) dt − g1 (x (T ))∆x(T ) −λ1 (t)(ε∆x(t) − (∆x)0 ) dt =00Z TZ T20NTĉ1 ∆u1 (t)2 dt ≥ 0 ,ĉ1 ∆u1 (t) dt − g1 (x (T ))∆x(T ) + ∆xλ1 (t)|0 ===00что доказывает, что uN1 (t) является оптимальной стратегией первого игрока.
Аналогичнодоказывается, что uN2 (t) оптимально для второго игрока.Для определения кооперативных стратегий агентов необходимо решить следующую задачу:µ1 J1 (u1 (t))) + µ2 J2 (u2 (t)) → max ,u1 ,u2 ≥0где x(t) удовлетворяет (1.9) ,(1.12)µ1 , µ 2 > 0 , µ 1 + µ2 = 1 .Таким образом, при кооперации участники действуют совместно (как один игрок) истремятся максимизировать общий выигрыш.
Поэтому для решения поставленной задачииспользуются стандартные методы оптимального управления [91]. Коэффициенты µi , приэтом, отражают значимость игроков и могут быть применены для регулирования степениучастия в кооперации при подписании кооперативного соглашения.72Теорема 1.2. Кооперативные стратегии в задаче (1.12) имеют видε(T −t)p̂i − µ−1(µ1 g10 (xc (T )) + µ1 g20 (xc (T )))i e=2ĉiεT (ρ−ε)tpi − µ−1(µ1 g10 (xc (T )) + µ1 g20 (xc (T )))i e e=, i = 1, 2.2ciuci (t) =Размер популяции при кооперации –p1 c2 + p2 c1(1 − eεt ) +2c1 c2h 0 cc0µ2 g20 (xc (T )) µ1 g10 (xc (T )) i εtεT ρt c2 g1 (x (T )) + c1 g2 (x (T ))+++e e(e − e−εt ) .4εc1 c24εc1 µ14εc2 µ2xc (t) = x0 eεt +Доказательство. Используя принцип максимума, запишем гамильтониан в видеH(u1 , u2 , x) = µ1 (p̂1 u1 − ĉ1 (u1 )2 ) + µ2 (p̂2 u2 − ĉ2 (u2 )2 ) + λ(εx − u1 − u2 ) ,откуда, максимизируя, получим, что оптимальные кооперативные стратегии имеют видucip̂i − µ−1i λ(t)=,2ĉiгде λ(t) – сопряженная переменная, удовлетворяющая уравнениюλ0 (t) = −∂H(u1 , u2 , x)= −ελ(t) , λ(T ) = µ1 g10 (x(T )) + µ2 g20 (x(T )) ,∂xрешая которое, получим стратегии игроков в виде, указанном в формулировке теоремы.При этом уравнение динамики развития популяции примет вид0x (t) = εx(t) −2Xp̂i − µ−1 eε(T −t) (µ1 g 0 (x(T )) + µ2 g 0 (x(T )))ii=112ĉi2, x(0) = x0 ,решая которое, получим кооперативную траекторию xc (t).Для допустимости (неотрицательности) полученных стратегий необходимо выполнениеεT (ρ−ε)tусловий pi − µ−1(µ1 g10 (xc (T )) + µ1 g20 (xc (T ))) ≥ 0.
Так как данная функция возi e eрастает по t, то достаточно проверить при t = 0. Таким образом, условия допустимостиоптимальных стратегий принимают видe−εT min{p1 µ1 , p2 µ2 } ≥ µ1 g10 (xc (T )) + µ2 g20 (xc (T )) .p1 c2 + p2 c1p1 c2 + p2 c1возрастает, а при x0 <2c1 c22c1 c2c2 g10 (xc (T )) + c1 g20 (xc (T ))убывает неограниченно приближаясь при t → ∞ к величине+4εc1 c2µ2 g20 (xc (T )) µ1 g10 (xc (T ))+.4εc1 µ14εc2 µ2Данная задача является квадратичной с линейной динамикой, поэтому (как было поЗаметим, что размер популяции при x0 ≥казано в теореме 1.1) принцип максимума является и достаточным условием оптимальности.73Следствие 1.1. При кооперативном поведении устанавливается более щадящий режимэксплуатации, т.е.
размер популяции при кооперации большеxc (t) > xN (t) .Доказательство. Сравним выражения в квадратных скобках у xN (t) и xc (t), и заметим,что утверждение верно.Теперь сравним выловы игроковuc1 (t)=p̂1 − eε(T −t) (g10 (x(T )) +µ2 0g (x(T )))µ1 22ĉ1<p̂1 − eε(T −t) g10 (x(T ))= uN1 (t) .2ĉ1Аналогично и для второго игрока.
Таким образом, при кооперации оба игрока эксплуатируют ресурс меньше, чем в равновесии по Нэшу.Как показывает следствие кооперативное поведение важно для благоприятной экологической ситуации. Но игроки, целью которых является максимизация прибыли, могутизменять свои действия для получения большей выгоды. Поэтому, важной задачей является стимулирование кооперативного поведения в моделях управления возобновляемымиресурсами.
Для поддержания кооперации здесь используется кооперативное регулируемоеравновесие. Причем применяется традиционная схема, т.е. игроки наказывают друг другаза отклонение от кооперативного договора изменением своей кооперативной стратегии.Теорема 1.3. Регулируемым равновесием в задаче (1.9),(1.12) являетсяγi (uj (t)) = uci (t) + ηi (uj (t) − ucj (t)) , i, j = 1, 2 , i 6= j ,гдеη1 =µ1 g10 (xc (T ))1, η2 =.0cµ2 g2 (x (T ))η1Доказательство. Пусть отклоняется второй игрокu2 = uc2 + ∆ .Следуя [103], будем искать стратегию наказания первого игрока в видеγ1 (u2 ) = uc1 + η1 (u2 − uc2 ) .Для определения коэффициента η1 необходимо решить задачу максимизации прибыливторого игрока при условии, что первый игрок использует стратегию наказания:J2 (γ1 (u2 ), u2 ) → max ,u2 ≥00x (t) = εx(t) − γ1 (u2 (t)) − u2 (t) , x(0) = x0 .(1.13)74Аналогично предыдущим теоремам пользуемся принципом максимума.
МаксимизируягамильтонианH2 (uc1 , u2 , x) = p̂2 u2 − ĉ2 (u2 )2 + λ2 (ε − uc1 − η1 (u2 − uc2 ) − u2 )находим, что решение задачи (1.13) имеет видu2 =p̂2 − (η1 + 1)λ2 (t),2ĉ2где сопряженная переменная находится из уравненияλ02 (t) = −∂H2 (uc1 , u2 , x)= −ελ2 (t) , λ2 (T ) = g20 (x(T )) .∂xОкончательно получимp̂2 − (η1 + 1)eε(T −t) g20 (x(T ))u2 (t) =.2ĉ2Для того, чтобы γ1 было кооперативным регулируемым равновесием, необходимо, чтобырешение задачи (1.13) совпадало с кооперативной стратегией второго игрока u2 (t) = uc2 (t).Заметим, что если это выполняется, то γ1 (u2 ) = uc1 .
Откуда легко получим, чтоxc (t) = x(t) .Найдем такое η1 , что u2 (t) = uc2 (t), из вида стратегий получимg20 (x(T ))(η1 + 1) =µ1 0 cg (x (T )) + g20 (xc (T )) .µ2 1Так как xc (T ) = x(T ), то окончательно получимη1 =µ1 g10 (xc (T )).µ2 g20 (xc (T ))Действуя аналогично при отклонении первого игрока, ища стратегию наказания второгоигрока в видеγ2 (u1 ) = uc2 + η2 (u1 − uc1 ) ,получим утверждение теоремы.2.1.2. Модель с бесконечным горизонтом планированияКак и в разделе 2.1.1, исследуем динамическую игру двух лиц, которые эксплуатируют запас возобновляемого ресурса, но на протяжении бесконечного промежутка времени.Динамика развития популяции описывается уравнением (1.9).75Выигрыши агентов на бесконечном промежутке планирования имеют видZ∞e−ρt [ui (t)(pi − ci ui (t))]dt ,Ji =(1.14)0где ui (t) ≥ 0 – стратегия (вылов) игрока i в момент времени t, ci > 0 – затраты на выловдля i-го игрока, pi > 0 – рыночная цена продажи единицы ресурса, i = 1, 2, ρ – общийкоэффициент дисконтирования, 0 < ρ < 1, ε > 2ρ.Сначала найдем равновесие по Нэшу.
Как упоминалось в главе 1 для решения задач набесконечном промежутке планирования с дисконтированием (задач экономического роста)удобно пользоваться методом динамического программирования.Теорема 1.4. Оптимальные по Нэшу стратегии в задаче (1.9),(1.14) имеют видuNi (t) =(2ε − ρ)(2x(t)εc1 c2 − c1 p2 − c2 p1 ) + 3εpi cj, i, j = 1, 2 , i 6= j .6εc1 c2Размер популяции при некооперативном поведении –xN (t) = x0 e2ρ−εt3+2ρ−εp1 c2 + p2 c1(1 − e 3 t ) .2εc1 c2Доказательство. Будем использовать метод динамического программирования [8]. Функции Беллмана обоих игроков примут видZ ∞V1 (x) = min{e−ρt [c1 u21 (t) − p1 u1 (t)] dt} ,u1 ≥00Z∞V2 (x) = min{u2 ≥00e−ρt [c2 u22 (t) − p2 u2 (t)] dt} .А соответствующие уравнения Гамильтона–Якоби–Беллмана –ρV1 (x) = min{c1 u21 − p1 u1 + V10 (x)(εx − u1 − u2 )} ,u1 ≥0ρV2 (x) = min{c2 u22 − p2 u2 + V20 (x)(εx − u1 − u2 )} .u2 ≥0Минимизируя, получим оптимальные по Нэшу стратегииu1 =V10 (x) + p1V 0 (x) + p2, u2 = 2.2c12c2Подставляя в уравнения, запишем³V20 (x) + p2 ´(V10 (x) + p1 )20ρV1 (x) = −+ V1 (x) εx −,4c12c2ρV2 (x) = −³(V20 (x) + p2 )2V 0 (x) + p1 ´+ V20 (x) εx − 1.4c22c176Будем искать функции Беллмана в виде квадратичных форм: Vi (x) = ai x2 + bi x + di ,i = 1, 2.Тогда оптимальные стратегии примут видui (x) =2ai x + bi + pi,2ciгде коэффициенты удовлетворяют системе (i, j = 1, 2, i 6= j)a22a aρai = 2ai ε − cii − cij j ,a (p +b )+a bρbi = εbi − ai (pcii+bi ) − i j cjj j i , ρd = − (pi +bi )2 − bi (pj +bj ) ,i4ci2cjрешая которую, получим окончательно вид оптимальных по Нэшу стратегий.При этом уравнение динамики популяции примет видx0 (t) = εx(t) −p1p2(2ε − ρ)(2xεc1 c2 − c1 p2 − c2 p1 )−−, x(0) = x0 ,2c1 2c23εc1 c2решая которое, получим некооперативную траекторию xN (t).p1 c2 + p2 c1p1 c2 + p2 c1Заметим, что размер популяции при x0 <возрастает, а при x0 ≥2εc1 c22εc1 c2убывает неограниченно приближаясь при t → ∞ к этой величине.p1 c2 + p2 c1Поэтому, полученные стратегии допустимы (неотрицательны) при x0 ≥, а2εc1 c2p1 c2 + p2 c1при x0 <условия допустимости принимают вид2εc1 c2np p o³p c + p c´3121 22 1min,≥ (2ε − ρ)− x0 .2c1 c22εc1 c2Теперь найдем кооперативное равновесие – задача (1.12) с соответствующими функциями выигрышей игроков (1.14).Теорема 1.5.
Оптимальные кооперативные стратегии в задаче (1.12), (1.14) имеют видuci (t)=µ1 µ2 (2ε−ρ)(2εx(t)c1 c2 −p1 c2 −p2 c1 )pi + µ−1iε(c1 µ1 +c2 µ2 )2ci, i = 1, 2 .Размер популяции при кооперативном поведении –xc (t) = x0 e(ρ−ε)t +p1 c2 + p2 c1(1 − e(ρ−ε)t ) .2εc1 c2Доказательство. Введем функцию Беллмана [8]Z∞e−ρt [µ1 (c1 u21 − p1 u1 ) + µ2 (c2 u22 − p2 u2 )] .V (x) = minu1 ,u2 ≥0077Из уравнения Гамильтона–Якоби–БеллманаρV (x) = min [µ1 (c1 u21 − p1 u1 ) + µ2 (c2 u22 − p2 u2 ) + V 0 (x)(εx − u1 − u2 )]u1 ,u2 ≥0получим кооперативные стратегииuci (x) =0pi + µ−1i V (x), i = 1, 2.2ciТогда уравнение Гамильтона–Якоби–Беллмана примет видρV (x) = εxV 0 (x) − µ10202(p1 + µ−1(p2 + µ−11 V (x))2 V (x))− µ2.4c14c2Аналогично теореме 1.4.