Диссертация (1145439), страница 16
Текст из файла (страница 16)
при ε ≥ρ(а мы ограничились условием ε > 2ρ) должно выполняться21 ³ p2 p1 ´x0 ≤+.2ε c1c2Доказанная теорема показывает, что в случае регулирования кооперативного поведения самими игроками, обоим агентам невыгодно отклонение одного из них. Это связано стем, что «честный» игрок вынужден увеличивать интенсивность эксплуатации в качественаказания отклонившегося игрока, неся при этом дополнительные затраты. Поэтому, в диссертационной работе разработана новая схема кооперативного регулируемого равновесия сучастием центра.Результаты моделированияМоделирование было проведено для следующего набора параметров:ε = 0.2 ,p1 = p2 = 6000 ,c1 = 50 ,ρ = 0.02 ,µ1 = 0.505 ,µ2 = 0.495 .c2 = 70 ,Начальный размер популяции x(0) = 300. Момент времени отклонения второго игрокаt0 = 10 и размер отклонения ∆ = 10.
В момент времени t0 + 1 игрок возвращается кпервоначальному кооперативному поведению.Далее на рисунках показана разница переменных задачи в случае кооперативного поведения и в случае отклонения второго игрока (пунктиром). На рис. 2.3 представлена динамика популяции. На рис. 2.4 показана стратегия (вылов) первого игрока, а на рис. 2.5– стратегия второго.
Заметим, что первый игрок наказывает второго в соответствии сосхемой регулируемого равновесия путем увеличения своего вылова.85При этом размер популяции при отклонении уменьшается (см. рис. 2.3). Таким образом,применение данной схемы наказания отклоняющегося игрока неблагоприятно влияет такжеи на состояние эксплуатируемой популяции.500604504050304040020303502010300010200301020030102030Рис 2.3. Размер популяции:Рис 2.4. Вылов игрока 1:Рис 2.5. Вылов игрока 2:xc (t) и xdev (t)uc1 (t) и γ1 (udev2 (t))uc2 (t) и udev2 (t)Выигрыши игроков при кооперативном поведении составляютJ1c = 3853273.48 , J2c = 2767974.79 ,при отклонении второго игрока –J1dev = 3844499.93 , J2dev = 2761422.20 .Заметим, что оба игрока получают меньшую прибыль при отклонении второго и егонаказании. Первый игрок вынужден увеличивать свой вылов, и его выигрыш даже большеотклоняется от кооперативного, чем у второго (отклоняющегося) игрока.Таким образом, применение кооперативного регулируемого равновесия в традиционнойпостановке невыгодно обоим игрокам.
Поэтому в следующих разделах будет исследованасхема регулирования кооперативного поведения с участием центра.862.2. Модель с разделением территории и линейной функцией ростаВ данном разделе рассматривается теоретико-игровая задача управления возобновляемым ресурсом с участием центра. Территория разделена на две части: s и 1 − s, где ведутэксплуатацию два участника. Агентами эколого-экономической системы являются центр(арбитр), который разделяет территорию эксплуатации и игроки (страны или фирмы),эксплуатирующие ресурс на своей выделенной территории.Проведено исследование задачи с конечным и бесконечным горизонтом планирования.Для поддержания кооперативного поведения в первой модели используется кооперативноерегулируемое равновесие. Сначала применяется традиционная схема, где агенты экологоэкономической системы контролируют поведение друг друга.
Затем исследуется предложенная в диссертационной работе схема, в которой центр берет на себя обязанности поконтролю за соблюдением кооперативного договора. При этом отклоняющийся от кооперации агент наказывается постепенным уменьшением территории эксплуатации.В модели с бесконечным горизонтом планирования построено кооперативное регулируемое равновесие в обоих случаях и показано отличие предложенной в диссертационнойработе схемы наказания с участием центра от традиционной постановки. Также исследована схема поддержания кооперативного поведения, использующая динамически устойчивуюпроцедуру распределения дележа [49], [50].2.2.1.
Модель с конечным горизонтом планированияИтак, центр разделяет эксплуатируемую территорию на две части: s и 1 − s, где ведутэксплуатацию два игрока на протяжении конечного промежутка времени [0, T ].Динамика развития популяции с учетом эксплуатации описывается уравнениемx0 (t) = εx(t) − q1 E1 (t)(1 − s)x(t) − q2 E2 (t)sx(t) , 0 ≤ t ≤ T, x(0) = x0 ,(2.1)где x(t) ≥ 0 – размер популяции в момент времени t, ε > 0 – коэффициент внутреннегороста, E1 (t), E2 (t) ≥ 0 – промысловые усилия игроков, измеряемые, например, в количествекораблей, участвующих в лове в момент времени t и q1 , q2 > 0 – коэффициенты возможноговылова на единицу промысловых усилий игроков.Предполагаем, что E1 , E2 принадлежат множеству допустимых стратегий D1 , D2 . ПустьD1 = D2 ⊆ C([0, ∞)).87Выигрыши игроков на промежутке [0, T ] имеют следующий вид:J1 = g1 (x(T )) +RTe−ρt [q1 E1 (t)(1 − s)x(t)(p1 − k1 q1 E1 (t)(1 − s)x(t))]dt ,0J2 = g2 (x(T )) +RTe−ρt [q2 E2 (t)sx(t)(p2 − k2 q2 E2 (t)sx(t))]dt ,0где pi > 0 – цена продажи единицы ресурса, ki > 0 – затраты на вылов, 0 < ρ < 1 –коэффициент дисконтирования, i = 1, 2.
Ограничимся случаем ε > ρ.Таким образом, выигрыш игрока определяется разницей между доходом от продажиресурса и затратами на вылов, которые, как предполагается, квадратично зависят от вылова. Функции gi (x) описывают будущий доход от эксплуатации запасов в конечный момент времени T . Следуя обычным предположениям на функцию полезности, пусть gi0 (x) ≥0, gi00 (x) ≤ 0 , i = 1, 2.Сделав замену ai = 2ki qi2 e−ρt , bi = pi qi e−ρt , получим выигрыши в видеRTJ1 = g1 (x(T )) + [− 12 a1 E12 (t)(1 − s)2 x2 (t) + b1 E1 (t)(1 − s)x(t)]dt ,0J2 = g2 (x(T )) +RT0[− 21 a2 E22 (t)s2 x2 (t)(2.2)+ b2 E2 (t)sx(t)]dt .В данном разделе не будем приводить вид равновесия по Нэшу, т.к.
как было показаноранее, нас будет интересовать кооперативное поведение, при котором устанавливается болеещадящий режим эксплуатации.Для нахождения кооперативного равновесия необходимо решить следующую задачу оптимального управления:µ1 J1 (E1 , E2 ) + µ2 J2 (E1 , E2 ) → max ,E1 ,E2 ≥0где x(t) удовлетворяет (2.1) ,(2.3)µ1 , µ2 > 0 – весовые коэффициенты, которые отражают значимость игроков, µ1 + µ2 = 1.Решение поставленной задачи получено в следующей теореме.Теорема 2.1. Кооперативное равновесие в задаче (2.1),(2.3) имеет видε(T −t)b1 − µ−1(µ1 g10 (xc (T )) + µ2 g20 (xc (T )))1 q1 e,a1 (1 − s)x(t)ε(T −t)b2 − µ−1(µ1 g10 (xc (T )) + µ2 g20 (xc (T )))2 q2 eE2c (t) =.a2 sx(t)E1c (t) =(2.4)Доказательство. Как и ранее, для решения задачи с конечным горизонтом планированияиспользуем принцип максимума [57]. Гамильтониан имеет видH(E1 , E2 , s, x) = µ1 (− 12 a1 E12 (1 − s)2 x2 + b1 E1 (1 − s)x)++µ2 (− 21 a2 E22 s2 x2 + b2 E2 sx) + λ(εx − q1 E1 (1 − s)x − q2 E2 sx) .88Максимизируя, получим оптимальные стратегии в видеE1c =b1 − µ−11 q1 λ,a1 (1 − s)xE2c =b2 − µ−12 q2 λ,a2 sxгде λ(t) – сопряженная переменная, удовлетворяющая уравнению∂H= E1 (1 − s)[µ1 a1 E1 (1 − s)x − µ1 b1 + λq1 ] +∂x2X+E2 s[µ2 a2 E2 sx − µ2 b2 + λq2 ] − ελ = −ελ(t) , λ(T ) =µi gi0 (x(T )) ,λ0 (t) = −(2.5)i=1решая которое, получимλ(t) =2Xµi gi0 (x(T ))eε(T −t) .i=1Окончательно, запишем кооперативные стратегии в виде, указанном в формулировкетеоремы.Для допустимости (неотрицательности) полученных стратегий необходимо выполнениеεT (ρ−ε)tусловий pi − µ−1(µ1 g10 (xc (T )) + µ2 g20 (xc (T ))) ≥ 0.
Так как данная функция возi e eрастает по t, то достаточно проверить при t = 0. Таким образом, условия допустимостиоптимальных стратегий принимают видe−εT min{p1 µ1 , p2 µ2 } ≥ µ1 g10 (xc (T )) + µ2 g20 (xc (T )) .Доказательство оптимальности полученных стратегий проводится аналогично предыдущему разделу.Кооперативное регулируемое равновесиеПостроим две схемы регулируемого равновесия для нашей задачи. Сначала предположим, что игроки наказывают друг друга за отклонение от кооперативного равновесия тем,что они изменяют свою стратегию на величину пропорциональную величине отклоненияEi (t) − Eic (t) (см. раздел 2.1.1).Теорема 2.2. Кооперативное регулируемое равновесие в задаче (2.1),(2.3) имеет видγ1 (E2 (t)) = E1c (t) + η1 (t)(E2 (t) − E2c (t)) , γ2 (E1 (t)) = E2c (t) + η2 (t)(E1 (t) − E1c (t)) ,гдеη1 (t) =E1c (t), E2c (t) определены в (2.4).E2c (t),E1c (t)η2 (t) =1,η1 (t)89Доказательство. Пусть отклоняется второй игрокE2 (t) = E2c (t) + ∆ .Следуя [103] будем искать стратегию наказания первого игрока в видеγ1 (E2 ) = E1c (t) + η1 (E2 (t) − E2c (t)) .Для определения коэффициента η1 необходимо решить задачу максимизации прибыливторого игрока при условии, что первый игрок использует стратегию наказания:J2 (γ1 (E2 ), E2 ) → max ,E2 ≥00x (t) = εx(t) − q1 γ1 (E2 (t))(1 − s)x(t) − q2 E2 (t)sx(t) .(2.6)Аналогично теореме 2.1 пользуемся принципом максимума.
Максимизируя гамильтониан1H2 (γ1 (E2 ), E2 , x) = − a2 E22 s2 x2 + b2 E2 sx +2c+λ2 (εx − q1 (E1 + η1 (E2 − E2c ))(1 − s)x − q2 E2 sx) ,находим, что решение задачи (2.6) имеет видE2 (t) =b2 s − λ2 (t)(q1 (1 − s)η1 + q2 s),a2 s2 x(t)где сопряженная переменная находится из уравнения∂H2 (γ1 (E2 ), E2 , x)=∂x−λ2 (t)(ε − q1 (1 − s)(E1c (t) − η1 E2c (t))) , λ2 (T ) = g20 (x(T )) .λ02 (t) = −(2.7)Для того, чтобы γ1 было кооперативным регулируемым равновесием, необходимо, чтобырешение задачи (2.6) совпадало с кооперативной стратегией второго игрока E2 (t) = E2c (t).Найдем такое η1 , что E2 (t) = E2c (t), из вида стратегий получим связь между сопряженными переменнымиλ2 (t) = λ(t)q2 s.µ2 (η1 q1 (1 − s) + q2 s)Подставив в (2.7), получимλ0 (t)= −λ(t)q2 s=µ2 (η1 q1 (1 − s) + q2 s)q2 s(ε − q1 (1 − s)(E1c (t) − η1 E2c (t))) .µ2 (η1 q1 (1 − s) + q2 s)90Вспомним, что λ0 (t) = −ελ(t) (см.
(2.5)), запишемλ(t)q2 sq1 (1 − s)(E1c (t) − η1 E2c (t)) = 0 ,µ2 (η1 q1 (1 − s) + q2 s)откудаη1 =E1c (t).E2c (t)Действуя аналогично при отклонении первого игрока, ища стратегию наказания второгоигрока в видеγ2 (E1 ) = E2c (t) + η2 (E1 (t) − E1c (t)) ,получим утверждение теоремы.Теперь изменим схему наказания за отклонение от кооперативного поведения.
Будемсчитать, что за отклонения от кооперативного равновесия игроков наказывает центр, а неони сами, как это было выше. Обозначим sc – разделение территории при кооперативномповедении обоих игроков. Пусть, при отклонении первого игрока центр увеличивает sc , апри отклонении второго – уменьшает sc .