Диссертация (1145439), страница 21
Текст из файла (страница 21)
. . ,(1.1)где 0 < α ≤ 1. Например, можно представлять себе некую рыбную популяцию, котораяразвивается по этому закону. Задано начальное состояние системы x0 . Заметим, что у данной системы существует стационарное состояние x = 1. Если x0 > 1, то популяция убывает,неограниченно приближаясь к x = 1, если же x0 < 1, то возрастает с такой же асимптотой.Пусть два игрока (агента) эксплуатируют популяцию и заинтересованы в максимизациисвоего дохода на некотором промежутке времени.
Функция полезности каждого игрока зависит от выловленной им рыбы u и имеет вид ln(u). Применение логарифмической функциивыигрыша связано с задачей максимизации темпов роста функции производства (в данномслучае – вылова), что легко показать в задаче с непрерывным временем: рассмотрим суммарное дисконтированное значение удельной скорости роста функции u(t)Z ∞0−ρt u (t)dt .eu(t)0Проинтегрировав по частям, считая, что u(0) = 1 и e−ρt ln u(t) → ∞ при t → ∞, получаемZ∞e−ρt u00(t)dt = ρu(t)Z∞e−ρt ln u(t)dt .0Таким образом, задача максимизации скорости роста функции производства u(t) эквивалентна задаче максимизации функции ln u(t) на бесконечном промежутке планирования.Модель (1.1) с логарифмическим выигрышами впервые была предложена в [118], и получила название – модель «рыбных войн» (в западной литературе – fish wars model). Найдемравновесие по Нэшу в данной игре.115Равновесие по НэшуРассмотрим задачу на конечном интервале времени.
Выигрыши игроков на промежуткевремени [0, n] имеют видJ1 =nXδ1tln(u1t ) , J2 =t=0nXδ2t ln(u2t ) ,(1.2)t=0где 0 < δi < 1 – коэффициент дисконтирования игрока i, i = 1, 2.Начнем с одношаговой игры, начальный размер популяции x0 = x. Пусть игроки решили выловить в начальный момент времени соответственно u1 и u2 , которые подчиняютсяограничению u1 + u2 ≤ x.
В следующий момент времени t = 1 размер популяции станетравным x1 = (x − u1 − u2 )α . Игра заканчивается, и условимся, что игроки делят оставшийсяресурс пополам, т.е. получают некоторую компенсацию за невыловленную часть популяции. Тогда выигрыш первого игрока составит величинуH1 (u1 , u2 ) = ln u1 + δ1 ln¡12¢(x − u1 − u2 )α == ln u1 + αδ1 ln(x − u1 − u2 ) − δ1 ln 2, x = x0 .Здесь множитель δ1 означает уменьшение выигрыша в силу дисконтирования.
Аналогично, для второго игрока выигрыш составитH2 (u1 , u2 ) = ln u2 + αδ2 ln(x − u1 − u2 ) − δ2 ln 2, x = x0 .Функции H1 (u1 , u2 ) и H2 (u1 , u2 ) выпуклы, поэтому существует равновесие по Нэшу. Изусловий первого порядка ∂H1 /∂u1 = 0, ∂H2 /∂u2 = 0 получим равновесные по Нэшу стратегииu11 =a1a2x, u12 =x,(1 + a1 )(1 + a2 ) − 1(1 + a1 )(1 + a2 ) − 1где a1 = αδ1 , a2 = αδ2 .При этом размер популяции после вылова равенx − u11 − u12 =a1 a2x,(1 + a1 )(1 + a2 ) − 1а выигрыши игроков в равновесии имеют видH1 (u11 , u12 ) = (1 + a1 ) ln x + A11 , H2 (u11 , u12 ) = (1 + a2 ) ln x + A12 ,где константы A11 , A12 не зависят от x и определяются соотношениямиµ¶aj (a1 a2 )ai1Ai = ln− δi ln 2, i, j = 1, 2, i 6= j.((1 + a1 )(1 + a2 ) − 1)1+ai116Теперь рассмотрим двухшаговую игру, в которой игроки производят вылов два раза.Оптимальное поведение и выигрыши игроков на последнем шаге определены ранее, но ужес другим начальным размером популяции.
Следовательно, равновесие в двухшаговой игренаходится из задачи максимизации выигрышей игроков видаH12 (u1 , u2 ) = ln u1 + a1 (1 + a1 ) ln(x − u1 − u2 ) + δ1 A11 , x = x0 ,H22 (u1 , u2 ) = ln u2 + a2 (1 + a2 ) ln(x − u1 − u2 ) + δ2 A12 , x = x0 .Здесь функции выигрыша также выпуклы, поэтому равновесие по Нэшу получим изсистемы уравненийa1 (1 + a1 )1a2 (1 + a2 )1−= 0,−= 0.u1 x − u1 − u2u2 x − u1 − u2Откуда равновесные стратегии опять линейны по x и имеют видu21 =a2 (1 + a2 )a1 (1 + a1 )x , u22 =x.(1 + a1 )(1 + a2 ) − 1(1 + a1 )(1 + a2 ) − 1Продолжая процесс, получим оптимальные стратегии в n-шаговой игре:a2un1 = Pn(a1j=0n−1P(a2 )jj=0nP)j (aa1j2) − 1n−1P(a1 )jj=0nP(a1 )j (a2 )jj=0j=1x , un2 = Pnj=1x.(1.3)−1При этом размер популяции после вылова за n шагов при некооперативном поведенииравенa1 a2x − un1 − un2 = Pnn−1P(a1 )jj=0(a1j=0)jn−1P(a2 )jj=0nP(a2)jx.−1j=1Найдем асимптотические равновесные стратегии, при n → ∞ (1.3) сходятся кū1 = lim un1 =n→∞a1 (1 − a2 )xa2 (1 − a1 )x, ū2 = lim un2 =.n→∞1 − (1 − a1 )(1 − a2 )1 − (1 − a1 )(1 − a2 )Асимптотический размер популяции после вылова ((1.4) при n → ∞)x − ū1 − ū2 = lim x − un1 − un2 = kx ,n→∞гдеk=a1 a2 x.1 − (1 − a1 )(1 − a2 )(1.4)117Теперь вернемся к задаче с бесконечным горизонтом планирования, и предположим,что на каждом шаге игроки используют стратегии ū1 , ū2 .
Тогда, стартуя из начальногосостояния x0 , система будет развиваться по закону22xt+1 = (xt − ū1 (xt ) − ū2 (xt ))α = k α xαt−1 = k α (kxαt−1 )α = k α+α xαt−1 = . . .tP=kj=1αjtxα0 , t = 0, 1, . . . .При t → ∞ система приближается к стационарному состояниюαµ¶ 1−αa1 a2x̄ =.a1 + a2 − a1 a2(1.5)При использовании одинаковых коэффициентов дисконтирования (δ1 = δ2 = δ) стациоα¶ 1−αµaнарное состояние имеет вид x̄ =, где a = αδ.2−aПредставляет интерес специальный линейный случай, в котором динамика популяцииимеет видxt+1 = r(xt − u1 − u2 ), r > 1.Повторяя рассуждения, проделанные выше, получим оптимальные стратегии игроков вравновесии по Нэшу в многошаговой игре с конечным горизонтомδ2un1 = Pn(δ1j=0n−1P(δ2 )jj=0nP)j (δ2)j−1x , un2 =j=1n−1P(δ1 )jj=0nnPP(δ1 )j (δ2 )jj=0j=1δ1x,−1которые в пределе при n → ∞ приводят к стратегиям видаū1 =δ2 (1 − δ1 )xδ1 (1 − δ2 )x, ū2 =.1 − (1 − δ1 )(1 − δ2 )1 − (1 − δ1 )(1 − δ2 )Так какx − ū1 − ū2 =δ1 δ2δ1 + δ2 − δ1 δ2динамика популяции при некооперативном поведении игроков примет видµ¶trδ1 δ2rδ1 δ2x0 , t = 1, 2, .
. . .xt =xt−1 =δ1 + δ2 − δ1 δ2δ1 + δ2 − δ1 δ2Заметим, что динамика популяции в равновесии существенно зависит от значения коrδ1 δ2эффициента. Если он меньше единицы, популяция вырождается, если больδ1 + δ2 − δ1 δ2ше единицы – неограниченно возрастает, и если он равен единице, то размер популяцииподдерживается на стабильном уровне. В случае равных коэффициентов дисконтирования δ1 = δ2 = δ, развитие или исчезновение популяции определяются знаком выраженияδ(r + 1) − 2.118Кооперативное равновесиеВернемся к начальной модели (1.1) и предположим, что игроки действуют кооперативно и осуществляют совместные действия.
Рассмотрим случай одинаковых коэффициентовдисконтирования: δ1 = δ2 = δ. Общую стратегию обозначим u = u1 + u2 . Такие же рассуждения как и выше дают оптимальную стратегию в n-шаговой игреun =1−ax, a = αδ ,1 − an+1с предельной стратегией û = (1 − a)x. Тогда, динамика популяции при кооперативномповедении примет видxt = (axt−1 )α = aα+α2 +...+αttxα0 , t = 1, 2, .
. . ,приближаясь при t → ∞ к стационарному состояниюαx̂ = a 1−α .(1.6)Сравнивая стационарные состояния (1.5) и (1.6) в кооперативном равновесии и равновесии по Нэшу, заметим, чтоµx̂ = (a)α1−α≥ x̄ =a2−aα¶ 1−α,т.е. при кооперативном поведении размер популяции больше, чем в равновесии по Нэшу.Теперь, сравним выигрыши игроков в равновесиях.
При кооперативном поведении игроки на каждом шаге получают суммарный выигрышαuc = (1 − a)x̂ = (1 − a)a 1−α .Играя некооперативно, сумма их выигрышей составит величину (при δ1 = δ2 = δ)2(1 − a)2a(1 − a)x̄ =u = ū1 + ū2 =21 − (1 − a)2−aµNa2−aα¶ 1−α.Нетрудно показать, что12 < (2 − a) 1−α , 0 < α, δ < 1 ,и значит uc > uN . Таким образом, кооперативное поведение не только приводит к благоприятному режиму эксплуатации популяции, но также и дает игрокам больший выигрыш,чем при некооперативном поведении.119Особенно эффектно это различие проявляется в линейной модели с динамикойxt+1 = rxt , t = 0, 1, . .
. .В этом случае при кооперативном поведении u = (1 − δ)x, и динамика развития популяции имеет видxt = rδxt−1 = . . . = (rδ)t x0 , t = 1, 2, . . . .Следовательно, стационарное состояние популяции зависит от величины rδ. При значении этого выражения больше единицы популяция неограниченно возрастает, при значении1меньше единицы вырождается, и при δ = остается на постоянном уровне. В силу того,rrδrδчто≤ rδ, возможна такая ситуация, когда rδ > 1 и< 1. Это означает, что при2−δ2−δкооперативном поведении игроков популяция будет неограниченно увеличиваться во времени, в то время как при индивидуальном поведении, когда каждый из игроков действует,руководствуясь только своими интересами, популяция вырождается.Таким образом, на примере модели рыбных войн показано, что кооперативное поведениеигроков благоприятно влияет на состояние популяции и дает игрокам больший выигрыш.В последующих разделах диссертационной работы будут применены разработанные схемы поддержания кооперативного поведения в дискретных задачах управления возобновляемыми ресурсами типа «рыбных войн».
А также предложены новые условия, стимулирующие кооперативное поведение агентов эколого-экономической системы.1203.2. Методы поддержания кооперации в дискретных моделях управлениявозобновляемыми ресурсамиКак и в главе 2 рассмотрим две схемы поддержания кооперативного поведения: кооперативное регулируемое равновесие [103] и динамически устойчивую процедуру распределениядележа [48], [49].Регулируемое равновесие применяется для поддержания кооперативного договора и наказания участников, отклоняющихся от первоначального решения о кооперации.
В традиционном подходе [103] агенты эколого-экономической системы сами контролируют поведение друг друга, наказывая отклонившихся изменением своей оптимальной стратегии. Применение данной схемы поддержания кооперативного поведения было показано для непрерывных моделей в главе 2. Для дискретных моделей традиционная схема кооперативногорегулируемого равновесия построена только для моделей с логарифмической и квадратичной функциями развития популяции (разделы 3.2.1 и 3.2.2). Далее применен разработанный в диссертационной работе новый метод поддержания кооперативного поведения, гдеконтроль над соблюдением кооперативного договора является стратегией центра. В предложенной схеме кооперативного регулируемого равновесия центр разделяет территориюэксплуатации и изменяет ее в ответ на отклонения агентов пропорционально величине отклонения.Понятие динамической устойчивости (состоятельности во времени), сформулированноеи обоснованное Л.А.
Петросяном [48], заключается в том, что следуя кооперативной траектории, игроки используют один и тот же принцип оптимальности в каждый момент времении поэтому не имеют мотивов отклонятся от кооперативного поведения. Для достижения состоятельности во времени в [49] было введено понятие процедуры распределения дележадля кооперативных решений (ПРД), которое заключается в распределении кооперативноговыигрыша по всему периоду продолжения игры.