Диссертация (1145439), страница 22
Текст из файла (страница 22)
В данной главе построение динамическиустойчивой процедуры распределения дележа проведено для дискретных моделей управления возобновляемыми ресурсами.Кроме динамической устойчивости для продолжительного существования достигнутыхсоглашений должны выполняться условия, стимулирующие кооперацию. Чтобы гарантировать агентам больший выигрыш даже в случае расторжения кооперативного договорав теории динамических игр используется условие «защиты от иррационального поведения» (условия Янга [192]). В диссертационной работе предлагается новое условие, которое побуждает агента соблюдать кооперативное соглашение, достигнутое в начале периода121планирования. Предложенное условие, названное условием, стимулирующим рациональноеповедение на каждом шаге, легко проверяемо, а условие Янга является его следствием.Основные определенияРассмотрим динамическую модель эколого-экономической системы в дискретном времени.
Агенты (страны или фирмы) эксплуатируют возобновляемый ресурс на бесконечномпромежутке времени.Динамика развития ресурса с учетом эксплуатации описывается уравнениемxt+1 = f (xt , ut ) , x0 = x ,(2.1)где xt ≥ 0 – размер эксплуатируемого ресурса в момент времени t, ut = (u1t , . . . , unt ), uit ≥ 0– стратегия (интенсивность эксплуатации) i-го агента в момент времени t, i = 1, . .
. , n,f (xt , ut ) – функция развития возобновляемого ресурса.Каждый агент заинтересован в максимизации бесконечной суммы дисконтированных«мгновенных» выигрышей:Ji =∞Xt=0δ t gi (ut ) → max,iut(2.2)где gi (ut ) – прибыль агента i в момент времени t, δ – коэффициент дисконтирования,0 < δ < 1.1NnNОбозначим uNt = (ut , . .
. , ut ) – равновесие по Нэшу в игре (2.1), (2.2). При кооперацииагентов эколого-экономической системы максимизируется общий дисконтированный доходна бесконечном промежутке времени:∞nXXctJ =δgi (ut ) → max .t=0Пусть набор стратегийuct=uti=1nc(u1ct , . . . , ut )(2.3)является решением задачи (2.1),(2.3) и xct –кооперативная траектория, полученная при замыкании уравнения (2.1) набором стратегийuct .Приведем еще раз определение кооперативного регулируемого равновесия [103]. Стратегией i-го игрока является отображение γi : Dj → Di (uj ∈ Dj = [0, ∞]), где Di – множестводопустимых стратегий игрока i, i, j = 1, 2, i 6= j.Определение 2.1.
Пара стратегии (γ1 , γ2 ) называется кооперативным регулируемымравновесием, еслиu1c = γ1 (u2c ) , u2c = γ2 (u1c ) ,J1 (u1c , u2c ) ≥ J1 (u1 , γ2 (u1 )) ∀u1 ∈ D1 ,J2 (u1c , u2c ) ≥ J2 (γ1 (u2 ), u2 ) ∀u2 ∈ D2 .122В главе 2 была разработана новая схема кооперативного регулируемого равновесия, гдеконтроль над соблюдением кооперативного договора является задачей центра. Стратегиейцентра является разделение территории эксплуатации.
Таким образом, территория разделяется на две части: st и 1 − st , где участники эксплуатируют возобновляемый ресурс.Динамика развития и функционалы выигрышей агентов имеют вид (2.1)–(2.3), но стратегии участников теперь зависят от st , т.е. uit = uit (st ) .cnc cПусть набор стратегий uct = (u1ct (s ), . .
. , ut (s )) является кооперативным равновесиемв задаче (2.1),(2.3), а sc = const – разделение эксплуатируемой территории при соблюдениикооперативного договора.В предложенной в диссертационной работе схеме кооперативного регулируемого равновесия агент, нарушивший договоренности, достигнутые в начале периода планирования,наказывается центром изменением территории эксплуатации на величину, пропорциональную величине отклонения.Определение 2.2. Пара стратегии (γ1 , γ2 ) называется кооперативным регулируемымравновесием, еслиc2c c2c c1c cu1ct (s ) = γ1 (ut (s )) , ut (s ) = γ2 (ut (s )) ,c2c c111J1 (u1ct (s ), ut (s )) ≥ J1 (ut (st ), γ2 (ut (st ))) ∀ut ∈ U1 , 0 ≤ st ≤ 1 ,c2c c222J2 (u1ct (s ), ut (s )) ≥ J2 (γ1 (ut (st )), ut (st )) ∀ut ∈ U2 , 0 ≤ st ≤ 1 .Перейдем к построению динамически устойчивой процедуры распределения дележа.∞PPδtgi (uit ).Обозначим выигрыш любой коалиции S ∈ N как J S (u) =t=0i∈SДля кооперативного варианта динамической игры определим характеристическую функцию V (S, 0) как выигрыш коалиции S в равновесии, где остальные агенты играют индивидуально, т.е.
максимизируют свою функцию выигрыша, а коалиция S выступает как одинигрок, т.е. V (S, 0) = maxJ S (uN /uS ), где (uN /uS ) = {ujN , j ∈/ S, ui , i ∈ S}. Тогда выигрышиiu ,i∈Sв равновесии по Нэшу имеют вид V (i, 0) = maxJi , i = 1, . . .
, n, а при полной кооперации –iucV (N, 0) = maxJ .1nu ,...,uКогда характеристическая функция определена, можно определить множество дележей(способ распределения кооперативного выигрыша между агентами)ξ = {ξ(0) = (ξ1 (0), . . . , ξn (0)) :nXξi (0) = V (N, 0), ξi (0) ≥ V (i, 0), i = 1, . . . , n}.i=1Аналогично определим характеристическую функцию V (S, t) и множество дележей ξ(t) =(ξ1 (t), . . . , ξn (t)) в каждой подыгре, начинающейся в момент времени t из состояния xct . Да-123лее необходимо определить критерий выбора одного из дележей: это может быть пропорциональное решение, С–ядро, n–ядро, вектор Шепли и др.В дальнейших разделах диссертационной работы в качестве дележа используется вектор Шепли, который определяет правило разделения кооперативного выигрыша междуучастниками кооперации какξi =Xi∈K, K⊆N(n − |K|)!(|K| − 1)![V (K) − V (K \ {i})] , i ∈ N = {1, .
. . , n} ,n!(2.4)где n – число игроков, |K| – число игроков в коалиции K, V (K) – выигрыш коалиции K иV (K \ {i}) – выигрыш коалиции K без игрока i.Определение 2.3. Вектор β(t) = (β1 (t), . . . , βn (t)) называется процедурой распределениядележа (ПРД) [49], [50], еслиξi (0) =∞Xδ t βi (t) , i = 1, . . . , n .t=0Основная идея этой схемы заключается в распределении кооперативного выигрыша повсему периоду продолжения игры. Тогда βi (t) можно интерпретировать как выплату игрокуi в момент t.Определение 2.4.
Вектор β(t) = (β1 (t), . . . , βn (t)) называется динамически устойчивойПРД [48], [50], если для любого t ≥ 0ξi (0) =tXδ τ βi (τ ) + δ t+1 ξi (t + 1) , i = 1, . . . , n .τ =0Здесь игроки, следуя кооперативной траектории, придерживаются одного и того жепринципа оптимальности в каждый текущий момент времени и поэтому не имеют объективных мотивов отклоняться от ранее выбранного решения о кооперации.Нетрудно показать, что вектор β(t) = (β1 (t), . .
. , βn (t)), гдеβi (t) = ξi (t) − δξi (t + 1) , i = 1, . . . , n ,является динамически устойчивой ПРД.При использовании кооперативных стратегий необходимо учитывать тот факт, что некоторые недальновидные (иррациональные) игроки могут вызвать расторжение кооперативного договора. Поэтому, Янгом [192] было введено условие, стимулирующее кооперациюдаже в присутствии нерациональных игроков.124Определение 2.5. Дележ ξ = (ξ1 , .
. . , ξn ) удовлетворяет условию защиты от иррационального поведения [192], еслиtXδ τ βi (τ ) + δ t+1 V (i, t + 1) ≥ V (i, 0)(2.5)τ =0для всех t ≥ 0, где β(t) = (β1 (t), . . . , βn (t)) – динамически устойчивая ПРД.Это условие гарантирует участникам кооперации, что даже в случае расторжения кооперативного соглашения их выигрыш будет не меньше, чем при изначальном некооперативном поведении.Условие (2.5) в модели (2.1)–(2.3) принимает видξi (0) − ξi (t)δ t ≥ V (i, 0) − δ t V (i, t) , i = 1, .
. . , n.(2.6)В диссертационной работе предлагается новое условие, которое является более сильным,чем условие Янга и проще проверяемым.Определение 2.6. Дележ ξ = (ξ1 , . . . , ξn ) удовлетворяет условию, стимулирующему рациональное поведение на каждом шаге, еслиβi (t) + δV (i, t + 1) ≥ V (i, t)(2.7)для всех t ≥ 0, где β(t) = (β1 (t), . . . , βn (t)) – динамически устойчивая ПРД.Предложенное условие дает стимул агенту эколого-экономической системы поддерживать кооперацию, поскольку на каждом шаге он получает больше выгоды от кооперации,чем от некооперативного поведения.Для модели (2.1)–(2.3) условие (2.7) примет видξi (t) − δξi (t + 1) ≥ V (i, t) − δV (i, t + 1), i = 1, .
. . , n.(2.8)Легко заметить, что из условия (2.8) следует условие Янга. Для этого необходимо рассмотреть (2.8) в момент τ , умножить на δ τ и просуммировать по τ = 0, . . . , t.В дальнейших разделах для теоретико-игровых моделей управления возобновляемымиресурсами в дискретном времени применены схемы поддержания кооперативного договораи проверено выполнение условий, стимулирующих кооперативное поведение.1253.2.1. Модель с логарифмическими выигрышамиРассмотрим модель динамической игры управления возобновляемым ресурсами в дискретном времени. Два агента эколого-экономической системы (страны или фирмы) эксплуатируют ресурс на протяжении бесконечного промежутка времени.Динамика развития возобновляемого ресурса с учетом эксплуатации имеет видxt+1 = (xt − u1t − u2t )α , t = 0, 1, . .