Диссертация (1145356), страница 22
Текст из файла (страница 22)
Пусть ¯ = {¯ = (0 , 0 , ; {}) + }=1,2 . Тогда дележ ¯ является опорным решением, т.е. ¯ ∈ (0 , 0 , ).Доказательство. Несложно убедиться, что ¯ действительно является дележом, т.е. ¯ ∈ (0 , 0 , ). Действительно, по построению имеем¯ ≥ (0 , 0 , ; {}, = 1, 2. Кроме того,¯1 + ¯ 2 = (·, {1}) + 1 (·) + (·, {2}) + 2 (·) == (·, {1}) + (·, {2}) + (·) == (·, {1}) + (·, {2}) + (·, {1, 2}) − (·, {1}) − (·, {2}) == (0 , 0 , ; {1, 2}).Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью164Найдем ПРД для и покажем, что для получившейся вектор-функции справедливо (5.2.35).
Очевидно, что ПРД имеет вид¯ () = − () − (* (), , ; {})).Условия (5.2.35), (5.2.36) для игры двух лиц принимают вид−]︀ [︀ (* (), , ; {1, 2})− (* (), , ; ∖{}) ≥ () ≥ − (* (), , ; {}),(5.2.45)Рассмотрим нижнее неравенство (верхнее доказывается аналогично). Для ПРД¯ () имеем¯ () = − () − (* (), , ; {})) == − (* (), , ) − (* (), , ; {})).По построению* ( (), , )≤ 0. Тогда, очевидно,¯ () ≥ − (* (), , ; {})).Таким образом построено опорное решение ¯.Замечание. Выбор 1 = 2 = 1/2 соответствует выбору вектора Шепли вкачестве опорного решения.
Выбор коэффициентов 1 > 0, 2 > 0 : 1 + 2 =1 позволяет получить множество опорных решений, являющееся подмножеством С–ядра.5.2.3Пример. Сильно динамически устойчивое решение в игре двухлицВ качестве примера рассмотрим теоретико-игровую модель управления вредными выбросами в атмосферу [303, 179], см. § 1.5.1. В игре принимают участиеГлава 5. Кооперативные дифференциальные игры с предписанной продолжительностью1652 игрока, скорость абсорбции равна , а скорость загрязнения полагается равной сумме скоростей загрязнения обоих игроков. Динамика изменения общегоуровня загрязнения () задаётся уравнением()˙=2∑︁ () − (),(0 ) = 0 ,=1где - коэффициент абсорбции, соответствующий естественному очищениюатмосферы.Стратегией игрока является выбор объёма вредных выбросов ∈ [0; ].В данном примере будем искать решение в классе позиционных стратегий (, ).Доход игрока в момент времени определяется по формуле:1( ()) = () − 2 ().2Каждый игрок несет расходы, связанные с устранением загрязнений.
Мгновенный выигрыш (полезность) игрока равен ( ()) − (), > 0.Без ограничения общности будем предполагать, что момент начала игры0 = 0.Тогда выигрыш -го игрока имеет вид∫︁( ( ( )) − ( )). (0 , 0 , , 1 , 2 ) =(5.2.46)0Предположим, что выполняется следующее условие регулярности:∑︀2=1 ≤ ≤ , = 1, 2.(5.2.47)Рассмотрим кооперативный вариант игры, в котором игроки максимизируют суммарный выигрыш2∑︁=1 (0 , 0 , , 1 , 2 ).(5.2.48)Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью166Для определения управлений * = (*1 , *2 ), доставляющих максимум выражению (5.2.48), запишем уравнение Гамильтона-Якоби-Беллмана:{︃− 12 = max −12 +2∑︁=122∑︁1 ∑︁ 212 + − 12 −2 =1=1}︃,(5.2.49)где 12 и 12 – частные производные функции Беллмана 12 (, ), 12 =2∑︀ .=1Максимизирующее управление найдем из выражения − + = 0, откудаследует * = + .
После подстановки ¯ в (5.2.49) получаемгде 1213− 12 = −12 + ^12 + 12 12 + (12 )2 − 12 ,2222∑︀∑︀= и ^12 =2 .=1(5.2.50)=1Предположим, что функция Беллмана [199, 169] имеет вид 12 (, ) = () + (),(5.2.51)тогда соответствующие частные производные будут записываться следующим˙˙образом: 12 = ()+()и 12 = (). Подставляя эти выражения в (5.4.98)и группируя подобные слагаемые, получаем систему двух дифференциальныхуравнений:⎧⎪˙ = () + 12 ,⎨ ()⎪⎩ ()˙= − 12 ^12 − 12 () − 32 2 (),(5.2.52)с краевыми условиями ( ) = ( ) = 0. Решение системы (5.2.52) имеетследующий вид:⎧⎪⎨ () = − 12 [1 + e− e ](︀ −2( −))︀(︀ −( −))︀⎪(−)−e−1+e−112⎩ () = 0,34Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью16722где 0 = 2 ^12 2 − 212 12 + 312, 1 = −312, 2 = 412 (312 − 12 ).(︀)︀Таким образом, оптимальные управления * имеют вид* = −12[1 − e− e ], = 1, 2.Отметим, что выполнение условия (5.2.47) гарантирует принадлежность оптимального управления * интервалу [0, ].Оптимальная траектория * (), соответствующая оптимальным управлениям (*1 , *2 ), имеет вид* () =(︃− (︀)︃)︀− 1 122e12 3 e+2 2(︀)︀3 e− e− ( −2 ) 2 e ( −) − 1 12.−2 212+ e− 0 −−(5.2.53)Далее, найдем выражение для значений характеристической функции (0 , 0 , ; {1}) и (0 , 0 , ; {2}).
Найдем значение характеристической функции для игрока 2, действующего самостоятельно, т.е. (0 , 0 , ; {2}) = max min 2 (0 , 0 , , 1 , 2 ).21Для удобства будем использовать следующее сокращенное обозначение: ((), , , {2}) = ({2}). Запишем соответствующее уравнение ГамильтонаЯкоби-Беллмана:{︃1− ({2}) = max min −2 + 2 2 − 22 + ({2})2122∑︁=1}︃ − ({2}),(5.2.54)где ({2}) и ({2}) – частные производные функции Беллмана (, , ; {2}).Максимизирующие управления имеют вид = + , = 2, а минимизирующее управление определяется как1 =⎧⎪⎨ 0, ({2}) ≥ 0⎪⎩ , ({2}) < 0.1Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью168После подстановки найденных управлений в (5.2.54) получаем1− ({2}) = −2 + ^2 + 2 ({2}) + ({2})2 − ({2}) + ({2}) 1 ,2(5.2.55)где ^2 = 22 .Выберем функцию Беллмана в следующем виде [169]: (, , ; {2}) = {2}() + {2}().(5.2.56)˙˙Тогда ({2}) = {2}()+ {2}()и ({2}) = {2}(). После подстановкичастных производных в (5.2.55) и приведения подобных слагаемых получаетсясистема двух дифференциальных уравнений:⎧⎪˙⎨ {2}()= {2}() + 2 ,⎪˙⎩ {2}()= − 21 ^2 − 2 {2}() − ({2}())2 − {2}()1 .(5.2.57)с краевыми условиями {2}( ) = {2}( ) = 0. Анализируя решение первогодифференциального уравнения заключаем, что () ≤ 0 для всех ∈ [0 , ].
Можно легко показать, что выполнение условияи, следовательно, 1 = ], = 2.(5.2.47) гарантирует выполнение требования ¯ ∈ [0, Таким образом, характеристическая функция ({2}) имеет вид ({2}, , , ) = {2}() + {2}(),где {2}(), {2}() вычисляются следующим образом:{2}() = −2 (1 − e− ( −) ),Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью169{2}() = 22 3 − 2 2 2 2 + 22 2 − 2 2 2 + 2 22 + 2 2 − 322=−2 3)︀(︀ 2 2 2 − 22 2 − 2 2 + 22 22 2 e−2( −)−−−2 22 32 e−( −) (2 − 22 + )−.3Аналогично находится характеристическая функция для коалиции 1 = {1}.Очевидно, что характеристическая функция (5.2.51, 5.2.56) является супераддитивной по построению.
Следовательно, вдоль оптимальной траектории * () (5.2.53) в любой момент времени ∈ [0, ] выполняется следующеенеравенство: (* (), , ; {1, 2}) ≥ (* (), , ; {1}) + (* (), , ; {2}).Найдем разность значений характеристической функции (* (), , ; {1, 2})и (* (), , ; {1}) + (* (), , ; {2}). Согласно алгоритму раздела 5.2.2, этаразность соответствует(* (), , ) = 1 () + 2 () =[︀]︀= (* (), , ; {1, 2}) − (* (), , ; {1}) + (* (), , ; {2}) ≥ 0.
(5.2.58)Получаем:1 () + 2 () =(5.2.59)−1 2 (e−( −) − 1)2 + (21 2 − )(e−( −) − 1) + (21 2 − 2 )( − )=+312 (−( −) − 1) + 12 ( − )+ ,2где = 1 2 + 2 1 .(5.2.60)Имеем:(︁)︁21 2 −( −)*2−( −)− ( (), , ) =(e− 1) + 1 − e(12 − ) .2Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностьюОчевидно, что при 12 − ≥ 0, мы гарантируем* ( (), , )170≤ 0.Поскольку имеет вид (5.2.60), имеем:(5.2.61)(1 + 2 ) ≥ 1 2 + 2 1 .Теперь определим величины (), = 1, 2, следующим образом:(5.2.62) () =−1 2 (e−( −) − 1)2 + (21 2 − )(e−( −) − 1) + (21 2 − 2 )( − )= +312 (−( −) − 1) + 12 ( − )+ , = 1, 2,2где выбираются произвольно, т.ч. > 0, 1 + 2 = 1.
Очевидно, что () ≥ 0, = 1, 2 в силу (5.2.58). Построим опорное решение согласно (5.2.43).Пусть 1 = 2 = 1/2. Тогда ПРД имеет следующий вид: ({2}, ¯(), − ) = (︁)︁1−( −)−2( −)−2 − 3 0 () + 1 ()e+ 2 e− 3 ()e, (5.2.63)42 () = 2 () −2+ ( − )1 12 + 1 2 + 2 12 ) 2 −− 1 − 1 2 ) + 2(12 где 0 () = −(51221+ 2 2 ) 3 ,2(( − )2 1 2 + ( − )2 1 + ( − )1 12) − 4( −− 1 1 () = (1012− 21 2 ) − 21 2 2 − 42 2 12 − 2 2 (12 21) 2 1 12 ,22 = −(512− 1 2 ).3 () = ((212 − 1 )(1 − e − ) + ( − )1 e − )(312 (1 + e2 ) − 2(312 −12 )e −2 2 0 e ). Компонента ПРД 1 () вычисляется аналогичным образом.Теперь построим опорное решение ¯ = (¯1 , 2 ) (¯ =∫︀ 0¯ (), = 1, 2):.¯ 1 = 1 + (0 , 0 , ; {1});(5.2.64)1¯ 2 = 2 + ({2}, 0 , − 0 ) =(0 ()0 + 1 + 2 ()e−( −) +324+3 (e−( −) − 1) + 4 e−2( −) + 5 ()),(5.2.65)Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью171где 0 () = −24 2 2 − 12 3 1 + 12 2 (1 + 22 )e−( −) + 12 2 ( − 1)1 ,1 = −661 2 − 4522 − 121 2 ,22 () = 12(512− 312 − 21 2 ) − 24( − )1 12 ,3 = −12(1 2 + 22 12 ) − 12(12 − 1 ),1224 = 31 2 − 1512,25 () = 30( − )12− 12 ^2 3 ( − 1) − 12( − )2 2 1 12 + 4( − )3 3 1 2 −6( − )1 2 − 12( − ) 2 (1 2 + 22 12 ) + 6( − )2 2 3 − 12( − ) 2 (12 −11 ) + 6( − )2 3 1 .21Компонента ¯ 1 дележа для первого игрока вычисляется аналогично.
Несложно проверить, что получившееся опорное решение ¯ соответствует векторуШепли в силу построения (1 () = 2 () = 1/2(* (), , )):1 [︀ (0 , 0 , ; {1, 2}) − (0 , 0 , ; {1})−2]︀− (0 , 0 , , {2}) + (0 , 0 , , {1}) =11= ( (0 , 0 , ; {1, 2}) − (0 , 0 ; ; {2})) + ( (0 , 0 , ; {1}),22¯ 1 = 1 + (0 , 0 , ; {1}) =¯ 2 = 2 + (0 , 0 , ; {2}) =(5.2.66)11= ( (0 , 0 , ; {1, 2}) − (0 , 0 ; ; {1})) + ( (0 , 0 , ; {2}),22т.е. вектор ¯ является вектором Шепли в игре с характеристической функцией (0 , 0 , ; ·).Таким образом, используя ПРД (5.2.63) при выполнении дополнительногоограничения на параметры модели (5.2.61) мы обеспечиваем динамическую исильную динамическую устойчивость ядра на основе вектора Шепли (5.2.64).Кроме того, обеспечивается защита от иррационального поведения участников, поскольку ранее было доказано, что в случае игры двух лиц выбор ПРД¯ () по формуле (5.2.63) гарантирует выполнение условия Янга (5.1.22).В данном примере был использован классический способ Неймана – Моргенштерна [141, 16, 101] построения характеристической функции, однако так-Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью172же представляет интерес построение характеристической функции другимиспособами (см. Раздел 5.3).5.2.4Пример. Сильно динамически устойчивое решение в игре трехлицРассмотрим пример из параграфа 5.1.5. Выше было показано, что в данномпримере игры С–ядро не пусто и содержит вектор Шепли.Покажем, что для построенной характеристической функции справедливонеравенство (5.2.37). Будем использовать сокращенные обозначения для краткости записи. Имеем, что для ̸= ̸= ∈ {1, 2, 3} (·, ) − ( (·, {, }) + (·, {}) = 1/6( − )3 (1 + 2 + 3 )2 .Тогда]︀ [︀ (·, ) − ( (·, {, }) + (·, {}) = −1/2( − )2 (1 + 2 + 3 )2 ≤ 0.Получаем, что неравенство (5.2.37) всегда выполнено без дополнительныхограничений на параметры модели.