Диссертация (1145356), страница 25
Текст из файла (страница 25)
будем искать характеристическую функцию в виде (, ·) =Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью187Рисунок 5.7. (0 , 0 , ; {1}), (0 , 0 , ; {1}), (0 , 0 , ; {1})Рисунок 5.8. ({2}, 0 , − 0 ), ({2}, 0 , − 0 ), ({2}, 0 , − 0 )() + () [232] как решение уравнения типа Гамильтона-Якоби-Беллмана:]︃[︃2∑︁ (, , ) (, , )+ max () + ( ( )) − ( ) = 0.=1Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью188Получаем: (0 , 0 , ; {1}) =(︀)︀1( − 0 ) 21 ( − 0 )2 − 3 1 ( − 0 ) + 31 2 − 60 1 ,6 (0 , 0 , ; {1}) =)︀(︀1( − 0 ) (21 + 22 1 )( − 0 )2 − 3 1 ( − 0 ) + 31 2 − 60 1 ,6 (0 , 0 , ; {1}) =(︀)︀1( − 0 ) (21 − 2 )( − 0 )2 − 3 1 ( − 0 ) + 31 2 − 60 1 ,6(︀)︀1 (0 , 0 , ; {2}) = ( − 0 ) 22 ( − 0 )2 − 3 2 ( − 0 ) + 32 2 − 60 2 ,6 (0 , 0 , ; {2}) =(︀)︀1( − 0 ) (22 + 21 2 )( − 0 )2 − 3 2 ( − 0 ) + 32 2 − 60 2 ,6 (0 , 0 , ; {2}) =)︀(︀1( − 0 ) (22 − 2 )( − 0 )2 − 3 2 ( − 0 ) + 32 2 − 60 2 .6Заметим, что в данном примере полученные значения характеристическойфункции для одноэлементных коалиций отличаются лишь коэффициентомперед ( − 0 )2 .
Кроме того, на качественном уровне функции -, -, - характеристические функции ведут себя примерно одинаково.Графическое изображение полученных результатов приведено на Рис. 5.7,5.8. Заметим, что для приведенного примера выполняется неравенство: (·) ≤ (·) ≤ (·),что требует дальнейшего анализа и обобщения.Заметим, что в данном примере для характеристических функций, построенных различным образом, выполнены достаточные условия (5.2.2) (см. (5.2.40)для игры двух лиц), сформулированные в общем виде в разделе 5.2 (см. Раздел 5.2.2 для игры двух лиц). Действительно, пусть (* (), , ) = (* (), , ; {1, 2})− (* (), , ; {1})− (* (), , ; {2}).Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью189Аналогично определим (* (), , ), (* (), , ). Тогда (* (), , )= −( − )2 (21 + 41 2 + 22 )/2 ≤ 0, ∀1 , 2 ≥ 0, ∈ [0 , ].
(* (), , )= −( − )2 (21 + 22 )/2 ≤ 0, * ( (), , )= −( − )2 (1 + 2 )2 ≤ 0.Таким образом, в данном примере сильно динамически устойчивое С–ядро(например, на основе вектора Шепли — см. пример 5.2.3) может быть построено на основе любой из рассмотренных характеристических функций. Однаков общем случае представляет интерес взаимосвязь выполнения условия (5.2.2)и способа построения характеристической функции для конкретных классовдифференциальных игр.5.4Двухуровневая кооперация5.4.1Игра с заданной коалиционной структуройРассмотрим дифференциальную игру лиц Γ(0 , 0 , ) с предписанной продолжительностью − 0 и начальным состоянием 0 (см. 1.1).Пусть = {1 , . . .
, } – некоторое заданное коалиционное разбиение множества игроков , т.е.⋃︀ = , ∩ = ∅ ∀ ̸= . Выигрыш коалиции=1 , = 1, . . . , определяется как сумма выигрышей игроков, входящих в коалицию: (0 , 0 , , 1 , . . . , ) =∑︁ ∫︁ℎ (( ), 1 (), . . . , ()),(5.4.81)∈ 0где () – решение задачи (1.1.1) для управлений = (1 (), . . . , ()) и () = { (), ∈ }.Рассмотрим кооперативный вариант игры. На первом уровне игры под игроками будем понимать коалиции 1 , .
. . , , которые максимизируют суммар-Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью190ный выигрыш∑︁ (0 , 0 , , 1 (), . . . , ()).(5.4.82)=1Предположим, что существует набор управлений ¯ = (¯1 , . . . , ¯ ), доставляющий максимум выражению (5.4.82). Траекторию ¯(), ∈ [0 , ], являющуюся решением задачи (1.1.1) при управлении ¯ будем называть кооперативнойтраекторией.Будем предполагать, что распределение между игроками суммарного выигрыша (5.4.82) осуществляется согласно вектору Шепли (5.1.7) для характеристической функции (0 , 0 , ; ), ⊆ .При таком разделе суммарного выигрыша (5.4.82) -й игрок (коалиция , = 1, .
. . , ) получает компоненту дележа, равнуюℎ(0 , 0 , ; ) =∑︁ ( − )!( − 1)![ (0 , 0 , ; ) − (0 , 0 , ; ∖ )],! ⊂ ∈(5.4.83)для которой выполняется условие∑︁ℎ(0 , 0 , ; ) = (0 , 0 , ;=1⋃︁ ) = (0 , 0 , ; ).(5.4.84)=1На первом этапе игры в выражении для вектора Шепли используется характеристическая функция (0 , 0 , ; ), ⊂ (см. (5.3.67)), котораяопределяется классическим образом как значение антагонистической игрымежду коалицией , действующей в качестве первого игрока, и коалицией ∖ , выступающей в качестве второго игрока. Доказано [101], что построенная таким образом характеристическая функция удовлетворяет условию супераддитивности (5.1.2).Как было отмечено выше в § 5.1.2, для динамических игр выполнение условия супераддитивности не гарантирует сохранения кооперации на всем промежутке игры.
Проблема динамической неустойчивости принципа оптималь-Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью191ности (в данном случае — вектора Шепли) может быть решена при помощиПРД.Определение 5.4.1. Рассмотрим вектор-функцию () с компонентами (), = 1, . . . , такую, что компоненты вектора Шеплиℎ(0 , 0 , ) = {ℎ(0 , 0 , ; )}=1,...,в игре Γ(0 , 0 , ) представимы в виде∫︁ℎ(0 , 0 , ; ) = ( ),∀ = 1, . . .
, .(5.4.85)0Вектор-функцию () = { ()}=1,..., будем называть процедурой распределения дележа (ПРД).Определение 5.4.2. Вектор Шепли ℎ(0 , 0 , ) = {ℎ(0 , 0 , ; )}=1,..., назовем динамически устойчивым, если существует такая вектор-функция () ={ ()}=1,..., , что для любого момента времени ∈ [0 , ], компоненты вектораШепли ℎ(0 , 0 , ; ), = 1, . .
. , представимы в виде∫︁ℎ(0 , 0 , ; ) = ( ) + ℎ(¯(), , ; ),(5.4.86)0где {ℎ(¯(), , ; )} – вектор Шепли, расчитанный в подыгре Γ(¯(); , )согласно ПРД { ()}, ∈ [0 , ]Дифференцируя (5.4.86) по , получим: () = −ℎ(¯(), , ; ).(5.4.87)На втором уровне кооперации распределим компоненту дележа ℎ(0 , 0 , ; )внутри коалиции . Для этого определим характеристическую функцию (0 , 0 , ; ), где ⊂ ∈ .
Пусть, как и раньше, ¯ = (¯1 , . . . , ¯ ) =(¯1 , . . . , ¯ ) есть оптимальное управление игроков, полученное на первомуровне кооперации. Характеристическая функция (0 , 0 , ; ) определяется неклассическим образом, а именно,Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью (0 , 0 , ; ) =min ,∑︁∈192ℎ(0 , 0 , ; ), (0 , 0 , ; ¯( ∖ )∪ , ) · ∑︀ (0 , 0 , ; ¯)∈∈ ∖(5.4.88)где ⊂ , ̸= ∅, и ¯( ∖ )∪ = {¯ , ∈ ( ∖ ) ∪ }, и ¯ – оптимальныеуправления.Таким образом, на втором уровне кооперации используем – характеристическую функцию (5.3.78), предложенную в Разделе 5.3, c точностью доℎ(0 , 0 , ; ), выполняющих роль нормирующих мно (0 , 0 , ; ¯)коэффициентов ∑︀жителей.∈Очевидно, что построенная таким образом характеристическая функция (0 , 0 , ; ) = ℎ(0 , 0 , ; ), = 1, . .
. , и (0 , 0 , ; ) супераддитивна.Утверждение 5.4.1. Характеристическая функция, построенная по формуле (5.4.88), является супераддитивной.Доказательство. Рассмотрим функцию˜ (0 , 0 , ; ) =min , ∈ ∖∑︁ (0 , 0 , ; ¯( ∖ )∪ , ).∈˜ (0 , 0 , ; ) отличается от (0 , 0 , ; ) на постоПоскольку функция янный и положительный множитель, все результаты, полученные для первой,будут верны и для второй.˜ (0 , 0 , ; ) (5.3.78) является супераддитивПо Теореме 5.3.1, функция ной функцией, что завершает доказательство утверждения 5.4.1. 2Используя (5.4.88), можно построить любой принцип оптимальности коопе-Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью193ративной теории (в частности, вектор Шепли).
Обозначим его через˜ (0 , 0 , ; ), ∈ .ℎОпределим процедуру распределения дележа на втором уровне кооперации ( ) через˜ (0 , 0 , ; ) =ℎ∫︁ ( ),(5.4.89)0{︁}︁˜используя вектор Шепли ℎ (0 , 0 , ; )∈, полученный на втором уровнекооперации. Аналогично принципу динамической устойчивости вектора Шепли, определенному на первом уровне, на втором уровне должно выполнятьсяусловие˜ (0 , 0 , ; ) =ℎ∫︁˜ (¯ ( ) + ℎ(), , ; ),(5.4.90)0где ∈ , = 1, . . . , и ∈ [0 , ]. Соответственно, () определяется как () = − ˜ℎ (¯(), , ; ),(5.4.91)где ∈ , = 1, .
. . , .Справедливо следующее утверждение.Утверждение 5.4.2.∑︁ ( ) = ( ),∀ ∈ .(5.4.92)∈Доказательство. Принимая во внимание (5.4.87), (5.4.91) и тот факт, что компоненты вектора Шепли на втором уровне кооперации распределяются междуигроками из коалиции, т.е.∑︁˜ (¯ℎ(), − , ) = ℎ(¯(), − , ),(5.4.93)∈продифференцировав обе стороны выражения (5.4.93), получим (5.4.92).Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью194Формула (5.4.92) есть фактически уравнение баланса для мгновенных выплат, т.е. оно означает, что при динамически устойчивом распределении вектора Шепли во времени (ПРД) мгновенные выплаты игрокам-коалициям равнысумме мгновенных выплат игрокам, входящим в эти коалиции5.4.2Пример. Динамически устойчивый принцип оптимальностив игре с двухуровневой кооперациейВ качестве примера рассмотрим теоретико-игровую модель управления вредными выбросами в атмосферу [303, 179], см.
§ 1.5.1. В игре принимают участие3 игрока, скорость абсорбции равна , а скорость загрязнения (, ) равнасумме скоростей загрязнения, (, ) = 1 + 2 + 3 . Динамика измененияобщего уровня загрязнения () задаётся уравнением()˙=3∑︁ () − (),(0 ) = 0 ,=1где - коэффициент абсорбции, соответствующий естественному очищениюатмосферы.Стратегией игрока является выбор скорости выброса загрязнений ∈]. В данном примере будем искать решение в классе позиционных стра[0; тегий (, ).Доход игрока в момент времени определяется по формуле:1( ()) = () − 2 ().2Каждый игрок несет расходы, связанные с устранением загрязнений. Мгновенный выигрыш (полезность) игрока равен ( ()) − (), > 0.Без ограничения общности будем предполагать, что момент начала игры0 = 0.Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью195Тогда выигрыш -го игрока имеет вид∫︁(5.4.94)( ( ( )) − ( )), (0 , , 1 , . . . , 3 ) =0где мы опустили аргумент, соответствующий 0 = 0.Рассмотрим случай, когда множество игроков разбито на две коалиции: = 1 ∪ 2 = {1} ∪ {2, 3}. Выигрыш коалиции , = 1, 2 определяется каксумма выигрышей игроков, входящих в коалицию:1 (0 , ; ) = 1 (0 , ; 1 , .
. . , 3 ),(5.4.95)2 (0 , ; ) = 2 (0 , ; 1 , . . . , 3 ) + 3 (0 , ; 1 , . . . , 3 ).Рассмотрим кооперативный вариант игры. На первом уровне игры под игроками будем понимать коалиции 1 , 2 , которые максимизируют суммарныйвыигрыш2∑︁(5.4.96) (0 , 0 , ; 1 (), . . . , 3 ()).=1Для определения управлений ¯ = (¯1 , . .