Диссертация (1145356), страница 26
Текст из файла (страница 26)
. , ¯3 ) = (¯1 , ¯2 ), доставляющих максимум выражению (5.4.96), запишем уравнение Гамильтона-Якоби-Беллмана:{︃−123 = max −123 +3∑︁=133∑︁1 ∑︁ 2123 + − 123 −2 =1=1}︃, (5.4.97)где 123 и 123 – частные производные функции Беллмана 123 (, ), 123 =3∑︀=1 .Максимизирующее управление найдем из выражения − + = 0, откудаследует ¯ = + . После подстановки ¯ в (5.4.97) получаемгде 12331− = −123 + ^123 + 123 + 2 − ,2233∑︀∑︀ 2= и ^123 = .=1=1(5.4.98)Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью196Предположим, что функция Беллмана имеет вид (, ) = () + ()(см. § 1.3), тогда соответствующие частные производные будут записываться˙˙следующим образом: = ()+ ()и = (). Подставляя эти выражения в (5.4.98) и группируя подобные слагаемые получаем систему двухдифференциальных уравнений:⎧⎪˙ = () + 123 ,⎨ ()(5.4.99)⎪⎩ ()˙= − 21 ^123 − 123 () − 32 2 (),с краевыми условиями ( ) = ( ) = 0. Решение системы (5.4.99) имеетследующий вид:⎧⎪⎨ () = − 123 [1 + e− e ](︀ −2( −))︀(︀ −( −))︀⎪(−)−e−1+e−1012⎩ () =,43(︀)︀22где 0 = 2 ^123 2 − 2123 123 + 3123, 1 = −3123, 2 = 4123 (3123 − 123 ).Таким образом, оптимальные управления ¯ имеют вид ¯ = − 123 [1 −e− e ].Для определения компоненты вектора Шепли каждой коалиции необходимо построить соответствующие характеристические функции 1 (0 , ) и 23 (0 , ).
Так, для второй коалиции, 2 = {2, 3}, 23 = max min(2 + 3 ).2 ,31Запишем соответствующее уравнение Гамильтона-Якоби-Беллмана:{︃− 23 = max −23 +3∑︁=2 −31 ∑︁2=22 + 233∑︁}︃ − 23, (5.4.100)=1где 23 и 23 – частные производные функции Беллмана 23 (, ), 23 =3∑︀=1 .Глава 5. Кооперативные дифференциальные игры с предписанной продолжительностью197Максимизирующие управления имеют вид = + , = 2, 3, а минимизирующее управление определяется как1=⎧⎪⎨ 0, ≥ 0⎪⎩ , < 0.1После подстановки найденных управлений в (5.4.100) получаем1− = −23 + ^23 + 23 + 2 − + 1 ,2где 23 =3∑︀ и ^23 ==23∑︀(5.4.101)2 .=2Выберем функцию Беллмана в виде 23 (, ) = 23 ()+ 23 () [169]. Тогда23 = ˙ 23 () + ˙ 23 () и 23 = 23 (). После подстановки частных производных в (5.4.101) и приведения подобных слагаемых получается система двухдифференциальных уравнений:⎧⎪⎨ ˙ 23 () = 23 () + 23 ,(︀)︀⎪⎩ ˙ 23 () = − 1 ^23 − 23 23 () − 23 () 2 − 23 () .12(5.4.102)с краевыми условиями 23 ( ) = 23 ( ) = 0.
Анализируя решение первогодифференциального уравнения заключаем, что () ≤ 0 для всех ∈ [0 , ] и,.следовательно, 1 = Аналогично находится значение характеристической функции для коалиции 1 = {1}.Компонента вектора Шепли для коалиции 2 = {2, 3} определяется следующим образом:ℎ(¯(), − , 2 ) =]︀ 1 [︀]︀1 [︀ 123 (, ¯()) − 1 (, ) + 23 (, ) .22(5.4.103)Подставив в (5.4.103) решения дифференциальных уравнений (5.4.99) и(5.4.102) можно выписать в явном виде формулу, показывающую изменениеГлава 5. Кооперативные дифференциальные игры с предписанной продолжительностью198вектора Шепли вдоль кооперативной траектории ¯():(︂1ℎ(¯(), − , 2 ) =0 ()¯() + 1 + 2 ()e−( −) +324)︂+ 3 (e−( −) − 1) + 4 e−2( −) + 5 () , (5.4.104)где 0 () = −242 23 − 123 1 + 122 (1 + 223 )e−( −) + 12 2 ( − 1)1 ,(︀)︀21 = −661 23 − 4523− 121 2 ,22 () = 12(5123− 312 − 21 23 ) − 24( − )1 123 ,3 = −12(1 23 + 223 123 ) − 12(123 − 1 − 1 ),12324 = 31 2 − 15123,25 () = 30( −)123−12 ^23 3 (−1)−12( −)2 2 1 123 +4( −)3 3 1 2 −−6( −)1 2 −12( −)2 (1 23 +223 123 )+6( −)2 23 3 −12( −)2 (123 1.)) + 6( − )2 3 1 + 1 (132Кооперативная траектория ¯(), соответствующая оптимальным управлениям (¯1 , ¯2 , ¯3 ), имеет вид¯() =123+ e− )︃(︀ )︀− 3e2e−1123123+−0 −22(︀)︀3 e− e− ( −2 ) 2 e ( −) − 1 123−2 2(︃Соответственно, подставив в (5.4.104) ¯() и продифференцировав по , получаем процедуру распределения дележа для коалиции {2, 3} согласно формуле(5.4.87):23 () = −ℎ(¯(), − , 2 ) =)︁1 (︁−( −)−2( −)−2 = − 3 0 () + 1 ()e+ 2 e− 3 ()e,42где 0 () = −(5123− 1 2 ) + 2(123 − 1 − 1 + ( − )1 123 +1231 23 + 23 123 )2 − 2(( − )2 1 2 + ( − )23 1 + ( − )1 + 2 2 + 3 2 )3 ,121 () = (10123− 21 2 ) − 21 2 23 − 423 2 123 − 22 (123 − 1 −121 ) − 4( − )2 1 123 ,3Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью19922 = −(5123− 1 2 ).(︀3 () = ((2123 − 1 )(1 − e − ) + ( − )1 e − ) 3123 (1 + e2 ) − 2(3123 −)︀123 )e − 22 0 e Для вычисления компоненты вектора Шепли ℎ(¯(), − , 1 ) можно воспользоваться условием (5.4.84):ℎ(¯(), − , 1 ) = 123 (, ¯()) − ℎ(¯(), − , 2 ).Соответственно, процедура распределения дележа 1 () получается из (5.4.87).На втором уровне необходимо разделить выиг-Второй уровень кооперациирыш между участниками коалиции 2 = {2, 3}. Для этого мы решаем вспомогательные задачи˜ (0 , − 0 , { }) =min∑︁ , ∈2 ∖ (0 , − 0 , ¯( ∖2 )∪ , ),(5.4.105)∈при условии, что ¯( ∖2 )∪ = {¯ , ∈ ( ∖ 2 ) ∪ }, где ¯ – оптимальныерешения, полученные на первом уровне кооперации.Пусть = {2}. Тогда можно записать следующее уравнение{︂}︂1˜ 2 = min 2 + 2 2 − 22 + ˜ 2 3 + ˜ 2 (¯˜ 2 , (5.4.106)−1 + ¯2 ) − 32где минимизирующая стратегия ¯3 определяется следующим образом:3=⎧⎪⎨ 0,˜ 2 ≥ 0⎪˜ 2 < 0.⎩ , 3Учитывая то, что ¯1 = 1 + 123 () и ¯2 = 2 + 123 (), можно переписать(5.4.106) как˜ 2 ¯3 + ˜ 2 (12 +2123 ())−˜ 2 , (5.4.107)˜ 2 = −2 + 1 22 − 1 (123 ())2 + −22˜ 2 (, ) имеет видПусть, как и прежде, характеристическая функция ˜ 2 (, ) = 2 () + ()2 .Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью200Тогда решение (5.4.107) сводится к решению двух дифференциальных уравнений:⎧⎪⎨ ˙ 2 () = 2 () + 2 ,(︀)︀⎪⎩ ˙ 2 () = − 1 2 + 1 123 () 2 − 2 ()(12 + 2123 ()) − 2 () .32 22(5.4.108)Решение первого уравнения имеет вид 2 () = − 1 (2 −2 e− e ).
Посколькуиз решения следует, что 2 () ≤ 0 ∀ ∈ [0, ], минимизирующее управление. Далее, решение второго уравнение находится в3 выбирается равным 3следующем виде:2 () =143 (0− 1 e−( −) − 2 e−2( −) ),222− 2(123 − 2 ) ,− 3123где 0 = 2 2 2 3 − 4 2 2 123 + 42 123 + 2 1231 = 4123 (123 − 2 ),2 = (1 + 2 + 3 )2 .˜ 3 . Теперь характеристические функАналогично определяется функция ции (0 , 0 , ; {2}) и (0 , 0 , ; {3}) могут быть определены следующимобразом:ℎ(0 ,0 , ;2 )˜ (0 , 0 , ; {2}) (0 , 0 , ; {2}) = 2 (0 ,0 , ;¯)+3 (0 ,0 , ;¯) == min 2 (0 , 0 , ; ¯1 , ¯2 , 3 ) ·3ℎ(0 ,0 , ;2 )2 (0 ,0 , ;¯)+3 (0 ,0 , ;¯) ,ℎ(0 ,0 , ;2 )˜ (0 , 0 , ; {3}) (0 , 0 , ; {3}) = 2 (0 ,0 , ;¯)+3 (0 ,0 , ;¯) == min 3 (0 , 0 , ; ¯1 , 2 , ¯3 ) ·2ℎ(0 ,0 , ;2 )2 (0 ,0 , ;¯)+3 (0 ,0 , ;¯)(5.4.109)В выражениях (5.4.109) для характеристических функций (0 , 0 , ; {2})и (0 , 0 , ; {3}) значения выигрышей 2-го и 3-го игроков для оптимальныхуправлений (¯1 , ¯2 , ¯3 ) имеют следующий вид:Глава 5.
Кооперативные дифференциальные игры с предписанной продолжительностью2012 (¯(), , ; ¯1 , ¯2 , ¯3 ) =[︂(︁)︁(︁)︁2123 (1−e− e )123 (1−e− e )1− 2 −= 2 2 2 −− 2 2 +)︂ ]︂(︂−( −)( −)− −( −)− 3ee−1()123123− e 123 − (123 + 123 ) + e 123 ++2 2 e 3223 (¯(), , ; ¯1 , ¯2 , ¯3 ) =[︂(︁)︁(︁)︁2123 (1−e− e )123 (1−e− e )1= 2 3 3 −− 3 −− 2 3 +)︂ ]︂(︂3e−( −) (e( −) −1)123e− 123e−( −) 123e− 3123− − (123 + 123 ) +++2 322Используя полученные характеристические функции (0 , 0 , ; {2}) и (0 , 0 , ; {3}) можно записать компоненты вектора Шепли для участниковкоалиции 2 = {2, 3}:˜ 2 (¯ℎ(), , ; 2 ) =11= [ℎ(¯(), , ; 2 ) − (¯(), , ; {3})] + [ (¯(), , ; {2})] ,22˜ 3 (¯ℎ(), , ; 2 ) =11(), , ; 2 ) − (¯(), , ; {2})] + [ (¯(), , ; {3})] .= [ℎ(¯22и соответствующие ПРД˜ 2 (¯22 = − ℎ(), , ; 2 ),˜ 3 (¯32 = − ℎ(), , ; 2 ).Таким образом, был построен динамически устойчивый принцип оптимальности в дифференциальной игре с двухуровневой кооперацией.Глава 6Устойчивая кооперация вкооперативных дифференциальныхиграх со случайным моментомокончания6.1Игра Γ (0, 0, ) в форме характеристической функцииРассмотрим кооперативную форму игры Γ (0 , 0 , ) из § 2.1.
В дальнейшембудем предполагать для определенности, что случайная величина (моментокончания игры) определена на полубесконечном интервале [0 , ∞), хотя всерезультаты могут быть также сформулированы для случая конечного интервала [0 , ].Предположим, что в игре Γ (0 , 0 , ) построена характеристическая функция (0 , 0 , ), ⊆ , одним из способов 5.3, адаптированных для случайного момента окончания игры . В качестве выигрышей в формулах(5.3.67), (5.3.74), (5.3.78) используется (2.2.9), а значение характеристическойфункции интерпретируется в терминах математического ожидания выигры-202Глава 6.Устойчивая кооперация в играх со случайным моментом окончания203ша коалиции , ⊆ .
Например, построенная на основе вспомогательнойантагонистической игры характеристическая функция (0 , 0 , ), ⊆ ,(5.3.67) в игре со случайным моментом окончания интерпретируется как максимальное значение математического ожидания выигрыша, которое можетсебе обеспечить коалиция независимо от поведения других игроков. ИгруΓ (0 , 0 , ) в форме характеристической функции (0 , 0 , ·) будем обозначать как Γ (0 , 0 ) =< , (0 , 0 , ·) >.Отметим, что построение характеристической функции ((), , ·) дляподыгры Γ ((), ), ∈ [0 , ∞) отличается тем, что выигрыши в данной игре понимаются в терминах условного мат.ожидания (2.2.8), где условием является «дожитие» до момента , поскольку игра может закончиться до момента с вероятностью ().