Диссертация (1145356), страница 29
Текст из файла (страница 29)
. , .Доказательство. Можно заметить, что∑︀¯ = (0 , 0 , ) = ¯ (0 , 0 , ).=1 Следовательно, ¯ = {¯1 , . . . , ¯ } является распределением совокупного ожидаемого выигрыша (0 , 0 , ).Согласно Лемме 6.5.1, характеристическая функция регуляризованной игры имеет вид (6.5.23). Отметим, что поскольку является дележом в подыгреΓ (* ( ), ), то ≥ (* ( ), , {}). Следовательно,∫︁ ∞ ∑︀ℎ (* ( ), *1 , .
. . , * )(1 − ( )) ≥¯ = =1 (* ( ), , )0∑︀∫︁ ∞****=1 ℎ ( ( ), 1 , . . . , )≥ ( ( ), , {})(1− ( )) = ¯ (0 , 0 , {}).* ( ( ), , )0Таким образом, ¯ является дележом.Глава 6.218Устойчивая кооперация в играх со случайным моментом окончания¯ 0 ) (построРассмотрим следующее подмножество множества дележей (енного для новой характеристической функции ¯ (, 0 )) :{︂¯ (0 , 0 ) =¯ : ¯ =∞∫︁0∑︀***=1 ℎ ( ( ), 1 , .
. . , )(1 (* ( ), , )− ( )),}︂∀ ∈ ( ( ), ), ∈ [0 , ∞) . = 1, . . . , ,*(6.5.26)¯ (0 , 0 ) ⊂ (0 , 0 ) назовем регуляВведенное таким образом множество ризованным принципом оптимальности или регуляризованным решением игры Γ (0 , 0 ) (как было указано выше, фактически здесь уже рассматриваетсяигра Γ¯ (0 , 0 )).Теорема 6.5.1. Множество ¯ (0 , 0 ) является динамически устойчивымпринципом оптимальности.Доказательство. Введем новый дележ в подыгре Γ (* ()) , ∈ [0 , ∞) поформуле1¯ =1 − ()∫︁∞∑︀***=1 ℎ ( ( ), 1 , .
. . , )(1 (* ( ), , )− ( )).(6.5.27)Аналогично доказательству Утверждения 6.5.1, нетрудно показать, что введенная согласно (6.5.27) величина действительно является дележом в подыгре.Кроме того, имеем:¯ =∫︁0∑︀*=1 ℎ ( ( ))(1 − ( )) + (* ( ), )∞∫︁∑︀*=1 ℎ ( ( ))(1 (* ( ), )− ( )).Следовательно,¯ =∫︁¯ ( )(1 − ( )) + (1 − ())¯ .0Таким образом, дележ ¯ имеет вид (6.2.8).Следующая теорема дает представление об изменении C-ядра при регуляризации.Глава 6.Устойчивая кооперация в играх со случайным моментом окончания219Теорема 6.5.2.
Пусть изначально выбранный игроками принцип оптимальности (0 , 0 ) является C-ядром (обозначим как (0 )), которое не яв-^ 0 )— новуюляется динамически устойчивым. Рассмотрим ¯ (0 , 0 , ) и (характеристическую функцию и соответствующее ей C-ядро. Согласно фор-¯ 0)муле (6.5.26) определим регуляризованный принцип оптимальности (на основе C-ядра (0 ).
Справедливо следующее включение:¯ 0 ) ⊂ (^ 0 ),(¯ 0 ) будет принадлежать C-ядру,т.е. построенная регуляризация C-ядра (соответствующему характеристической функции ¯ (, 0 ).Доказательство. Для доказательства данного утверждения воспользуемся необходимым и достаточным условием принадлежности дележа ¯ С-ядру (5.1.5):∑︁¯ ≥ ¯ (0 , 0 , ),∀ ⊂ .∈¯ 0 ) имеемВ нашем случае ∀¯ ∈ (∑︁∈¯ =∞∑︁ ∫︁∈ ( )0∑︀*=1 ℎ ( ( ))(1(* ( ), , )− ( )).Т.к. (0 ) является C-ядром, должно выполняться неравенство∑︁ ≥ (* (), ),∀ ⊂ .∈Следовательно, получаем, что∑︁¯ ≥ ¯ (0 , ),∀ ⊂ .∈¯ 0 ) ⊂ (^ 0 ).Таким образом, (В том случае, когда регуляризации подлежит принцип оптимальности, являющийся вектором Шепли, алгоритм его регуляризации может быть несколько изменен согласно следующей теореме.Глава 6.220Устойчивая кооперация в играх со случайным моментом окончанияТеорема 6.5.3.
Вектор Шепли, вычисленный для характеристической функции ¯ (, 0 ), является динамически устойчивым.Доказательство. Как известно, вектор Шепли вычисляется по формуле (5.1.7).Следовательно, компоненты вектора Шепли в игре Γ¯ (0 , 0 ) (кооперативномварианте игры Γ (0 , 0 , ) c новой характеристической функцией ¯ (0 , 0 ))имеют вид:ℎ (0 ) =∑︁ ( − )!( − 1)!!⊂∈[¯ (0 , 0 , ) − ¯ (0 , 0 , ∖{})].(6.5.28)¯Назовем ℎ(0 ) регуляризованным вектором Шепли. Из формул (6.5.23) и(6.5.28) получаем выражение для компонент регуляризованного вектора Шепли:ℎ (0 ) =∞( − )!( − 1)! ∑︁[ (* ( ), , )−!0⊂∑︀ℎ (* ( ))(1 − ( )) =− (* ( ), , ∖{})] =1* ( ( ), , )∑︀∫︁ ∞**=1 ℎ ( ( ))(1 − ( )).=ℎ ( ( )) (* ( ), , )0∫︁*¯Как нетрудно показать, компоненты вектора Шепли ℎ(( )) в подыгреΓ¯ (* ( ), ) вычисляются по формуле:∑︀∫︁ ∞*1**=1 ℎ ( ( ))ℎ ( ( )) =ℎ ( ( ))(1 − ( )).1 − () (* ( ), , )∑︀**=1 ℎ ( ( ), )*Определим ПРД ¯ ( ), ∈ [0 , ∞) как ¯ ( ) = ℎ ( ( )).
(* ( ), , )Тогда∫︁ ℎ (0 ) =¯ ( )(1 − ( )) + (1 − ())ℎ (* ()).0Таким образом, вектор Шепли ℎ (0 ), вычисленный для характеристической функции ¯ (0 , 0 , ), является динамически устойчивым.Глава 6.Устойчивая кооперация в играх со случайным моментом окончания221Итак, регуляризованный вектор Шепли может быть построен как согласноприведенному ранее алгоритму (т.е. используя непосредственно ℎ (0 )), таки вычислен для новой характеристической функции ¯ (0 , 0 , ).Аналог Теоремы 6.5.3 справедлив и для всех принципов оптимальности,основанных на вычислении математического ожидания вклада игрока в коалицию, т.е.
величины [ (0 , 0 , ) − (0 , 0 , ∖ {})].6.5.1Пример регуляризации вектора ШеплиРассмотрим пример дифференциальной игры Γ (0 , 0 , ), в которой случайная величина распределена по экспоненциальному закону (1.4.24) с параметром = 1, т.е. (1 − ()) = − (полагаем 0 = 0). Уравнения динамикизададим согласно [101] следующей системой обыкновенных дифференциальный уравнений первого порядка:(6.5.29)˙ = + + , = (, )′ ; = {1 ; 2 },|| ≤ 1;(0) = 0 = (0 , 0 )′ ; = {1 ; 2 },|| ≤ 1; = {1 ; 2 };(6.5.30)|| ≤ 1."Мгновенный"выигрыш в момент , ∈ [0, ∞) определим какℎ (( )) = · ( ) + · ( ) + ,2 + 2 + 2 ̸= 0, , , ≥ 0; = 1, 2, 3.(6.5.31)Глава 6.222Устойчивая кооперация в играх со случайным моментом окончанияТогда ожидаемый интегральный выигрыш игрока вычисляется по формуле(см.
(2.2.7)):∫︁∞ (0 , , , ) = (1 − ())ℎ (, , , ) =0∫︁∞=− ℎ (, , , ), = 1, 2, 3. (6.5.32)0Будем решать задачу в классе программных управлений. Обозначим через* (), * (), * (), ∈ [0 ; ∞) оптимальные управления, * () — кооперативнуютраекторию.Определим характеристическую функцию (0 , ), ⊆ классическимобразом (через значение вспомогательной антагонистической игры) - см. построение (·, ) в (5.3.68).Значение антагонистической игры Val , ∖ вычисляется по формуле:Val , ∖ =⎧⎪⎪⎪maxmin (1 (.) + 2 (.)) ,⎪⎪, ⎪⎪⎪⎪⎪⎪maxmin (1 (.) + 3 (.)) ,⎪⎪, ⎪⎪⎪⎪⎪⎨maxmin (2 (.) + 3 (.)) ,,⎪⎪⎪maxmin 1 (.),⎪⎪ ,⎪⎪⎪⎪⎪⎪maxmin 2 (.),⎪⎪ ,⎪⎪⎪⎪⎪⎩maxmin 3 (.),, = {1, 2}, ∖ = {3}; = {1, 3}, ∖ = {2}; = {2, 3}, ∖ = {1}; = {1}, ∖ = {2, 3}; = {2}, ∖ = {1, 3}; = {3}, ∖ = {1, 2}.(6.5.33)Кооперативную дифференциальную игру со случайной продолжительностьюс характеристической функцией (6.5.33) будем обозначать Γ (0 ).
Введем следующие обозначения:123 = 1 + 2 + 3 ; = + ;123 = 1 + 2 + 3 ; = + ;123 = 1 + 2 + 3 ; = + .Глава 6.223Устойчивая кооперация в играх со случайным моментом окончанияИмеем∞∫︁− (123 · () + 123 · () + 123 ), (0 , ) = max,,(6.5.34)0Применим принцип максимума [119] для нахождения оптимальных программных управлений и соответствующей им траектории. Функционал, подлежащиймаксимизации, определен по формуле (6.5.34).
Гамильтониан для (6.5.34) имеет вид = 1 (1 + 1 + 1 ) + 2 (2 + 2 + 2 ) + (123 · (.) + 123 · (.) + 123 ). (6.5.35)Функции 1 , 2 удовлетворяют системе дифференциальных уравнений:1=−= −123 ;2=−= −123(6.5.36)с краевыми условиями lim 1 ( ) = 0; lim 2 ( ) = 0. →∞ →∞Оптимальные управления получаются из условия максимизации . Поскольку управления входят в функцию Гамильтона линейно, максимум будет достигаться в крайних точках. Кроме того, принимая во внимания ограничения для допустимых управлений (6.5.30), мы имеем2 =√︁1−21 ;√︁2 = 1 − 12 ;2 =√︁(6.5.37)1 − 12 .Подставляя выражения (6.5.37) в выражение (6.5.35) для Гамильтониана и взяв частные производные, получаем:√︃*1 =122;12 + 2*2 =√︁√︃1 − *1 2 =22.12 + 22(6.5.38)Аналогичным образом можно получить оставшиеся оптимальные управления:1*=1*=√︁12;21 +222*=2*=√︁1−1* 2=√︁2221 +22.Глава 6.224Устойчивая кооперация в играх со случайным моментом окончанияРешая уравнения (6.5.36) и принимая во внимание краевые условия, получимвыражения для 1 ( ), 2 ( ):1 () = − 123 ;2 ( ) = − 123 .(6.5.39)Из формул (6.5.38) и (6.5.39) получаем оптимальные управления:*1 = 1* = 1* = √︀1232123 + 2123;123*2 = 2* = 2* = √︀ 2.123 + 2123(6.5.40)Полученные управления являются константами.
Следовательно, максимум подынтегральной функции не зависит ни от t, ни от динамики системы.Решение системы (6.5.29) имеет вид() = (1 + 1 + 1 ) · + 0 ;() = (2 + 2 + 2 ) · + 0 ,а следовательно, кооперативная траектория вычисляется по следующей формуле:3123* () = √︀ 2· + 0 ;123 + 21233123 * () = √︀ 2· + 0 .123 + 2123(6.5.41)Теперь мы можем вычислить значение функционала (6.5.34) вдоль кооперативной траектории:√︁ (0 , ) = 3 2123 + 2123 + 123 · 0 + 123 · 0 + 123 =3√︁∑︁ℎ (0 ). (6.5.42)= 3 2123 + 2123 +=1Применяя принцип максимума для (6.5.33) и учитывая, что минимизирующиеуправления равны максимизирующим управлениям, взятым с отрицательнымзнаком, получаем аналитическое выражение для характеристической функции:√︁ (0 , {, }) = 2 + 2 + ℎ (0 ) + ℎ (0 ),√︁ (0 , {}) = − 2 + 2 + ℎ (0 ),, = 1, 2, 3; = 1, 2, 3.