Диссертация (1145356), страница 11
Текст из файла (страница 11)
Если момент окончания игры является случайной величиной, определенной на бесконечном полуинтервале [0 , ∞). В этом случае к интегральному выигрышу добавляется постоянный член ˜∫︀∞0−∫︀ 0также может быть опущен без изменения результата.(−0 ) , которыйГлава 2.2.2.471Дифференциальные игры со случайным моментом окончанияПример. Об упрощении выигрыша в линейно-квадратичныхдифференциальных играхРассмотрим дифференциальную игру Γ(0 , 0 , ) управления силой бренда,описанную в § 1.5.3 (см.
также [240]).Пусть динамика изменения силы бренда описывается линейными ДУ (1.5.37)˙ = + ,где = − diag(1 , . . . , ) ≥ 0 и = diag(1 , . . . , ) > 0.Интегральный выигрыш -го игрока имеет вид (1.5.38)∫︁ (0 , , ) =[︃(︃−(−0 )−122 )︃=10где выражение ( −∑︁∑︀=1 )]︃1 − 2 ,2описывает объем продаж товаров -го бренда,– затраты на рекламную компанию соответствующей фирмы и > 0 –ставка дисконтирования.В кооперативном случае совокупный выигрыш имеет следующий вид:∫︁(0 , , ) =−(−0 )[︂]︂1 ′− + q − ,2′′(2.2.28)0где = 1[×] , q = · 1[×1] и = diag(1 , .
. . , ).Используя преобразование = +· 1[×1]2(2.2.29)с соответствующе выбранной ортогональной матрицей , [6], функция выигрыша (2.2.28) может быть переписана как сумма квадратичной формы ипостоянного слагаемого:∫︁(0 , , ) =0−(−0 )[︂]︂21 ′.−(1 ) − +242Глава 2.72Дифференциальные игры со случайным моментом окончанияРассмотрим конкретный пример для иллюстрации описанной процедуры.Пусть в игре участвуют три игрока ( = 3). Как описано выше, используемпреобразование (2.2.29). Матрица преобразования может быть выбрана как(︁)︁1 2 3 , где – вектор-столбцы, которые выбираются так,[︁]︁′чтобы 1 имел вид · 1 1 1 для некоторой постоянной ∈ R, а 2 , =3 были линейно независимыми векторами, такими, что суммы их элементовравны 0.
Отметим, что в данном случае мы не требуем, чтобы столбцы формировали ортонормальную систему.Выберем следующим образом:⎛1 2 0⎜⎜ = ⎜ 1 −1 1⎝1 −1 −1⎞⎟⎟⎟,⎠Преобразование ′ дает:⎛⎞9 0 0⎜⎟⎜⎟′ = ⎜ 0 0 0 ⎟ ,⎝⎠0 0 0и результирующее дифференциальное уравнение записывается как˜˜ + ˜ + ,˙ = где⎛⎞2 (1 + 2 + 3 ) −2 (2 − 21 + 3 ) 2 (2 − 3 )⎜⎟1⎜⎟˜ = ⎜ − (2 − 21 + 3 ) (41 + 2 + 3 ) − (2 − 3 ) ⎟ ,6⎝⎠3 (2 − 3 )−3 (2 − 3 )3 (2 + 3 )⎛⎞⎛⎞21 22 23−2(2 + 3 + 1 )⎜⎟⎜⎟1⎜ ⎜⎟⎟˜˜ = ⎜ 21 −2 −3 ⎟ , =⎜ 2 − 21 + 3 ⎟ .6⎝36 ⎝⎠⎠0 32 −333(3 − 2 )Глава 2.Дифференциальные игры со случайным моментом окончания73Если все коэффициенты равны некоторой константе ¯, матрица ˜ становится диагональной:⎞⎛¯ 0 0⎟⎜⎟⎜˜=⎜0 ¯ 0 ⎟,⎠⎝0 0 ¯т.е.
дифференциальные уравнения преобразованной системы не зависят другот друга. Поскольку преобразованное выражение для интегрального выигрыша зависит только от 1 , мы можем рассматривать только дифференциальноеуравнение для 1 , пренебрегая остальными. Тем самым, задача существенноупрощается.2.32.3.1Кооперативный вариант игры Γ (0, 0, )Уравнение Гамильтона-Якоби-БеллманаРассмотрим кооперативную форму игры Γ (0 , 0 , ). Будем рассматриватьзадачу со смешанными выигрышами игроков, т.е. под выигрышем игрока будем понимать функционал (2.2.22).Перед началом игры игроки договариваются об использовании ими допустимых управлений, максимизирующих совокупный ожидаемый выигрыш игроков:∑︁=1,..., (0 , 0 , , 1 , .
. . , ) =∑︁ ∫︁=1,..., [︂(1 − ( ))ℎ (( ), 1 , . . . , )+0]︂+ ( ) (( )) . (2.3.30)Управления {*1 , . . . , * }, доставляющие максимум (2.3.30), будем называтьоптимальными, а траекторию * (), соответствующую оптимальным управлениям, — кооперативной. Дальнейшее изложение предполагает, что кооперативная траектория существует и является единственной. Кроме того, положимГлава 2.74Дифференциальные игры со случайным моментом окончаниядля простоты, что ∈ R1 .Очевидно, что при непрерывности функций ℎ и в (2.3.30) знак суммирования можно перенести в подынтегральную функцию:∑︁∫︁ [︂(1 − ( )) (0 , 0 , , 1 , .
. . , ) =0=1,...,∑︁ℎ (( ), 1 , . . . , )+=1,...,]︂ (( )) .∑︁+ ( )=1,...,Обозначим ℎ(, , ) =рыш, и (( )) =∑︀ℎ (( ), 1 , . . . , ) – совокупный мгновенный выиг-=1∑︀ (( )) – суммарный терминальный выигрыш.=1Если решение задачи ищется в классе позиционных управлений, то длянахождения оптимальных управлений будем использовать уравнение Гамильтона-Якоби-Беллмана.Выведем его для задачи со случайной продолжительностью. Рассмотримследующую задачу максимизации:11 − () [︂∫︁]︂(1 − ())ℎ(, ) + ()(()) ,(2.3.31)˙ = (, ),() = .Пусть (, ) — функция Беллмана для данной оптимизационной задачи.Кроме того, рассмотрим другую задачу максимизации, которая отличаетсяот сформулированной выше только отсутствием множителя1перед1 − ()интегральным функционалом:∫︁ [︂]︂(1 − ())ℎ(, ) + ()() ,˙ = (, ), () = .¯ (, ) функцию Беллмана для этой задачи.Обозначим как (2.3.32)Глава 2.75Дифференциальные игры со случайным моментом окончанияОчевидно, что справедливо следующее равенство:¯ (, ) = (, ) · (1 − ()).(2.3.33)¯ по ее аргументам вычисляются поЧастные производные от функции следующим формулам:¯= − () + (1 − ());¯= (1 − ()).(2.3.34)(2.3.35)Для задачи динамического программирования (2.3.32) для функции Беллмана¯ имеем стандартное уравнение Гамильтона-Якоби-Беллмана (1.3.16), сформулированное в Теореме 1.3.1:(︂)︂¯¯+ max (1 − ())ℎ(, ) + ()() +(, ) = 0.(2.3.36)Используя (2.3.33), (2.3.34), (2.3.35), из уравнения (2.3.36) получаем уравнениеГамильтона - Якоби - Беллмана для задачи (2.3.31) со случайным моментомокончания игры:(︂)︂ () () =+ max ℎ(, ) +() +(, ) .1 − ()1 − ()Таким образом, справедлива следующая теорема.Теорема 2.3.1.
Пусть существует непрерывно дифференцируемая по своимаргументам функция (, ()), удовлетворяющая уравнению(︂)︂ () () =+ max ℎ(, ) +() +(, )1 − ()1 − ()(2.3.37)с краевым условием lim (, ) = 0, и существует допустимое управление → (, ), доставляющее максимум выражению(︂)︂ ()ℎ(, ) +() +(, ) ,1 − ()*то управление * (, ) является оптимальным.Глава 2.76Дифференциальные игры со случайным моментом окончанияСледствие 2.3.1. Согласно определению функции интенсивности отказов() (1.4.22), выведенное уравнение Гамильтона-Якоби-Беллмана (2.3.37) может быть переписано в следующем виде:(︂)︂ (, ) (, )+ max ℎ(, ) + ()() +(, ) .() (, ) =(2.3.38)Ниже приведем ряд следствий, описывающих частные случаи задачи (2.3.31).Следствие 2.3.2.
Пусть терминальная составляющая выигрыша ≡ 0 ,т.е. игра рассматривается только с интегральными выигрышами игроков.Тогда уравнение (2.3.37) приобретает вид(︂)︂ (, ) (, )() (, ) =+ max ℎ(, ) +(, ) .(2.3.39)Следствие 2.3.3. Пусть с.в. имеет экспоненциальное распределение(1.4.24). Тогда уравнение (2.3.37) записывается как(︂)︂ (, ) (, ) (, ) =+ max ℎ(, ) +(, ) .(2.3.40)Следствие 2.3.4. Рассмотрим детерминированную игру Γ(0 , 0 , ).
Тогдаиз (2.3.39) следует(︂)︂ (, ) (, )+ max ℎ(, ) +(, ) .0=(2.3.41)Доказательство Следствия 2.3.4 непосредственно следует из Замечания 1.4.1и уравнения (2.3.39).Таким образом, полученное уравнение (2.3.39) является обобщением уравнения Гамильтона-Якоби-Беллмана для дифференциальных игр с бесконечной продолжительностью (детерминированная задача), а также игр с постоянными дисконтированными мгновенными выигрышами.Глава 2.2.3.277Дифференциальные игры со случайным моментом окончанияУравнение Гамильтона-Якоби-Беллмана. Другой способ выводаПриведем другой способ доказательства Теоремы 2.3.1, предложенный в работе [153]. Данный способ не требует предварительного преобразования интегрального выигрыша к более простому виду.Как было показано выше в § 1.4, условная функция распределения (), ∈[, ] момента окончания игры для семейства подыгр Γ(* (), , ), начинающихся в момент , определяется по следующей формуле: () = () − ().1 − (Аналогичным образом получаем выражение для функции распределения+Δ (), ∈ [ + Δ, ] в подыгре, начинающейся в момент + Δ:+Δ () = () − ( + Δ) () − ( + Δ)=.1 − ( + Δ)1 − ( + Δ)(2.3.42)Если случайная величина имеет плотность распределения (), то выражение для соответствующих плотностей в подыграх следующее: (),1 − () ()=,1 − ( + Δ) =+Δпри ∈ [, ];(2.3.43)при ∈ [ + Δ, ].(2.3.44)Отметим, что =1 − ( + Δ)+Δ .1 − ()(2.3.45)Обозначим сумму мгновенных выигрышей игроков в момент какℎ((), ()) =∑︀ℎ ((), ()).
Предположим, что случайная величина яв-=1ляется абсолютно непрерывной, т.е. имеет плотность () = ′ (), ∈ [0 , ].Будем искать решение для семейства задач следующего вида:∫︁max∫︁ ()ℎ(( ), ( )) ,(2.3.46)Глава 2.78Дифференциальные игры со случайным моментом окончаниягде () вычисляется согласно уравнению движения (1.1.1), () = . Оптимизационную задачу, состоящую в нахождении максимума суммы ожидаемыхвыигрышей (2.3.30) при условии (1.1.1), (0 ) = 0 , в игре Γ (0 , 0 , ) будемназывать задачей динамического программирования (0 , 0 , ).
Семействооптимизационных задач (2.3.46), (1.1.1), () = обозначим как (, , ).Пусть (, ) — функция Беллмана для задачи (, , ) (как результатоптимизации):∫︁ (, ) = max∫︁ ()ℎ(( ), ( )).(2.3.47)Тогда максимуму функционала (2.3.30) в игре Γ (0 , 0 , ) будет соответствовать значение функции Беллмана при = 0 и = 0 , т.е. (0 , 0 , , ) = (0 , 0 ). Соответственно, для подыгр Γ (* (), , ) имеем (* (), , , ) = (* (), ),где * () определяется как оптимальная траектория в задаче (0 , 0 , ).Для подыгры, начинающейся в момент + Δ, функция Беллмана имеетвид:∫︁ (, + Δ) = max∫︁+Δ ()+Δℎ(( ), ( )).(2.3.48)+ΔИспользуя (2.3.45), получаем: (, ) =(︂∫︁= max(2.3.49)+Δ∫︁∫︁∫︁+Δ ()ℎ(( ), ( )) + ()ℎ(( ), ( )) ++Δ)︂∫︁∫︁ 1 − ( + Δ) ++Δℎ(( ), ( )) =1 − ()+Δ+Δ(︂∫︁ +Δ∫︁ ℎ(( ), ( )) += max ())︂∫︁1 − ( + Δ) +Δ1 − ( + Δ)+ℎ(( ), ( )) + (( + Δ), + Δ) .1 − ()1 − ()Глава 2.79Дифференциальные игры со случайным моментом окончания1 − ( + Δ) () − ( + Δ)как 1+.
Разделив (2.3.49)1 − ()1 − ()на Δ и устремив Δ к нулю, получим уравнение:(︂0 = max ℎ((), ()) + (, )+)︂1 () − ( + Δ)+ lim (( + Δ), + Δ) . (2.3.50)Δ−>0 Δ1 − ()Запишем выражениеОкончательно,(︂)︂ ()0 = max ℎ((), ()) + (, )|(1.1.1) − ((), ) , (2.3.51)1 − ()где (, ) (, ) (, )|(1.1.1) =+ (, ).(2.3.52)В стандартном виде уравнение (2.3.51) имеет вид:{︂}︂ () (, ) (, ) (, ) =+ max ℎ((), ()) + (, ) .1 − ()()(2.3.53)2.3.3Пример игры Γ (0 , 0 , ) (программные стратегии)Рассмотрим теоретико-игровую модель регулирования вредных выбросов, описанную в § 2.2.1. Как показано в § 2.2.1, ожидаемый выигрыш игрока в игреΓ (0 , 0 , ) со случайной продолжительностью имеет вид∫︁ ∞ ((), , , 1 , .