Диссертация (1145356), страница 10
Текст из файла (страница 10)
. . , ) =ℎ (( ), ( ))−(−0 )(2.2.11).0Очевидно, что из (2.2.8) для семейства подыгр Γ ((), , ), в которыеигроки попадают при развитии игры вдоль некоторой траектории () в момент времени ∈ [0 , ), справедливы следующие утверждения относительновида функций выигрыша в этих подыграх.В общем случае для подыгры Γ ((), , ) имеем следующий вид выигрыша для игрока : (, , , 1 , . . . , ) = ∫︀ 0( )∫︁−∫︀ ()ℎ (( ), ( )) 0 =∫︁ ∫︀ =ℎ (( ), ( ))− () . (2.2.12)Для экспоненциального распределения случайной величины имеем (, , 1 , .
. . , ) = (−0 )∫︁∞ℎ (( ), ( ))−( −0 ) .Для распределения Вейбулла имеем (, , 1 , . . . , ) = (−0 )∫︁∞ℎ (( ), ( ))−(−0 ).(2.2.13)Очевидно, что при значении параметра = 1 результаты, полученные дляраспределения Вейбулла, тождественно совпадают с результатами для экспоненциального распределения.Глава 2.2.2.164Дифференциальные игры со случайным моментом окончанияПример. Упрощение интегрального выигрыша в игреΓ (0 , 0 , )В качестве примера рассмотрим теоретико-игровую модель управления вредными выбросами [179] (см. Раздел 1.5.1). В игре принимают участие игроков,каждый из которых имеет промышленное производство на своей территории.Предполагается, что объём производства прямо пропорционален вредным выбросам . Таким образом, стратегией игрока является выбор объёма вредныхвыбросов ∈ [0, ]. Полагаем, что решение ищется в классе программныхстратегий ().Доход игрока в момент времени определяется по формуле: ( ()) = ()( − 1/2 ()).Динамика изменения общего уровня загрязнения задаётся уравнением˙ =∑︁ (),(2.2.14)(0 ) = 0 .=1Каждый игрок несет расходы, связанные с устранением загрязнений.
Мгновенный выигрыш (полезность) игрока равен ( ()) − (), > 0.Без ограничения общности будем предполагать, что момент начала игры0 = 0. В отличие от модели [179] будем полагать, что игра имеет случайныймомент окончания , где — случайная величина с функцией распределения2 () = 1−− , ≥ 0, что соответствует распределению Вейбулла с параметроммасштаба = 1 и параметром формы = 2. Значению = 2 соответствуетвозрастание функции интенсивности отказов () = ()1− () ,что можно интер-претировать как износ оборудования на производстве.
Выбор закона Вейбулладля задач такого типа обоснован в работе [182].Ожидаемый выигрыш игрока для рассматриваемой модели имеет вид∫︁∞ ∫︁ (0, 0 , 1 , . . . , ) =002( ( ( )) − ( )) 2− ,(2.2.15)Глава 2.65Дифференциальные игры со случайным моментом окончаниякоторый может быть преобразован к виду (2.2.7) при условии, что выполняются условия Теоремы 2.2.2, в частности сходится интеграл⃒⃒⃒∫︁∞ ⃒∫︁ ⃒⃒⃒ ( ( ( )) − ( )) ⃒ 2−2 .⃒⃒⃒⃒(2.2.16)00Для проверки существования интеграла (2.2.16) используем следующие оценки: ( ) ≤ 0 +22,∑︀=1 = 0 + , a также ( ( )) ≤где =∑︀=1 .Оценим интеграл (2.2.16)⃒⃒⃒∫︁∞ ⃒∫︁ ⃒⃒⃒ ( ( ( )) − ( )) ⃒ 2−2 ≤⃒⃒⃒⃒00∫︁∞ ∫︁ ≤0 0∞∫︁ ∫︁ ≤02|( ( ( )) − ( ))| 2− ≤2(|( ( ( ))| + | ( ))|) 2− ≤0⎞⎛∫︁∞ ∫︁ ∫︁ 2≤ ⎝ ( ( )) + ( ) ⎠ 2− .000Окончательно получим следующую оценку:⃒⃒⃒(︂)︂)︂∫︁∞ ⃒∫︁ ∫︁∞ (︂ 22⃒⃒2−2⃒ ( ( ( )) − ( )) ⃒ 2− ≤++2.0⃒⃒22⃒⃒000Последний интеграл является абсолютно сходящимся, а, следовательно,[52], интеграл (2.2.16) сходится.
Таким образом, установлено, что при любомвыборе игроками своих управлений, выражение (2.2.15) определяет математическое ожидание выигрыша игрока .Проверим выполнение первого условия Теоремы 2.2.2:∫︁lim (1 − ( ))−2ℎ () = lim →∞ →∞0∫︁( ( ( )) − ( )).0Глава 2.Дифференциальные игры со случайным моментом окончания66Применяя полученные ранее оценки, получим:⃒⃒⎛⎞⃒⃒∫︁ 2∫︁⃒ 2 ∫︁⃒⃒⃒ −⎟−2 ⎜( ( ( )) − ( )) ⃒ ≤ + (0 + ) ⎠ =⃒⎝⃒⃒2⃒⃒000(︃)︃)︃(︃222 + 0 +.= −22Заметим, что(︃2lim −2 →∞2(︃ + 20 +2)︃)︃= 0,следовательно, верноlim →∞−2∫︁( ( ( )) − ( )) = 0.0Таким образом, первое условие Теоремы 2.2.2 выполняется и выигрыш(2.2.15) может быть записан в виде∫︁∞2 (0, 0 , 1 , . .
. , ) = ( ( ()) − ()) − .(2.2.17)02.2.2Смешанный вид выигрыша в игре Γ (0 , 0 , )Рассмотрим игру Γ (0 , 0 , ), в которой кроме интегрального выигрыша (2.1.1)игрок , = 1, . . . , также получает терминальный выигрыш (( )) в момент окончания игры . Будем полагать, что (( )) — непрерывные в функции. Тогда ожидаемый терминальный выигрыш в игре со случайным моментом окончания вычисляется по формуле:∫︁ (()) (), = 1, .
. . , .(2.2.18)0Следовательно, общий ожидаемый выигрыш игрока в игре Γ (0 , 0 , )Глава 2.67Дифференциальные игры со случайным моментом окончанияопределяется следующей формулой:⎡⎤∫︁ ∫︁ ⎣ ℎ (( ), 1 , . . . , ) + (())⎦ (). (0 , 0 , , ) =0(2.2.19)0Аналогично 2.1.2, ожидаемый выигрыш игрока в подыгре Γ ((), , )вычисляется по формуле⎡⎤∫︁ ∫︁ (, , , ) = ⎣ ℎ (( ), 1 , . . . , ) + (())⎦ (),(2.2.20)где (), ≥ — функция распределения момента окончания игры в подыгреΓ ((), , ).Таким образом, при предположении о существовании плотности и учитывая равенства (2.2.20) и (2.1.4), получаем ожидаемый выигрыш игрока , =1, .
. . , , в подыгре Γ ((), , ):⎡⎤∫︁ ∫︁ 1⎣ ℎ (( ), 1 , . . . , ) + (())⎦ (). (, , , ) =1 − ()(2.2.21)Используя результаты Теоремы 2.2.2 о перестановке интегралов в (2.1.1),получаем:∫︁[︂ (0 , 0 , , ) =]︂(1 − ( ))ℎ (( ), ) + ( ) (( )) .0Аналогичные преобразования справедливы для ожидаемого выигрыша (2.1.2)игрока , = 1, . . . , , в подыгре Γ ((), , ).Таким образом, справедливо следующее утверждение.Утверждение 2.2.1. Пусть выполняются условия Теоремы 2.2.2. Тогда суммарный ожидаемый выигрыш (2.2.19) игрока в игре Γ (0 , 0 , ) можетГлава 2.68Дифференциальные игры со случайным моментом окончаниябыть представлен в виде∫︁[︂ (0 , 0 , ) =]︂(1 − ( ))ℎ (( ), ) + ( ) (( )) .(2.2.22)02.2.3Об упрощении функции выигрыша в линейно-квадратичныхдифференциальных играхРассмотрим специальный класс игр с линейной динамикой и линейно-квадратичными функциями выигрыша.
Пусть уравнения динамики имеют вид(2.2.23)˙ = + ,где и – матрицы соответствующих размерностей. Интегральный выигрыш-го игрока имеет вид∫︁∞ (0 , 0 , ) =−∫︀ 0(−0 )[︂]︂1 ′1 ′′′ + (q ) + + (r ) , (2.2.24)220где и – положительно полуопределенные симметричные матрицы, q иr – вектор-столбцы соответствующих размерностей. Кроме того, выражения1 ′ 12 + (r1 )′ полагаются строго выпуклыми относительно , а сумма поиндексу матриц дает отрицательно определенную симметричную матрицу=∑︀=1 .В кооперативном случае игроки стремятся максимизировать общий выигрыш, который принимает следующий вид:∫︁∞(0 , 0 , ) =−∫︀ 0(−0 )[︂]︂1 ′1 ′′′ + q + + r ,22(2.2.25)0где =∑︀=1 , =∑︀=1 , q =∑︀=1 q и r =∑︀=1 r .Используя аффинные преобразования специального вида, функционал (2.2.25)может быть упрощен.Глава 2.69Дифференциальные игры со случайным моментом окончанияТеорема 2.2.3.
Пусть и – симметричные матрицы, такие, что выполняются следующие условия:i. r ∈ im(),ii. q ∈ im().Тогда существуют аффинные преобразования = − , = − такие,что линейно-квадратичное выражение (, ) = ′ + q′ + 12 ′ + r′ в(2.2.25) преобразуется в1 ˜1 ˜˜ (, ) = ′ + ′ + ˜ ,22(2.2.26)˜ и˜ – диагональные матрицы и ˜ – постоянное слагаемое.где Доказательство. Рассмотрим преобразование = − , где – невырожденная симметричная матрица и – вектор-столбец и перепишем соответствующие слагаемые в :( − )′ ( − ) + r′ ( − ) = ′ ′ + (r′ − ′ ) +(︂)︂1 ′ − r′ .2Если условие (i.) выполняется, возможно выбрать так, чтобы выполнялось r′ − ′ = 0.
Таким образом, линейное слагаемое сокращается. Постоянная константа равна − 12 r′ . Далее, поскольку матрица симметричная, существует вещественное ортогональное преобразование , такое, что˜ = ′ есть диагональная матрица. Слагаемые, содержащие , могутбыть преобразованы таким же образом с использованием соответствующегоаффинного преобразования. Результирующее постоянное слагаемое имеет вид˜ = − 21 (r′ + q′ ).Замечание 2.2.2. Отметим, что использование аффинных преобразований требует множества допустимых управлений и начального условия 0 .
Уравнения динамики (2.2.23) преобразуются в˜˜ + ˜ + ,˙ = (2.2.27)Глава 2.70Дифференциальные игры со случайным моментом окончания˜ = −1 и ˜ = −1 ( + ). Если – невыгде ˜ = −1 , рожденная квадратная матрица, можно провести еще одну трансформацию = − −1 ( −1 + ), таким образом преобразуя (2.2.27) к стандартномувиду без постоянного слагаемого в правой части:˜ + .˜˙ = Более того, если матрица является вырожденной, появляется дополнительная свобода в выборе параметров соответствующего преобразования при соблюдении условия (ii). Эта свобода может быть использована для упрощениярезультирующего выражения как будет показано ниже в § 2.2.4.Замечание 2.2.3.
В то время как матрица должна быть невырожденнойдля обеспечения существования оптимального решения (см. § 1.2.1), матрица может быть вырожденной или даже нулевой. В последнем случае квадратичный член исчезает и остается только линейный.Замечание 2.2.4. Постоянное слагаемое, которое появляется в выражении(2.2.26) может быть опущено в следующих случаях:1. Если игра развивается на конечном интервале с предписанной продолжительностью. В этом случае слагаемое ˜ добавляет к интегральномувыигрышу константу ˜ ( − 0 ), которая не влияет на результат.2.