Диссертация (1145356), страница 15
Текст из файла (страница 15)
Зафиксируем 2 = 2, чтосоответствует также распределению Рэлея для отказов изношенных систем.Параметры формы в распределении Вейбулла в данном случае принимаютследующие значения: 1 = 1, 2 = 2.Функция распределения момента окончания игры будет иметь вид (см. Рис.3.1):2 () = 1 − −(+ ) .Выражение для сопряженной переменной имеет вид:)︂√ 1 (︂√(1 + 2 ) 4 1√√erf( +Λ() =) − 1 .22 (3.2.41)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации104Обозначим)︂√12 (︂√1√(1 + 2 ) ( 4 ++ )√erf( +) − 1̂︀ () = +22 и̂︀ = { | ̂︀ () < 0}.)︁√ 1 (︁√(1 +2 ) 4 1√Если ̂︀ (0) ≥ 0, т.е. ≥ −erf( 2 ) − 1 , то оптимальные объемы2 выбросы имеют вид)︂√ ( 1 ++2 ) (︂√√4(+)112√* () = +erf( +) − 1 .22 )︁√ 1 (︁√(1 +2 ) 4 1√erf( 2 ) − 1 , то:Если же < −2 * () =⎧⎪⎨ 0,если ∈ ̂︀ ;⎪⎩ ̂︀ (), иначе.Новое оборудование у обоих игроков(3.2.42)Пусть страны используют новое обору-дование.
Параметры формы в распределении Вейбулла в данном случае имеют вид: 1 = 2 = 12 . Тогда функция распределения момента окончания игрыимеет вид (см. Рис. 3.1):√ () = 1 − −2 .Используя формулы (3.2.30), (3.2.32), (3.2.33), оптимальные выбросы страни сопряженная переменная будут выражаться следующим образом:√√ −2√−2 (1 + 2 )(2 +)Λ() = −.22Для оптимальных объемов выбросов имеем следующее. Если ≤то * () = 0. Если >1 + 2, то22(3.2.43)1 + 2,22Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации⎧⎪⎪⎪⎨ 0,22 − 1 − 2;2(+)12√* () =⎪22 − −1 − 2(+)(2 + 1)12⎪⎪,0≤<.−⎩ 222(1 + 2 )105≥Изношенное оборудование у обоих игроков(3.2.44)Пусть оборудование стран изно-шено, т.е.
1 > 1 и 2 > 1. Зафиксируем следующие параметры распределенияВейбулла: 1 = 2 = 2.Функция распределения момента окончания игры в данном случае имеетвид (см. Рис. 3.1):2 () = 1 − −2 .Рис. 3.1: Графики функций распределения () для различных параметров распределенияВейбулла 1 и 2 .Выражение для сопряженной переменной:√√(1 + 2 ) 2(erf( 2) − 1)√Λ() =.4 Обозначим√√2(1 + 2 ) 22 (erf( 2) − 1)√̃︀ () = +4 (3.2.45)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации106и̃︀ = { | ̃︀ () < 0}.√(1 + 2 ) 2√, то оптимальные объемы выбросовЕсли ̃︀ () ≥ 0, т.е. ≥4 имеют вид√√22(+)2(erf(2) − 1)12√* () = +.4 √(1 + 2 ) 2√, то:Если же <4 ⎧⎪⎨ 0,если ∈ ̃︀ ;* () =(3.2.46)⎪⎩ ̃︀ (), иначе.Для иллюстрации полученных результатов рассмотрим конкретный случай, в котором были использованы следующие значения параметров: 1 = 5,2 = 7, = 1 + 2 = 4, = 2, 0 = 1.Значения управлений для первого и второго игрока для всех рассмотренных случаев приведены на Рис.
3.2. Можно заметить, что во всех случаяхуправления принадлежат области определения. Значения уровня загрязнениядля различных сценариев приведены на Рис. 3.3.Аналогичным образом может быть решена задача для случая > 2 лиц.3.2.2Пример игры игры Γ (0 , 0 , ) (позиционные стратегии)Рассмотрим другой пример игры Γ (0 , 0 ). В игре участвуют = 2 игрока.В данном примере игры управления ищутся в классе позиционных стратегий.В игре разработки невозобновляемого ресурса участвуют два игрока.
Модель основана на работах [317, 194]. Пусть функция полезности для игроковзадана следующим образом:ℎ (x, ()) = [ ()()] ,Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации107Рис. 3.2: Графики управлений первого и второго игроков для различных параметров распределения Вейбулла 1 и 2 .Рис.
3.3: Графики уровня загрязнения для различных параметров распределения Вейбулла1 и 2 .12Динамика игры имеет вид:где 0 < < .˙ = −1 − 2 ,() = .Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации108Функция выигрыша имеет вид (3.2.20). Рассмотрим некооперативный вариант игры. Для того, чтобы найти равновесие по Нэшу в следующем виде,введем (, ) = ()2 + (),где (), () — функции времени , такие чтоlim () = 0,lim () = 0.→+∞→+∞(3.2.47)Из (2.3.39) имеем: (, )= −1⇐⇒ 2 ()2−1 = −1,тогда:1* (, ) = (2 ()) −1 .(3.2.48)Исходя из симметрии игроков, положим 1 () = 2 () = ().
Подставляя (, ) в уравнение (2.3.39), получаем˙ = (2 − 1) (2()) −1 +() ()(),1 − ()(3.2.49)при выполнении (3.2.47).После вычислений получаем решение (3.2.49):(︂)︂1− 2 − 1 ∫︀ 1 + 2 −1(1 − ()) 1− 1− 0() =.1 − ()Из краевых условий (3.2.47), получаем значение : = −2−12 − 11−∫︁∞1(1 − ()) 1− ,0следовательно,[︂2 (, ) =−1)︁]︂1−11 − 2 (︁∫︀ ∞(1 − ()) 1− 21−.1 − ()(3.2.50)Глава 3.Дифференциальные игры со случайным моментом окончания.
Модификации109Подставляя полученное решение в (3.2.48), окончательно имеем:* (, ) =1−]︁.· [︁∫︀111 − 2 2 ∞ (1 − ()) 1−−1 (1 − ())(3.2.51)Таким образом, равновесие по Нэшу было найдено при предположении о симметрии игроков.3.3Дифференциальные игры со случайным моментомокончания и асимметричными игроками.Игра Γ, (0, 0, )Рассмотрим следующую модификацию игры Γ (0 , 0 , ). Пусть в игре принимают участие два игрока ( = 2), причем временной горизонт , = 1, 2,будет различным для игроков (см.
§ 3.2). Игра прекращается в момент времени = min{1 , 2 }, однако в отличие от предыдущей постановки задачи,асимметрия заключается в том, что оставшийся игрок также получает терминальный выигрыш Φ (( )).Независимые случайные величины 1 и 2 будем предполагать абсолютнонепрерывными, а соответствующие функции и плотности распределения вероятностей обозначим как 1 (·), 2 (·) и 1 (·), 2 (·). Пусть () определенана соответствующем отрезке [0, ].
Не ограничивая общности, будем полагать 1 ≥ 2 . Пусть 1 = . Доопределим функцию распределения 2 () наотрезке [2 , ] следующим образом:1 () < 1 ∀ < ,1 ( ) = 1;2 () < 1 ∀ < 2 ,2 () = 1 ∀ ∈ [2 , ].Подробная постановка задачи приведена в работе [66].Глава 3.3.3.1Дифференциальные игры со случайным моментом окончания.
Модификации110Упрощение функции выигрыша в игре Γ , (0 , 0 , )Заметим, что математическое ожидание выигрыша игрока в игреΓ , (0 , 0 , ) имеет вид: (0 , 0 , , 1 , 2 ) =⎡⎤∫︁∫︁⎢⎥= E ⎣ ℎ (, )I[ < ] + ℎ (, )I[ > ] + Φ (( ))I[ > ] ⎦ , (3.3.52)00где – момент выхода из игры игрока ; I[·] – индикаторная функция.Выигрыш игрока формируется следующим образом: интегральный выигрыш∫︀ℎ (, ) в случае, если игрок «выбыл» из игры (т.е. [ < ]),0или интегральный выигрыш∫︀ℎ (, ) и терминальный выигрыш Φ (( ))0в случае, если игрок «остался» в игре (т.е. [ > ]).Утверждение 3.3.1. Ожидаемый выигрыш (3.3.52) игрока в игреΓ , (0 , 0 , ) может быть представлен в следующем виде: (0 , 0 , , 1 , 2 ) =∫︁(︁)︁ℎ (, )(1 − ( )) + Φ (( )) ( )(1 − ( )) ,0(3.3.53)где () = 1 − (1 − 1 ())(1 − 2 ()).Доказательство.
Вид функции распределения () для случайной величины непосредственно следует из Утверждения 1.4.1. Доказательство Утверждения 3.3.1 непосредственно следует из Утверждения 2.2.22 о виде выигрыша в игре со случайным моментом окончания и смешанным выигрышем,Утверждения 3.2.1 о математическом ожидании выигрыша в игре с моментомокончания = min{ }.Глава 3.Дифференциальные игры со случайным моментом окончания.
Модификации111Ожидаемый выигрыш игрока в подыгре Γ , ((), , ) имеет вид:1 (, , , 1 , 2 ) =(1 − 1 ())(1 − 2 ())∫︁(ℎ (, )[1 − ( )]++Φ (( )) ( )(1 − ( )).3.3.2Уравнение Гамильтона-Якоби-Беллмана в игреΓ , (0 , 0 , )Рассмотрим кооперативный вариант игры Γ , (0 , 0 , ). Пусть * = (*1 , *2 )— профиль оптимальных стратегий. Для решения задачи в классе позиционных управлений может быть использовано уравнение типа Беллмана, представленное ниже.Теорема 3.3.1.
[66] Пусть существует непрерывно дифференцируемая посвоим аргументам функция (, ()), удовлетворяющая уравнению (, )+ (, ) [ () + ()] = (, )= max[ℎ1 (, 1 , 2 ) + Φ (()) () +(, 1 , 2 )].−(3.3.54)с краевым условием lim (, ) = 0 и существует допустимое управле →ние (, ), доставляющее максимум выражению в квадратных скобках в*(3.3.54), то управление * (, ) является оптимальным.Доказательство. Доказательство см. [66].Пример игры Γ , (0 , 0 , ) с логарифмической функцией полезностирассмотрен в работе [254].Глава 3.3.4Дифференциальные игры со случайным моментом окончания.
Модификации112Дифференциальные игры с составной функцией распределения случайного момента окончания3.4.1Описание игры Γ (0 , 0 )Рассмотрим случай, когда вероятностное распределение момента окончанияигры не может быть описано с помощью некоторого стандартного распределения. Эта ситуация имеет место, когда режим функционирования системыменяется со временем, причем каждый режим характеризуется своим распределением момента окончания игры. В этом случае можно либо использоватьсложные функциональные выражения для описания изменения характера поведения системы, либо использовать составные функции распределения, какописано ниже.
Будем полагать = ∞.Пусть 0 – начальное время, (), = 1, . . . , , – набор функций распределения, характеризующих различные режимы функционирования системы иудовлетворяющие, наряду со стандартными требованиями A1), B1), следующему условию:D1. Функции распределения () являются абсолютно непрерывными неубывающими функциями, такими что каждая Ф.Р. стремится к 1 асимптотически, т.е. () < 1 ∀ < ∞.Пусть также = { }, 0 = 0 < 1 < · · · < −1 < = ∞ – упорядоченнаяпоследовательность моментов времени, в которые происходит переключениемежду соответствующими Ф.Р.Составная Ф.Р.
() определяется следующим образом:⎧⎪⎪1 (), ∈ [0 , 1 ),⎪⎪⎨ () = ( )+1 () + ( ), ∈ [ , +1 ),⎪⎪⎪⎪⎩1 ≤ ≤ − 1,(3.4.55)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации113 (− ) − 1 (− ) − 1где ( ) =, and ( ) = 1 −. Здесь (− ) определя+1 ( ) − 1+1 ( ) − 1ется как правый предел () при = − , т.е.