Диссертация (1145356), страница 14
Текст из файла (страница 14)
В данном разделе предполагаем = ∞.Результаты для конечного временного интервала [0 ; ] могут быть полученыаналогичным образом.Будем предполагать, что случайная величина сформирована следующим образом. Пусть – случайная величина с известной функцией распределения (), = 1, , соответствующая моменту окончания конфликтно-управляемого процесса для игрока , = 1, . Будем предполагать, что { }=1– независимые случайные величины. В данном разделе предполагаем, что игра начинается в момент 0 и заканчивается в момент первой остановки игрыдля какого-либо из игроков, т.е.
= min{1 , 2 , . . . , }.(3.2.19)Будем обозначать такую игру как Γ (0 , 0 ). Очевидно, что игра Γ (0 , 0 )является модификацией игры со случайным моментом окончания Γ (0 , 0 , ),для которой может быть получен ряд специальных свойств, основанных на виде функции распределения случайной величины .Справедливы Утверждения 1.4.1, 1.4.2, 1.4.3 (см. § 1.4) относительно видафункции распределения, функции плотности и функции риска для случайнойвеличины .Утверждение 3.2.1.
В игре Γ (0 , 0 ) интегральный выигрыш игрока ,Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации97 = 1, . . . , имеет следующий вид:∫︁ ∞∏︁ (0 , 0 , ) =ℎ (( ), ( ))(1 − ( )) =0=1∫︁∞=ℎ (( ), ( ))−∫︀ 0(), (3.2.20)0где () =∑︀=1 ()(1.4.29) есть функция риска для случайной величины(3.2.19).Доказательство. Доказательство 3.2.1 непосредственно следует из представления интегрального функционала в виде (2.2.7), а также формул (1.4.27),(1.4.29) из Утверждений 1.4.1, 1.4.3.Следствие 3.2.1. Пусть { }=1 – независимые случайные величины, распределенные по экспоненциальному закону (1.4.24) с параметрами { }=1соответственно. Тогда в игре Γ (0 , 0 ) интегральный выигрыш игрока , = 1, .
. . , имеет следующий вид:∫︁ ∞∑︀ (0 , 0 , ) =ℎ (( ), ( ))−( −0 ) =1 .(3.2.21)0Доказательство. Доказательство 3.2.1 непосредственно следует из представления интегрального функционала в виде (3.2.20), а также формулы (1.4.29)и свойства экспоненциального распределения (1.4.24).Следствие 3.2.2. Пусть { }=1 – независимые случайные величины, распределенные по закону Вейбулла (1.4.25) с параметрами { }=1 , { }=1 соответственно. Тогда в игре Γ (0 , 0 ) интегральный выигрыш игрока , = 1, . . . , имеет следующий вид:∫︁ ∞∑︀ (0 , 0 , ) =ℎ (( ), ( ))− =1 ( −0 ) .(3.2.22)0Доказательство. Доказательство 3.2.2 непосредственно следует из представления интегрального функционала в виде (3.2.20), а также формулы (1.4.29)и свойства распределения Вейбулла (1.4.24).Глава 3.Дифференциальные игры со случайным моментом окончания.
Модификации98Очевидно, что из (2.2.8) для семейства подыгр Γ ((), ), в которыеигроки попадают при развитии игры вдоль некоторой траектории () в момент времени ∈ [0 , ∞), справедливы следующие утверждения относительно вида функций выигрыша в этих подыграх. В общем случае для подыгрыΓ ((), ) имеем следующий вид выигрыша для игрока :∫︁ ∞1 (, , 1 , . . .
, ) =(1 − ( ))ℎ (( ), 1 , . . . , ) =1 − () ∫︁ ∞∫︀ − ()=ℎ (( ), ( )), (3.2.23)для экспоненциального распределения случайных величин { } c параметрами{ } (, , ) = ∑︀=1 ∞∫︁ℎ (( ), ( ))−∑︀=1,для случайных величин { }, распределенных по закону Вейбулла с параметрами { }, { } , имеем (, , ) = ∑︀=1 (−0 )∫︁∞ℎ (( ), ( ))−∑︀=1 ( −0 ).3.2.1Пример игры игры Γ (0 , 0 , ) (программные стратегии)Рассмотрим пример дифференциальной игры Γ (0 , 0 ), а именно, дифференциальную игру управления вредными выбросами, основанную на моделях[179, 253] и описанную в §§ 1.5.1, 1.5.2 .
В игре участвуют игроков – стран,которые заключили договор об ограничении объема вредных выбросов. Динамика уровня загрязнения описывается уравнением (1.5.31), в котором мыполагаем () = 0 и (, ) =∑︀=1 .Функция мгновенного выигрыша игрока в момент времени определяетсяпо формуле (1.5.32), в которой мы полагаем)︂1 ( ) = () − () , ∈ [0 , ],2(︂(3.2.24)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации99где > 0 – константа, соответствующая максимальной стоимости продукции-го игрока, и () = , > 0.Игра начинается в момент 0 и заканчивается в момент первого отказа оборудования, осуществляющего фильтрацию вредных выбросов, у какой-либостраны, т.е.
момент окончания игры = min{1 , 2 , . . . , }, где – времяотказа оборудования у -той страны. Предполагаем, что – случайная величина с известной функцией распределения (), = 1, . . . , . Кроме того,полагаем, что { }=1 – независимые случайные величины.Для выполнения требований § 1.5.2 предположим, что выбросы игроков () ограничены, а именно, () ∈ [0, ]. Тогда функция доходов ( ) возрастает с ростом выбросов в то время как ее вторая производная убывает.Воспользуемся формулой (2.2.7). Тогда ожидаемый выигрыш представляетсобой следующий интегральный функционал:∫︁ (0 , 0 , 1 . .
. , ) =∞ (︀)︀(︀)︀ ( ) − () 1 − () .0Для подыгры Γ (, ()) с продолжительностью ( − ), начинающейсяиз состояния (), выигрыш игрока вычисляется при условии, что игра незакончилась до момента . Из (2.2.8) имеем1 ((), , 1 , .
. . , ) =1 − ()∫︁∞ (︀)︀(︀)︀ ( ) − () 1 − () . (3.2.25)Одним из распределений, которое может быть использовано для описанияслучайной величины , является распределение Вейбулла (1.4.26). Это распределение определяется параметрами (параметр масштаба) и (параметрформы), а функция интенсивности отказов () имеет вид (1.4.26): () = −1 , > 0; > 0; > 0.Согласно значениям параметра , оборудование страны может находитьсяв одной из трех фаз:Глава 3.Дифференциальные игры со случайным моментом окончания.
Модификации1001. < 1 соответствует фазе «приработки», когда отказ оборудования связан, главным образом, с недочетами, допущенными при проектировании(новое оборудование);2. = 1 соответствует фазе «нормальной эксплуатации», и отказ возможениз-за некоторых случайных внешних событий;3.
> 1 соответствует фазе износа (изношенное оборудование).Далее будем предполагать, что все случайные величины являются независимыми и имеют распределение Вейбулла с различными параметрами и , определяющими состояние очистительного оборудования страны на моментначала игры управления вредными выбросами.Тогда, согласно Следствию 3.2.2 и учитывая (2.2.13), выигрыш игрока вподыгре Γ (, ()) можно представить в виде∑︀ ((), , ) = =1(︁)︁ ∫︁∞ (︀ −0)︀ − ∑︀ ( ) − () =1(︁ −0)︁.
(3.2.26)Рассмотрим кооперативный вариант игры. Тогда ожидаемый суммарныйвыигрыш игроков в игре Γ (, ()) с продолжительностью ( − ), начинающейся из состояния () имеет вид:∑︁ ((), , 1 , . . . , ) ==1∑︀= =1(︃ (︁)︁ ∫︁∞ ∑︁ −0=1 ( ) −∑︁)︃ · () −∑︀=1)︁(︁ −0. (3.2.27)=1Далее рассмотрим игру для случая = 2 игроков.Для наглядности изложения материала, положим параметр масштаба одинаковым для всех игроков, т.е.
1 = 2 = . Кроме того, далее полагаем0 = 0.Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации101Тогда выражение суммарного выигрыша (3.2.27) в игре Γ (0 , 0 ) имеетвид:∞ (︀∫︁1 + 2 =)︀121 (1 ) + 2 (2 ) − (1 + 2 )() −( + ) .(3.2.28)0Для нахождения оптимальных объемов выбросов *1 , *2 будем использоватьпринцип максимума Понтрягина. Гамильтониан имеет вид:(, 1 , 2 , Λ) =)︂(︂12111 (1 − 1 ) + 2 (2 − 2 ) − (1 + 2 )() −( + ) + Λ () (1 + 2 ) .22(3.2.29)Соответственно, оптимальные объемов выбросов игроков* () = + Λ()(1+2) , = 1, 2,(3.2.30)где сопряженная переменная Λ() удовлетворяет дифференциальному уравнениюΛ̇ = (1 + 2 )−(1+2 )(3.2.31).Интегрируя (3.2.31), получаем:∫︁ Λ() = Λ0 + (1 + 2 )−(1+2) ,(3.2.32)0где начальное условие Λ0 находится из условия выполнения предельного условия трансверсальности:(3.2.33)lim Λ() = 0.→∞Рассмотрим оптимальные выбросы для возможных случаев кооперации двухстран, с оборудованием, находящемся в различном состоянии.Режим нормальной эксплуатации оборудованияДля игроков, использующихоборудование в режиме нормальной эксплуатации параметры формы в распределении Вейбулла: 1 = 2 = 1.
Тогда функция распределения моментаГлава 3.Дифференциальные игры со случайным моментом окончания. Модификации102окончания игры, (1.4.27), примет вид (см. Рис. 3.1): () = 1 − −2 .Подставляя значения параметров в выражение для оптимальных объемоввыбросов (3.2.30), получаем:* () = + Λ()2 .(3.2.34)Сопряженная переменная выражается формулой:∫︁ Λ() = Λ0 + (1 + 2 )−2 .(3.2.35)0Вычисляя интеграл в (3.2.35), и учитывая (3.2.33) получаем:Λ0 = −(1 + 2 ).2(3.2.36)Подставляя (3.2.36) в (3.2.32), находим сопряженную переменную:Λ() = −(1 + 2 ) −2.2(3.2.37)Таким образом, оптимальные выбросы для случая кооперации двух стран,с оборудованием, используемым в режиме нормальной эксплуатации:1 + 2;*2 () =⎪⎩ − 1 + 2 , > 1 + 2 .22⎧⎪⎨ 0, ≤Режим нормальной эксплуатации и режим приработки оборудования(3.2.38)Предпо-ложим, что оборудование одной из стран используется в режиме нормальнойэксплуатации объектов, другая же страна использует новое оборудование (режим приработки).Режиму приработки соответствует значение параметра формы < 1.
Дляопределенности зафиксируем = 12 . Тогда параметры формы в распределенииВейбулла для данного случая принимают значения: 1 = 1, 2 = 12 .Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации103Функция распределения момента окончания игры в данном случае имеетвид (см. Рис. 3.1):√ () = 1 − −(+).Следуя описанному выше алгоритму получаем(︂)︂ )︂√ 1 (︂√1 −(+√) 41√Λ() = −(1 + 2 ) + √erf( +) − 1.
(3.2.39)22 Введем обозначение(︂)︂√ 1√1 4 (+√)1√() = + √ erf( +) − 1 .22 Тогда оптимальные объемы выбросов для этого случая имеют вид:⎧⎪⎪0,если()>;⎪⎪+12⎪⎨* () = − (1 + 2 )(), если 0 ≤ () ≤;⎪1 + 2⎪⎪⎪⎪⎩ ,если () < 0.Режим нормальной эксплуатации и режим износа оборудования(3.2.40)Предполо-жим, что оборудование одной из стран используется в режиме нормальнойэксплуатации объектов, а другая страна использует изношенное оборудование.Режиму износа соответствует параметр формы > 1.