Диссертация (1145356), страница 12
Текст из файла (страница 12)
. . , ) = ( ( ) − ()) − .(2.3.54)Для нахождения оптимальных скоростей загрязнения будем использоватьпринцип максимума Понтрягина [119]. Далее будем рассматривать случай = 2, т.е. игру двух лиц и положим для простоты 0 = 0. Найдем Паретооптимальное решение с равными весами для обоих игроков.Для каждого игрока = 1, 2 требуется максимизировать функционал∫︁max (0 , 0, , 1 , . . . , ) = ∈[0; ]0∞( (* ) − ()) − ,(2.3.55)Глава 2.80Дифференциальные игры со случайным моментом окончаниягде () определяется (2.2.14). Гамильтониан имеет вид:)︂)︂(︂ (︂∑︁1−+Λ . = − − 2=1(2.3.56)Выражения для оптимальных управлений имеют вид:⎧(︁)︁⎪⎨ + Λ() , если − + Λ() ≥ 0* () =(︁)︁⎪⎩0,−если + Λ() < 0(2.3.57)Сопряжённая переменная Λ() находится из уравнения Λ̇ = − .
Получаем дифференциальное уравнение Λ̇() = − , решение которого имеет вид:Λ() = ∫︀ 0− + . Поскольку ∈ [0, ∞), то условие на Λ() выглядит сле-дующим образом: lim Λ() = 0. Рассмотрим частные случаи распределения→∞Вейбулла, соответствующие различным фазам игры.Пусть = 1 (режим нормальной эксплуатации объектов). В этом случае получаем экспоненциальное распределение, что эквивалентно постоянному дисконтированию. Тогда Λ() = lim Λ() =→∞∫︀ − + = − − +0 + .
При этом+ = 0 ⇒ = − ⇒ Λ() = − − . Тогда оптимальныевыбросы игроков имеют вид:* () = + Λ() = −при −,> 0, и * () = 0 в противном случае.Пусть = 2 (распределение Рэлея, фаза износа). Λ() = = √ 2−( )∫︀ 0 (2.3.58) + . После замены переменных√∫︀ 02− + = и преобразованийполучаем√√ Λ() = √erf( ) + ,(2.3.59) 2√ √где erf(·) — функция ошибок. Так как lim erf() = 1, то lim Λ() = 2 + =→∞√√√→∞0 ⇒ = − √ 2 ⇒ Λ() = √ 2 (erf( ) − 1).
Тогда оптимальные выбросыигроков имеют вид:* () = + Λ()2√√ 2=√(erf( ) − 1) + , 2(2.3.60)Глава 2.81Дифференциальные игры со случайным моментом окончанияесли это выражение положительно, и * () = 0 в противном случае. Пусть=12(период приработки). Путем замены переменных и определенных пре-образований получаем следующие оптимальные выбросы игроков:* ()√ = + Λ()√ )︁ (︁= 2 −2 − 2 + ,(2.3.61)если это выражение положительно, и * () = 0 в противном случае.Итак, мы получили, что для фазы приработки во время развития игры возможно снижение вредных выбросов (скорее всего, за счет устранения неполадок и устранения недоработок, допущенных на фазе проектирования соглашения), для режима нормальной эксплуатации оптимальные выбросы являютсяпостоянной величиной, а фазе износа соответствуют возрастающие вредныевыбросы.2.3.4Пример игры Γ (0 , 0 , ) (позиционные стратегии)В качестве примера рассмотрим теоретико-игровую модель [194] разработкиневозобновляемых ресурсов симметричными игроками.
Динамика измененийобъема ресурса () описана в § 1.5.1, где мы полагаем (, ) =∑︀=1 .В данной работе будем предполагать, что мгновенные выигрыши игроковне дисконтируются, но игра заканчивается в случайный момент времени ,распределенный по закону Вейбулла (1.4.26). Выбор распределения Вейбулла, как одного из основных распределений, описывающих жизненный циклработы технических систем, подробно обоснован в работе [155].Таким образом, ожидаемый выигрыш игрока , = 1, . .
. , , при условии,что момент окончания игры описывается законом Вейбулла (1.4.25), принимает вид:∫︁∞ (0 , 0 , 1 , . . . , ) =0−(−0 )ℎ ((), ()).(2.3.62)Глава 2.82Дифференциальные игры со случайным моментом окончанияВ данном примере каждый игрок имеет функцию полезности ℎ (, , )(функцию мгновенного выигрыша) в виде ℎ = ℎ( ), определенную для всех > 0, которая зависит от маргинальной полезности :ℎ( ) = ln( ) + ,1−ℎ( ) = 1−+ , = 1;(2.3.63) ̸= 1.(2.3.64)При = 0 по определению полагаем ℎ( ) = 0. Не умаляя общности, далеебудем считать, что = 1, = 0. Кроме того, положим 0 = 0.Тогда общий ожидаемый выигрыш игроков вычисляется по формуле∑︁∫︁ (0 , 0, 1 , .
. . , ) ==1∞ ∑︁0ℎ( )− .(2.3.65)=1Очевидно, что в данной модели рассматриваются только симметричные игроки, поэтому положим = = .Задача максимизации общего ожидаемого выигрыша (2.3.65) при условии(1.5.30) может быть решена при помощи уравнения типа Беллмана (2.3.39).Кроме того, это уравнение будет использоваться и для вычисления значенийхарактеристической функции (, , ). Подробное построение характеристической функции описано в работе [332].Рассмотрим функцию полезности вида ℎ( ) = ln( ). Предположим, чтофункция Беллмана (, ) имеет вид () = () ln() + (). Тогда частные производные функции (, ) имеют вид (, )˙ ln() + (),˙= () (, ) ()=,а уравнение (2.3.39) записывается как˙ ln()+ ()+max˙() (() ln() + ()) = ()(︃ ∑︁=1)︃() ∑︁ln( ) − .
=1(2.3.66)Глава 2.83Дифференциальные игры со случайным моментом окончанияИз условия максимизации правой части уравнения (2.3.66) следует, что оптимальные управления имеют вид * =. Подставляя оптимальные управ()ления в (2.3.66) получаем˙ ln() + ()˙() (() ln() + ()) = ()+ ln() − ln(()) − .(2.3.67)Соберем члены с сомножителем ln() в левой части уравнения. Полученноеравенство должно выполняться для всех , из чего следует, что обе части˙ и ()˙равенства равны 0. Окончательно, выражая производные ()получаемследующую систему:˙ =()() − ,()(2.3.68)˙()=()() + ln() + ln(()) + ,(2.3.69)с граничными условиями lim () = lim () = 0.→∞→∞С учетом граничного условия, решение (2.3.68) имеет вид∫︀() = 0()∫︁∞−∫︀()0 =1 − ()∫︁∞∫︀− ()0.Окончательно, получаем следующие оптимальные управления для задачи разработки невозобновляемых ресурсов со случайной продолжительностью:()* · − = = ∫︀∞,()− *(2.3.70)где () удовлетворяет (1.4.26).
Тогда при = 1, соответствующем экспоненциальному распределению момента окончания игры, фактически рассматривается уже изученная модель с дисконтированными выигрышами на бесконечном временном промежутке [194]. Непосредственно из (2.3.70) следует, чтопри = 1 оптимальными стратегиями игроков являются* = * =, = 1, . . . , .Глава 2.84Дифференциальные игры со случайным моментом окончанияТогда оптимальные управления и траектория вычисляются по формуле* () = 0 · − ;* () =0 · − .Этот результат совпадает с результатом, полученным в работе Докнера идр.
[194] для случая дисконтированных выигрышей на бесконечном временномпромежутке для единичной эластичности маргинальной полезности игроков,причем выполнено следующее условие:lim () = 0.→∞Значению характеристической функции (* (), , ) соответствует значение функции Беллмана (* (), ):(︀ (︀ )︀)︀ln−1 (* (), , ) = (* (), ) =.(2.3.71)Далее, для = 2, которое соответствует распределению Рэлея для стареющей системы, из (2.3.70) получаем2* · −2∫︀.=∞ −22 Тогда оптимальный способ поведения при разработки ресурса должен определяться согласно следующей формуле√ −22e(︁√ )︁)︁ ,* = √ (︁ 1 − erfгде erf() =√2∫︀ 2−.0 Для периода приработки (раннего периода) возьмем = 21 .
Тогда из уравнения (2.3.70) получаем 1/2* · − 2 2√= ∫︀ ∞ 1/2 =. − 2 2( + 1)Таким образом, для модели разработки невозобновляемых ресурсов удалосьполучить оптимальные решения для всех трех сценариев игры. ГрафическоеГлава 2.Дифференциальные игры со случайным моментом окончания85изображение * (, ) для случая трех игроков при фиксированном параметре масштаба = 1 и параметрах формы = 1/2; 1; 2 приведено на рис.1.Отметим, что управления линейно зависят от состояния , поэтому можноположить = 1 и рассматривать изменение законов управления со временемРисунок 2.1.
Оптимальная скорость разработки * для трех сценариев игрыИнтересно, что в рамках нашей модели мы получили, что оптимальноеповедение игроков коренным образом отличается для различных сценариевигры. Для фазы приработки, т.е. когда оборудование и общая координацияеще не налажены, скорость разработки должна быть наименьшей, что соответствует осторожности игроков. В режиме нормальной эксплуатации игрокидолжны «копать» с постоянной скоростью. В режиме износа оборудования(впрочем, это также касается и «износа» не только технических элементов),когда функция интенсивности отказов возрастает, необходимо увеличить темпы разработки месторождений.Кроме того, было численно проанализировано поведение кооперативныхтраекторий для всех трех фаз игры. Качественное различие убывания невозобновляемых ресурсов представлено на Рис.
2.2.Заметим, что быстрее всего убывает ресурс при = 2, что соответствует ин-Глава 2.Дифференциальные игры со случайным моментом окончания86Рисунок 2.2. Оптимальные траектории * () для режима нормальной эксплуатации, фазыприработки и фазы износатенсивным разработкам в состоянии износа. Медленнее всего убывает ресурспри = 1/2, что соответствуем осторожным действиям игроков в состоянииприработки.Далее, заменив∑︀ℎ в уравнении (2.3.39) на ℎ , можно найти равновесные=1по Нэшу управления { } в классе управлений с обратной связью, линейныхпо фазовой переменной (см. [332]). В данной работе не обсуждается вопроссуществования и единственности решения уравнения (2.3.39). Проводя аналогичные вычисления, получаем= ∫︀∞−()− (), = 1, . . .
, (2.3.72)Далее в данном разделе во избежание излишнего нагромождения формул будут представлены результаты только для режима нормальной эксплуатацииместорождения, т.е. для = 1.Итак, при = 1 выполнено () = . Управления, равновесные по Нэшу,имеют вид = , = 1, . . . , ,(2.3.73)Глава 2.Дифференциальные игры со случайным моментом окончания87Cоответствующие им траектория и значение характеристической функции дляподыгры, начинающейся в момент времени = : () = ()−(−) ; ((), , {}) = ((), ) =ln (()) − .(2.3.74)Глава 3Дифференциальные игры со случайныммоментом окончания. Модификации3.1Дифференциальные игры с дисконтированиеми случайным моментом окончания.