Диссертация (1145356), страница 16
Текст из файла (страница 16)
(− ) =lim ().→( −0)Составная плотность распределения вероятности определяется как производная Ф.Р., () = ′ (), и имеет следующую форму:⎧⎪⎪1 (), ∈ [0 , 1 ),⎪⎪⎨ () = ( )+1 (), ∈ [ , +1 ),⎪⎪⎪⎪⎩1 ≤ ≤ − 1.(3.4.56)Мы имеем следующий результат:Теорема 3.4.1. Пусть дан набор Ф.Р. (), 1 ≤ ≤ , таких что условияA1, B1, D1 выполняются для каждой (). Тогда составная Ф.Р. (),определенная в (3.4.55), удовлетворяет A1, B1, D1.Доказательство. Свойство A1 удовлетворяется, поскольку для 1 () имеем (0 ) = 1 (0 ) = 0,кроме того, из lim () = 1 и из определения ( ) и ( ) имеем:→∞lim () = −1 ( −1 ) lim () + −1 ( −1 ) =→∞→∞=− (−1 )−1 ( −1 )−1·1+1−− (−1 )−1 ( −1 )−1= 1,где −1 – фиксированный момент переключения.Для того, чтобы показать выполнение условия D1 для (), сначала покажем, что непрерывна.
Это следует из равенства правого и левого пределовв точках = :lim = lim→ +=→ +(︁ (− )−1+1 ( )−1 +1 () (− )−1 (− )−1()+1−+1+1 ( )−1+1 ( )−1+1− (− )−1+1 ( )−1)︁== (− ) = lim → −Далее, для того, чтобы продемонстрировать, что () не убывает, рассмотрим два случая:Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации114i) 1 , 2 ∈ [ , +1 ), = 0, . .
. , − 1. Тогда (1 ) ≤ (2 ) поскольку ()пропорциональна +1 () на [ , +1 ) и +1 () не убывает на этом интервале.ii) 1 ∈ [ , +1 ), 2 ∈ [ , +1 ), , = 0, . . . , − 1, < . Принимая вовнимание свойство непрерывности, получаем (1 ) ≤ (+1 ) ≤ · · · ≤ ( ) ≤ (2 ).Таким образом, () — неубывающая функция.Наконец, покажем, что () абсолютно непрерывна. Это эквивалентноследующему требованию ([316]): ∀ > 0, ∃ > 0 такая, что для любого конечного набора непересекающихся интервалов ( , ) из [0 , ∞), неравенство∑︀| − | ≤ влечет∑︀| ( ) − ( )| ≤ .Используем тот факт, что функции (), = 1, .
. . , абсолютно непрерывны. Тогда, для любого = 1, . . . , и для любого =2> 0, существует > 0, такая что для любого конечного набора непересекающихся интервалов∑︀|(,) − (,) | ≤ , выполняется((,) , (,) ) из [−1 , ], удовлетворяющих∑︁| ((,) ) − ((,) )| ≤ .(3.4.57)Пусть = min( , ( − −1 )), , = 1, . . . , . Для любого произвольного конечного набора непересекающихся интервалов ( , ), удовлетворяющих∑︀| − | ≤ возможны два варианта:i) Интервалы ( , ) – собственные подмножества интервалов разбиения[ , +1 ].
Тогда, используя свойство абсолютной непрерывности и суммируя по всем интервалам разбиения, получаем∑︁| ( ) − ( )| = ∑︁∑︁=1| ( ) − ( )| < = ,принимая во внимание, что | () − ()| = 0, если (, ) ∩ [ , +1 ] = ∅.Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации115ii) Некоторые интервалы из конечного набора ( , ) включают моментыпереключения () . Согласно определению , интервал ( , ) может пересекаться не более чем с двумя интервалами разбиения. Таким образом,( , ) может быть представлен как объединение двух подынтервалов( , () ) ⊂ (()−1 , () ) и (() , ) ⊂ (() , ()+1 ).
Таким образом, раз∑︀∑︀∑︀биваем сумму| − | на две части:| − | =| − () | +∑︀| − () | < . Суммируя по всем интервалам и используя неравенство треугольника, получаем:∑︀| ( ) − ( )| =| ( ) − ( )| ≤=1 ≤ ∑︀∑︀ ∑︀ (︀∑︀)︀| ( )− (() )| + | (() )− ( )| <=1 < 2 = ,где мы использовали то же предположение, что и выше.Итак, условие (3.4.57) выполняется, а, следовательно, () – абсолютно непрерывна, что и требовалось доказать. Свойство B1 очевидным образом удовлетворяется по построению.Из Теоремы 3.4.1 следует, что () имеет конечные левый и правый пределы в точках , 1 ≤ ≤ − 1, (− ) = (+ ) =lim (),→( −0)lim (),→( +0)которые могут быть не равны, и непрерывна во всех остальных точках.Задача оптимизации (2.2.7) для составной Ф.Р.
(3.4.55) приобретает следующий вид:* () = argmax∑︁ (0 , 0 , ) ==1= argmax ∫︁∑︁=1 0(1 − ( ))ℎ (( ), ( )). (3.4.58)Глава 3.3.4.2Дифференциальные игры со случайным моментом окончания. Модификации116Два вида переключений функции () в игре Γ (0 , 0 )Задача оптимального управления (1.1.1), (3.4.58) в общем случае не можетбыть решена с использованием стандартных методов теории оптимальногоуправления в силу специальной структуры составной функции распределения ().
Однако, эта задача может быть рассмотрена в контексте теории гибридных систем, [162, 213, 262, 274] и решена с использованием методов гибридногооптимального управления, [178, 311, 323].Напомним, что составная функция распределения () введена на основепоследовательности функций распределения (3.4.55), соответствующих различным режимам эксплуатации и моментов переключения , = 1, .
. . , .Можно выделить два типа моментов переключения , соответствующихa) переключениям в фиксированные моменты времени;b) переключениям, зависящим от состояния.В первом случае последовательность задана. В качестве свободных переменных выступают значения состояния системы в моменты переключения , i.e., ( ). Во втором случае моменты переключения определяются какрешения уравений ( (− )) = 0, т.е. режим эксплуатации изменяется, когдарешение системы пересекает многообразие переключения, определяемое гладким отображением : R× → R . В дальнейшем будем полагать, что последовательность режимов эксплуатации фиксирована заранее.
Таким образом,задача определения оптимальной стратегии может быть сформулирована какзадача гибридного оптимального управления (см. [215, 311, 323]).3.4.3Пример игры Γ (0 , 0 )Рассмотрим пример игры Γ (0 , 0 ) с переключением функции распределения () в момент времени , который может быть определен заранее или зави-Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации117сеть от фазовой переменной .
В данной задаче рассматривается игра разработки невозобновляемого ресурса игроками с логарифмической функциейполезности [194]. Предполагаем, что игроки используют идентичное оборудование для эксплуатации месторождения, причем вероятность отказа оборудования определяется режимом эксплуатации (в данном примере рассматривается два возможных режима). Наибольший интерес представляет случай,когда переключение режимов зависит от состояния . В этом случае моментперехода из одного режима в другой определяется степенью разработки месторождения, а конкретнее, переключение происходит при достижении порогового значения 0 ( ∈ [0, 1]) объема оставшегося ресурса от первоначальногозначения 0 .Пусть 1 () = 1−exp(−1 ), 2 () = 1−exp(−2 ) с параметрами 1 , 2 > 0и переключением в момент .
Составная Ф.Р. () имеет следующий вид: () =⎧⎪⎨ 1 − exp(−1 ),⎪⎩ 1−exp(−1 )exp(−2 ) ∈ [0, ),(3.4.59)exp(−2 ), ∈ [, ∞).Графическое изображение 1 (), 2 () с параметрами 1 = 0.01, 2 = 0.1приведено на Рис. 3.4. Примеры составной функции распределения () см.на Рис. 3.5, 3.6. Можно сказать, что при 1 = 0.01 конфликтно-управляемаясистема находится в «безопасном» режиме, т.е. эксплуатационное оборудование обладает малым риском отказа, а при 2 = 0.1 переходит в «опасный» режим, когда вероятность окончания игры увеличивается. В дальнейшем будетрассмотрено два варианта переключений режимов : «безопасный—опасный»,«опасный—безопасный».Динамика изменения объема ресурса описывается следующей системойОДУ:()˙=−∑︁=1 (),(0) = 0 , (∞) = 0, (·) ∈ [0, ],(3.4.60)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации118Рис. 3.4: 1 (), 2 ()Рис. 3.5: Составная функция распределения () ( = 0.1; 0.01)где управлением () является скорость разработки ресурса, (∞) = lim ().→∞Пусть функция полезности имеет вид [194]: ℎ ((), ()) = ln( ()).
Рассмотрим кооперативное поведение игроков. Тогда задача оптимального управления формулируется как задача максимизации суммарного выигрыша игроков:max∑︁=1∫︁∞∑︁ (, ) = (1 − ())ln( ()).0=1(3.4.61)Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации119Рис. 3.6: Составная функция распределения () ( = 0.01; 0.1)Переключение в фиксированный момент времениРассмотрим задачу с переключением «режимов», т.е. изменением функциираспределения в фиксированный момент времени = .
Обозначим состояниесистемы в момент как ( ) = . Таким образом, задача оптимальногоуправления будет рассматриваться на двух временных интервалах: 1 = [0, ),2 = [ , ∞).Оптимальное управление на интервале [0, ) имеет вид:* () =(0 − )∫︀ (1 − ())(1 − ()) =(0 − )1exp(−1 ),(1 − exp(−1 )) ∈ 1 .0Соответственно, оптимальное управление на втором интервале:* () =∫︀∞ (1 − ())(1 − ()) = 2exp(−2 ), exp(−2 ) ∈ 2 .Оба выражения содержат неизвестное значение фазовой переменной в момент переключения, = ( ).
Найдем (как функцию ), максимизирующее суммарный выигрыш игроков на всем интервале игры = 1 ∪ 2 .Получаем: =1 0.2 exp(1 ) − (2 − 1 )Глава 3.Дифференциальные игры со случайным моментом окончания. Модификации120На Рис. 3.7 показана зависимость состояния от момента переключения для двух последовательностей переключения Ф.Р.