Диссертация (1145356), страница 27
Текст из файла (страница 27)
Следовательно, в выигрыше учитывается вероятностьпродолжения игры Γ ((), ) после момента ∈ [0 , ∞), равная 1 − ().Пусть (0 , 0 ) — множество дележей в Γ (0 , 0 ), т.е. (0 , 0 ) = { = { } :∑︁ = (0 , 0 , ),=1 ≥ (0 , 0 , {}), = 1, . . . , }, (6.1.1)где (0 , 0 , {}) — значение характеристической функции (0 , 0 , ) длякоалиции = {}. Аналогично определяется множество дележей ((), )в подыгре Γ ((), ).Важным вопросом, который решается в кооперативной теории игр, является вопрос о выборе конкретного принципа оптимальности как справедливогоспособа раздела заработанного совместными усилиями выигрыша (0 , 0 , ) =∑︁ (0 , 0 , *1 , . .
. , * ).∈Однако мы не будем останавливаться на данном аспекте (см. 5.1.1) и дляопределенности далее будем полагать, что игроки договорились использоватьГлава 6.204Устойчивая кооперация в играх со случайным моментом окончаниявектор Шепли (5.1.7) для раздела суммы (0 , 0 , ):ℎ (0 , 0 ) =∑︁ ( − )!( − 1)!⊂∈![ (0 , 0 , )− (0 , 0 , ∖{})], = 1, . . . , .Результаты, сформулированные далее в разделах 6.2, 6.3 справедливы длялюбого дележа (0 , 0 ) = {(0 , 0 )}=1 из множества (0 , 0 ) (определениепринципа оптимальности (0 , 0 ) ⊆ (0 , 0 ) в игре Γ (0 , 0 , ) со случайным моментом окончания аналогично определению принципа оптимальности в игре с предписанной продолжительностью Γ (0 , 0 , ), см. § 5.1.1).6.2Принцип динамической устойчивости в игреΓ (0, 0, )Итак, предположим, что игроки в начальный момент 0 договорились использовать оптимальные управления {*1 , .
. . , * }, чтобы получить ожидаемый выигрыш (0 , 0 , ), а затем разделить его согласно принципу оптимальности(вектору Шепли). Тогда, как и в любой дифференциальной игре, возникает вопрос о реализуемости вектора Шепли во времени или проблема динамическойустойчивости выбранного игроками принципа оптимальности (см. § 5.1.2).Определение 6.2.1. Пусть существует вектор-функция() = { () ≥ 0}=1,..., ,такая что компоненты вектора Шепли ℎ(0 , 0 ) = {ℎ (0 , 0 )}=1,..., в игреΓ (0 , 0 ) представимы в виде∫︁ ∞ℎ (0 , 0 ) =(1 − ()) (), = 1, .
. . , .(6.2.2)0Вектор-функцию () = { ()} будем называть процедурой распределениядележа (ПРД) в игре Γ (0 , 0 ).Глава 6.205Устойчивая кооперация в играх со случайным моментом окончанияОпределение ПРД для игр с фиксированной продолжительностью быловведено в работе [110] (см. 5.1.2). В игре Γ (0 , 0 , ) ПРД определяет правило, по которому компоненты ожидаемого дележа распределяются во времени[0 , ∞).
Отметим, что позднее в работах Петросяна Л.А. требование неотрицательности компонент (), ∀ ≥ 0 , = 1, . . . , было отменено (см., например, [303]), однако в данной постановке будем придерживаться изначальнойформулировки.Определение 6.2.2. Будем называть вектор Шепли {ℎ (0 , 0 )} динамическиустойчивым вектором Шепли, если существует такая ПРД{ () ≥ 0}, ∈ [0 , ∞),что вектор ℎ(* (), ) = {ℎ }, ∀ ∈ [0 , ∞), вычисленный по формуле1ℎ (* (), ) =(1 − ())такжеявляетсявектором∫︁∞(1 − ()) (), = 1, . . . , ,(6.2.3)ШепливсоответствующейподыгреΓ (* (), ), ∈ [0 , ∞).Определение 6.2.2 означает, что при распределении дележа {ℎ (0 , 0 )} вовремени при помощи выплат согласно ПРД { ( )}, в каждый текущий момент времени , ∈ [0 , ∞), ожидаемый дележ {ℎ(* (), )} в оставшейсяподыгре Γ (* (), ) также является вектором Шепли. Таким образом, игрокине имеют оснований для нарушения соглашения о кооперации, заключенногоперед началом игры.
Последнее означает динамическую устойчивость или,согласно терминологии в англоязычной литературе, временную состоятель-ность выбранного принципа оптимальности (вектора Шепли).Теорема 6.2.1. Пусть для каждой подыгры Γ (* (), ) , ∈ [0 , ∞) вектор*¯функция ℎ((), ) является абсолютно непрерывной функцией времени ,Глава 6.206Устойчивая кооперация в играх со случайным моментом окончания ∈ [0 , ∞). Пусть () = ()ℎ (* (), )−(ℎ (* (), ))′ ≥ 0, ∈ [0 , ∞), = 1, . . . , .(1 − ())(6.2.4)Тогда в игре Γ (0 , 0 , ) вектор Шепли ℎ(0 , 0 ) является динамическиустойчивым дележом с ПРД (6.2.4).Доказательство. По предположению B1) § 1.4 в игре Γ (0 , 0 , ) случайныймомент окончания игры является абсолютно непрерывной случайной величиной с областью определения ∈ [0 ; ∞). Пусть в условиях Теоремы 6.2.1ПРД () вычисляется по формуле (6.2.4).
Покажем, что в этом случае1ℎ ( (), ) =1 − (*∫︁∞(1 − ()) (),т.е. вычисленная по ПРД (6.2.4) величина { 1−1 (∫︀ ∞(1− ()) ()} действи-тельно является вектором Шепли в подыгре Γ (* (), ), ∀ ∈ [0 , ∞).Нетрудно проверить, что из (6.2.4) имеем(1 − ()) () = ′ ()ℎ (* (), ) − (1 − ())(ℎ (* (), ))′ .(6.2.5)Тогда, интегрируя (6.2.5), получаем∞∫︁∞∫︁′(1− ()) () =*∫︁ ()ℎ ( (), )−∞(1− ())(ℎ (* (), ))′ .(6.2.6)Интегрируя последнее выражение в (6.2.6) по частям и принимая во вниманието, что lim (1 − ())ℎ (* (), ) = 0, имеем−>∞∫︁∞∫︁∞(1 − ()) () = ′ ()ℎ (* (), ) + (1 − ())ℎ (* (), )+∫︁ ∞ +(1 − ())′ ℎ (* (), ) = (1 − ())ℎ (* (), ).Тогда по Определению 6.2.2 вектор Шепли ℎ(0 , 0 , ) является динамически устойчивым дележом с ПРД (6.2.4) в игре Γ (0 , 0 , ).Глава 6.207Устойчивая кооперация в играх со случайным моментом окончанияСледствие 6.2.1.
Пусть для каждой подыгры Γ (* (), ), ∈ [0 , ∞) вектор*¯функция ℎ((), ) является абсолютно непрерывной функцией времени , ∈ [0 , ∞). Пусть () = ()ℎ − (ℎ )′ ,(6.2.7) ∈ [0 , ∞), = 1, . . . , .Тогда в игре Γ (0 , 0 , ) вектор Шепли ℎ(0 , 0 ) является динамическиустойчивым дележом с ПРД (6.2.7).Доказательство. Заметим, что множитель ()1− ()(функция плотности дляслучайного момента окончания игры при условии, что игра не закончиласьдо момента ) в правой части уравнения (6.2.4) является стандартной длятеории надежности функцией интенсивности отказов (1.4.22): () = ()(1− ()) .Тогда, учитывая обозначение (1.4.22), выражение для ПРД (6.2.4) можетбыть переписано в виде (6.2.7).Замечание 6.2.1.
Очевидно, что результаты Теоремы 6.2.1 обобщают результаты Теоремы 5.1.1 § 5.1.2 для игр с предписанной продолжительностью. Согласно Замечанию 1.4.1 для детерминированного случая () = 0, ∈ [0 , ).Тогда из (6.2.7) непосредственно следует выражение для ПРД (5.1.19): () = −(ℎ (* (), )′ , = 1, . . . , ,что подтверждает вышесказанное.Утверждение 6.2.1.
Пусть вектор Шепли {ℎ (0 , 0 )} динамически устойчив в игре Γ (0 , 0 , ). Тогда {ℎ (0 , 0 )} может быть представлен в следующем виде:∫︁ℎ (0 , 0 ) =(1 − ( )) ( ) + (1 − ())ℎ (* (), ),0∀ ∈ [0 , ∞), = 1, . . . , . (6.2.8)Глава 6.Устойчивая кооперация в играх со случайным моментом окончания208Доказательство. По Определению 6.2.2 {ℎ (0 , 0 )} динамически устойчивв игре Γ (0 , 0 , ), если существует () ≥ 0, т.ч.
{ℎ (0 , 0 )} вычисляетсяпо формуле (6.2.2) и справедливо (6.2.3). Тогда имеем∫︁∞(1 − ( )) ( ) =ℎ (0 , 0 ) =∫︁ 0=(1 − ( )) ( ) + (1 − ())ℎ (* (), ),0∀ ∈ [0 , ∞), = 1, . . . , .Первое слагаемое в (6.2.8) соответствует сумме, которую игрок получитпри развитии игры вдоль кооперативной траектории * () при ∈ [0 , ].Второе слагаемое является математическим ожиданием выигрыша в подыгреΓ (* (), ) при условии, что игра не закончилась до момента .Следствие 6.2.2.
Пусть вектор Шепли {ℎ (0 , 0 )} динамически устойчивв игре Γ (0 , 0 , ). Тогда {ℎ (0 , 0 )} может быть представлен в следующем виде:∫︁ℎ (0 , 0 ) =− ( )∫︀ 0()− + ∫︀ 0()ℎ (* (), )0∀ ∈ [0 , ∞), = 1, . . . , . (6.2.9)Доказательство. Доказательство непосредственно следует из формулы (1.4.23)1 − () = −∫︀ 0()и формулы (6.2.8).Следствие 6.2.3. Пусть случайная величина распределена по экспоненциальному закону (1.4.24) с параметром > 0. Пусть для каждой подыгры*¯Γ (* (), ) , ∈ [0 , ∞) вектор-функция ℎ((), ) является абсолютноГлава 6.Устойчивая кооперация в играх со случайным моментом окончания209непрерывной функцией времени , ∈ [0 , ∞).
Пусть () = ℎ − (ℎ )′ , ∈ [0 , ∞), = 1, . . . , .(6.2.10)Тогда в игре Γ (0 , 0 , ) вектор Шепли ℎ(0 , 0 , ) является динамическиустойчивым дележом с ПРД (6.2.10), при этом он имеет следующий вид:∫︁ ℎ (0 , 0 ) = ( )−( −0 ) + −(−0 ) ℎ (* (), ).(6.2.11)0Доказательство.
Доказательство непосредственно следует из Следствий 6.2.1и 6.2.2. Действительно, функция интенсивности отказов () является константой тогда и только тогда, когда случайная величина распределена поэкспоненциальному закону (1.4.24). Тогда из формулы для ПРД (6.2.7) получаем (6.2.10). Кроме того, очевидно, что из представления вектора Шепли ввиде (6.2.9) непосредственно следует (6.2.11).Замечание 6.2.2. Заметим, что для случая экспоненциального распределения(1.4.24) интегральный выигрыш (2.2.9) в точности совпадает с интегральнымвыигрышем для постановки задачи с бесконечным временным горизонтом идисконтированием мгновенных выигрышей экспоненциальной функцией с параметром дисконтирования :∫︁∞ℎ (( ), ( ))−( −0 ) ,0а формулы (6.2.11), (6.2.10) в точности совпадают с формулами, полученнымив работе [303], в которой изучался вопрос динамической устойчивости вектораШепли для одной детерминированной игры с экспоненциальным дисконтированием выигрыша.
Отметим, что формула (6.2.10) впервые была получена вработе [102].Очевидно, что в игре Γ (0 , 0 ) мы всегда можем распределить во временивектор Шепли {ℎ }, используя формулу для выплат (6.2.4). Однако в общем случае нельзя гарантировать неотрицательности компонент (), ∀ ∈Глава 6.210Устойчивая кооперация в играх со случайным моментом окончания[0 , ∞).
Следовательно, в рамках Определения 6.2.2 вектор Шепли не является динамически устойчивым в общем случае. Алгоритм проверки динамической устойчивости вектора Шепли является следующим: вычислить компоненты ПРД по формуле (6.2.4) и проверить выполнение условия { () ≥ 0},∀ ∈ [0 , ∞). Если неотрицательность выполнена, то вектор Шепли {ℎ },распределенный во времени в игре Γ(0 , 0 ) согласно (6.2.4), является динамически устойчивым.В противном случае вектор Шепли не является динамически устойчивымпринципом оптимальности. Тогда, при выполнении свойства неотрицательности функции мгновенного выигрыша ℎ (( ), ( )) ≥ 0, = 1, . .
. , , дляполучения нового динамически устойчивого (регуляризованного) принципаоптимальности на основе первоначально выбранного игроками динамическинеустойчивого принципа оптимальности, может быть использована новая процедура распределения дележа, а именно:*ℎ ( (), )¯ () =На основе ¯ () ≥, 0∑︀ℎ (, * (), * ())=1(* (), , ), ∈ [0 , ∞).(6.2.12) = 1, . . . , , можно сформировать так называемыйрегуляризованный вектор Шепли по формуле (6.2.2), который будет удовлетворять (6.2.8) (см.