Автореферат (1149188), страница 2
Текст из файла (страница 2)
Публикации [3-5] индексируются в базе данных Scopus. В работе [2] диссертантпостроил новое решение для кооперативных дифференциальных игр с предписаннойпродолжительностью, обладающее свойствами сильной динамической устойчивостью – ПРДядро. В работе [5] диссертантом была построена модель кооперативных дифференциальных игрс динамическим обновлением информации и стохастическим прогнозом, для этого класса игрбыло получено решение и доказано свойство сильной ∆-динамической устойчивости. В работе[3] диссертантом была сформулирована и решена задача определения в некотором смыслеоптимального информационного горизонта.Структура и основное содержание работыДиссертация состоит из введения, семи глав, разбитых на параграфы, заключения,списка используемой литературы, включающего 48 наименование. Объем составляет 108страниц машинописного текста.
Работа содержит 26 рисунков.6СОДЕРЖАНИЕ РАБОТЫВо введении обосновывается актуальность темы исследования, формулируется цель и ставятсязадачи работы, дается обзор научной литературы по изучаемой проблеме, приводится краткоесодержание работы по главам.Первая главаСтроится новое решение в кооперативных дифференциальных играх с предписаннойпродолжительностью, обладающее свойством сильной динамической устойчивости – ПРДядро.В разделе 1.1 описывается кооперативная дифференциальная игра с предписаннойпродолжительностью, описывается построение С-ядра в исходной игре, приводятся основныеопределения из области кооперативных игр.В разделе 1.2 определяется множество ПРД, позволяющее построить динамическиустойчивое ПРД-ядро.
Предположим, что характеристическая функция (; ∗ (), − ) вдолькооперативной траектории ∗ () является непрерывно дифференцируемой по , ∈ [0 , ].Определение 1.2.1. () – это множество интегрируемых вектор функций, котороеопределяется следующим образом:() = {() = (1 (), … , ()):− [(; ∗ (), − ) − (\; ∗ (), − )] ≥ ∑ () ≥ − [(; ∗ (), − )], ∀ ⊂ ,∈∑ () = − [(; ∗ (), − )]}(1).∈В разделе 1.3 строится соответствующее множество дележей и исследуются его свойства.Определение1.3.1.Пусть() ≠ ∅, ∀ ∈ [0 , ].ПРД-ядром( ∗ (), − )назовеммножество всех вектор функций(), удовлетворяющих условию (3) для всех векторфункций() ∈ ():() = ∫ (), ∈ [0 , ].(3)Доказано, что ( ∗ (), − ) можно рассматривать в качестве кооперативного решения:Утверждение 1.3.1. Пусть множество () ≠ ∅ и ПРД-ядро ( ∗ (), − ), ∀ ∈ [0 , ].Множество( ∗ (), − )являетсяподмножествоммножествадележейвигреΓ ( ∗ (), − ), т.е.
( ∗ (), − ) ⊆ ( ∗ (), − ), ∈ [0 , ].Также доказано, что ( ∗ (), − ) является подмножеством C-ядра:Утверждение 1.3.2. ПустьC-ядро игры Γ ( ∗ (), − ) и множество () ≠ ∅, ∀ ∈ [0 , ].Тогда множество ( ∗ (), − ) является подмножеством C-ядра ( ∗ (), − ) в игреΓ ( ∗ (), − ), ∈ [0 , ].Раздел 1.4 посвящен свойству сильной динамической устойчивости, сформулированаконструктивная теорема, позволяющая построить сильно динамически устойчивое ПРД-ядро:7Утверждение 1.4.1. Пусть() ≠ ∅,( ∗ (), − ) ≠ ∅, ( ∗ (), − ) ≠ ∅, ∀ ∈ [0 , ].
ТогдаПРД-ядро ( ∗ (), − ) ⊆ (0 , − 0 ) сильно динамически устойчиво в игре Γ (0 , − 0 ).В разделе 1.5 теоретические результаты продемонстрированы на примередифференциальной игры управления вредными выбросами. Приводятся результаты численногопостроения множества () в среде Matlab и соответствующие графики для определенныхпараметров.Иллюстрируетсясвойствосильнойдинамическойустойчивостирешения ( ∗ (), − ).Вторая главаВторая глава посвящена описанию и изучению кооперативных дифференциальных игр сдинамическим обновлением информации, как с предписанной, так и с бесконечнойпродолжительностью. Определено понятие усеченной подыгры, построена условнокооперативная траектория, построено решение в игре с динамическим обновлениеминформации, показано, что решение обладает свойством △ -сильной динамическойустойчивости.
Введено понятие характеристической функции для всей игры. Также показанасвязь между решениями, выбранными игроками в усеченных подыграх и в игре сдинамическим обновлением информации.В разделе 2.1 приводится определение усеченной подыгры, объясняется каким образомна основе этого понятия можно смоделировать поведение игроков в игре с динамическимобновлением информации.Определение 2.1.1. Пусть = 0, … , .Усеченная подыгра Γ̂ (,0 , 0 + Δ, 0 + Δ + )определена на временном интервале [0 + Δ, 0 + Δ + ] следующим образом. На временноминтервале [0 + Δ, 0 + Δ + ] уравнения движения, функция выигрыша в усеченной игре иисходной игре совпадают:̇ = (, , ),(0 + Δ) = ,00 +Δ+ (,0 , 0 + Δ, 0 + Δ + ; ) =∫ℎ (, (), ()) −(−0 ) .
(5)0 +ΔПод исходной игрой в определении 1.3.1. будем понимать игру Γ(0 , − 0 )спредписанной продолжительностью, тогда дискаунт фактор может принимать нулевоезначение ≥ 0 и = ∆ − 1, где < ∞, либо игру Γ(0 , 0 )с бесконечной продолжительностью,тогда = +∞и дискаунт фактор > 0. Для игры с бесконечной продолжительностьюпредполагается также, что выигрыш в игре (в любой усеченной подыгре) рассчитывается отмомента времени 0 ; в формуле (5) дисконтирование выигрыша начинается с момента времени0 .В разделе 2.2 описывается решение усеченной подыгры, строится условнокооперативная траектория.
В соответствии с рассматриваемым подходом в каждый моментвремени игрокам доступна ограниченная информация о структуре игры Γ(0 , − 0 )(Γ(0 , 0 )).Этой информации недостаточно, чтобы определить кооперативное поведение для игроков во8всей игре Γ(0 , − 0 )(Γ(0 , 0 )). Вместо кооперативной траектории в игре Γ(0 , −0 )(Γ(0 , 0 )) будем строить условно-кооперативную траекторию:Определение 2.2.1.
Условно кооперативная траектория {̂ ∗ ()}=0 ({̂ ∗ ()}+∞=0 ) – этокомбинация кооперативных траекторий ∗ () в усеченных подыграх ̂ (,0 , 0 + , 0 + +):{̂ ∗ ()}=00∗ (), ∈ [0 , 0 + ∆],…∗= (), ∈ [0 + ∆, 0 + ( + 1)∆], (6)…∗ (), ∈ [0 + ∆, 0 + ( + 1)∆],{ где для игры (0 , − 0 )с предписанной продолжительностью 0 + ( + 1)∆ = и < ∞, адля игры (0 , 0 )с бесконечной продолжительностью = +∞ и соответственно0 +( + 1)∆ = +∞.В разделе 2.3 раскрывается концепция решения в исходной игре с динамическимобновлением информации, доказывается свойство сильной ∆-динамической устойчивости. В∗качестве решения в игре Γ(0 , − 0 )(Γ(0 , 0 )) используется комбинация решений (,0, 0 +∗Δ, 0 + Δ + ) (соответствующих ПРД) в усеченных подыграх Γ̂ (,0, 0 + Δ, 0 + Δ +), = 0, … , ( = 0, … , +∞).
Пустьдлякаждого∗ (,0, 0 + Δ, 0 + Δ + ) ∈дележа∗ (,0, 0 + Δ, 0 + Δ + ) существует ПРД (, ∗ ). Определим результирующее ПРД длявсей игры Γ(0 , − 0 )(Γ(0 , 0 )):Определение 2.3.1. Результирующее ПРД ̂ (, ̂ ∗ ) определяется для каждого набора∗∗ (,0, 0 + , 0 + + ) ∈ (,0, 0 + , 0 + + )ссоответствующимиПРД (, ∗ ) следующим образом:0 (, 0∗ ), ∈ [0 , 0 + ∆],…̂ (, ̂ ∗ ) = (, ∗ ), ∈ [0 + ∆, 0 + ( + 1)∆] , (7)…{ (, ∗ ), ∈ [0 + ∆, 0 + ( + 1)∆],где для игры (0 , − 0 )с предписанной продолжительностью 0 + ( + 1)∆ = и < ∞, адля игры (0 , 0 )с бесконечной продолжительностью = +∞ и соответственно0 +( + 1)∆ = +∞.С помощью результирующего ПРД ̂ (, ̂ ∗ ) определим следующий вектор:Определение 2.3.2.
Результирующий вектор ̂(̂ ∗ (), − )– это вектор определенный спомощью результирующего ПРД ̂ (, ̂ ∗ ()) следующим образом, пусть ∈ [0 + ∆, 0 + ( +1)∆]:̂( ∗ (), ̂ − ) = ∫ ̂ (, ̂ ∗ ()) −(−0 ) =9(+1)= ∑ [ ∫=+1∗ ()) −(−0 )∗ ()) −(−0 ) (, ] + [∫ (, ] , (8)в частности:̂(0 , − 0 ) = ∫ ̂ (, ̂ ∗ ()) −(−0 ) ,0где для игры (0 , − 0 )с предписанной продолжительностью = ∆ − 1, где < ∞, а дляигры (0 , 0 ) с бесконечной продолжительностью = +∞, и соответственно = +∞. Дляигры (0 , 0 )вектор, определенный с помощью формулы (8) будем обозначать через̂(̂ ∗ (), ).Введем понятие результирующегодинамическим обновлением информации:решениявигре(0 , − 0 )((0 , 0 ))с̂ (̂ ∗ (), − )(̂ (̂ ∗ (), )) - это множествоОпределение 2.3.3.
Результирующее решение векторов ̂(̂ ∗ (), − )(̂ (̂ ∗ (), )), построенных с помощью (7),(8) для всевозможныхрезультирующих ПРД ̂ (, ̂ ∗ ).̂ (0 , − 0 ) (̂(0 , 0 ) ∈Утверждение 2.3.1. Любой результирующий вектор ̂ (0 , − 0 ) ∈ Ŵ (0 , 0 )) и соответствующее результирующее ПРД ̂ (, ̂ ∗ ) распределяет суммарныйWвыигрыш игроков вдоль условно кооперативной траектории ̂ ∗ () в игре с предписаннойпродолжительностью Γ(0 , − 0 ) (с бесконечной продолжительностью Γ(0 , − 0 ), где∀ ∈ [0 , ] (∀ ∈ [0 , +∞]):∑ [ ∫ ̂ (, ̂∗ ()) −(−0 )] = ∑ [ ∫ ℎ̂ (̂ ∗ (), ̂∗ ()) −(−0 ) ].=1 0=1 0̂ (0 , − 0 ) (Ŵ (0 , 0 )) является сильно ∆Теорема 2.3.1.
Результирующее решение Wдинамически устойчивым в игре Γ(0 , − 0 ) с предписанной продолжительностью (Γ(0 , 0 ) сбесконечной продолжительностью).Раздел 2.4 посвящен построению характеристической функции в игре Γ(0 , − 0 ) сдинамическим обновлением информации и предписанной продолжительностью. В качествехарактеристической функции в этой игре будем использовать понятие результирующейхарактеристической функции V(; 0 , − 0 ):Определение 2.4.3.
Результирующей характеристической функцией (; ̂ ∗ (), − ) в игре(̂ ∗ (), − ) с динамическим обновлением информации будем называть функцию, котораявычисляется с помощью значений характеристических функций (; ∗ (), , 0 + ∆ + ) вкаждой усеченной подыгре ̂ (∗ (), , 0 + + ) вдоль условно кооперативной траектории̂ ∗ (). Пусть ∈ [0 + ∆, 0 + ( + 1)∆] , тогда:10∗(; ̂ ∗ (), − ) = ∑ [ (; ,0, 0 + ∆, 0 + ∆ + ) −=+1∗− (; ,1, 0+ ( + 1)∆, 0 + ∆ + )] +∗+[ (; ∗ (), , 0 + ∆ + )− (; ,1, 0 + ( + 1)∆, 0 + ∆ + )],(10)∗∗() = ̂ ∗ (0 + ∆), ,1() = ̂ ∗ (0 + ( + 1)∆).где ,0Покажем,чтовэтомслучаерезультирующийвектор̂(0 , − 0 ),которыйиспользуется, чтобы распределить выигрыш между игроками, можно считать дележом в игреΓ(0 , − 0 )с характеристической функцией V(; 0 , − 0 ).Теорема 2.4.2. Результирующий вектор ̂(0 , − 0 ) является дележом в игре (0 , − 0 ) сдинамическим обновлением информации, если для ∀ ∈ [0 + ∆, 0 + ( + 1)∆], =0, … , выполняется следующее условие: (∗ (), , 0 + ∆ + ) − ({}; ∗ (), , 0 + ∆ + ) ≥∗∗ (,1, 0 + ( + 1)∆, 0 + ∆ + ) − ({}; ,1, 0 + ( + 1)∆, 0 + ∆ + ).















