Диссертация (1149189), страница 3
Текст из файла (страница 3)
В этом случае игроки, получая обновленную информациюо структуре игры, не имеют точной информации, в течение какого срока этаинформация будет верна. Единственное, что им известно, это то, что величинаинформационного горизонта является случайной величиной. Понятие усеченной подыгры здесь основано на понятии дифференциальной игры со случайнойпродолжительностью и она названа случайной подыгрой. В качестве кооперативного решения этой подыгры использовалось сильно динамически устойчивоеПРД-ядро. Для построения С-ядра и сильно динамически устойчивого ПРД-13ядро была доработана классическая кооперативная игра добычи ограниченногоресурса для случая трех игроков. В § 1 приводится определение случайной усеченной подыгры, объясняется, каким образом на основе этого понятия можносмоделировать поведения игроков, которые получают точную информацию обигре, но уверены только в вероятностных характеристиках длительности этойинформации.
В § 2 описывается сильно динамически устойчивое ПРД-ядро, какрешение случайной усеченной подыгры, строится условно-кооперативная траектория. В § 3 описывается решение в игре с динамическим обновлением информации, доказывается свойство сильной динамической устойчивости полученного решения. В § 4 теоретические результаты применяются для кооперативнойигры добычи ограниченного ресурса трех лиц, демонстрируется свойство сильной динамической устойчивости выбранного решения, приведены результатычисленного моделирования в среде Matlab.Степень достоверности и апробация результатов исследования. Достоверность полученных результатов основана на строгом доказательстве всехсформулированных математических утверждений. По теме диссертации опубликовано 5 работ, две из которых ([22], [23]) - в изданиях, рекомендуемых Высшей аттестационной комиссией (ВАК) для публикации основных научных результатов.
Публикации [38], [40], [41] индексируются в базе данных Scopus. Вработе [23] диссертант построил новое решение для кооперативных дифференциальных игр с предписанной продолжительностью, обладающее свойствамисильной динамической устойчивостью - ПРД-ядро. В работе [41] диссертантомбыла построена модель кооперативных дифференциальных игр с динамическимобновлением информации и стохастическим прогнозом, для этого класса игрбыло получено решение и доказано свойство сильной ∆t-динамической устойчивости. В работе [38] диссертантом была сформулирована и решена задачаопределения в некотором смысле оптимального информационного горизонта.Основные результаты были представлены на семинарах кафедры математического моделирования энергетических систем, на семинарах Центра теорииигр, на международной конференции "Game Theory and Management"(СанктПетербург, 2015 и 2016 гг.), "Workshop on the Game Theory and Social14Choice"(Будапешт, 2015 г.), на XIII международной конференции "Устойчивость и колебания нелинейных систем управления"(Москва, 2016 год).Положения и результаты, выносимые на защиту.
На защиту выносятся следующие результаты, полученные в ходе диссертационного исследования:1. Определено новое решение для кооперативных дифференциальных игр,обладающее свойством сильной динамической устойчивости - сильно динамически устойчивое ПРД-ядро.2. Построены и исследованы новые математические модели дифференциальной игры с динамическим обновлением информации с предписанной и бесконечной продолжительностью, дифференциальной игры с динамическимобновлением информации и стохастическим прогнозом, дифференциальной игры со случайным обновлением информации.3.
Предложены конструктивные методы нахождения результирующего кооперативного решения в дифференциальных играх с динамическим обновлением информации с предписанной и бесконечной продолжительностью, дифференциальных играх с динамическим обновлением информации и стохастическим прогнозом, дифференциальных играх со случайнымобновлением информации.4. Предложена процедура построения характеристической функции в играхс динамическим обновлением информации на основе значений характеристических функций в усеченных подыграх.5.
Доказаны теоремы о сильной ∆t-динамической устойчивости в дифференциальных играх с динамическим обновлением информации с предписанной и бесконечной продолжительностью, дифференциальных играхс динамическим обновлением информации и стохастическим прогнозом,дифференциальных играх со случайным обновлением информации.6. Определена связь кооперативного решения в игре с динамическим обновлением информации и кооперативных решений (пропорциональное решение, вектор Шепли, C-ядро, сильно динамически устойчивое ПРД-ядро),в каждой усеченной подыгре.15ГЛАВА 1СИЛЬНО ДИНАМИЧЕСКИ УСТОЙЧИВОЕПРД-ЯДРО В КООПЕРАТИВНЫХДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С ПРЕДПИСАННОЙПРОДОЛЖИТЕЛЬНОСТЬЮ§ 1.Постановка задачиРассмотрим дифференциальную игру n лиц Γ(x0 , T − t0 ) с предписаннойпродолжительностью T − t0 и начальным состоянием x0 . Динамика игры задается системой обыкновенных дифференциальных уравнений:x ∈ Rn , ui ∈ Ui ⊂ compRk , t ∈ [t0 , T ],ẋ = f (x, u1 , . .
. , un ),(1.1)x(t0 ) = x0 ,для которой предполагаются выполненными условия существования, единственности и продолжимости решений для любого набора измеримых управлений u1 (·), . . . , un (·) [17].Пусть N = {1, . . . , n} - множество игроков. Выигрыш i-го игрока определяется следующим образом:∫TKi (x0 , T − t0 ; u1 , .
. . , un ) =hi (x(τ ), u1 (τ ), . . . , un (τ ))dτ,i = 1, . . . , n,t0гдеhi (x, u1 , . . . , un )x(t)-решениепредставляетзадачиКошисобойдлянепрерывнуюсистемы(1.1)прифункциюиуправленияхu(t) = (u1 (t), . . . , un (t)).Рассмотрим кооперативный вариант игры.
Пусть u∗ = (u∗1 , . . . , u∗n ) - набороптимальных управлений, который доставляет максимум суммарному выигрышу игроков:∗u = arg maxun∑i=1Ki (x0 , T − t0 ; u).(1.2)16Предполагаем, что на таком наборе достигается максимум в (1.2). Траекторию, соответствующую оптимальным управлениям u∗ = (u∗1 , . . .
, u∗n ) будемназывать кооперативной траекторией x∗ (t).C–ядро в кооперативной дифференциальной игре. Предположим,что в игре Γ(x0 , T − t0 ) характеристическая функция V (S; x0 , T − t0 ), S ⊂ Nпостроена каким-либо релевантным способом (см., например, [2]), для которойвыполнены условия супераддитивностиV (S1 ∪S2 ; x0 , T − t0 )≥V (S1 ; x0 , T − t0 ) + V (S2 ; x0 , T − t0 ),(1.3)∀ S1 , S2 ⊂ N, S1 ∩ S2 = ∅.Кооперативную игру Γ(x0 , T − t0 ) в форме характеристической функции V (S; x0 , T − t0 ), S⊆N будем обозначать как Γv (x0 , T − t0 ).Обозначим через E(x0 , T − t0 ) множество всех дележей [1] в игреΓv (x0 , T − t0 ), т.е.{E(x0 , T − t0 ) = ξ(x0 , T − t0 ) = {ξi (x0 , T − t0 ), i = 1, .
. . , n} :n∑ξi (x0 , T − t0 ) = V (N ; x0 , T − t0 ),}ξi (x0 , T − t0 ) ≥ V ({i}; x0 , T − t0 ), ,i=1гдеV ({i}; x0 , T−-t0 )значениехарактеристическойфункцииV (S; x0 , T − t0 ) для коалиции S = {i}.Для семейства подыгр Γ(x∗ (t), T − t), t ∈ [t0 , T ] вдоль кооперативной траектории x∗ (t) аналогичным образом введем дифференциируемую по t характеристическую функцию V (S; x∗ (t), T − t), S ⊆ N и определим Γv (x∗ (t), T − t). Множество дележей в подыгре Γv (x∗ (t), T −t) будем обозначать через E(x∗ (t), T −t):{∗E(x (t), T − t) = ξ(x∗ (t), T − t) = {ξi (x∗ (t), T − t), i = 1, .
. . , n} :n∑∗∗ξi (x (t), T −t) = V (N ; x (t), T −t),}ξi (x (t), T −t) ≥ V ({i}; x (t), T −t) .∗∗i=1(1.4)Выполнение свойства супераддитивности (1.3) для характеристическойфункции V (S; x∗ (t), T − t) гарантирует непустоту множества дележей17E(x∗ (t), T − t). В кооперативной теории игр одним из ключевых вопросов является проблема «справедливого» распределения суммарного максимальноговыигрыша V (N ; x0 , T − t0 ) между игроками из N = {1, .
. . , n}. Одними изнаиболее известных принципов оптимальности (кооперативных решений) являются C-ядро [1] и вектор Шепли [42], определение которых переносится накооперативные дифференциальные игры из кооперативной теории НейманаМоргенштерна (см. [1]) без изменений.C-ядро в подыгре Γv (x∗ (t), T − t) определим как подмножество множествадележей ξ(x∗ (t), T − t) ∈ C(x∗ (t), T − t) ⊂ E(x∗ (t), T − t), каждый из которыхудовлетворяет следующему условию ∀t ∈ [t0 , T ]:∑ξi (x∗ (t), T − t) ≥ V (S; x∗ (t), T − t),∀ S ⊆ N.(1.5)i∈SДля любого дележа ξ(x∗ (t), T − t) условие (1.5) может быть записано в следующем эквивалентном виде:∑ξi (x∗ (t), T −t) ≤ V (N ; x∗ (t), T −t)−V (N \S; x∗ (t), T −t),∀ S ⊆ N.
(1.6)i∈N \SНа основе введенной характеристической функции также может быть построен вектор Шепли Sh(x∗ (t), T − t) [42] для любой подыгры Γv (x∗ (t), T − t):Shi (x∗ (t), T − t) =)∑ (n − s)!(s − 1)! (∗∗=V (S; x (t), T − t) − V (S\{i}; x (t), T − t) . (1.7)n!S⊂Ni∈SВ отличие от C-ядра, вектор Шепли всегда может быть построен на основехарактеристической функции V (S; x0 , T − t0 ). Вопрос о непустоте С–ядра является важным вопросом в области кооперативных (статических) игр. В общемслучае, вектор Шепли не всегда принадлежит C-ядру.§ 2.О процедуре распределения дележейПри переносе результатов кооперативной (статической) теории в областьдифференциальных игр проблема поиска устойчивых принципов оптимально-18сти усложняется некоторыми дополнительными аспектами, возникающими вдинамике. В кооперативных дифференциальных играх для сохранения кооперации между игроками в течение всей игры одной супераддитивности характеристической функции V (S; x∗ (t), T − t) вдоль кооперативной траектории x∗ (t),t ∈ [t0 , T ] недостаточно.Данная проблема и способ ее решения для дифференциальных игр с предписанной продолжительностью была изучена в работах Л.А.
Петросяна [14],[17]. Приведем некоторые определения из [17]:Определение 1.2.1. (см. [17]) Набор функций {βi (τ ), τ ∈ [t0 , T ], i ∈ N }называется процедурой распределения дележа (ПРД) ξ(x0 , T − t0 ) ∈ E(x0 , T −t0 ), если∫Tξi (x0 , T − t0 ) =βi (τ )dτ,i ∈ N.t0Таким образом, ПРД определяет правило, согласно которому компонентыдележа ξ(x0 , T − t0 ) распределены во времени игры [t0 , T ].Определение 1.2.2.
(см. [17]) Принцип оптимальности C(x0 , T − t0 ) вигре Γv (x0 , T − t0 ) называется динамически устойчивым, если для каждогодележа ξ(x0 , T − t0 ) ∈ C(x0 , T − t0 ) существует ПРД β(t), t ∈ [t0 , T ], такая,что{∫}Tβi (τ )dτ∈ C(x∗ (t), T − t),t ∈ [t0 , T ],i ∈ N.tРанее было показано (см. [17]), что если C(x∗ (t), T − t) ̸= ∅ при∀t ∈ [t0 , T ], и существует дифференцируемый селектор ξ(x∗ (t), T − t) ∈C(x∗ (t), T − t) (ξ(x∗ (t0 ), T − t0 ) = ξ(x0 , T − t0 )), то принцип оптимальностиC(x0 , T − t0 ) является динамически устойчивым и ПРД β(t) определяется поформулеdξ(x∗ (t), T − t), t ∈ [t0 , T ],dtξ(x∗ (t0 ), T − t0 ) = ξ(x0 , T − t0 ).βi (t) = −i ∈ N,(2.1)19Тогда дележ ξ(x0 , T − t0 ) представим в виде∫ tξi (x0 , T − t0 ) =βi (τ )dτ + ξ(x∗ (t), T − t),t ∈ [t0 , T ].t0Предположим, что V (S; x∗ (t), T − t), S ⊂ N непрерывно дифференцируемаи не возрастает по t, t ∈ [t0 , T ].















