Главная » Просмотр файлов » Диссертация

Диссертация (1149189), страница 13

Файл №1149189 Диссертация (Кооперативные дифференциальные игры с динамическим обновлением информации) 13 страницаДиссертация (1149189) страница 132019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 13)

. . , l, здесь l =T∆t− 1, t0 < ∆t < Tзадает время между моментами обновления информации. В эти моменты игроки получают точную информацию об уравнениях движений и функции выигрыша на временном интервале [t0 + j∆t, T j ]. Однако, игроки точно не знаютдлительность этого интервала, т.к. T j является случайной величиной, но еераспределение известно. В течение первого временного интервала [t0 , t0 + ∆t]игроки имеют точную информацию о структуре игры на интервале [t0 , T 0 ], гдеT 0 - случайная величина, которая принимает значения из [t0 + ∆t, T ]. В моментвремени t = t0 + ∆t информация об игре обновляется и на втором интервале(t0 + ∆t,t0 + 2∆t], игроки имеют точную информацию о структуре игры на интервале (t0 + ∆t, T 1 ], где T 1 - случайная величина, которая принимает значенияиз [max(t0 +2∆t, T 0 ), T ]. Чтобы смоделировать такой процесс введем следующееопределение.

Обозначим xj,0 = x(t0 + j∆t).Определение 4.1.1. Пусть j = 0, . . . , l. Случайная усеченная подыграΓ̂j (xj,0 , t0 + j∆t) определена на интервале [t0 + j∆t, T j ], где T j - случайнаявеличина, которая принимает значения из [max(t0 + (j + 1)∆t, T j−1 ), T ], T j−1- реализация случайного информационного горизонта в случайной усеченнойподыгре Γ̂j−1 (xj−1,0 , t0 + (j − 1)∆t). Уравнения движения и функция выигрыша в случайной усеченной подыгре и исходной игре Γ(x0 , T − t0 ) на временном85интервале [t0 + j∆t, T j ] совпадают:ẋ = f (x, u1 , .

. . , un ),x(t0 + j∆t) = xj,0 .Функция выигрыша игрока i ∈ N имеет следующий вид:tT∫∫jKi (xj,0 , t0 + j∆t; u) =hi (x(τ ), u(τ ))dτ  dFj (t),t0 +j∆t(1.1)t0 +j∆tгде Fj (t) - это функция распределения случайной величины T j :∫T∫Tt0 +j∆tПредположим,что(1.2)dFj (t) = 1.dFj (t) =max(t0 +(j+1)∆t,T j−1 )реализацияслучайнойвеличиныT j−1вигреΓ̂j−1 (xj−1,0 , t0 + (j − 1)∆t) превышает время t = t0 + (j + 1)∆t:T j−1 > t0 + (j + 1)∆t,тогда значение случайного информационного горизонта T j должно превышатьреализацию T j−1 , т.к.

информация об игре уже известна на временном интервале [t0 +(j−1)∆t, T j−1 ]. Поэтому в формуле (1.2) вероятность того, что случайнаявеличина T j примет значение из интервала [t0 + j∆t, T j−1 ], равна нулю:max(t0 +(j+1)∆t,Tj−1 )∫dFj (t) = 0.t0 +j∆tВ большинстве статей, посвященных изучению кооперативных дифференциальных игр со случайной продолжительностью [44], [45], [16], функция распределения случайной величины T j определяется на бесконечном временноминтервале. В данной постановке T j принимает значения на конечном временном интервале, т.к. исходная игра определена на конечном интервале [t0 , T ].В соответствии с [10] формула для выигрыша игрока i ∈ N (1.1) для каждойслучайной усеченной подыгры Γ̂j (xj,0 , t0 + j∆t) может быть записана в следу-86ющем виде:∫TKij (xj,0 , t0 + j∆t; u) =t0 +j∆t∫thi (x(τ ), u(τ ))dτ  dFj (t) =t0 +j∆t∫T(1 − Fj (τ ))hi (x(τ ), u(τ ))dτ,=(1.3)t0 +j∆tгде Fj (t) = 0 для t ∈ [t0 + j∆t, max(t0 + (j + 1)∆t, T j−1 )).§ 2.РешениекооперативнойслучайнойусеченнойподыгрыРассмотрим усеченную случайную кооперативную подыгру Γ̂j (xj,0 , t0 + j∆t)на временном интервале [t0 + j∆t, T j ] с начальным условием x(t0 + j∆t) = xj,0 .В кооперативной постановке игрокам необходимо максимизировать суммарныйвыигрышn∑Kij (xj,0 , t0i=1+ j∆t; uj ) =∫Tn∑(1 − Fj (τ ))hi (x(τ ), u(τ ))dτ(2.1)x(t0 + j∆t) = xj,0 .(2.2)i=1 t +j∆t0при условииẋ = f (x, u1 , .

. . , un ),Это задача оптимального управления. Необходимые условия для ее решенияи соответствующие управления могут быть определены с помощью уравненияГамильтона-Якоби-Беллмана [45]. Обозначим максимальное значение суммарного выигрыша игроков (2.1) через W (j∆t) (t, x):{}∑ jjW (j∆t) (t, x) = maxK(x,t;u) ,ijui∈Nгде x, t - начальная позиция и время начала подыгры усеченной игры Γ̂j (x, t).Теорема 4.2.1. Предположим, что существует непрерывно дифференцируемая функция W (j∆t) (t, x) : [t0 + j∆t, T j ] × Rm → R, удовлетворяющая сле-87дующей системе уравнений в частных производныхfj (t)(j∆t)W (j∆t) (t, x) = Wt(t, x)+1 − Fj (t)}{ n∑+ maxhi (x, u) + Wx(j∆t) (t, x)f (x, u1 , . . .

, un ) (2.3)ui=1при условииlim W (j∆t) (t, x) = 0,t→Tгде fj (t) - функция плотности для случайной величины T j (1.2). Предположим, что максимум в (2.3) достигается при u = u∗j (t). Тогда u = u∗j (t)является оптимальным в задаче управления, определяемой (2.1), (2.2).Траекторию, соответствующую u = u∗j (t), будем называть кооперативной иобозначать через x∗j (t). Условно кооперативную траекторию {x̂∗ (t)}Tt=t0 во всейигре Γ(x0 , T − t0 ) определим так же, как и в главе 2:{x̂∗ (t)}lt=t0 = x∗j (t),t ∈ (t0 + j∆t, t0 + (j + 1)∆t],где j = 0, .

. . , l и t0 + (l + 1)∆t = T . Введем следующие обозначения: x∗j,0 =x∗j−1 (t0 + j∆t) = x∗j (t0 + j∆t).Кооперативная случайная усеченная подыгра. Перейдем к рассмотрению кооперативной дифференциальной игры Γ̂jv (x∗j,0 , t0 + j∆t) и семействаподыгр Γ̂jv (x∗j (t), t) вдоль кооперативной траектории x∗j (t), ∀t ∈ [t0 , T ] в форме характеристической функции. Для каждой коалиции S ⊂ N и усеченной подыгры с номером j = 0, . . . , l определим значения характеристическойфункции Vj (S; x∗j (t), t) так, как это сделано в главе 2 и [39]. В этом подходе предполагается, что фиксируется некоторая ситуация равновесия по НэшуEENEuN= (uN/ S, используj1,j , . .

. , un,j ), игроки k, не входящие в коалицию k ∈Eют равновесные по Нэшу стратегии {uNk,j }, тогда как игроки из коалиции Sмаксимизирует свой суммарный выигрыш.Определим дележ ξj (x∗j (t), t) для каждой кооперативной случайной усеченной подыгры Γ̂jv (x∗j (t), t). Обозначим множество всевозможных дележей для усеченной подыгры Γ̂jv (x∗j (t), t) через Ej (x∗j (t), t).88§ 3.Концепция решения в исходной игре со случайным обновлением информацииВ качестве принципа оптимальностиWj (x∗j (t), t) ⊂ Ej (x∗j (t), t).В каждой случайной усеченной подыгре Γ̂jv (x∗j (t), t) будем использовать аналогсильно динамически устойчивое ПРД-ядро C j (x∗j (t), t) определенного в главе 1для случая игры с предписанной продолжительностью [23].

Переформулируемэто решение для случая игр со случайной продолжительностью, но сначалавведем понятие ПРД для игр со случайной продолжительностью.Определение 4.3.1. Функция βj (t, x∗j ), t ∈ [t0 + j∆t, T j ] называется процедурой распределения дележа ξj (x∗j,0 , t0 + j∆t) ∈ Ej (x∗j,0 , t0 + j∆t), если выполняетсяξj (x∗j,0 , t0∫T+ j∆t) =(1 − Fj (τ ))βj (t, x∗j (t))dτ.t0 +j∆tПредположим, что функция Vj (S; x∗j (t), t) является непрерывно дифференцируемой по t, t ∈ [t0 +j∆t, T ]. Далее определим следующее множество векторовBj (t, x∗j ):Bj (t, x∗j ){= βj (t) = (β1j (t), . .

. , βnj (t)) :]d [−Vj (S; x∗j (t), t) − Vj (N \ S; x∗j (t), t) ≥dt∑]d [≥(1 − Fj (t))βij (t, x∗j (t)) ≥ −Vj (S; x∗j (t), t) ,dti∈S}∑]d [j∗∗Vj (N ; xj (t), t) , ∀S ⊂ N (. 3.1)(1 − Fj (t))βi (t, xj (t)) = −dti∈NПредположим, что Bj (t, x∗j ) ̸= ∅, j = 0, . . . , l. Тогда с помощью множества Bj (t, x∗j ) можно определить следующее множество векторов C j (x∗j (t), t)(3.1), ПРД βj (t, x∗j (t)) каждого из которых принадлежит множеству Bj (t, x∗j ).В условиях постановки игры в главы 1 и в [23] было показано, что это множество является подмножеством C-ядра, это означает, что каждый элемент89ξj (x∗j (t), t) ∈ C j (x∗j (t), t) этого множества является дележом.

Также было доказано свойство сильной динамической устойчивости этого принципа оптимальности.Перейдем к определению решения в игре Γ(x0 , T − t0 ) со случайным обновлением информации. Для того, чтобы построить такое решение будем использовать семейство множеств Bj (t, x∗j ), j = 0, .

. . , l. Сначала мы построимрезультирующее множество ПРД для всей игры Γ(x0 , T − t0 ) следующим образом: для каждого набора βj (t, x∗j ) ∈ Bj (t, x∗j ), j = 0, . . . , l мы определяемфункцию β̂(t, x̂∗ ), которая будет использоваться в результирующем ПРД длявсей игры (также, как это было сделано в главе 2):β̂(t, x̂∗ ) = (1 − Fj (t))βj (t, x∗j ),t ∈ [t0 + j∆t, (j + 1)∆t],(3.2)где βj (t, x∗j ) ∈ Bj (t, x∗j ), j = 0, . . . , l.

Множество всевозможных функций β̂(t, x̂∗ )(3.2) для разных βj (t, x∗j ) ∈ Bj (t, x∗j ), j = 0, . . . , l мы обозначим через B̂(t, x̂∗ ).Функция β̂(t, x̂∗ ) ∈ B̂(t) определяет следующий результирующий векторˆ ∗ (t), T − t). Пусть t ∈ [t0 + j∆t, t0 + (j + 1)∆t], тогда положим:ξ(x̂t0 +(m+1)∆t∫T∫l∑ ∗∗ˆξ(x̂ (t), T −t) = β̂(τ, x̂ (τ ))dτ =(1 − Fm (t))βm (τ, x∗m (τ ))dτ  +tm=j+1+t0 +m∆tt0 +(j+1)∆t∫(1 − Fj (t))βj (τ, x∗j (τ ))dτ  (3.3)tдля j = 0, . . . , l. Обозначим через Ŵ (x0 , T − t0 ) множество всех векторовˆ 0 , T − t0 ), построенных на основе (3.2), (3.3).

В игре Γ(x0 , T − t0 ) со слуξ(xчайным обновлением информации будем использовать Ŵ (x0 , T − t0 ) в качестверешения и будем называет его результирующим решением.Результирующее решение Ŵ (x0 , T − t0 ) является динамически устойчивымпо построению. Оказывается, что Ŵ (x0 , T − t0 ) обладает также свойством сильной динамической устойчивости.Теорема 4.3.1. Пусть Ŵ (x̂∗ (t), T − t) ̸= ∅, тогда результирующее решение Ŵ (x0 , T −t0 ) является сильно динамически устойчивым в игре Γ(x0 , T −t0 )90со случайным обновлением информации.Доказательство. Предположим, что в игре Γ(x0 , T − t0 ) со случайнымобновлением информации игроки согласились выбрать результирующий векˆ 0 , T − t0 ) ∈ Ŵ (x0 , T − t0 ).

Это означает, что в течение игры, в кажтор ξ(xдой кооперативной случайной усеченной подыгре Γ̂jv (x∗j,0 , t0 + j∆t) они будутвыбирать дележ ξj (x∗j,0 , t0 + j∆t) ∈ C j (x∗j,0 , t0 + j∆t) с соответствующим ПРДβj (t, x∗j ) ∈ Bj (t, x∗j ), t ∈ [t0 +j∆t, T ]. Таким образом, в каждой усеченной подыгре игроки будут использовать ПРД β̂(t, x̂∗ ) = βj (t, x∗j ) и распределять выигрышмежду собой следующим образом:∫T∗β̂(τ, x̂ (τ ))dτ =l ∫∑j=0t0t0 +(j+1)∆t(1 − Fj (t))βj (t, x∗j )dt,t0 +j∆tгде t ∈ [t0 + j∆t, t0 + (j + 1)∆t], β̂(t, x̂∗ ) ∈ B̂(t, x̂∗ ).Предположим, что в момент времени t = tbr , где tbr ∈ [t0 + k∆t, T ],k = 0, .

Характеристики

Список файлов диссертации

Кооперативные дифференциальные игры с динамическим обновлением информации
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7021
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее