Главная » Просмотр файлов » Диссертация

Диссертация (1149189), страница 6

Файл №1149189 Диссертация (Кооперативные дифференциальные игры с динамическим обновлением информации) 6 страницаДиссертация (1149189) страница 62019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 6)

На интервалах [t0 +j∆t, t0 +j∆t + T ], j = 0, . . . , l (j = 0, . . . , +∞) строится игра. С помощью уравненийГамильтона–Якоби–Беллмана [32] можно определить кооперативное поведение(кооперативные стратегии, траекторию) в каждой подобной усеченной игре.Рисунок 2.1. Каждый овал показывает усеченную информацию, котораяизвестна игрокам в течение временного интервала [t0 + j∆t, t0 + (j + 1)∆t],j = 0, . . . , l.В течение первого временного интервала [t0 , t0 + ∆t] игроки имеют точную информацию о структуре игры на интервале [t0 , t0 + T ]. В момент времени t = t0 + ∆t информация об игре обновляется, и на втором интервале(t0 + ∆t,t0 + 2∆t] игроки имеют точную информацию о структуре игры на интервале (t0 + ∆t, t0 + ∆t + T ] и т.д.

Чтобы смоделировать подобный процесс введем следующее определение (Рис.2.1.). Обозначим xj,0 = x(t0 + j∆t), x0,0 = x0 .Определение 2.1.1. Пусть j = 0, . . . , l. Усеченная подыгра Γ̂j (xj,0 , t0 +j∆t, t0 + j∆t + T ) определена на временном интервале [t0 + j∆t, t0 + j∆t + T ]34следующим образом. На временном интервале [t0 +j∆t, t0 +j∆t+T ] уравнениядвижения, функция выигрыша в усеченной игре и исходной игре совпадают:ẋ = f (x, u1 , .

. . , un ),x(t0 + j∆t) = xj,0 ,t0 +j∆t+T∫Kij (xj,0 , t0 + j∆t, t0 + j∆t + T ; u) =hi (τ, x(τ ), u(τ ))e−r(τ −t0 ) dτ.(1.2)(1.3)t0 +j∆tПод исходной игрой в определении 2.1.1. будем понимать игру Γ(x0 , T − t0 ) спредписанной продолжительностью, тогда дискаунт фактор может приниматьнулевое значение r ≥ 0 и l =T∆t− 1, где T < +∞.

Либо игру Γ(x0 , t0 ) сбесконечной продолжительностью, тогда l = +∞ и дискаунт фактор r > 0. Дляигры с бесконечной продолжительностью предполагается также, что выигрышв игре (в любой усеченной подыгре) рассчитывается от момента времени t0 ; вформуле (1.3) дисконтирование выигрыша начинается с момента времени t0 .Рисунок 2.2. Поведение игроков в условиях усеченной информации можетбыть смоделировано с помощью набора усеченных подыгрΓ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . . .

, l.35§ 2.Решение кооперативной усеченной подыгрыРассмотрим усеченную кооперативную подыгру Γ̂j (xj,0 , t0 +j∆t, t0 +j∆t+T )на временном интервале [t0 + j∆t, t0 + j∆t + T ] с начальным условием x(t0 +j∆t) = xj,0 . В кооперативной постановке игрокам необходимо максимизироватьсуммарный выигрыш∑Kij (xj,0 , t0 + j∆t, t0 + j∆t + T ; uj ) =i∈N=∑t0 +j∆t+T∫hi (x(τ ), u(τ ))e−r(τ −t0 ) dτ (2.1)i∈N t +j∆t0при условииẋ = f (x, u1 , . . . , un ),(2.2)x(t0 + j∆t) = xj,0 .Это задача оптимального управления. Необходимые условия для ее решенияи соответствующие управления могут быть определены с помощью уравненияГамильтона-Якоби-Беллмана [32].

Обозначим максимальное значение суммарного выигрыша игроков (2.1) через W (j∆t) (t, x):}{∑ jjW (j∆t) (t, x) = maxK(x,t;u) ,iju(2.3)i∈Nгде x, t - начальные позиция и время подыгры усеченной игры Γ̂j (x, t, t0 + j∆t +T ).Теорема 2.2.1. Предположим, что существует непрерывно дифференцируемая функция W (j∆t) (t, x) : [t0 + j∆t, t0 + j∆t + T ] × Rm → R, удовлетворяющая следующей системе уравнений в частных производных:(j∆t)− Wt(t, x) == maxu{n∑}hi (t, x, u)e−r(τ −t0 ) + Wx(j∆t) (t, x)f (x, u1 , . . .

, un )(2.4)W (j∆t) (t0 + j∆t + T , x) = 0.(2.5)i=1при условии36Предположим, что максимум в (2.4) достигается при u = u∗j (t). Тогда u =u∗j (t) является оптимальным в задаче управления, определяемой (2.1), (2.2).Траекторию, соответствующую u = u∗j (t), будем называть кооперативнойи обозначать через x∗j (t).

В соответствии с рассматриваемым подходом в каждый момент времени игрокам доступна ограниченная информация о структуреигры Γ(x0 , T − t0 ) (Γ(x0 , t0 )). Этой информации недостаточно, чтобы определить кооперативное поведение для игроков во всей игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )).Вместо кооперативной траектории в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) будем строитьусловно кооперативную траекторию:Определение 2.2.1. Условно кооперативная траектория {x̂∗ (t)}Tt=t0∗({x̂∗ (t)}+∞t=t0 ) - это комбинация кооперативных траекторий xj (t) в усеченныхподыграх Γ̂j (xj,0 , t0 + j∆t, t0 + j∆t + T ):x∗0 (t) t ∈ [t0 , t0 + ∆t],···{x̂∗ (t)}lt=t0 = x∗j (t) t ∈ (t0 + j∆t, t0 + (j + 1)∆t],···x∗ (t) t ∈ (t + l∆t, t + (l + 1)∆t],00l(2.6)где для игры Γ(x0 , T −t0 ) с предписанной продолжительностью t0 +(l +1)∆t =T и T < ∞, а для игры Γ(x0 , t0 ) с бесконечной продолжительностью l = +∞и соответственно t0 + (l + 1)∆t = +∞.На временном интервале [t0 , t0 + ∆t] траектория x∗0 (t) является кооперативной в усеченной подыгре Γ̂0 (x0 , t0 , t0 + T ).

В момент времени t = t0 + ∆t впозиции x∗0 (t0 + ∆t) информация об игре обновляется. На временном интервале (t0 + ∆t, t0 + 2∆t] игроки двигаются вдоль кооперативной траектории x∗1 (t)в усеченной подыгре Γ̂1 (x∗0 (t0 + ∆t), t0 + ∆t, t0 + ∆t + T ). В момент времениt = t0 + j∆t в позиции x∗j−1 (t0 + j∆t) информация об игре обновляется. Условнокооперативная траектория x̂∗ (t) на временном интервале (t0 +j∆t, t0 +(j +1)∆t]определена, как комбинация частей кооперативных траекторий x∗j (t) в усеченных подыграх Γ̂j (x∗j−1 (t0 + j∆t), t0 + j∆t, t0 + j∆t + T ) (Рис. 2.3.). Введем сле-37дующие обозначения: x∗j,0 = x∗j−1 (t0 + j∆t) = x∗j (t0 + j∆t). Тогда усеченнаяподыгра может быть записана в следующем виде: Γ̂j (x∗j,0 , t0 + j∆t, t0 + j∆t + T ).Рисунок 2.3.

Условно кооперативная траектория {x̂∗ (t)}Tt=t0 определена, каккомбинация кооперативных траекторий x∗j (t) в усеченных подыграхΓ̂j (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) на интервалах (t0 + j∆t, t0 + (j + 1)∆t].Пунктирные линии отображают части кооперативных траекторий, которые неиспользуются игроками, т.е. которые не являются оптимальными в текущейусеченной подыгреКооперативная усеченная подыгра.Перейдем к рассмотрению ко-оперативной дифференциальной игры Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) и семейства подыгр Γ̂jv (x∗j (t), t, t0 + j∆t + T ) вдоль кооперативной траектории x∗j (t),∀t ∈ [t0 , T ] в форме характеристической функции.

Допустим, что в каждойусеченной подыгре Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) существует ситуация равноEENEвесия по Нэшу uN= (uNj1,j , . . . , un,j ). Тогда для каждой коалиции S ⊂ N иусеченной подыгры с номером j = 0, . . . , l (l = +∞ для исходной игры Γ(x0 , t0 ))определим значения характеристической функции так, как это сделано в [39]:38Vj (S; x∗j,0 , t, t0 + j∆t + T ) =0,S = {∅},∑ j ∗EmaxKi (xj (t), t, t0 + j∆t + T ; u∗j,S , uNj,N\S ), S ⊂ N,u,i∈Si=i∈SNEuj =u,j∈N \Sjn∑ jS = N. max Ki (x∗j (t), t, t0 + j∆t + T ; u∗j ),u(2.7)i=1В этом подходе предполагается, что фиксируется некоторая ситуация равновеEENEсия по Нэшу uN= (uN/ S,j1,j , .

. . , un,j ), игроки k, не входящие в коалицию k ∈Eиспользуют равновесные по Нэшу стратегии {uNk,j }, тогда как игроки из коа-лиции S максимизирует свой суммарный выигрыш.Любой дележ ξj (x∗j (t), t, t0 + j∆t + T ) в кооперативной усеченной подыгреΓ̂jv (x∗j , t, t0 + j∆t + T ) должен удовлетворять следующей системе неравенств∀i ∈ N :ξij (x∗j (t), t, t0 + j∆t + T ) ≥ Vj ({i}; x∗j (t), t, t0 + j∆t + T ),∑ jξi (x∗j (t), t, t0 + j∆t + T ) = Vj (N ; x∗j (t), t, t0 + j∆t + T ).i∈NОбозначим множество всевозможных дележей для усеченной подыгрыΓ̂jv (x∗j (t), t, t0 + j∆t + T ) через Ej (x∗j (t), t, t0 + j∆t + T ).

Предположим, что длякаждой усеченной подыгры определено непустое решение:Wj (x∗j , t, t0 + j∆t + T ) ⊂ Ej (x∗j (t), t, t0 + j∆t + T ).Это может быть C-ядро, НМ-решение, N-ядро или вектор Шепли.§ 3.Концепция решения в исходной игре с динамическим обновлением информацииЛогично предположить, что распределение суммарного выигрыша междуигроками в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) вдоль условно кооперативной траектории {x̂∗ (t)}Tt=t0 ({x̂∗ (t)}+∞t=t0 ) определено, как комбинация дележей на временныхинтервалах [t0 + j∆t, t0 + (j + 1)∆t], j = 0, . . . , l (j = 0, . .

. , +∞). Эту конструкцию будем называть новой концепцией решения.39Комбинация семейства множеств Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) не позволяет получить решение в игре Γ(x0 , T − t0 ) (Γ(x0 , t0 )) непосредственно.Для каждого j = 0, . . . , l (j = 0, . . . , +∞) решение в усеченной подыгреΓ̂jv (x∗j,0 , t0 +j∆t, t0 +j∆t+T ) определено для временного интервала [t0 +j∆t, t0 +j∆t + T ]. Но информация об игре обновляется с шагом ∆t, а использованиетакого решения на временном интервале [t0 + j∆t, t0 + (j + 1)∆t] не представляется возможным.

Необходимая часть решения может быть получена спомощью процедуры распределения дележа для каждой усеченной подыгры.ПРД также обеспечивает свойство динамической устойчивости новой концепции решения и возможность определять решения внутри временного интервала[t0 + j∆t, t0 + j∆t + T ].Длятого,(Γ(x0 , t0 ))чтобынеобходимопостроитьопределитьрешениеПРДдлявΓ(x0 , T− t0 )усеченныхподыгригревсехΓ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . .

. , l (j = 0, . . . , +∞). Обозначимсемейство подыгр для Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) вдоль кооперативной траектории x∗j (t) через Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), где t ∈ (t0 + j∆t, t0 + j∆t + T ]- начальный момент времени подыгры. Характеристическая функция вдольx∗j (t) в семействе подыгр Γ̂jv (x∗j (t), t, t0 + j∆t + T ) определена также, как и в(2.7).

Обозначим через Ej (x∗j (t), t, t0 + j∆t + T ) множество дележей в подыгреΓ̂jv (x∗j (t), t, t0 + j∆t + T ).Предположим, что в каждой усеченной подыгре Γ̂jv (x∗j,0 , t0 +j∆t, t0 +j∆t+T )решение Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ̸= ∅ вдоль кооперативной траектории x∗j (t) выбрано. Также предположим, что для любой усеченной подыгрыΓ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) в начальной позиции x∗j,0 выбран дележξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) ∈ Wj (x∗j,0 , t0 + j∆t, t0 + j∆t + T )и соответствующее ПРДβj (t, x∗j ) = [β1j (t, x∗j ), . .

. , βnj (t, x∗j )],t ∈ (t0 + j∆t, t0 + j∆t + T ],40что гарантирует динамическую устойчивость выбранного дележа [17]:ξj (x∗j,0 , t0 + j∆t, t0 + j∆t + T ) =t0 +j∆t+T∫βj (t, x∗j )e−r(τ −t0 ) dt.t0 +j∆tПРД βj (t, x∗j ) может быть получена путем дифференцирования дележаξtj (x∗j , t, t0 + j∆t + T ), соответствующая теорема представлена в [47]:Теорема 2.3.1. Если функция ξj (x∗j , t, t0 + j∆t + T ) является непрерывнодифференцируемой по t и x∗j , тогдаβj (t, x∗j )][j ∗= − ξt (xj , t, t0 + j∆t + T ) −[] []j∗∗ ∗j∗j− ξx∗j (xj , t, t0 + j∆t + T ) f xj , u1 (τ ), . . . , un (τ ) . (3.1)Новая концепция решения в игре Γ(x0 , T −t0 ) (Γ(x0 , t0 )) состоит из комбинации решений Wj (x∗j,0 , t0 +j∆t, t0 +j∆t+T ) (соответствующих ПРД) в усеченныхподыграх Γ̂jv (x∗j,0 , t0 + j∆t, t0 + j∆t + T ), j = 0, . . . , l (j = 0, .

Характеристики

Список файлов диссертации

Кооперативные дифференциальные игры с динамическим обновлением информации
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7026
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее