Диссертация (1145356), страница 35

Файл №1145356 Диссертация (Теоретико-игровые задачи со случайной продолжительностью) 35 страницаДиссертация (1145356) страница 352019-06-292019-06-29СтудИзба

Теоретико-игровые задачи со случайной продолжительностью

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 35)

Множество (¯чивый принцип оптимальности (ДУПО) в регуляризованной игре ¯ (¯0 ).Заметим, что введенная по формуле (8.4.37) ПРД обладает важным свойством осуществимости таких выплат — суммарные выплаты игрокам на каждом шаге в точности равны заработанной ими сумме:∑︁¯==1=∑︁=1∑︁ℎ (¯ )ℎ (¯ ),=∑︁=1∑︀ )=1 ℎ (¯ (, ¯ )∀ = 0, 1, 2, . . . , .=(8.4.41)=1Таким образом, при использовании выплат игрокам на каждом шаге по формуле (8.4.37), мы обеспечиваем динамическую устойчивость принципа опти-¯ 0 ) и при этом не требуются дополнительные инвестиции.мальности (¯8.5Регуляризация вектора Шепли и C-ядра в игре (0)Предположим, что в качестве принципа оптимальности (¯0 ) игроки выбраливектор Шепли (5.1.7).

В том случае, когда компоненты вектора Шепли не могут быть представлены в виде (8.2.21) при помощи неотрицательных выплатна каждом шаге (т.е. ПРД { }), требуется провести улучшение или регу-ляризацию вектора Шепли. Говоря другими словами, необходимо построитьнекоторый другой принцип оптимальности — регуляризованный вектор Шепли (РВШ), применяя который игроки не имели бы оснований для отклоненийот оптимальной траектории в течение всей игры. Справедлива следующаятеорема.Теорема 8.5.1. Вектор Шепли, вычисленный для характеристической функции ¯ (, ¯0 ), ⊆ (8.3.34), всегда динамически устойчив в игре ¯ (¯0 ).Глава 8.266Кооперативные многошаговые игры со случайным числом шаговДоказательство.

Доказательство данной теоремы аналогично доказательствуТеоремы 6.5.3 части II. Поскольку вектор Шепли вычисляется по формуле(5.1.7), то компоненты вектора Шепли в игре ¯ (¯0 ) с характеристическойфункцией ¯ (, ¯0 ) имеют вид:ℎ (¯0 ) =∑︁ ( − )!( − 1)!!⊂∈[¯ (, ¯0 ) − ¯ (∖{}, ¯0 )].(8.5.42)Из формул (8.3.34) и (8.5.42) получаем выражение для компонент регуляризованного вектора Шепли ℎ (¯0 ):¯ (0 ) =ℎ ∑︁∑︁( − )!( − 1)! ∑︁=0 =0!∑︀− (∖{}, ¯ )][ (, ¯ )−⊂ )=1 ℎ (¯ = (, ¯ )∑︀ ∑︁∑︁ℎ (¯ )ℎ (¯ ) =1 = .(,¯)=0=0Таким образом, РВШ имеет вид (8.4.35), который, согласно доказанной Теореме 8.4.1 означает динамическую устойчивость регуляризованного вектораШепли {ℎ (¯0 }.

Таким образом, вектор Шепли ℎ (¯0 ), вычисленный для характеристической функции ¯ (, ¯0 ), является динамически устойчивым.Согласно доказанной теореме, регуляризованный вектор Шепли может бытьпостроен как при помощи непосредственных вычислений нового вида ПРД(8.4.37), так и вычислен для новой характеристической функции ¯ (, ¯0 ) (8.3.34).Если игроки выбрали C-ядро в качестве принципа оптимальности, в соответствии с которым они собираются разделить ожидаемый выигрыш (, 0 ),справедлива следующая теорема. Везде далее предполагается, что (¯ ) ̸= ∅вдоль всей кооперативной траектории.^ 0 ) — C-ядро игры ¯ (0 ), построенное для хаТеорема 8.5.2. Пусть (рактеристической функции ¯ (, 0 ). Если изначально выбранный принципГлава 8.267Кооперативные многошаговые игры со случайным числом шаговоптимальности (0 ) является C-ядром (что означает, что∈ ∑︀≥¯ 0) (, ¯ ), ∀ ), то построенный на его основе принцип оптимальности (^ 0 ):будет принадлежать (¯ 0 ) ⊂ (^ 0 ).(Доказательство.

Доказательство аналогично доказательству Теоремы 6.5.2.^ 0 ) тогда и только тогда, когда выполненоДележ ¯ принадлежит С-ядру (следующее условие :∑︁¯ ≥ ¯ ( , ),∀ ⊂ .∈¯ 0 ) имеемВ то же время, для любого дележа ¯ ∈ (∑︁¯ = ∑︁∑︁ ∑︁∈ =0 =0∈∑︀=1 ℎ (·) (, ¯ ) .Т.к. (0 ) является C-ядром, должно выполняться неравенство∑︁ ≥ (, ¯ ),∀ ⊂ .∈Тогда ∑︁∑︁ ∑︁∑︀ ∑︁∑︁ℎ(·)ℎ (·)=1 ≥ (, ¯ ) =1 . (, ¯ )(,¯)=0∑︀∈ =0 =0=0Поскольку характеристическая функция ¯ (, 0 ) вычисляется по формуле(8.3.34)), получаем, что∑︁¯ ≥ ¯ (, 0 ),∈¯ 0 ) ⊂ (^ 0 ).Таким образом, (∀ ⊂ .Глава 8.8.6Кооперативные многошаговые игры со случайным числом шагов268Алгоритм регуляризации вектора Шеплив игре (0)Рассмотрим игру на конечном графе длины . Предположим, игроками былвыбран вектор Шепли в качестве решения игры. На основании представленнойвыше теории, приведем алгоритм регуляризации вектора Шепли.

Алгоритмможет быть использован для регуляризации любого классического ПО с соответствующими изменениями при вычислениях дележей.Этап 0. Вычисление вектора Шепли {ℎ } в игре (¯0 ).(1) Находим оптимальную траекторию ¯ как последовательность вершин¯0 , ¯1 , . . . , ¯ , которая соответствует набору стратегий ¯ = ({¯ 0 }, {¯ 1 }, .

. . ,{¯ }), максимизирующему совокупный ожидаемый выигрыш (8.1.4). Вдальнейшем для уменьшения громоздкости будем обозначать выбраннуюстратегию на шаге (в вершине ) как .(2) Вычисляем значение (, ¯0 ) по формуле (8.1.7).(3) Для вычисления (, ¯0 ) рассматриваются вспомогательные антагонистические игры на основе игры (0 ), где — первый, т.е. максимизи ,...,рующий игрок (применяет стратегию 0)а ∖ — минимизирующий ,...,игрок (стратегия 0 ∖ ). Соответственно, значения (, ¯0 ) для всевозможных ⊂ находятся по формулам (8.1.5).(4) Находим компоненты вектора Шепли по формуле (5.1.7) в игре (0 ).В общем случае дележ является некоторым распределением значения (, 0 ).Этап 1. Вычисление компонент вектора Шепли {ℎ } = 1, .

. . , во всехподыграх (¯ ), = 1, 2, . . . , .Глава 8.Кооперативные многошаговые игры со случайным числом шагов269(1) Рассмотрим семейство подыгр, в которое могут попасть игроки при сдвигена 1 шаг по оптимальной траектории ¯, т.е. подыгру (¯1 ), начинающуюся из вершины ¯1 . Тогда, поскольку для выражения (8.1.6) выполняетсяпринцип оптимальности Беллмана (8.1.12), усечение оптимальной траектории ¯1 , . . . , ¯ (а точнее, соответствующие им стратегии) будет обеспечивать максимизацию суммы ожидаемых выигрышей в подыгре (¯1 ): (, ¯1 ) =11 − 0(︃ ∑︁∑︁∑︁=1 =1)︃ℎ (¯ ) .(8.6.43)=1Также имеем следующий вид функциональных уравнений для нахождения (, ¯1 ), ⊂ :(︃ )︃∑︁ ∑︁∑︁1ℎ ( ) .minmax (, ¯1 ) =¯,...,¯,...,1 − 0 1 1∖ =1∈(8.6.44)=1Далее находим вектор Шепли ℎ1 (1 ) в подыгре (¯1 ) по формуле (5.1.7).(k) На шаге находим значения (, ¯ ), (, ¯ ), ⊂ по следующимформулам (8.1.11), (8.1.14).

Вектор Шепли вычисляется по формуле (5.1.7).(l) На последнем шаге находим значения (, ¯ ), (, ¯ ), ⊂ какзначения одновременной игры Γ(¯ ) и соответствующей ей одновременнойантагонистической игры. Вычисляем вектор Шепли.Этап 2. Проверка динамической устойчивости.Вычисление компонент ПРД по формулам (8.2.30).

В том случае, когда все являются неотрицательными величинами, построенный вектор Шепли ℎ (¯0 )является динамически устойчивым. Если это не так, переходим к следующемуэтапу.Этап 3. Построение регуляризованного вектора Шепли.(1) Вычисляем новые выплаты игрокам на каждом шаге ¯ по формуле (8.4.37),где соответствует -й компоненте вектора Шепли ℎ в подыгре (¯ ).Глава 8.270Кооперативные многошаговые игры со случайным числом шагов(2) Используя полученный результат для новой ПРД, вычисляем РВШ ℎпо формуле (8.2.15) (или (8.2.16). Таким образом,{︃¯ = {ℎ } =ℎ¯0 + ¯1 (1 − 0 ) + .

. . + ¯(︃1−−1∑︁)︃}︃=0,=1,...,(8.6.45)является динамически устойчивым принципом оптимальности.8.7Сильно динамически устойчивые принципы оптимальности.Согласно предложенному выше определению, динамическая устойчивость ПО¯ 0 ) в игре (¯(¯0 ) означает, что для каждого дележа ¯ ∈ ¯(¯0 ) существуеттакая ПРД { ≥ 0}, что если выплаты в каждой вершине ¯ оптимальной траектории ¯ = ¯0 , ¯1 , . . .

, ¯ , . . . , ¯ (для бесконечного графа 2 ¯ =¯0 , ¯1 , . . . , ¯ , . . .) производятся в соответствии с ПРД { }, то игроки будутожидать, что в каждой подыгре (если игра не закончится раньше) (¯ ) ониполучат величину {¯ }, которая является оптимальной в смысле изначаль-¯ 0 ) в игре (¯но выбранного принципа оптимальности (¯0 ). В прикладномаспекте более важным являлось бы следующее, более сильное свойство: приосуществлении выплат согласно ПРД { ≥ 0}, игроки, заработав сумму ()¯ ), оптимальдо некоторого шага , могли бы выбирать любой дележ ¯ ∈ (¯¯ 0 ), и при этом всеный в том же смысле, что и изначально выбранный (¯равно получать в игре (¯0 ) выплаты (не равные {¯ } в общем случае) в¯ 0 ).соответствии с некоторым дележом ′ , принадлежащим (¯¯ 0 ) назовем сильно динамическиОпределение 8.7.1.

Принцип оптимальности (¯¯ 0 ) существует такая (ПРД)устойчивым (СДУПО), если для любого ¯ ∈ (¯Глава 8.Кооперативные многошаговые игры со случайным числом шагов271,..., = { }=1,..., ≥0, что=1,...,{′= ∑︁∑︁ + (1 −−1∑︁=0 =0¯ (0) ), )¯ } ⊂ ((8.7.46)=0¯ ).для любого дележа ¯ ∈ (¯Используя обозначение ⊕ : [ ⊕ = ( + , ∈ )], имеем эквивалентноеопределение:{−1 ∑︁∑︁ ⊕ (1 −=0 =0−1∑︁¯ )} ⊂ (¯¯ 0 ), )(¯(8.7.47)=0{∞ ∑︁∑︁¯ 0 ). = ¯ } ∈ (¯(8.7.48)=0 =0Данное определение СДУПО означает, что любое продолжение выплат после шага (при условии, что игра продолжилась после него) в соответствии¯ ) также приведет к некоторым выплатамс некоторым вектором ¯ ∈ (¯в игре (¯0 ), удовлетворяющим первоначально выбранному принципу оп-¯ 0 ).

Вопрос о «быстрой» проверке динамически устойчивоготимальности (¯принципа оптимальности на предмет сильно динамической устойчивости остается открытым, поскольку равенство (8.7.46) должно выполняться для любойподыгры, начинающейся с шага = 1, 2, . . . , (а для бесконечного графа 2 = 1, 2, . . .) и любого дележа ¯ ∈ (¯ ). Здесь мы не можем вывести аналитического выражения, подобного (8.2.28). Тем не менее, для рассмотреннойдискретной задачи может быть сформулировано утверждение, аналогичноеТеореме 6.6.2 и Следствию 6.6.2 для случая абсолютно непрерывной случайной величины, позволяющее значительно сузить круг поисков ПРД, обеспечивающих сильную динамическую устойчивость.

Рассмотрение всех возможныхвариантов даже при условии конечности игры является очень трудоемким.Однако, если выбранный игроками принцип оптимальности не является даже динамически устойчивым, имеет смысл сразу ориентироваться на регу-Глава 8.272Кооперативные многошаговые игры со случайным числом шаговляризацию этого принципа, приводящую к его сильной динамической устойчивости.8.8Регуляризованные сильно динамически устойчивыепринципы оптимальности¯ 0 ) на основе некоторого (ПО) (¯Построим СДУПО (¯0 ). Пусть (¯ ) ̸= ∅для всех подыгр вдоль оптимальной траектории ¯.

Характеристики

Тип файла

PDF-файл

Размер

2,66 Mb

Материал

Теоретико-игровые задачи со случайной продолжительностью

Тип материала

Докторская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

teoretiko-igrovye-zadachi-so-sluchajnoj-prodolzhitelnostju.rar

Теоретико-игровые задачи со случайной продолжительностью

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.