Автореферат (1149839), страница 2
Текст из файла (страница 2)
В каждый момент времени управляющим параметром для каждого игрока является объём вредных выбросов () ∈ [0; ], ∈ , где = {1, . . . , }. Функции () предполагаютсякусочно-непрерывными функциями времени.Динамика изменения общего уровня загрязнения () задается дифференциальным уравнением˙ () =∑︁ ()=1с начальными условиями (0) = 0 ≥ 0.Функция плотности выигрыша игрока ∈ равна(︀)︀ℎ ( (), ()) = () − 1/2 () − (), > 0.В качестве распределения момента окончания игры выбирается распределение Вейбулла.
Функция распределения момента окончания имеет вид () = 1 − − , ≥ 0, > 0, > 0.Определяется функционал выигрыша для игроков, задаваемый математическим ожиданием:⎡⎤Z (︁)︁(︀)︀ (0, 0 , 1 , . . . , ) = E ⎣ ( ) − 1/2 ( ) − ( ) ⎦ , ∈ .09В параграфе 2.2 к построенной модели применяются результаты параграфа 1.2. Строятся оценки функционала выигрыша, которые позволяют показатьвыполнение полученных в теореме 1.2 достаточных условий. Выводится упрощенный вид функционала выигрыша:∞Z(︁ (0, 0 , 1 , . .
. , ) =)︁(︀)︀ () − 1/2 () − () − .0Параграф 2.3 посвящен построению равновесия по Нэшу в программныхстратегиях. В качестве необходимого условия применяется принцип максимумаПонтрягина, для нахождения максимума гамильтониана используются условияКуна-Таккера. Полученные решения анализируются при различных значенияхпараметров , распределения момента окончания игры.В параграфе 2.4 на основе рассматриваемой неантагонистической дифференциальной игры строится кооперативная дифференциальная игра.
Для определения характеристической функции (, , ), ⊆ используется нестандартный подход: полагается, что игроки, объединившиеся в коалицию , максимизируют свой суммарный выигрыш, а игроки, не входящие в коалицию ,придерживаются своих равновесных стратегий. При таком подходе следует дополнительно показать супераддитивность введенной характеристической функции.Утверждение 2.1. Характеристическая функция (, , ) удовлетворяетсвойству супераддитивности: ( ∪ , , ) ≥ (, , ) + (, , ), ≥ 0; , ⊂ , ∩ = ∅.В качестве принципа оптимальности рассматривается вектор Шепли. Предполагается, что в игре принимают участие три игрока = {1, 2, 3}, а параметры = для всех ∈ .
В этом случае компоненты вектора Шепли можно получить в явном виде:∑︁292 ( )( )ℎ (, ) = − ++− , ∈ , где = .2 22 2∈10Для обеспечения динамической устойчивости вектора Шепли вводится процедура распределения дележа (ПРД) () = { ()}∈ , ≥ 0. Для определенияПРД получено следующее соотношениеℎ (, ( ) ( )) ( )( ) ( ) =ℎ (, ( )) −.1 − ( )В явном виде ПРД имеет следующий вид(︂)︂92 92 92 () = − 0 − ( ) −− 2 ; ∈ , ≥ 0.+ +22Третья глава посвящена рассмотрению класса дифференциальных игрсо случайной продолжительностью и различными моментами выхода из игрыее участников.Рассматривается дифференциальная игра двух лиц Γ(0 , 0 ). Динамика игры задаётся системой обыкновенных дифференциальных уравнений в векторной форме:()˙= (, (), 1 , 2 ),(0 ) = 0 ,где ∈ , = (, ) ∈ ⊆ comp , (, , 1 , 2 ) ∈ . Далее полагаютсявыполненными следующие условия: функция (, , 1 , 2 ) непрерывна по своимагрументам и удовлетворяет условию Липшица по :‖(, ′ , 1 , 2 ) − (, ′′ , 1 , 2 )‖ ≤ 1 ‖′ − ′′ ‖,(1 = ),для всех ′ , ′′ ∈ , где ‖·‖ – евклидова норма; кроме того, для всех возможныхзначений , , 1 , 2 выполнено‖(, , 1 , 2 )‖ ≤ 2 (1 + ‖‖),(2 = ).Каждый игрок имеет свой собственный случайный момент выхода из игры, 1 и 2 соответственно.
Предполагается, что 1 и 2 независимые абсолютно11непрерывные случайные величины, функции распределения 1 (·), 2 (·) и плотности распределения 1 (·), 2 (·) которых известны обоим игрокам.После того, как первый по очереди игрок выходит из игры, для оставшегося игрока игра «переходит» в задачу оптимального управления со случайным моментом окончания. Выигрыш игрока в дифференциальной игре полагается равным математическому ожиданию суммы интегрального функционалаи некоторой выплаты Φ (, ), которую получает только игрок, дольше остающийся в игре. В частности, эта выплата может быть равна функции значения(функции Беллмана) в задаче оптимального управления.⎡Z (0 , 0 , 1 , 2 ) = E ⎣ ℎ (, , 1 , 2 )I[ < ] +0⎤Z, ∈ {1, 2} ( ̸= ),⎥ℎ (, , 1 , 2 )I[ > ] + Φ ( , ( ))I[ > ] ⎦ ,+(1)0где ℎ (, , 1 , 2 ) – плотность выигрыша игрока ∈ {1, 2}; I[·] – индикаторнаяфункция (равная единице при выполнении условия в скобках и нулю в противоположном случае), E[·] – математическое ожидание.Вводятся следующие обозначения: Ψ1 (1 , 2 ) =Rℎ ()I[ < ] +0+Rℎ ()I[ > ] , Ψ2 (1 , 2 ) = Φ ( , ( ))I[ > ] .
Далее предполагается, что0моменты выхода игроков из игры распределены на отрезке [0 , ).Лемма 3.1. Ожидаемый интегральный выигрыш игрока может быть представлен в виде:Z[︀]︀E Ψ1 (1 , 2 ) =ℎ ( )[1 − ( )][1 − ( )],0при этом выражение в правой части равноZ⎡min{Z 1 ,2 }⎢ℎ ( )[1 − ( )][1 − ( )] = E ⎣0⎤⎥ℎ ()⎦ .012Лемма 3.2. Ожидаемый терминальный выигрыш игрока может быть представлен в виде:Z[︀]︀E Ψ2 (1 , 2 ) =Φ (, ( )) ( )(1 − ( )).0Теорема 3.1. Ожидаемый выигрыш игрока (1) может быть представленв виде: (0 , 0 , 1 , 2 ) =Z(︁ℎ ( )(1 − ( ))+0)︁+Φ (, ( )) ( )(1 − ( )) ,, ∈ {1, 2} ( ̸= ),(2)где () – функция распределения случайной величины ℳ = min{1 , 2 }.Определение 3.1. Набор стратегий {* (, ) ∈ , = 1, 2} образует в игреΓ(0 , 0 ) состоятельное позиционное равновесие по Нэшу, если существуютфункции (, ) (аналоги функции Беллмана), определенные на [0 , ] × иудовлетворяющие следующим условиям1 (, ) = 0,Z(︁2 (, ) = 0;11 (, ) =(1 − 1 ())(1 − 2 ())ℎ1 (, *( ), 1* (, ), 2* (, ))[11(1 − 1 ())(1 − 2 ())Z(︁)︁− ( )] + Φ1 (, ( ))2 ( )(1 − 1 ( )) ≥*ℎ1 (, [1] ( ), 1 (, ), 2* (, ))[1 − ( )]+)︁+Φ1 (, ( ))2 ( )(1 − 1 ( )) ,[1]2 (, ) =Z(︁ℎ2 (, *( ), 1* (, ), 2* (, ))[1∀ ∈ [0 , ),1(1 − 1 ())(1 − 2 ()))︁− ( )] + Φ2 (, ( ))1 ( )(1 − 2 ( )) ≥*13Z(︁1≥ℎ2 (, [2] ( ), 1* (, ), 2 (, ))[1 − ( )]+(1 − 1 ())(1 − 2 ()))︁[2]+Φ2 (, ( ))1 ( )(1 − 2 ( )) , ∀ ∈ [0 , ),для всех (, ), = 1, 2.
При этом на промежутке [0 , ]:˙ * ( ) = (, * ( ), 1* (, ), 2* (, )),* () = ;˙ [1] ( ) = (, [1] ( ), 1 (, ), 2* (, )),[1] () = ;˙ [2] ( ) = (, [2] ( ), 1* (, ), 2 (, )),[2] () = .Теорема 3.3. Набор стратегий {* (, ) ∈ , = 1, 2} является состоятельным позиционным равновесием по Нэшу в игре Γ(0 , 0 ), если существуютнепрерывно-дифференцируемые функции (, ) : [0 , ] × ↦→ , ∈ {1, 2},удовлетворяющие системе дифференциальных уравнений в частных производных (3)-(4) с граничными условиями (5)1 ()2 () ]︁ 1 (, )+−=1 − 1 () 1 − 2 ()[︃1 (, )= max(, , 1 , 2* (, ))+1 ∈1]︃2 ()+ℎ1 (, , 1 , 2* (, )) + Φ1 (, );1 − 2 ()[︁ ()2 () ]︁ 2 (, )1−2 (, )+=1 − 1 () 1 − 2 ()[︃2 (, )= max(, , 1* (, ), 2 )+2 ∈2]︃1 ()+ℎ2 (, , 1* (, ), 2 ) + Φ2 (, ).1 − 1 ()[︁1 (, )1 (, ) = 0,2 (, ) = 0.(3)(4)(5)Отдельно рассматривается случай, когда игра Γ(0 , 0 ) после выхода одно14го из игроков сводится к задаче оптимального управления для другого игрока:⎧ ⎡⎤⎫Z⎨⎬max E ⎣ (, , ) ⎦ , ⎩⎭˙ = (, , ), ∈ {1, 2}.Теорема 3.4.
Набор стратегий {* (, ) ∈ , = 1, 2} является состоятельным позиционным равновесием по Нэшу в игре Γ(0 , 0 ), если существуютнепрерывно-дифференцируемые функции (, ) : [0 , ] × ↦→ , ∈ {1, 2},удовлетворяющие системе дифференциальных уравнений в частных производных (3)-(4) с граничными условиями (5), где Φ (, ), ∈ {1, 2} – функции,удовлетворяющие уравнениямΦ (, ) = 0,[︃]︃Φ (, )Φ (, )−+ Φ (, ) ( ) = max (, , ) + (, , ) , ∈ {1, 2}, ∈где () – функция интенсивности отказов для момента окончания управляемого процесса для игрока ∈ {1, 2}.Четвертая глава посвящена построению состоятельного позиционногоравновесия по Нэшу в дифференциальной игре со случайной продолжительностью, моделирующей совместную разработку невозобновляемого ресурса.В параграфе 4.1 строится модель дифференциальной игры.
В игре принимают участие два игрока – фирмы, ведущие совместную разработку невозобновляемого ресурса. Для каждой фирмы момент окончания разработки являетсяслучайной величиной. После окончания добычи ресурса одной из фирм, другаяпродолжает разработку до своего момента окончания.Параграф 4.2 посвящен решению задачи оптимального управления со случайной продолжительностью, в которую переходит дифференциальная игра после того, как одна из фирм прекращает разработку ресурса. Определяютсяфункция значения и оптимальное управление.15В параграфе 4.3 с учетом функции значения игрока в задаче оптимального управления определяется его функционал выигрыша в дифференциальнойигре.
Состоятельное позиционное равновесие по Нэшу в игре разработки невозобновляемого ресурса строится путем решения системы уравнений ГамильтонаЯкоби-Беллмана.В параграфе 4.4 полученные равновесные стратегии анализируются дляслучая усеченного экспоненциального распределения. Исследуется зависимостьоптимального поведения игроков от параметров распределения их моментовокончания разработки невозобновляемого ресурса. Проводится сравнение равновесия в игре в новой постановке и равновесия в дифференциальной игре сослучайным моментом окончания в общепринятой постановке.В Заключении приведены основные результаты, полученные в работе.Публикации автора по теме диссертации1. Костюнин С. Ю., Палестини A., Шевкопляс Е. В.
Об одной дифференциальной игре, моделирующей разработку невозобновляемого ресурса // Вестник С.-Петерб. ун-та. Сер 10: Прикладнаяматематика, информатика, процессы управления. 2013. Вып. 3.С. 73–82.2. Костюнин С. Ю., Шевкопляс Е. В. Об упрощении интегральноговыигрыша в дифференциальных играх со случайной продолжительностью // Вестник С.-Петерб. ун-та. Сер 10: Прикладнаяматематика, информатика, процессы управления. 2011. Вып. 4.С. 47–56.3. Костюнин С.















