Диссертация (1149783), страница 4
Текст из файла (страница 4)
Здесь же доказывается субаддитивностьвычисленной характеристической функции. В разделе 3.4 строится процедурараспределения совместного выигрыша на верхнем уровне. В качестве принципа оптимальности используется динамический вектор Шепли. Данный векторШепли также строится через сформированные коалиции и их возможные объединения. Далее определяется функция процедуры распределения выигрыша,и доказывается ее динамическая устойчивость (временная состоятельность) наверхнем уровне. В разделе 3.5 описана общая суть распределения выигрышавнутри каждой коалиции. Заданы основные формулы распределения совместного выигрыша. В разделе 3.6 описано построение и вычисление характеристической функции на нижнем уровне кооперации для всех возможных случаев.16В этом же разделе доказана субаддитивность вычисленной характеристическойфункции.
В разделе 3.7 описана процедура распределения совместного выигрыша внутри коалиции. В качестве принципа оптимальности используется дележ,пропорциональный динамическому вектору Шепли. Также в этом разделе доказана динамическая устойчивость (состоятельность во времени) построенногорешения на нижнем уровне.В заключении содержится краткий обзор полученных результатов.В диссертационной работе использована тройная нумерация формул. Первая цифра соответствует номеру главы, вторая является номером раздела вданной главе, третья – номером формулы в данном разделе. Подразделы также имеют тройную нумерацию, где первая цифра означает номер главы, вторая– номер раздела в главе, третья – номер подраздела в разделе.
Рисунки и таблицы имеют двойную нумерацию. Первая цифра обозначает номер главы, вторая– номер рисунка или таблицы в этой главе. Список литературы приведен валфавитном порядке.17Глава 1Модель некооперативной игры коалиций1.1Математическая модельРассмотрим дифференциальную игру Γ∆ x0 , T − t0 , в которой участвуют фирмы, разрабатывающие некоторую продукцию. Обозначим за N = {1, ..., n} множество фирм-участников. Главным параметром каждой фирмы i ∈ N являетсяее технологический уровень, который обозначим за xi ∈ R+ . Для простоты будем называть этот параметр просто уровнем технологии фирмы или состояниемфирмы.
На данный параметр наложено ограничение xi > 0. Игра начинаетсяиз начального состояния x0 = x01 , x02 , ..., x0n в момент t0 и продолжается период T − t0 , в течение которого фирмы получают определенный выигрыш отиспользования своей технологии. В момент T – момент окончания игры, фирмыполучают некоторый дополнительный выигрыш.Целью каждой фирмы является максимизация ее собственного выигрыша.Т.к. выигрыш растет с ростом уровня технологии, то фирма постоянно стремится повысить этот уровень, для чего инвестирует в развитие своей технологии.Уровень инвестиций фирмы i ∈ N в технологическое развитие, являющийся еестратегией в игре, обозначим за ui ∈ R+ .
Этот параметр будем также называтьуправлением фирмы.Развитие технологического уровня фирмы i ∈ N для простоты будем называть технологическми развитием. Оно описывается дифференциальным уравнением:ẋi (s) = αi [ui (s)xi (s)]1/2 − δxi (s)xi (t0 ) = x0i ,(1.1.1)i ∈ N,где xi (s) ∈ R+ – переменная состояния фирмы i; ui (s) ∈ R+ – переменная управления фирмы i; αi и δ – положительные константы. Величина αi [ui (s)xi (s)]1/218определяет прирост уровня технологии фирмы i, а величина δxi (s) – устаревание технологии.Обозначим правую часть уравнения (1.1.1) за fi [xi (s), ui (s)]. Считаем, чтона правые части наложены условия, гарантирующие существование, единственность и продолжимость решений для любых кусочно-непрерывных управленийui (s), s ∈ [t0 , T ], т.е.
fi [xi (s), ui (s)] непрерывна в области [t0 , T ] × [0, ∞) и удовлетворяет условию Липшица в этой области. Выигрыш фирмы i имеет вид:Hi x0i , T − t0 , ui =(1.1.2)ZThi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +=t0+ exp [−r(T − t0 )] qi [xi (T )]1/2 ,где подынтегральная функция определяется следующим образом:hi (s, xi (s), ui (s)) = Pi [xi (s)]1/2 − ci ui (s). Величины Pi , ci – положительныеконстанты; Pi [xi (s)]1/2 – операционная прибыль фирмы i в момент s; ci ui (s)– затраты на технологическое развитие фирмы i в момент s; exp [−r(t − t0 )] –функция, определяющая величину дисконта; r – известная постоянная величина, процентная ставка; qi [xi (T )]1/2 – терминальный выигрыш фирмы i в моментокончания игры T и в состоянии xi (T ); qi – положительная константа.Функции мгновенного и терминального выигрышей возрастают при возрастании уровня технологий xi (s).Предположим, что несколько фирм объединяются для максимизации совместного выигрыша.
За счет своих партнеров фирма-участник может получить дополнительные возможности в развитии, которые она не могла бы получить в одиночку. Поэтому уравнение, описывающее технологическое развитиефирм, изменяется. Рассмотрим коалицию K, образованную некоторым подмножеством фирм K ⊆ N . Уравнение технологического развития участников коа-19лиции принимает вид:Xẋi (s) = αi [ui (s)xi (s)]1/2 +[j,i]bj [xj (s)xi (s)]1/2 − δxi (s)(1.1.3)j∈K, j6=ixi (t0 ) = x0i ,[j,i]где bji ∈ K,≥ 0 – положительная константа, представляющая эффект передачитехнологии для фирмы i, осуществляемый фирмой j.
Обозначим правую частьуравнения (1.1.3) за fiK [xK (s), ui (s)], где xK (s) = {xi (s)}i∈K – набор состоянийучастников коалиции K. Уровень технологии каждой фирмы в коалиции Kоказывает положительный эффект на скорость технологического развития, т.е.выполняются условия ∂fiK [xK (s), ui (s)] /∂xj ≥ 0, j ∈ K, j 6= i. Синергетический эффект технологического развития фирмы i может быть получен за счетпередачи технологий от других фирм в коалиции K. Считаем, что на правыечасти (1.1.3) также наложены условия существования и единственности решения.Выигрыш коалиции K ⊆ N определяется как суммарный выигрыш всехигроков коалиции, т.е.XHi x0i , T − t0 , ui =(1.1.4)i∈K=XZThi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +i∈K t0+Xexp [−r(T − t0 )] qi [xi (T )]1/2i∈KДанная модель кооперативной дифференциальной игры была описана вмонографии Петросяна и Янга [41].Пусть ∆ = {K1 , K2 , ..., Km } – коалиционное разбиение игры.
Это означает,mmTSPчто Kl1 Kl2 = ∅, l1 6= l2,Kl = N , |Kl | = nl ,nl = n.l=1l=1Множество индексов разбиения {1, 2, ..., m} обозначим за M .20Динамика состояний участников коалиции Kl ⊂ ∆ описывается системойдифференциальных уравнений:1/2ẋi (s) = αi [ui (s)xi (s)]X+[j,i]bj [xj (s)xi (s)]1/2 − δxi (s)(1.1.5)j∈Kl , j6=ixi (t0 ) = x0i ,i ∈ KlВыигрыш коалиции Kl вычисляется как сумма выигрышей ее участников: XHKl x0Kl , T − t0 , uKl =Hi x0i , T − t0 , ui =(1.1.6)i∈Kl=XZTi∈Kl thi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +0+Xexp [−r(T − t0 )] qi [xi (T )]1/2i∈KlЗдесь uKl = {ui }i∈Kl – управление коалиции Kl ; xKl = {xi }i∈Kl – состояние коалиции Kl ; x0Kl = x0i i∈Kl – начальное состояние коалиции Kl .Будем считать, что коалиции выступают как отдельные игроки, участвуя вбескоалиционной игре Γ∆ x0 , T − t0 .
Выигрыш каждой коалиции равен суммевыигрышей ее участников и определяется из равновесия по Нэшу в игре коалиций. Полученный выигрыш коалиции распределяется между ее участниками всоответствии с некоторым принципом оптимальности.1.2∆Равновесие по Нэшу в игре Γ0x , T − t0В данной модели образование коалиций ведет лишь к изменению динамикиигры. Образованные коалиции никак не взаимодействуют между собой, следовательно, любая фирма i, не входящая в коалицию Kl , никак не влияет на ееразвитие. Поэтому в данном случае поиск равновесия по Нэшу вырождается вмаксимизацию коалиционного выигрыша каждым игроком-коалицией.21Коалиция Kl ⊂ ∆ стремится максимизировать свой выигрыш, определяемый формулой (1.1.6). При этом, динамика состояний участников коалицииопределяется из системы дифференциальных уравнений (1.1.5).Введем следующие обозначения:xKl (s) = {xi (s)}i∈Kl , l ∈ M – состояние коалиции Kl в момент s ∈ [t0 , T ],равное набору состояний ее участников; x0Kl = x0i i∈Kl – начальное состояние коалиции Kl ;uKl (s) = {ui (s)}i∈Kl , l ∈ M – управление коалиции Kl в момент s ∈ [t0 , T ],равное набору управлений ее участников;fiKl [xKl (s), ui (s)] = αi [ui (s)xi (s)]1/2 +P[j,i]bj [xj (s)xi (s)]1/2 − δxi (s) –j∈Kl , j6=iправые части уравнений, описывающих технологическое развитие участниковкоалиции Kl .Для нахождения равновесия по Нэшу в игре коалиций требуется решитьследующую систему задач оптимального управления :W (t0 )Kl t0 , x0Kl = max HKl x0Kl , T − t0 , uKl (t0 ) =uKl()XmaxHi x0i , T − t0 , ui (t0 ) , Kl ⊂ ∆uKl(1.2.1)i∈KlВозьмем конкретную задачу $ Kl , t0 , x0 которая максимизирует (1.1.6)при условии (1.1.5).
Решение данной задачи было описано Л.А. Петросяном иД. Янгом [41] с использованием методики динамического программирования.Для этого ими была введена в рассмотрение функция Беллмана, и доказанаследующая теорема:Теорема 1.2.1. Набор программных управлений {u∗K (t)} решает оптимизационную задачу $ K, t0 , x0 , если существует непрерывно дифференцируемаяфункция W (t0 )K (t, xK (t)) : [t0 , T ] × Πj∈K Rmj → R, являющаяся решением урав-22нения Беллмана:(t )K−Wt 0 (t, xK (t)) =( Z tX= maxgi (t, xi (t), ui (t)) exp −r(y)dy +uKt0i∈K)+XWx(ti 0 )K (t, xK (t)) fiK [xK (t), ui (t)]i∈KW(t0 )K(T, xK (T )) =X Zexp −Tr(y)dy qi (xi (T )) ,t0i∈Kгде gi (t, xi (t), ui (t)) – выигрыш фирмы i ∈ K в момент t ∈ [t0 , T ], дисконтированный на данный момент.Функция W (t0 )K (t, xK (t)) определяет максимальный выигрыш коалиции Kна временном промежутке [t, T ].
Используя теорему, можно показать, что: Z Texp −r(y)dy W (τ )K (t, xK (t)) = W (t)K (t, xK (t)) , t0 ≤ τ ≤ t ≤ Tτ∗(τ )∗(t)uK (t) = uK (t)В данном случае gi (t, xi (t), ui (t)) = hi (t, xi (t), ui (t)) = Pi [xi (t)]1/2 − ci ui (t);r – положительная константа; qi (xi (T )) = qi [xi (T )]1/2 . В качестве коалиции Kподставляем Kl . Уравнение Беллмана принимает следующий вид:(t0 )Kl−Wt(t, xKl (t)) =(1.2.2)(= maxuKlXhi (t, xi (t), ui (t)) exp [−r(t − t0 )] +i∈Kl)+XWx(ti 0 )Kl (t, xKl (t)) fiKl [xKl (t), uKl (t)]i∈KlW(t0 )Kl(T, xKl (T )) =Xexp [−r(T − t0 )] qi [xi (T )]1/2i∈KlЧтобы найти равновесие по Нэшу в игре, необходимо решить уравнение23(1.2.2). Обозначим выражение, стоящее под знаком максимума, за S (uKl ).S (uKl ) =Xhi (t, xi (t), ui (t)) exp [−r(t − t0 )] +i∈KXl+Wx(ti 0 )Kl (t, xKl (t)) fiKl [xKl (t), uKl (t)]i∈KlВозьмем частную производную S (uKl ) по ui , i ∈ Kl .αi [xi (t)]1/2∂S (uKl )(t0 )Kl= −ci exp [−r(T − t0 )] + Wxi(t, xKl (t))∂ui2 [ui (t)]1/2Получаем систему уравнений первого порядка: ∂S (uKl ) /∂ui = 0, i ∈ Kl .Решая данную систему, получаем:i2(αi )2 h (t0 )Kl(t, xKl (t)) exp [r(t − t0 )] xi (t),ui (t) =Wxi4(ci )2i ∈ Kl(1.2.3)Неотрицательность управления ui (t) следует из того, что xi (t) ∈ R+ .