Диссертация (1152220), страница 58
Текст из файла (страница 58)
Теория игр позволяетвыбрать лучшие стратегии с учетом представлений о поступках участников и их ресурсах.Стратегическое взаимодействие государства и энергопредприятий не предполагаетнепременный проигрыш одного при победе другого. Результатом взаимодействия может статькак обоюдная польза, так и взаимный вред. Подобные исходы, где участники игры могутобоюдно извлекать выгоду или, наоборот, получать вред, в теории игр рассматриваются какигры с ненулевой суммой [153, 184].Взаимодействие государства и энергопредприятий осуществляется на различныхуровнях управления территориальным энергетическим комплексом и представляет собойиерархическую систему управления энергосистемой.
Решения принимаются не одновременно, апоследовательно, то есть имеются управляющий орган, определяющий правила игры, иуправляемые субъекты, которые принимают решения, исходя из установленных правил. Такаяигра с фиксированной последовательностью шагов называется иерархической. Согласованиеуправления на различных уровнях достигается решением данной задачи и нахождениемравновесия иерархически организованной системы управления, позволяющей обеспечитьнеобходимый уровень энергетической безопасности (рисунок 4.19). Решением является составпроизводственных мощностей энергосистемы, при котором достигается равновесие в игре.Субъект управленияверхнего уровняЦелевая функцияМножество решенийСубъект управлениянижнего уровняЦелевая функцияРавновесиеТерриториальныеорганыгосударственногоуправленияСнижениестоимостиэнергетическойпродукцииВарианты измененияпроизводственнойструктурыэнергосистемыПроизводственныеэнергопредприятияПовышениерентабельностипроизводстваСогласованнаяпроизводственнаяструктураэнергосистемыРисунок 4.19 – Теоретико-игровая задача определения наилучшей производственной структурытерриториальной общеэнергетической системыИсточник: разработано автором303Как видно, представленная задача задает фиксированный порядок ходов.
Первый ходделает территориальный орган государственного управления (центр), затем свои стратегиивыбирают производственные предприятия (агенты). В данном случае иерархическая играявляется наиболее адекватным средством описания задачи управления общеэнергетическойсистемой.В качестве базовой концепции решения иерархической игры обычно применяетсяпринцип максимального гарантированного результата (МГР), позволяющий устранитьнеопределенность решения задачи путем введения предположения, что неопределенныепараметры принимают наихудшие для игроков значения [230, 278].
Данная пессимистичностьМГР компенсируется возможностью анализа передачи информации между игроками.Пусть первый игрок представляет собой центр управления, выражая интересытерриториального органа государственного управления, а второй игрок является агентом,отражая интересы производственного энергопредприятия при реакции на принимаемыерешения центра. Тогда критерии эффективности (целевые функции, выигрыши) центрауправления (z1) и агента (z2) можно обозначить в виде:z1 f1 x1 , x2 (4.8)z2 f 2 x1 , x2 (4.9)где x1 , x2 - действия центра и агента соответственно, от которых зависят их функции выигрыша,из множеств действий X 10 , X 20 .Согласно иерархической игре центр управления имеет право первого хода. Его ходзаключается в выборе стратегии x .
Понятие стратегии отличается от понятия действия и, впервую очередь, связано с информированностью центра о поведении агента. Под стратегиейигрока будем понимать правило его поведения, другими словами, порядок выбора конкретногодействия в зависимости от содержания той информации, которую он получает в процессе игры.Простейшей стратегией центра является непосредственно выбор действия x1 , еслиотсутствует поступление информации о действиях агента или они не ожидаются в процессеигры.
Значительно более сложную представляет собой стратегия центра в виде выбора функцииx x2 , учитывающей информацию о действиях, поступающих от агента. Также стратегияцентра может заключаться в сообщении агенту информации о своем планируемом поведении взависимости от выбираемого действия агентом.Будемрассматриватьследующиепорядкипредставленные в таблице 4.5304взаимодействияцентраиагента,Таблица 4.5 – Порядок взаимодействия центра управления и агентаВид игрыГ1Поведение центра управления и агентаЦентр не получает информации от агента, и на первомходу его стратегия состоит в выборе некоторого*произвольного действия x1 . Осуществляя ход вторыми зная стратегию центра, агент выбирает стратегиюx x1* , максимизирующую его выигрышГ2Центр получает информацию от агента и на первомходу формирует стратегию x x2 , которую сообщаетагенту.
Агент на втором ходу в зависимости отсообщения центра выбирает стратегию x2 ( x1 ( x2 )) ,максимизирующую его выигрышГ3Центр просит агента сообщить ему свою стратегиюx2 x1 , основанную на ожидаемой агентоминформации о действии центра. Реализация правапервого хода центром состоит в сообщении агентустратегии x1 ( x2 ( x1 ))Источник: разработано авторомПринцип игрыИгра на основепринципагарантированногорезультата илиоптимизма(благожелательности)Стратегия центра –решение агента –решение центраСтратегия агента –решение центра –решение агентаРешение игры Г1 достигается на основе принципа максимального гарантированногорезультата или в соответствии с принципом благожелательности (равновесие Штакельберга).Пара действий ( x1* , x2* ) игроков будет являться равновесием, если для них выполняютсяусловия:принцип максимального гарантированного результата (агенту все равно, какое действиевыбрать из доступного множества, и центр ориентируется на наихудший случай): x1* Arg max f1 ( x1 , x2 )x1X10 , x2 R2 ( x1 ) ** x2 Arg min f 2 ( x1 , x2 )x2 R2 ( x1 )принципблагожелательности(агентвыбирает(4.10)измножествадействий,максимизирующих его целевую функцию, действие, наиболее выгодное для центра): x1* Arg max f1 ( x1 , x2 )x1X10 , x2 R2 ( x1 ) ** x2 Arg max f 2 ( x1 , x2 )x2 R2 ( x1 )(4.11)где R2 ( x1 ) – функция наилучшего ответа агента на действие центра управления.Равновесие согласно принципу максимального гарантированного результата отличаетсятем, что при определении оптимальной стратегии центра вычисляется минимум его целевой305функции по множеству ответов агента R2 ( x1 ) , а далее осуществляется ее максимизациявыбором действия центра:x2* Arg maxmin f 2 ( x1* , x2 )0x1X1 , x2 R2 ( x1 )(4.12)Агент выбирает действие в условиях полной информации, зная действие центра, с цельюполучения гарантированного результата.
Равновесное по Штакельбергу действие центра такжедает ему гарантированный результат, если агент выбирает свое действие в соответствии cпринципом благожелательности. Таким образом, равновесные стратегии, как центра, так иагента, являются для них гарантирующими.В ряде случаев решение игры Г1 не позволяет определить эффективное поведение центрауправления. В связи с этим, при наблюдении центром действия агента, он заинтересовансообщить агенту о своих планах по выбору действия в зависимости от действия агента. Такимобразом, реализуется игра Г2.Пусть центр, обладая правом первого хода, сообщает агенту план выбора своейстратегии x x ( x2 ) в зависимости от выбранной агентом стратегии x2 . После этого агентвыбирает действие x2 , максимизируя свою целевую функцию z 2 с подставленной в неестратегией центра.
Далее центр совершает действие x1 x2 .Если центр не удовлетворен действиями агента, то он формирует стратегию наказанияx1p x1p ( x2 ) в соответствии с условием:f 2 ( x1p ( x2 ), x2 ) min0 f 2 ( x1 , x2 )x1X1(4.13)Если стратегий наказания несколько, то из них выбирается такая, при которойдостигается максимум выигрыша центра управления. При этом гарантированный результатагента составит величину:G2 max0 f 2 ( x1p ( x2 ), x2 ) max0 min0 f 2 ( x1 , x2 )x2 X 2x2 X 2 x1X1(4.14)Множество действий агента, обеспечивающих ему максимальный выигрыш прииспользовании центром стратегии наказания можно определить как:R2 {x2 | f 2 ( x1p x2 , x2 ) G2 }(4.15)Множество сочетаний стратегий центра и агента, гарантирующих агенту результатбольший того, который он получит при наихудших для него действиях центра (применении имстратегии наказания) можно представить в виде:D {( x1 , x2 ) : f 2 ( , x2 ) G2 }306(4.16)Данное множество формирует договорное множество рассматриваемой игры или,другими словами, множество достижимости.Наилучший результат центра на множестве достижимости можно описать как:z1* sup f1 x1 , x2 (4.17)( x1 , x2 )DОпишем действие центра при выборе агентом действия из множества достижимости D ввиде:f1 ( x1 , x2 ) z1* , ( x1 , x2 ) D(4.18)В этом случае гарантированный результат центра при использовании им стратегиинаказания примет следующий вид:z1** inf sup f1 ( x1 , x2 )(4.19)x2 E2 x1X10Стратегия наказания центра ограничивает стратегии агента множеством E2.Доминантная стратегия x1 ( x2 ) реализует наилучший ответ центра на действие x2 агента:f1 ( x1 ( x2 )) sup f1 ( x1 , x2 ) (4.20)x1X10Наибольший гарантированный результат центра определяется как:z10 max z1* , z1**(4.21)При z1* z1** наилучшей является -оптимальная стратегия центра: x , х xx1 x2 1p 2 2 x1 х2 , x2 x2(4.22)При z1* z1** оптимальной стратегией центра будет являться применение оптимальнойстратегии наказания.Игра Г3 описывает более сложное поведение центра и агента.
Центр просит агентасообщить ему свою стратегиюx2 x2 ( x1 ) , которая основана на ожидаемой агентоминформации о действии центра. Реализация права первого хода центром в данном случаесостоит в сообщении агенту стратегии x1 ( x2 ( x1 )) . Эта стратегия интерпретируется, какобещание центра выбрать действие x1 ( x2 ( x1 )) при условии, что агент обещает выбрать своедействие x2 ( x1 ) . Игра Г3 является усложнением игры Г1. В обеих играх центр выбирает первыйход, не зная действия выбранного агентом.Таким образом, при увеличении порядка игры Гm увеличивается число шагов обменастратегиями между центром и агентом.