Теоретико-игровые методы принятия решений (Еремеев А. П.) (545581), страница 7
Текст из файла (страница 7)
Пусть также известно, что в интересующий период времени (например за рабочий день) отдел П может произвести продукции в объеме 5 или 10 машин, а отдел Т для ее перевозки выделить малую автоколонну (4 машины), большую автоколонну (7 машин), две малые автоколонны (8 машин) или одну большую и одну малую автоколонны (11 машин).
Моделью описанной ситуации может быть биматричная игра, представленная табл. 4.6.
Таблица 4.23
Т Пi | Т1(4) | Т2(7) | Т3(8) | Т4(11) |
П1 (5 машин) | (4a – b / 2; | (–5a; –7c) | (5a; –8c) | (5a; –11c) |
П2 (10 машин) | (4a – 3b; | (7a – 1,5b; | (8a – b; | (10a; –11c) |
Необходимо дать рекомендации руководителю отдела П о наиболее выгодном для него объеме производимой продукции (т.е. о выборе стратегии П1 или П2), учитывая, что отдел П заинтересован в максимизации своего дохода, а отдел Т – в минимизации своих затрат.
Для получения численных результатов примем a = 10, b = 6, c = 2. Тогда табл. 4.6 примет вид табл.4.7.
Таблица 4.24
Т Пi | Т1(4) | Т2(7) | Т3(8) | Т4(11) | |
П1 (5 машин) | 37; –11 | 50; –14 | 50; –16 | 50; –22 | 37 |
П2 (10 машин) | 22; –26 | 61; –23 | 74; –22 | 100; –22 | 22 |
Воспользуемся сначала методом максимина, ориентирующим руководителя отдела П на наиболее осторожное поведение. В этом случае оптимальной является стратегия П1, гарантирующая отделу П доход в 37 денежных единиц (см. последний столбец табл. 4.7). Учитывая интересы отдела Т (как видно из табл. 4.7, минимальные затраты для Т будут при выборе стратегии Т1), именно этот доход и будет получен отделом П.
Отметим, однако, что выбор стратегии П1 вряд ли является наилучшим для отдела П. Так, если он выберет стратегию П2 и сообщит о своем выборе руководителю отдела Т, то тот, руководствуясь интересами своего отдела, должен будет выбрать стратегии Т3 или Т4, что гарантирует доход отдела П в 74 или 100 денежных единиц. Более того, можно «стимулировать» отдел Т на выбор стратегии Т4, поделившись с ним в этом случае частью дохода, например в 10 денежных единиц (при этом доход отдела П составит 90 денежных единиц, а затраты отдела Т – всего 12 единиц). Именно так скооперировано и рекомендуется действовать руководителю отдела П.
Изменим несколько исходную ситуацию, повысив стоимость хранения не вывезенной продукции: a = 10, b = 10, c = 2. Получим соответствующую таблицу табл. 4.8.
Таблица 4.25
Т Пi | Т1(4) | Т2(7) | Т3(8) | Т4(11) | |
П1 (5 машин) | 35; –13 | 50; –14 | 50; –16 | 50; –22 | 35 |
П2 (10 машин) | 10; –38 | 55; –29 | 70; –26 | 100; –22 | 10 |
Хотя в этом случае минимально возможный доход для отдела П при выборе стратегии П1 в 3,5 раза больше, чем при выборе стратегии П2 (35 и 10 соответственно),однако и в этом случае лучше выбрать стратегию П2, проинформировав о своем решении руководителя отдела Т. Тот, руководствуясь интересами своего отдела, должен будет выбрать стратегию Т4 (соответствующую минимальным затратам отдела Т), что гарантирует доход отдела П в 100 денежных единиц. Заметим, что в этой ситуации в «стимулировании» отдела Т нет необходимости.
4.5.Контрольные вопросы к разделу 4
-
Определите игру двух лиц с произвольной суммой.
-
Дайте определение ситуации равновесия в биматричной игре.
-
Сформулируйте теорему 4.1.
-
Приведите примеры биматричных игр, к которым плохо применима теория Нэша.
-
Почему игра типа «семейный спор» объявляется неразрешимой по Нэшу?
-
Определите рефлексивную игру.
-
Кто выигрывает в рефлексивной игре?
-
Рассмотрите практический пример на использование биматричной игры.
-
Рассмотрите в приведенном примере биматричной игры случаи a = 10, b = 6, c = 5 и a = 10, b = 10, c = 5.
5.ОСНОВЫ ТЕОРИИ СТАТИСТИЧЕСКИХ РЕШЕНИЙ.
ИГРЫ С «ПРИРОДОЙ»
5.1.Определение игры «с природой»
Под игрой с «природой» понимается модель конфликтной ситуации, где в качестве одной из конфликтующих сторон выступает некая объективная реальность, называемая «природой», действия («поведение») которой может влиять на выбор другого игрока, принимающего решения и называемого ЛПР – лицом, принимающим решения.
Рассмотрим игру с природой G(mn), представленную в матричной форме (табл. 5.1).
Таблица 5.26
П Ai | П1 | … | Пj | … | Пn |
A1 | а11 | … | а1j | … | а1n |
… | … | … | … | … | … |
Ai | аi1 | … | аij | … | аin |
… | … | … | … | … | … |
Am | аm1 | … | аmj | … | аmn |
В табл. 5.1 аij, i = 1, …, m, j = 1, …, n, – выигрыш игрока А (ЛПР) при выборе им стратегии Аi в состоянии «природы» (условиях) Пj.
В играх с «природой» кроме выигрыша вводится также понятие риска, определяемое следующим образом.
Определение 5.1. Риском rij называется разность между выигрышем, который ЛПР получил бы, зная, в каких условиях Пj он принимает решение, и выигрышем, который он получит, не зная этих условий и выбирая стратегию Ai, т.е. .
Используя опр. 5.1, по матрице игры (выигрышей) G(mn) может быть построена матрица рисков R(mn), которая, как это будет показано ниже, также может быть применена для поиска оптимальной стратегии ЛПР. Матрица рисков R(34) для игры G(34) (табл. 5.2) представлена табл. 5.3.
Подчеркнем, что использовать методы решения антагонистических игр применительно к играм с «природой» нельзя, так как конфликтная ситуация имеет качественно иной характер из-за отсутствия сознательно противодействующего противника.
Таблица 5.27
G(34)
П Ai | П1 | П2 | П3 | П4 |
A1 | 1 | 4 | 5 | 9 |
A2 | 3 | 8 | 4 | 3 |
A3 | 4 | 6 | 6 | 2 |
Таблица 5.28
R(34)
П Ai | П1 | П2 | П3 | П4 |
A1 | 3 | 4 | 1 | 0 |
A2 | 1 | 0 | 2 | 6 |
A3 | 0 | 2 | 0 | 7 |
5.2.Методы решения игр «с природой»
5.2.1.Случай стохастической неопределенности
В случае стохастической неопределенности предполагаются известными вероятности qj состояний «природы» Пj, j = 1, …, n. Для поиска оптимального решения применяется критерий Лапласа, согласно которому оптимальной для ЛПР является та стратегия, которая максимизирует средний выигрыш ai:
Легко показать, что эта же стратегия будет минимизировать средний риск ri:
В качестве примера рассмотрим игру, матрицы выигрышей и рисков которой представлены табл. 5.2 и табл. 5.3 соответственно.