Теоретико-игровые методы принятия решений (Еремеев А. П.) (545581), страница 4
Текст из файла (страница 4)
В полученной матрице снова проведём удаление, так как . Получим упрощенную игру G(22), представленную табл. 3.8.
Таблица 3.9
B Ai | B1 | B3 |
A1 | 4 | 2 |
A2 | 3 | 6 |
Нетрудно убедиться, что данная игра не имеет седловой точки и необходимо искать решение в смешанных стратегиях.
После упрощения игры следующим (основным) этапом является поиск оптимального решения в виде смешанных стратегий (SA, SB), применяя точные или приближенные методы.
3.3.2.Метод Лагранжа
Метод Лагранжа относится к точным методам решения матричных игр G(mm), т.е. имеющим квадратные матрицы (или приведенные к такому виду после упрощения).
Допустим, что игрок A использует смешанную стратегию SA = (p1, …, pm), а игрок B отвечает своей чистой стратегией Bi (i = 1, 2, …, m). Цена игры в таком случае равна . Если же игрок B также будет применять смешанную стратегию SB = (q1, …, qm), то итоговая цена игры будет равна
Для нахождения оптимального решения необходимо максимизировать значение V при ограничениях .
Составим функцию Лагранжа L = V + 1(p1 + … + pm – 1) + 2(q1 + … + qm – 1) и приравняем к нулю частные производные по всем аргументам: .
В результате получим следующую систему из (2m + 2) уравнений с (2m + 2) неизвестными:
Решение этой системы и даёт смешанные стратегии для обоих игроков.
Нетрудно заметить, что исходная система уравнений включает две независимые подсистемы (для pi, i = 1, …, m, 1 и qj, j = 1, …, m, 2 соответственно), состоящие из (m + 1) уравнений с (m + 1) неизвестными, решение которых и даст искомые вероятности pi и qj, а также после подстановки этих вероятностей в формулу (3.1) цену игры V.
В качестве примера рассмотрим игру G(22), представленную в общем виде табл. 3.9.
Таблица 3.10
B Ai | B1 | B2 |
A1 | a11 | a12 |
A2 | a21 | a22 |
V1 = a11p1 + a21p2, V2 = a12p1 + a22p2,
V = V1q1 + V2q2 = (a11p1 + a21p2)q1 + (a12p1 + a22p2)q2.
L = V + 1(p1 + p2 – 1) + 2(q1 + q2 – 1).
Приравняв к нулю частные производные функции Лагранжа по всем аргументам, получим следующую систему уравнений:
Решив данную систему получим следующие значения вероятностей:
Подставив полученные значения в выражение для V, получим цену игры.
Например, для игры G(22), представленной табл. 3.8, получим:
p1 = 0,6; p2 = 0,4; q1 = 0,8; q3 = 0,2; V = 3,6.
Можно также найти решение в общем виде для игры G(33) и т.д.
Приведем более универсальный и достаточно легко компьютеризируемый способ решения матричных игр методом Лагранжа.
Рассмотрим игру игры G(33) в общем виде, представленную табл. 3.10.
Таблица 3.11
B Ai | B1 | B2 | B3 |
A1 | a11 | a12 | a13 |
A2 | a21 | a22 | a23 |
A3 | a31 | a32 | a33 |
Для нахождения решения в смешанных стратегиях необходимо решить следующую систему уравнений:
Эту систему можно представить следующим образом:
Решением в общем виде представляется системой
Более конкретно:
Обозначив
k = – a11a22 + a11a32 + a11a23 – a11a33 + a21a12 – a21a32 –
– a21a13 + a21a33 – a31a12 + a31a22 + a31a13 – a31a23 –
– a12a23 + a12a33 + a22a13 – a22a33 – a32a13 + a32a23,
получим итоговое решение:
p1 = (– a21a32 + a21a33 + a31a22 – a31a23 – a22a33 + a32a23) / k
p2 = ( a11a32 – a11a33 – a31a12 + a31a13 + a12a33 – a32a13) / k
p3 = (– a11a22 + a11a23 + a21a12 – a21a13 – a12a23 + a22a13) / k
q1 = (– a12a23 + a12a33 + a22a13 – a22a33 – a32a13 + a32a23) / k
q2 = ( a11a23 – a11a33 – a21a13 + a21a33 + a31a13 – a31a23) / k
q3 = (– a11a22 + a11a32 + a21a12 – a21a32 – a31a12 + a31a22) / k
V = – |A| / |A1|,
где А — исходная матрица игры.
Данный подход легко применим для произвольной игры G(mm): строится матрица A1, далее, используя определители, записываются выражения для pi и qj, множитель знака для них будет равен (–1)m + i + 1.
3.3.3.Метод линейного программирования
Данный метод также относится к точным методам решения матричных игр и применим к игре G(mn) при условии, что все элементы матрицы игры aij, i = 1, …, m, j = 1, …, n, положительны (этого легко добиться прибавлением ко всем элементам матрицы положительной константы, большей, чем модуль наименьшего отрицательного элемента или нуля, если отрицательных элементов нет).
Рассмотрим ситуацию, когда игрок A применяет свою оптимальную смешанную стратегию, а игрок B последовательно отвечает своими чистыми стратегиями B1, …, Bn. Поскольку оптимальные стратегии обладают свойством устойчивости, то справедлива следующая система неравенств:
Введем новые переменные:
Система неравенств (3.2) теперь примет вид:
Так целью игры для игрока A является максимизация цены игры V, то получаем задачу линейного программирования:
при системе ограничений (3.3).
Решив эту задачу, найдем цену игры V и вероятности pi в оптимальной смешанной стратегии SA = (pi), i = 1,…,m, игрока A:
Аналогичные построения проводятся и для игрока B, учитывая, что целью игрока B является минимизация цены игры V.
В итоге получим следующую задачу линейного программирования:
при системе ограничений
Решив данную задачу, найдем вероятности qj в оптимальной смешанной стратегии SB = (qj), j = 1, …, n, игрока B.
В [5] доказано, что сформулированные задачи являются двойственными задачами линейного программирования, т.е. минимум линейной формы для одной из них совпадает с максимумом для другой. Для решения данных задач можно использовать, например, симплекс-метод.
3.3.4.Итерационный метод Брауна-Робинсона
Также универсальным, но менее трудоемким по сравнению с методом линейного программирования в плане затрат вычислительных ресурсов является приближенный метод Брауна-Робинсона. Данный итерационный метод предназначен для решения любой игры G(mn), не требуя никаких ограничений на элементы матрицы игры.
Метод базируется на многократном разыгрывании игры и подсчете верхней и нижней оценок цены игры с занесением результатов в таблицу специального вида (табл. 3.11):
Таблица 3.12
Каждая строка таблицы соответствует однократному розыгрышу игры (партии игры).
Поясним записи в соответствующих позициях:
-
k — номер партии (итерации);
-
i и j — номера стратегий, выбранных соответственно игроками A и B в данной партии;
-
B1, …, Bn — накопленный за k партий выигрыш игрока A при выборе им стратегии Ai в данной партии и ответе игроком B соответственно стратегиями B1, …, Bn;
-
A1, …, Am — накопленный за k партий выигрыш игрока A при выборе игроком B стратегии Bj в данной партии и ответе игроком A соответственно стратегиями A1, …, Am;
-
V —нижняя оценка цены игры (минимальный накопленный выигрыш, поделенный на k);
-
— верхняя оценка цены игры (максимальный накопленный выигрыш, поделенный на k);
В [6] доказано, что при k : V* V, ,
,