Методы принятия решения Лекции, страница 2
Описание файла
Документ из архива "Методы принятия решения Лекции", который расположен в категории "". Всё это находится в предмете "теория принятия решений (тпр)" из 6 семестр, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "теория принятия решений" в общих файлах.
Онлайн просмотр документа "Методы принятия решения Лекции"
Текст 2 страницы из документа "Методы принятия решения Лекции"
Совершенно аналогично производится обработка элементов «дерева целей», лежащих левее ранее обработанных, в которых действует вероятностный механизм, т.е. определяются соответствующие значения математических ожиданий.
1.3. Метод решения. Процедура свертывания.
В «дереве целей», кроме вершин, соответствующих вероятностному механизму и обозначаемых «кружочками», имеются вершины, соответствующие моментам выбора лучшего варианта развития событий человеком. Такие вершины в «дереве целей» обозначаются с помощью «квадратиков».
При обработке таких вершин (обработка, как сказано выше, всегда ведется справа налево) из возможных вариантов, которые существуют для данного узла, и которые к моменту обработки уже получили приведенную оценку «дохода», человеком выбирается «лучший вариант». «Лучший вариант» определяется для каждого из рассматриваемых узлов (обозначаемых квадратиками) максимальным значением «дохода» из всех возможных для узла.
Пошаговая картина обработки «дерева целей», соответствующего варианту Е1 нашей задачи, представлена на рис.2. Полная обработка веток «дерева целей» для этого варианта дает оценку дохода, составляющего 27.2 условных единиц.
Аналогичный анализ необходимо провести для всех оставшихся вариантов рассматриваемой задачи Е0, Е2, ЕЗ. В результате получим следующие результаты:
Е0 - 28 условных единиц
El - 27.2 условных единиц
Е2 - 30.4 условных единиц
Е3 - 31.15 условных единиц.
На основании полученных результатов, проводя последнюю процедуру свертывания, следует выбрать вариант Е3.
Таким образом, человек, которому предлагается принять участие в нашей игре, должен принять решение - играть по варианту Е3.
Рассмотренный метод отличается простотой и прозрачностью используемых идей и математического аппарата. Он легок в освоении и использовании. Вместе с тем его успешно можно использовать для достаточно нетривиальных содержательных задач. В рамках курсовой работы по дисциплине «Математические методы принятия решений» студентам МГАПИ предлагается самостоятельно придумать и решить содержательную задачу на принятие решений. Имеются достаточно интересные практические задачи, которые успешно решены с помощью рассмотренного метода.
2. Игровые методы обоснования решений
Особый, очень большой и разнообразный класс составляют задачи на принятие решений в условиях неопределенности, когда имеется сознательное противодействие «противника». Эти задачи характеризуются тем, что в них участвуют две или более конкурирующих стороны, преследующие противоположные цели (конфликтные ситуации).
Методы решения таких задач достаточно сложны и рассматриваются в специальном разделе математики - Теория игр.
Считаем необходимым в рамках нашего курса познакомиться с основными идеями и подходами к решению задач такого типа.
Введем некоторые понятия и определения:
Игра - упрощенная схематизированная модель конфликтной ситуации, где конкурирующие стороны соблюдают некоторые правила игры.
Правила игры регламентируют:
• возможные варианты действия игроков
• объем информации каждой стороны о поведении другой стороны
• результат игры, к которому приводит любая совокупность ходов (чаще всего результат игры характеризуется числовой величиной)
Игра развивается во времени, т.е. имеется последовательность действий игроков (игроки делают свои ходы).
Ход - выбор одного из предусмотренных правилами игры действий и его осуществление.
Различают личные и случайные ходы.
Личный ход - сознательный выбор одного из возможных действий и его осуществление.
Случайный ход - выбор из числа возможностей, осуществляемый с помощью механизма случайного выбора (бросание монеты, выбор карты и т.д.) в соответствии с законом распределения.
Стратегия игрока - совокупность правил, определяющих выбор варианта действий при каждом личном ходе в зависимости от ситуации, сложившейся в процессе игры.
Если число стратегий конечное, то считается, что игра - конечная.
Оптимальная стратегия - стратегия, которая при многократном повторении игры обеспечивает данному игроку максимально возможный средний выигрыш (минимально возможный средний проигрыш).
2.1. Платежная матрица
Для проведения простейшего анализа игровых задач на принятие решения используется так называемая платежная матрица.
Рассмотрим конечную игру, в которой участвуют два игрока А и В. Игрок А имеет m стратегий (Al, A2, ..., Am), а игрок В - n стратегий (Bl, B2, ..., Вn).
Предположим, что при выборе игроком А стратегии Ai и игроком В стратегии Bj игрок А получает выигрыш aij. Тогда можно составить платежную матрицу, в которой строки соответствуют стратегиям игрока А, столбцы - стратегиям игрока В, а элементы матрицы - соответствующим выигрышам игрока А.
B1 | B2 | • • • | Вn | |
A1 | a11 | а12 | ... | а1n |
A2 | а21 | а22 | • • • | а2n |
... | ... | ... | ... | ... |
Am | am1 | аm2 | аmn |
Рассмотрим простой пример (Игра «поиск»).
Игрок А - прячется, игрок В - ищет игрока А. В распоряжении игрока А есть два убежища. Если игрок В «находит» игрока А (с одной попытки), то игрок А платит ему 1 руб. Если Игрок В не «находит» игрока А, то он платит игроку А 1руб. Платежная матрица для такой игры будет иметь вид:
B1 | B2 | |
A1 | -1 | 1 |
A2 | 1 | -1 |
Анализ этой простой игры показывает, что, используя платежную матрицу, можно получить далеко нетривиальные выводы:
• если играть только один раз, то вообще нельзя говорить об оптимальной стратегии
• если играть многократно, то игроку А нельзя придерживаться какой-либо одной стратегии или чередовать их в каком-либо определенном порядке. В этом случае игрок В со временем поймет закономерность использования стратегий и начнет постоянно выигрывать.
• игроку А необходимо использовать случайный механизм выбора стратегий (стратегии A1 и A2 должны быть равновероятны).
В нашем примере игрок А должен использовать «смешанную стратегию», когда отдельные чистые стратегии (Al, A2) чередуются случайным образом.
Пример 2 (Игра «Пальцы»).
Игроки А и В «выбрасывают» одновременно до 3-х (1, 2 или 3) пальцев. Игрок А выигрывает (величина выигрыша равна сумме «выброшенных» пальцев), если сумма четная и соответственно проигрывает, если сумма - нечетная. Для данной игры платежная матрица имеет вид:
В1 | В2 | В3 | |
A1 | 2 | -3 | 4 |
A2 | -3 | 4 | -5 |
A3 | 4 | -5 | 6 |
Анализ этой платежной матрицы позволяет заключить:
• для каждой стратегии игрока А у игрока В есть лучшая стратегия (для A1 - В2, для A2 - ВЗ, для A3 - В2)
• аналогично у игрока А есть лучшая стратегия игры против игрока В
• игрокам А и В необходимо пользоваться «смешанными стратегиями»
2.2. Нижняя и верхняя цена игры. Принцип минимакса
Рассмотрим некоторую игру, определяемую нижеприведенной платежной матрицей, и рассмотрим случай использования в этой игре «чистых» стратегий.
В1 | В2 | ... | Вn | |
A1 | a11 | а12 | а1n | |
A2 | а21 | а22 | а2n | |
... | ||||
Am | am1 | аm2 | аmn |
Дополним платежную матрицу столбцом с элементами 1, 2, …, m, где i = min ij (минимизация по j) и строкой с элементами 1, 2, …, n, где j = max ij.минимизация по I).
= max i = max min ij.
- нижняя цена игры - так называемый максимин.
Оказывается, что при любом поведении игрока В игрок А имеет выигрыш не меньший, чем . Таким образом это оценка снизу для результата игры игрока А, если в игре используются «чистые» стратегии.
Аналогичные рассуждения можно провести для игрока В и ввести = min j и = min max ij
- называют минимакс или верхняя цена игры. Придерживаясь «чистой» стратегии, соответствующей минимаксу, игрок В может быть уверен, что проиграет не больше .
Принцип, определяющий игрокам выбор максиминной и минимаксной стратегий, называется принципом минимакса.
Рассмотрим игру, характеризующуюся «платежной матрицей»:
В1 | В2 | ВЗ | ||
А1 | 2 | -3 | 4 | -3 |
А2 | -3 | 4 | -5 | -5 |
A3 | 4 | -5 | 6 | -5 |
4 | 4 | 6 |
Для этой игры = -3, = 4.
Максиминная стратегия игрока А гарантирует, что игрок А проиграет не более 3 руб., минимаксная стратегия игрока В гарантирует, что он проиграет не больше 4 руб.
Для рассматриваемой игры минимаксные стратегии неустойчивы.
Действительно, пусть Игрок В выбрал стратегию В1, тогда, поняв это, игрок А выберет A3 и будет выигрывать 4 руб. На это игрок В может ответить стратегией В2 и будет выигрывать 5 руб. На это игрок А ответит стратегией А2 и будет выигрывать 4 руб. И т.д.
В нашем случае соответствующие минимаксные стратегии игроков неустойчивы, и могут быть изменены после поступления информации о поведении противника.
Однако, существуют игры, для которых значения максимина и минимакса совпадают. При этом минимаксные стратегии игроков А и В («чистые стратегии») являются устойчивыми стратегиями.
В платежной матрице такой игры имеется элемент, который является одновременно минимальным в своей строке и максимальным в соответствующем столбце. Такой элемент называют «седловой точкой», а соответствующую игру - игрой с «седловой точкой».
Для игры с «седловой точкой» минимаксные стратегии игроков А и В являются оптимальными стратегиями, т.е. если один игрок придерживается своей минимаксной стратегии, то для другого игрока не может быть выгодным отклоняться от своей минимаксной стратегии.
Для игры с «седловой точкой» минимаксные стратегии обладают устойчивостью.
Одним из фундаментальных результатов «Теории игр» является доказательство факта, что «игры с полной информацией» являются играми с «седловой точкой» (к таким играм относятся, например, шашки, шахматы, крестики-нолики и т.д.).