Лекции в печатном виде, страница 6
Описание файла
Документ из архива "Лекции в печатном виде", который расположен в категории "". Всё это находится в предмете "теория игр и исследование операций" из 8 семестр, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "теория игр и исследование операций" в общих файлах.
Онлайн просмотр документа "Лекции в печатном виде"
Текст 6 страницы из документа "Лекции в печатном виде"
Vi(Bj)=(i, j) (max, max)
B1 | B2 | B3 | min(i, i) | |
V1 | (1,4) | (1,3) | (1,3) | (1,3) |
V2 | (2,3) | (2,3) | (2,4) | (2,3) |
V3 | (3,4) | (3,3) | (3,2) | (3,2) |
V4 | (4,3) | (4,2) | (4,3) | (4,2) |
V5 | (5,2) | (5,3) | (5,2) | (5,2) |
V6 | (6,3) | (6,2) | (6,1) | (6,1) |
V7 | (7,1) | (7,2) | (7,3) | (7,1) |
V2 V1
V5 V3, V4
V7 V6
Получили множество Парето {V2, V5, V7}
а) вирус тяжелый, но не массовый - V2
б) вирус не очень сильный, но массовый - V7
в) средний случай - V5
Общие выводы по теоретико-игровым моделям.
Игровая модель является математическим упрощением реального конфликта, и при этом вводятся следующие основные предположения:
-
Предполагается, что противник также разумен как и сам игрок.
-
Теория игр ориентирует ЛПР на наиболее осторожное поведение, на
исключение риска (определенный риск в играх с “природой”)
-
Предполагается, что игроку известны все стратегии противника,
неизвестно лишь то, какую он выберет в процессе игры.
Пример.
Нужно перевести груз по морю из начального пункта А в конечный пункт В
SK
SН
А3
А1
А2
П1 – шторм;
П2 – туман;
П3 – ясно.
П1 | П2 | П3 | i | wi | hi | |
А1 | 0 | 10 | 20 | 0 | 20 | 8 |
А2 | -100 | 0 | 200 | -100 | 200 | 20 |
А3 | 10 | 10 | 10 | 10 | 10 | 10 |
П1 | П2 | П3 | Si | |
А1 | 10 | 0 | 180 | 180 |
А2 | 110 | 10 | 0 | 110 |
А3 | 0 | 0 | 190 | 190 |
Вальд - А3
Сэвидж - А2
Гурвиц - А2
Если все события равновероятны
q1 =q2=q3=1/3
a1=10
a2=100/3 А2
a3=10
r1=190/3=63
r2=120/3=40 А2
r3=63
то и Лаплас дает вторую стратегию. Но путь А2 в 2/3 случаев опасен.
Пример 2. Случай в Ново-Гвинейском море
о.Н.Британия
юг
север
Японцы: Американцы:
Я1 – юг А1 – послать самолеты на юг
Я2 - север (есть три дня на бомбежку)
А2 – послать самолеты на север
(1день – поиск,2 – бомбежка)
Я1 | Я2 | min | |
А1 | 3 | 1 | 1 |
А2 | 2 | 2 | 2 |
max | 3 | 2 |
2 – седловая точка
Рациональное и иррациональное поведение ЛПР.
Теория рационального поведения. (Теория ожидаемой полезности).
Фон Нейман, О Моренштерн.
6 аксиом.
Функция ожидаемой полезности.
Лотерея:
А – множество исходов: x, y, z, …
Известны вероятности исходов: p, q, r, …
(x, p, y) – вектор с двумя возможными исходами:
x => p
y => 1-p
p X
1-p Y
Лотерея обозначается следующим образом:
Средняя цена лотереи (x, p, y): xp + y(1-p)
Аксиомы рационального выбора:
А1: Все возможные исходы должны принадлежать А.
А2: На множестве исходов должно быть задано отношение строго предпочтения P(>), нестрогого R( ), безразличия I( ), причём P R, I R и они удовлетворяют двум условиям:
-
Связности, то есть либо справедливо xRy, либо yRx.
-
Транзитивности, то есть из xRy & yRz => xRz.
А3: Две лотереи ((x, p, y), q, y) и (x, pq, y), находятся в состоянии безразличия, то есть справедливо: ((x, p, y), q, y) I (x, pq, y)
p X
q
1-p Y
1-q Y
pq X
1-pq Y
А4: Если xIy, то (x, p, z) I (y, p, z).
А5: Если xPy, то xP(x, p, y)Py.
А6: Если xPyPz, то существует вероятность p, такая, что yI(x, p, z).
Теорема:
Если выполняются аксиомы А1-А6, то существует информация полезности, определяемая на множестве исходов А, для которых выполняются следующие условия:
U(x) U(y), aU(x) aU(y) При a>0
Пример.
Есть два типа урн.
I тип
6 красных
4 чёрных
I I тип
3 красных
7 чёрных
700 штук 300 штук
Решение ЛПР:
d1 +350 (если угадано верно)
- 50 (если не верно)
d2 +500 (если угадано верно)
- 100 (если не верно)
Тип урны | Вероятность выбора урны | Выигрыш при выборе | |
d1 | d2 | ||
1 | 0.7 | 350 | -100 |
2 | 0.3 | -50 | 500 |
U(d1) = 0.7*350 – 0.3*50 = 230
U(d2) = -0.7*100 + 0.3*500 = 80
d1 – предпочтительнее.
Процесс выбора в ЛПР или ДР.
- личный ход. – случайных ход.
350
0.7
230
d1 0.3
-50
-100
d2 0.7
80
0.3
500
P(y1|к)
0.82 350
278
0.18 -50
P(y2|к)
230 d1
0 0.18
P(y1|к) 500
0.51 278 d2 8
-60 к 0.82
P(y2|к) -100
ч 178 350
0.49 d1 178 P(y1|ч)
P(y2|ч) -50
d2
500
P(y1|ч)
158
P(y2|ч)
-100
P к(y1) = P(к|н1) = 0.6
Вероятность вытянуть красный шар из
у рны 1
Pк(y2) = 0.3
Pч(y1) = 0.4
P ч(y2) = 0.7
P к = P(к) = Pк(y1)*P(y1) + Pк(y2)*P(y2) =
= 0.6*0.7 + 0.3*0.3 = 0.51
Pч = 0.49
P(y1|к) = 0.6*0.7/0.6*0.7 + 0.3*0.3 = 0.82
P(y2|к) = 0,18
P(y1|ч) = 0,57
P(y2|ч) = 0,43
P(yi|к) = (Pк(yi)* P(yi)) /
/ (Pк(y1)*P(y1) + Pк(y2)*P(y2))
Парадоксальные поведения ЛПР.
Парадокс Алле:
Л1
d1 1 мин
5 мин
d2 0.1
0.85
1 мин
0.01
0
Л2
5
0.1
d1 0.9
0
1
d2 0.11
80
0.85
0
U(5) = 1 U > 0.1*1 + 0.85*U U > 10/11 U < 10/11
U(2) = U
U(0) = 0
Теория субъективной ожидаемой полезности
Позволяет формализовать иррациональное поведение ЛПР.
Пример. Парадокс генерала.
Генерал проиграл сражение. Чтобы спасти остатки армии, у него есть 2 пути отступления:
Ситуация Л1:
2000 спасены
d1
1/3 6000 спасены
d2 2/3 0 спасены
Большинство ЛПР выбирают d1.
Ситуация Л2:
4000 погибает
d1
1/3 никто не погибает
d2 2/3 6000(все) погибают
Большинство ЛПР выбирают d2
В зависимости от того, в терминах выигрышей или потерь сформулирована задача, выбираютс различные решения.
Для того чтобы учесть поведение человека, был исследован ряд эвристик, которые побуждают ЛПР действовать нерационально:
1. Суждение по представительности.
Принимая решение, ЛПР сравнивает ситуацию a c типовой ситуацией из
класса K и принимает такое же решение.
Пример
Пусть есть 2 группы специалистов
Г1: 70 инженеров + 30 юристов
Г2: 30 инженеров + 70 юристов
Дается типовое описание представителя класса инженеров и юристов.
Предъявляется субъект, и определяется, с какой вероятностью он является
инженером и юристом. При этом ЛПР принимает решение, не учитывая
вероятности.
2. Суждение по встречаемости.
Принимая решение, ЛПР ориентируется на частоту встречаемости данного
явления в своей повседневной жизни.
3. Суждение по точке отсчета.
Начальная информация может существенно влиять на принятие решения.
4. Сверхдоверие ЛПР к собственному опыту.
5. Стремление к исключению риска.
ЛПР, скорее всего, выберет не самое лучшее решение, чтобы избежать риска
больших потерь.
Причины нерационального поведения ЛПР
-
Недостаток информации у ЛПР в процессе принятия решения.
-
Недостаток опыта.
-
Поиск относительно множества критериев.
-
Временные ограничения.
Основные постулаты теории субъективной ожидаемой полезности
(Теории проспектов)
1). Эффект определенности
ЛПР, как правило, предпочитает детерминированный исход
недетерминированному.