Популярные услуги

Главная » Лекции » Экономика и финансы » Методы и модели в технике и экономике » Вероятностное динамическое программирование

Вероятностное динамическое программирование

2021-03-09СтудИзба

Глава V

Вероятностное динамическое программирование

5.1. Введение

Вероятностное динамическое программирование (ДП) отличается от детерминированного динамического программирования, описанного в главе 10, тем, что состояния и прибыли на каждом этапе являются случайными. Модели вероятностного ДП возникают, в частности, при рассмотрении стохастических моделей управления запасами и в теории марковских процессов принятия решений. Этим двум темам посвящены главы 16 и 19, поэтому в настоящей главе они не рассматриваются. В этой главе описываются некоторые примеры достаточно общего содержания, призванные показать стохастическую природу ДП.

5.2. Азартная игра

Одна из разновидностей игры в русскую рулетку состоит во вращении колеса, на котором по его периметру нанесены п последовательных чисел от 1 до п. Вероятность того, что колесо в результате одного вращения остановится на цифре i, равна рi,. Игрок платит х долларов за возможность осуществить т вращений колеса. Сам же игрок получает сумму, равную удвоенному числу, которое выпало при последнем вращении колеса. Поскольку игра повторяется достаточно много раз (каждая до т вращений колеса), требуется разработать оптимальную стратегию для игрока.

Мы сформулируем задачу в виде модели ДП, используя следующие определения.

1. Этап i соответствует i-му вращению колеса, i = 1, 2, ..., m.

2. Альтернативы на каждом этапе состоят в следующем — либо покрутить колесо еще раз, либо прекратить игру.

Рекомендуемые материалы

Определить величину годовых амортизационных отчислений при средней норме амортизации 10%, если стоимость основных средств на 01.01.ХХ составляла 10210 д.е., 01.03.ХХ было введено в действие оборудование стоимостью 2013 д.е., а с 01.09.ХХ выбыло основ
Черная масса вала руля – 8,5 кг. Чистая масса – 7 кг. Цена заготовки – 1,15 д.е. Цена отходов – 7,01 д.е. за тонну. Заработная плата на всех опера-циях вала составила 0,28 д.е. Расходы по цеху составляют 250%, общеза-водские расходы – 130% от заработ
FREE
13Менедж_Кореи (Сравнительный менеджмент)
Разработка финансово-экономической модели предприятия (вариант №113)
В течение января на склад поступили следующие партии товара:3.011000 шт по 50 д.е./шт.7.01500 шт по 52 д.е./шт.13.011200 шт по 60 д.е./шт.18.01800 шт по 55 д.е./шт.Остаток на 01.01.: 700 шт по 50 д.е./шт.Остаток на 01.02.: 500 шт товара.Определить ст
Доклад Конвенции N 132 № 138 Международной организации труда

3. Состояние системы j на каждом этапе i представляется одним из чисел от 1 до п, которое выпало в результате последнего вращения колеса.

Пусть fi(j) — максимум ожидаемой прибыли при условии, что игра находится на этапe (вращении) i и исходом последнего вращения есть число j Имеем следующее.

Рекуррентное уравнение для fi(j) можно записать следующим образом.

Обоснование рекуррентного уравнения сводится к следующему. При первом вращении колеса (i = 1) состоянием системы является j = 0, ибо игра только началась. Следовательно, f1(0) = p1f2(l) + + ... + pnf2(n). После выполнения последнего вращения колеса (i = т) имеется лишь один выбор — закончить игру независимо от исхода j mго вращения. Следовательно fm+1(j) = 2j.

Рекуррентные вычисления начинаются с fm+1, заканчиваются при f1(0) и сводятся таким образом к т + 1 вычислительному этапу. Так как f1(0) представляет собой ожидаемую прибыль от всех т вращений колеса, а игра обходится игроку в х долларов, имеем следующее.

Ожидаемая прибыль = f1(0) – x.

Пример 5.2-1

Предположим, что по периметру колеса русской рулетки расставлены числа от 1 до 5. Вероятности рi остановки колеса на числе i соответственно равны следующему: p1 = 0.3,
 р2 =0.25, p3 = 0.2, p4 = 0.15, р5 = 0.1. Игрок платит 5 долларов за возможность сделать не более четырех вращений колеса. Определим оптимальную стратегию игрока для каждого из четырех вращений и найдем соответствующий ожидаемый выигрыш.

Этап 5.

Исход 4-го вращения

Оптимальное решение

j

f5(j)

Решение

1

2

Закончить

2

4

Закончить

3

6

Закончить

4

8

Закончить

5

10

Закончить

Этап 4.

Исход 3-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f4(j)

Решение

1

2

5

5

Вращать

2

4

5

5

Вращать

3

6

5

6

Закончить

4

8

5

8

Закончить

5

10

5

10

Закончить

Этап 3.

Исход 2-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f3(j)

Решение

1

2

6.15

6.15

Вращать

2

4

6.15

6.15

Вращать

3

6

6.15

6.15

Вращать

4

8

6.15

8.00

Закончить

5

10

6.15

10.00

Закончить

Этап 2.

Исход 1-го вращения

Ожидаемая прибыль

Оптимальное решение

j

Закончить

Вращать

f3(j)

Решение

1

2

6.81

6.81

Вращать

2

4

6.81

6.81

Вращать

3

6

6.81

6.81

Вращать

4

8

6.81

8.00

Закончить

5

10

6.81

10.00

Закончить

Этап.1.

В начале игры единственным выбором является вращение колеса.

Из предыдущих таблиц следует, что оптимальным решением будет следующая последовательность действий.

Номер вращения

Оптимальная стратегия

1

Начало игры; вращать

2

Продолжить игру, если исходом первого вращения есть 1, 2 или 3; иначе закончить игру

3

Продолжить игру, если исходом первого вращения есть 1, 2 или 3; иначе закончить игру

4

Продолжить игру, если исходом первого вращения есть 1 или 2; иначе закончить игру

Ожидаемая прибыль от игры составляет 7.31 – 5 = 2.31 доллара.

Упражнение 5.2, а

1. Пусть в задаче из примера 5.2-1 по периметру колеса расставлены числа от 1 до 8 и вероятности остановки колеса на каждом из этих чисел одинаковы. Предполагая, что каждая игра состоит не более чем из пяти вращений колеса, определите оптимальную стратегию игры.

2. Я хочу продать свой подержанный автомобиль тому, кто предложит наивысшую цену. Изучая автомобильный рынок, я пришел к выводу, что с равными вероятностями мне за автомобиль могут предложить очень низкую цена (около 1050 долларов), просто низкую цену (около 1900 долларов), среднюю цену (около 2500 долларов) либо высокую цену (примерно 3000 долларов). Я решил помещать объявление о продаже автомобиля на протяжении не более трех дней подряд. В конце каждого дня мне следует решить, принять ли наилучшее предложение, поступившее в течение этого дня. Какой должна быть моя оптимальная стратегия относительно принятия предложенной цены за автомобиль?

5.3. Задача инвестирования

Некто планирует инвестировать С тысяч долларов через фондовую биржу в течение последующих п лет. Инвестиционный план состоит в покупке акций в начале года и продаже их в конце этого же года. Накопленные деньги затем могут быть снова инвестированы (все или их часть) в начале следующего года. Степень риска инвестиции представлена тем, что прибыль имеет вероятностный характер. Изучение рынка свидетельствует о том, что прибыль от инвестиции зависит от т условий рынка (благоприятных или неблагоприятных). При этом условие i приводит к прибыли ri с вероятностью pi, i = 1, 2, ..., т. Как следует инвестировать С тысяч долларов для наибольшего накопления к концу п лет?

Обозначим

xiсумма денежных средств, доступных для инвестирования в начале i-го года (х1),

yiсумма реальной инвестиции в начале i-го года (уiхi).

Элементы модели ДП можно описать следующим образом.

1. Этап i представляет i-й год инвестирования.

2. Альтернативами на этапе i являются величины yi.

3. Состояние системы на этапе i описывается величиной хi.

Пусть fi(xi) — максимальная ожидаемая сумма поступления денежных средств за года от i до п при условии, что в начале i-го года имеется сумма xi. Для k-го условия рынка имеем следующее.

Так как вероятность k-го условия рынка равна pk, рекуррентное уравнение динамического программирования имеет следующий вид.

где , так как после n-го года инвестиций нет. Отсюда следует, что

,

поскольку функция в фигурных скобках является линейной по уn и, следовательно, достигает своего максимума при уn = хn.

Пример 5.3-1

Пусть в предыдущей модели инвестирования объем инвестиции составляет С =10 000 долларов на 4-летний период. Существует 40%-ная вероятность того, что вы удвоите деньги, 20%-ная — останетесь при своих деньгах и 40% — потеряете весь объем инвестиции. Необходимо разработать оптимальную стратегию инвестирования.

Используя принятые в модели обозначения, имеем следующее.

Этап 4.

.

Отсюда порлучаем

Состояние

Оптимальное решение

f4(x4)

x4

1.4x4

x4

Этап 3.

Поэтому имеем

Состояние

Оптимальное решение

f3(x3)

x3

1.96x3

x3

Этап 2.

Отсюда следует

Состояние

Оптимальное решение

f2(x2)

x2

2.744x2

x2

Этап 1.

Имеем

Состояние

Оптимальное решение

f1(x1)

x1

2.744x1

x1

Оптимальную инвестиционную политику можно сформулировать следующим образом. Так как  для i = 1, 2, 3, 4, то оптимальным решением является инвестирование всех наличных денежных средств в начале каждого года. Накопленные денежные средства к концу четырех лет составят 3.8416x1 = 3.8416 3 10000 = 38416 долларов.

Упражнения 5.3,а

1. Определите оптимальную инвестиционную политику в примере 5.3-1 в предположении, что вероятности рk и прибыли rk для следующих 4 лет принимают такие значения.

Год

1

2

1

0.5

0.1

0.4

0.5

2

1

0

– 1

0.4

0.4

0.2

3

4

– 1

– 1

0.2

0.4

0.4

4

0.8

0.4

0.2

0.6

0.2

0.2

2. Камера объемом 10 кубических метров предназначена для хранения изделий трех наименований. Одно изделие наименований 1, 2, 3 занимает соответственно 2, 1 и 3 кубических метра. Вероятности спроса на эти изделия приведены в следующей таблице.

Количество едициц

Вероятность спроса

Наименование 1

Наименование 2

Наименование 3

1

0.5

0.3

0.3

2

0.5

0.4

0.2

3

0.0

0.2

0.5

4

0.0

0.1

0.0

Стоимость хранения единицы изделия наименований 1, 2, 3 равна 8, 10 и 15 дол­ларов соответственно. Сколько единиц изделий каждого наименования следует хранить в камере?

3. Фирма с высокотехнологичным производством начала выпуск самых современных суперкомпьютеров в расчете на трехлетний период. Годовой спрос D на новый суперкомпьютер описывается распределением

Производственная мощность завода составляет три суперкомпьютера в год стоимостью 5 миллионов долларов каждый. Количество произведенных за год суперкомпьютеров может не совпадать в точности с объемом спроса. На нереализованный к концу года суперкомпьютер требуются затраты в 1 миллион долларов, связанные с его хранением и содержанием в исправности. Фирма терпит убытки в 2 миллиона долларов, если поставка суперкомпьютера откладывается на один год. Фирма не будет принимать новых заказов позже четвертого года, но будет продолжать выпуск суперкомпьютеров на протяжении пятого года, чтобы выполнить все заказы, оказавшиеся невыполненными к концу четвертого года. Определите оптимальные годичные объемы производства суперкомпьютеров.

4. Компания владеет тремя спортивными центрами в деловой части города. На Пасху популярны велосипедные прогулки на открытом воздухе. В компании имеется восемь велосипедов, которые она может распределить между тремя центрами для их проката в целях максимизации доходов. Спрос на велосипеды и часовая стоимость их аренды зависят от месторасположения центра и характеризуются следующими данными.

Количество велосипедов

Вероятность спроса

Центр 1

Центр 2

Центр 3

0

0.10

0.02

0

1

0.20

0.03

0.15

2

0.30

0.10

0.25

3

0.20

0.25

0.30

4

0.10

0.30

0.15

5

0.10

0.15

0.10

6

0

0.05

0.025

7

0

0.05

0.025

8

0

0.05

0

Арендная плата ($/час)

6

7

5

Как компании распределить восемь велосипедов между тремя спортивными центрами?

5.4. Максимизация вероятности достижения цели

В разделе 5.3 рассматривалась задача, связанная с максимизацией ожидаемой прибыли. Иным полезным критерием для рассмотренной задачи является максимизация вероятности достижения определенного уровня дохода. Продемонстрируем этот подход на примере модели инвестирования, которая описана в разделе 5.3.

Используя обозначения из раздела 5.3, оставим без изменения определение этапа i, альтернативы уi и состояния хi. Эти модели отличаются только определением критерия; здесь нашей целью является максимизация вероятности достижения некоторой накопленной денежной суммы S по истечении п лет. С этой точки зрения определим функцию fi(xi) – вероятность накопления суммы S, если в начале i-го года имеются денежные средства в сумме хi и для последующих лет i, i + 1,..., п используется оптимальное инвестирование.

Рекуррентное уравнение динамического программирования имеет вид

Рекуррентная формула основана на формуле условной вероятности

В нашем случае fi+1 (xi + rk yi) играет роль вероятности Р{А | Bj}.

Пример 5.4-1

Некий индивидуум планирует инвестировать 2 000 долларов. Имеющиеся варианты позволяют удвоить эту сумму с вероятностью 0.3 или потерять ее с вероятностью 0.7. Акции продаются в конце года, а в начале следующего года все деньги или их часть снова инвестируются. Этот процесс повторяется на протяжении трех лет. Целью является максимизация вероятности достижения суммы в 4 000 долларов в конце третьего года.

В соответствии с обозначениями данной модели, имеем r1 = 1 с вероятностью 0.3
и r2 = –1 с вероятностью 0.7.

Этап 3.

На этом этапе состояние х3 может изменяться от 0 до 8 000 долларов. Минимальное значение возможно, когда вся инвестиция потеряна, а максимальное – когда инвестиция удваивается в конце каждого из двух первых лет. Следовательно, рекуррентное уравнение для этапа 3 записывается в следующем виде:

,

где, x3 = 0, 1,..., 8.

Приведенная ниже таблица содержит детали вычислений для данного этапа. Все заштрихованные ячейки таблицы являются неподходящими, так как не удовлетворяют условию у3 x3. Кроме того, при выполнении вычислений можно заметить, что

.

В противном случае эти вероятности равны 1.

Хотя приведенная таблица и свидетельствует о том, что существуют альтерна­тивные оптимумы для х3 = 1, 3, 4, 5, 6, 7 и 8, оптимальный (последний) столбец содержит лишь наименьшие оптимальные значения у3. Это объясняется тем, что инвестор не собирается инвестировать больше того, что необходимо для достиже­ния поставленной цели.

Этап 2.

.

Этап 1.

.

x1

Оптимум

y1 = 0

y1 = 1

y1 = 2

f1

y1

2

0.330.3+0.730.3 = 0.3

0.330.51+0.730.09 = 0.216

0.331+0.730 = 0.3

0.3

0

Оптимальная стратегия определяется следующим образом. При заданной начальной сумме х1 = 2000 долларов вычисления для первого этапа дают у1 = 0. Это означает, что в первый год не следует делать инвестиций. Данное решение оставляет инвестора с 2000 долларов к началу второго года. Из таблицы, соответствующей второму этапу, при x2 = 2 получаем у2 = 0; это снова означает, что на протяжении второго года также не следует делать инвестиций. Далее использование значения х3 = 2 на третьем этапе приводит к у3 = 2, а это означает, что на третий год следует инвестировать всю имеющуюся в распоряжении сумму. Соответствующая максимальная вероятность достижения цели S = 4 равна f1(2) = 0.3.

Упражнения 5.4,а

1. В примере 5.4–1 этап 1 решения задачи показывает, что существует два альтернативных оптимума: y1 = 0 и у1 = 2. Покажите, что применение стратегии у1 = 2 (т.е. инвестировать все деньги в начале первого года) не изменяет результата инвестиционной политики на протяжении трех лет, а именно, соответствующая максимальная вероятность достижения цели сохраняется равной 0.3.

2. Решите задачу из примера 5.4-1, если целью инвестора является максимизация вероятности достижения, по меньшей мере, суммы в 6 000 долларов к концу третьего года. Инвестор имеет в своем распоряжении 1000 долларов, и вероятность удвоения суммы на протяжении каждого года равна 0.6.

3. Вы и ваш друг хотите сыграть в казино в следующую игру. Вы делаете определенную ставку, и каждый из вас независимо подбрасывает симметричную монету. За каждый доллар суммы ставки казино заплатит три доллара, (что дает чистую прибыль в 2 доллара), если в результате подбрасывания выпадут две решки. Иначе вы теряете сумму ставки. Если вы с другом имеете в сумме один доллар, определите стратегию игры, считая, что целью является максимизация вероятности окончания трех игр с суммой в 4 доллара.

Литература

Bertsekas D. Dynamic Programming: Deterministic and Stochastic Models, Prentice Hall, Upper Saddle River, N. J., 1987.

Cooper L. and Cooper M. Introduction to Dynamic Programming, Pergamon Press, N. Y., 1981.

Smith D. Dynamic Programming: A Practical Introduction, Ellis Horwood, London, 1991.

Комплексные задачи

5-1. Компания использует грузовые автомобили для доставки заказов покупателям и планирует заменить свои автомобили на протяжении последующих пяти лет. Годовые затраты, связанные с использованием нового грузовика, являются нормально распределенной случайной величиной с математическим ожиданием 300 долларов и среднеквадратическим отклонением 50 долларов. Математическое ожидание и среднеквадратическое отклонение годовых эксплуатационных затрат через год возрастают на 10%. Стоимость нового грузового автомобиля в настоящее время равна 20 000 долларов и через год возрастет, как ожидается, на 12%. Грузовые автомобили используются чрезвычайно интенсивно, поэтому существует вероятность того, что каждый из них может сломаться в любое время, после чего ремонту не подлежит. Имеется возможность сдать старый автомобиль при покупке нового. При этом стоимость старого автомобиля зависит от того, находится ли он в рабочем состоянии. В начале шестого года автомобиль подлежит продаже по цене, которая также зависит от его состояния (аварийное или рабочее). Приведенная ниже таблица содержит данные, описывающие ситуацию в зависимости от возраста автомобиля.

Возраст автомобиля (года)

0

1

2

3

4

5

6

Вероятность поломки

0.01

0.05

Вместе с этой лекцией читают "23 Обязанности учреждений, ведущих полевые археологические исследования".

0.10

0.16

0.25

0.40

0.60

Если автомобиль использовался 1 год и находится в рабочем состоянии, то его стоимость равна 70% от начальной и за год уменьшается на 15%. Если же он находится в аварийном состоянии, то соответствующие показатели уменьшаются в два раза. Стоимость автомобиля в виде испорченного имущества в начале шестого года составляет 200 долларов, если он находится в рабочем состоянии, и 50 долларов, если он аварийный. Разработайте оптимальную политику замены автомобилей.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее