Главная » Просмотр файлов » Беллман Р. Прикладные задачи динамического программирования (2013)

Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 61

Файл №1246769 Беллман Р. Прикладные задачи динамического программирования (2013) (Беллман Р. Прикладные задачи динамического программирования (2013)) 61 страницаБеллман Р. Прикладные задачи динамического программирования (2013) (1246769) страница 612021-01-22СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 61)

6) с Ег=~ для и= 1, 2, ... и Уа(1)=0; с=1, 2, ..., Ф. Оптимальная политика задается вектором (д„(1), г),(2), ... ..., д„(дг)), определяющим выбор, который надлежит сделать в г-м состоянии, ко~да осталось и шагов. б. 8ЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ Хотя в дальнейшем будут приведены численные результаты для задачи этого типа, возникающей при рассмотрении процесса замены оборудования, сделаем уже сейчас некоторые общие замечания. Проведение вычислений усложняется не столько загрузкой пзмяти значениями последоватедьности (г„(1)) и (гу„(г)), которой можно пренебречь, сколько необходимостью хранить переходные лгатрицы Р(гу)=(ры(г))) и й(г)) =(ггг(г))).

Если Аг превышает, например, 1000, то ~рудности становятся практически непреодолимыми. Чтобы иметь возможность рассматривать задачи действнгельно крупного масштаба, необходимо изучить аналитическую структуру процесса и использовать полученную таким путем информацию для разработки приближенных методов. й(ы будем использовать линейность процесса и простую, но очень важную идею, что подходящим обрззом определенный идеализировзнный бесконечный процесс дает превосходное приближение к 7) 887 Асимпсотичвсков повядюнсв пронессу даже умеренной длины.

Однако для изучения не- установившегося состояния необходима точная постановка задачи. 7. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ Приближенные методы, которые мы будем использовать, существенно зависят от асимптотического поведения последовательности (с„(с)) при п — ь со. Сформулируем следуюшии результат.

Т е о р е м а 1. Расс.нотрим рекурренпсное соотношение Уа())=так~де(д)+ ь ас,(д)У„с(с), (11.7У в ! где предполагается, испо (а) Ь (д) О и Ь.(д) ) О для некоторого( и всех д, ((с) ад(д) с()О С 7= 1,2, ..., Л! равномернапод, (с) т' ап(д)=1, 1=1, 2, ..., СИ. с ==! (11. 8)с Ьс(д) Ь.(д) , Ь(д)= , 4(д) =(пс) (д)Ь, (11.9)1 с!ь!2 Инылссс словами, Л (д) при каждо.к д есть транспонированная матрица по отноисению к положительной лсарковскосс матрссце. Допуспсплс также, что либо (а) фунссции Ьс (д) и асс (д) являются 4ункцссялссс конечномерного вектора д, компоненты которого предполагаются арики.наюсцпмп только конечное множество значенссй, в общелс, зависящее осп ! и !', либо (Ь) функцсссс Ьс(д) п асс(д) — непрерывньсе функцссс! конечномерного вектора д, чьи ко.ипаненпсы принимают значения в некоторых за.икнутых ограниченных областях д-пространства.

с 7оложсс.сс 388 [гл. х! МАРковскив пяоцвссы Рвшвння Тогда при и — со 1„(1) пг, г'=1, 2, ..., Лг, (11.1О) где скалярная веллчина г определяется соотношением е1 — шах 1пп а д) а)+ + (о) а) ! (1111) е и оэ~ и Доказательство этого результзтз имеется в стзтье, упомянутой в библиографии в конце главы. Величина Ь; (д) есть математическое ожидание дохода на каждом шаге, обусловленного решением д. Результат интуитивно ясен, так как он утверждает, что мы действуем ~аким образом, чтобы максимизировать средний ожидаемый доход. 8. ОБСУЖДЕНИЕ Значение этой теоремы заключается в том, что она гарантирует нам корректность очевидного метода определения оптимзлыюй политики. Именно, мы выбираем конкретную политику и используем ее повторно для получения средне~о выигрышз.

Затеи мы выбираем политику, мзксимизирующую этот средний выигрыш. С установлениел1 этого результата был открыт путь для ряда простых итеративных методов, которые могут быть использованы более эффективным образом для получения политики в процессе большой длительности.

Как и в теории цепей Маркова, имеется существеннзя разница между аналитическими резуль~атами в случае положительных коэффициентов и результатами, справедливыми только для неотрицательных коэффициентов. В большинстве приложений часто бывает так, что большая часть коэффициентов равна нулю.

Существует несколько путей обхода этой трудности. Во-первых, можно итерировать матрицы несколько раз, пока не исчезнут нули. То обстоятельство, что переходная вероятность не равна нулю, означает, что на любом конкретном шаге имеется путь перехода из 1-го состояния в че состояние. А факт, что все элементы некоторой итерированной матрицы положительны, означает, что имеется возможность перехода из Бго состояния в уче состояние не более, чем через некоторое фиксированное число шагов.

389 мвтод хОВАРдА В большинстве приугожений это в действительности и имеет место. Если же дело обстоит не так, то это обычно служит признаком какого-то обьедпнения двух разных процессов в один процесс ценой потери простоты. Вторым путем обхода многих тонких вопросов, возникающих при рассмотрении цепей Маркова с нулевыми элементами переходной матрицы, является замена этих нулей малыми величинами. Очевидно, если исходный физический процесс имеет смысл, то малые изменения в переходных вероятностях внесут пренебрежимый эффект в поведение в целом. Получив таким путем переходную мзтрицу с положительными элементами, мы можем ззтем использовать соответствующую простую теорию.

9. МЕТОД ХОВАРДА ИТЕРАЦИИ В ПРОСТРАНСТВЕ ПОЛИТИК зт 1»т — д,'Ргу(гту+ тг" '), 7=1 Для больших и тзкже имеет место равенство )г," =от+ лас (11.12) (11.13) если все состояния принадлежат одной и той же цепи *). Как установлено в 9 7, это будет ззведомо иметь место, *) Понятие пегги подробно рассматривается в книге Ховарда. Его можно найти также в любом руководстве по цепям Маркова. г/ 19 Р. Беллман. С Дрейфус Итеративный метод в пространстве политик, основанный па предшествующих идеях, детально разработан Р.

Ховардом. Мы рассмотрим его метод, который дает оптимальную политику для процессов большой длительности (т. е. «стационарных процессов»), где решения зависят только от состояния, а не от номера шага. Мы будем применять обозначения Р. Ховарда для того, чтобы легче было ссылаться на его работы. Если определить 1»лт как математическое ожидание суммарного дохода при гг-шаговолг процессе, начинающемся в состоннин г, прн использовании фиксированной политики, то легко видеть, что 1/ удовлетворяет рекуррентному соот- ношению зйо ь!авковскнв пяопьссы Ргшвния (гл.

х! если все рг,.) О. Зто уравнение показывае~, чго доход будет в целом складываться из двух частей: стационарной части лтг, обусловленной поведением при л — со, н переходной чзсти вн зависящей только от начального состояния, Подстановка предельного выражения (11,13) в соотношение (11.12) дает: и тй+пя= ~ рг, [г;,+пГ+(л — 1)д]. (11.14) )=! Так как по определению ~ч 'ргг=1, это вырзжение упрог — — ! щаегся и принимает вид в + и! = ~о ры (гц + пг) г=! !=1, 2, ..., Аг.

(11.15) 10. ОПЕРАЦИЯ ОПРЕДЕЛЕНИЯ ПЕРЕХОДНЫХ ЗНАЧЕНИЙ 11. ПРОЦЕДУРА УЛУЧШЕНИЯ ПОЛИТИКИ Теперь мы подошли к основной задаче. Мы показали, как, угадан политику, т. е. определив выбор альтернатив на каждом шаге, вычислить свяаанные с ней характеристики. Поставим вопрос о нахождении на основе этой информании лучшей политики. Под «лучшей» понимзем политику, дающую «) ЧТ10 — та!ое де!а!!в!па!!оп орегаг!оп. (Примо ред) Выше записана система Аг уравнений с )Ч+1 неизвестными, вг(!=1,..., Аг) н я.

Однако, очевидно, прибавление постоянной ко всем о; не изменяет уравнений. Это значит, что важны лишь относи!ельные значения вн а не абсолютные. Следовагельно, одна из величин тй может быть выбрана произвольной, и останегся Аг уравнениЙ с »Ч неизвестными. Если положить о = О, то решение урзвнений дает средний прирост я за длительное время и относительные значения различных начальных состояний тй для фиксированной поли гики.

Говард называет указанный выше прием нахождения выигрыша и переходных значений для заданной политики операцией определения значения (ЧОО) *). 121 Рвшвнив задач/! о тАкси большее мзтемагическое ожидзние выигрышз д. Вернемся к уравнению (11.15), Решив его относительно а,, получим: Ф д"= ~ ры(г//+ о;) — ои 1= 1, 2,..., Ач. (1!.16) /=- ч Напомним, что р;, и ги зависят от конкретной политики, ко- торой мы решили следовать. Используя значения ои связанные со старой политикой, мы можем выбрать новую политику, максимизирующую пра- вую часть равенства (11.16). Обозначив характеристики, свя- занные с этой иолчжикой, индексом и, выберем такое л ири л' котором обраи!ается в максимум сумма ~„)/.

(г.. +о.) — оь -ч !а! / он // // / /=ч где )/'.Ы означан т переходные вероятности, связанные с выбором // политики // в сссгоянии б Если для зздащюй политики определены значения а, и и, то испо.чьзоиание указанного выше правила для построе- ния новой политики называется процедурой улучшвния по- л///ппкп (Р! К)Я). Можно доказать, что это правило (а) нри каждом свсем применении приводит к политике, дающей более вь/сокий или ио крайней мере такой же вы- игрыш, (Ь) в конечном счете приведет к оптимальной политике. Доказательства этих фактов сугиесгвенно опираются на линейность нашей простой модели. Однако интуитивно не оче- видно, что решение, диктуемое приростом а, и значениями и; одной ноличики, приведет к политике с большим выигрышем.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6417
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее