Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 53

Файл №1246769 Беллман Р. Прикладные задачи динамического программирования (2013) (Беллман Р. Прикладные задачи динамического программирования (2013)) 53 страницаБеллман Р. Прикладные задачи динамического программирования (2013) (1246769) страница 532021-01-222021-01-22СтудИзба

Беллман Р. Прикладные задачи динамического программирования (2013)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 53)

Предположим, что мы имеем дело с ситуациеи, где этого нет. Один из путей преодоления трудностей состоит во введении понятия случайных (или стохаслгичеснпх) воздейс!вии. Это весьма искусное изобретение математической теории вероятностей позволяет нам получить большое число важных резулыагов. Оказывается, !то даже при рассмотрении многих процессов, где прнчинно-следственные отношения известны, предположение о стохасгических свойствах, приводит к большим математическим упрощениям. Выдающимся примером этого является статистическая механика Гиббса. В дальнейшем мы будем, как и ранее, предполагать, что читатель знаком с основами теории вероятностей и элементарными сведениями о понятии случайной величины.

Для того чтобы избежать усложнении, которые являются побочными для анализируемого вопроса, мы будем рассматривать только дискретные во времени процессы. В последующих численных расчетах (глава !Х) мы будем рассматривать только простейшие дискретные ааконы распределения. Всюду будут требоваться только зачаточные знания из теории вероятностей. Рассмотрим рекуррентпое соотношение х„„!=а(х„, у„, г„), (8.55) где х„есть вектор состояний системы, у„вЂ” вектор управлений и г„--случайный вектор, отражанпций случайное воздействие, приложенное к системе на л-м шаге.

Первоначально мы будем считать г„независимыми. 1(злее будет показано, как может быть введена корреляция. Вновь, как и ранее, мы предполагаем, что эффект выбора у, когда система находится в состоянии х, состоит в «дохоле» или в «отклонении» Ь(х, у, г). (8.55а) 171 в чвм состоит оптпмллыоя полнтш<а? йзз Здесь г вЂ” тот же самый случайный вектор, чго н в 18бб). Принимая для простоты аддитивность функции полезности, мы получим в качестве полной меры для Аг-шагового процесса выражение )сл = Л К Уг ' ~) " (хз Уа, га) +... + )1 (х „, У, гм). (8.56) Так как эта величина сама является случайной, мы не можем сраз> поставить вопрос о'ее максимизации или минимизации. Действительно, при изучении стохастических процессов нет единственного способа для постановки точной задачи оптимизации. Один способ состоит в том, чтобы использовать в качестве функции критерия математическое ожидание величины )с по всем случайным величинзм г,.

Мы будем делать именно так, предупреждая вместе с чем читателя об имеющемся здесь элементе произвола. )Тругим важным критерием является вероятность того, что Й,„превзойдет некоторую заданную величину. Одно из преимуществ мегода функциональных уравнений состоит в том, что он позволяет использовать реалистические критерии, пе беспокоясь об удобствах анализа. Использование математических ожиданий является разумным потому, что в математической теории вероятностей сушествует большая группа теорем, которые утверакдают, что во многих случаях поведение системы за длительный период времени все более и более приближается к ее среднему поведению.

С другой стороны, известно тзкже, что при изучении нелинейных систем это может и не иметь места. Следовательно, линейные функции полезности, т. е. математические ожидания случайных величин, должны использоваться с большой осторожностью. Существенно понимать, что мы следуем только одному из многих путей. Слишком чзсто в приложениях математики к изучению физических явлений частные метолы слепо принимаются за истину, причем часто забывается о том, чго существуют и другие методы. 17 В ЧЕМ СОСТОИТ ОПТИМАЛЬНАЯ ПОЛИТИКАг Нетрудно заметить, что предшествующее обсуждение еше не позволяет нам изучить оптимальную политику регулирования.

Ироме того, еще не ясно, что мы понимаем под оптимальной политикой. пгопяссы гггглпяовхнпя с озгхтпой связью [гл. чпг 11ля того чтобы разьясничь этот вопрос, обратимся к некоторым ранее сделзнным замечаниям. !1ри изучении нами вариацнонного исчисления и динамического программирования в главе, посвященной траекторным задачам, и вообще во всей предшествующей части работы, посвященной детерминированным процессам регулирования, мы указывали на то, что возчо.кно определить у; все сразу или одни за другим, как функции векторов состояний системы. Тождественность этих двух подходов являлась следствием фундаментального поня~па двойственности между точками и направлением в евклидовом пространстве. Иначе говоря, кривую можно рассмзтривзть и кзк геометрическое место точек, и как огибаюгцую касательных.

Когда мы вводим в рассмотрение стохастнческне явления, положение радикально меняется, Вообще указанные два подхода являются резко различными в силу неопределенности будущего. Заимствуя классический подход, мы можем поставить следующую задачу. Определить а рпоп пОследовательность векторов ун у, ..., у, которые минимизируют функцию В этой формулировке мы отбрасываем возможность использования для выработки наших решений знания действительного состояния системы в любой частный момент времени.

Легко видеть, что могут возникнуть ситуации, в которых эта постановка является единственной из возможных, так как требуемая информация может быть недоступной. Вместо задач этой природы мы хотим поставить задачи, в которых принимается во внимание обратная связь, позволяющая использовать знание действительных значений некоторых или всех координат системы на каждом шаге. Мы увидим тогда, что решения должны приниматься следующим образом. Начиная с состояния хн принимаем решение ун Комбинация хн у, и случайного вектора г, в силу (8. 54) приводит в новое состояние х,. Нзчиная с известного лм этот процесс повторяется.

Теперь желательно определить последовательность векторов у„, которая минимизирует мзтематическое ожидание Й ЗЗ5 18] вгнкционлльныв гялвнвния Пожалуй, удивительно, чао первая задачз, которая включает только минимизацию нз пространстве конечной размерности, подлинно трудна, в то время как вторая задача, которая требует минимизации па пространстве функций, пространстве политик у,(х,), у,(хя) и т. д., поддается исследованию с помошью метода функциональных уравнений динамического программирования.

Это хороший пример того, что более изошренное и более реалистичное рзссмотрение действительных физических процессов можег быть значительно более легким математически, чем рассмотрение, которое кажется заметно более податливым для математического исследования. Это только одна из причин, по которой ваипю изучить много различных математических формулировок, прежде чем погрузиться в море уравнений и поток вычислений. !8. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ Вводя функцию Ум (с) = пп'п Е ] Ям], (8.57) где Е ] ] ознзчает операцию определения математического ожидания по всем г„, мы сможем теперь для описанного выше процесса с обратной связью записать некоторые уравнения обычного вида.

Мы имеем; Д,(с)=ппп Е',6(с, у, г,)], (8.58) ~,(с) =-пбш Е]й (с, ун г)+7 ., (л(с, уь г))]. ! и Предположим, по г„имеют обитую функцию рзспределения 0(г). Тогда соотношения принимают вид Л (с) = пнп ) Л (с,ун г) 40 (г), ( (8.59) г . (с)=пи'п $(6(с,уьг)-]-~~, (д(с,унт))] ~И(г). ~ ю Отсюдз следует, что если не считзть введения некоторых усредненных величин, уравнения формально остаются точно такими же, что и вдетерминированном случае, 886 пгоцвссы гвгтлигования с овяатной связью 1гл. шп 19. ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ )(ля того чтобы привести (8.

о9) к зрифметической форме, примем, что рзспределение 0(г) являегся дискретным. Тогда вместо 0 (г) мы имеем совокупность вероятностеп ~ро рм..., рм), где р; есть вероятность того, что г принимает значение г,. В этом случае (8. 59) ииеет вид и у (с) = гп1 п ~ ~ р . Л (с,уи г,) ~, 1=:! м ~гг (г) =ш 1п ~ ~ р ( Л (с у, г ) + Ум, (д(г у, г ))) ~ (8.60) Отсюда следует, что численное решение для сзохастических процессов регулирования почти в точности совпадаетс обычным решением для дискретного случая, хогя требуется некоторое дополнгпельное время для производства операции усреднения, входящей в (8.60). 20.

КОРРЕЛЯЦИЯ Ум(г,га)=ш1п Е(йл) г г и вместо (18.3) получим соотношения У, (г, г,) = ш1п ~ й (с, ун г,) г10 (г,, г,), т1 у.(г,г)=ппп ~ (й(суп г)+ ух, (я(суп г))) Уг Х аа(ги га) (8.61) (8.62) Предположим теперь, чго случаиные векторы пе являются независимыми.

Просгейшим шагом в направлении учета их взаимосвязи является, возможно, предположение о том, что распределение г„зависит от значений г„н но пе зависит от каких-либо других го Иа (и вЂ” т)-и шаге мы должны тогда добавлять к векгору координат системы значения г„н Векторы х„и г„, определяют «состояние» системы в момент и. Как мы увидим, при изучении процессов регу.чирования с приспособлениел~ понятие «состояние системы» поддается еще большему обобщению.

Характеристики

Тип файла

DJVU-файл

Размер

7,89 Mb

Материал

Беллман Р. Прикладные задачи динамического программирования (2013)

Тип материала

Книга

Предмет

Системы терминального управления космических аппаратов

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bellman-r.-prikladnye-zadachi-dinamicheskogo-programmirovanija-2013.rar

Беллман Р. Прикладные задачи динамического программирования (2013).djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.