Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 53
Текст из файла (страница 53)
Предположим, что мы имеем дело с ситуациеи, где этого нет. Один из путей преодоления трудностей состоит во введении понятия случайных (или стохаслгичеснпх) воздейс!вии. Это весьма искусное изобретение математической теории вероятностей позволяет нам получить большое число важных резулыагов. Оказывается, !то даже при рассмотрении многих процессов, где прнчинно-следственные отношения известны, предположение о стохасгических свойствах, приводит к большим математическим упрощениям. Выдающимся примером этого является статистическая механика Гиббса. В дальнейшем мы будем, как и ранее, предполагать, что читатель знаком с основами теории вероятностей и элементарными сведениями о понятии случайной величины.
Для того чтобы избежать усложнении, которые являются побочными для анализируемого вопроса, мы будем рассматривать только дискретные во времени процессы. В последующих численных расчетах (глава !Х) мы будем рассматривать только простейшие дискретные ааконы распределения. Всюду будут требоваться только зачаточные знания из теории вероятностей. Рассмотрим рекуррентпое соотношение х„„!=а(х„, у„, г„), (8.55) где х„есть вектор состояний системы, у„— вектор управлений и г„--случайный вектор, отражанпций случайное воздействие, приложенное к системе на л-м шаге.
Первоначально мы будем считать г„независимыми. 1(злее будет показано, как может быть введена корреляция. Вновь, как и ранее, мы предполагаем, что эффект выбора у, когда система находится в состоянии х, состоит в «дохоле» или в «отклонении» Ь(х, у, г). (8.55а) 171 в чвм состоит оптпмллыоя полнтш<а? йзз Здесь г — тот же самый случайный вектор, чго н в 18бб). Принимая для простоты аддитивность функции полезности, мы получим в качестве полной меры для Аг-шагового процесса выражение )сл = Л К Уг ' ~) " (хз Уа, га) +... + )1 (х „, У, гм). (8.56) Так как эта величина сама является случайной, мы не можем сраз> поставить вопрос о'ее максимизации или минимизации. Действительно, при изучении стохастических процессов нет единственного способа для постановки точной задачи оптимизации. Один способ состоит в том, чтобы использовать в качестве функции критерия математическое ожидание величины )с по всем случайным величинзм г,.
Мы будем делать именно так, предупреждая вместе с чем читателя об имеющемся здесь элементе произвола. )Тругим важным критерием является вероятность того, что Й,„превзойдет некоторую заданную величину. Одно из преимуществ мегода функциональных уравнений состоит в том, что он позволяет использовать реалистические критерии, пе беспокоясь об удобствах анализа. Использование математических ожиданий является разумным потому, что в математической теории вероятностей сушествует большая группа теорем, которые утверакдают, что во многих случаях поведение системы за длительный период времени все более и более приближается к ее среднему поведению.
С другой стороны, известно тзкже, что при изучении нелинейных систем это может и не иметь места. Следовательно, линейные функции полезности, т. е. математические ожидания случайных величин, должны использоваться с большой осторожностью. Существенно понимать, что мы следуем только одному из многих путей. Слишком чзсто в приложениях математики к изучению физических явлений частные метолы слепо принимаются за истину, причем часто забывается о том, чго существуют и другие методы. 17 В ЧЕМ СОСТОИТ ОПТИМАЛЬНАЯ ПОЛИТИКАг Нетрудно заметить, что предшествующее обсуждение еше не позволяет нам изучить оптимальную политику регулирования.
Ироме того, еще не ясно, что мы понимаем под оптимальной политикой. пгопяссы гггглпяовхнпя с озгхтпой связью [гл. чпг 11ля того чтобы разьясничь этот вопрос, обратимся к некоторым ранее сделзнным замечаниям. !1ри изучении нами вариацнонного исчисления и динамического программирования в главе, посвященной траекторным задачам, и вообще во всей предшествующей части работы, посвященной детерминированным процессам регулирования, мы указывали на то, что возчо.кно определить у; все сразу или одни за другим, как функции векторов состояний системы. Тождественность этих двух подходов являлась следствием фундаментального поня~па двойственности между точками и направлением в евклидовом пространстве. Иначе говоря, кривую можно рассмзтривзть и кзк геометрическое место точек, и как огибаюгцую касательных.
Когда мы вводим в рассмотрение стохастнческне явления, положение радикально меняется, Вообще указанные два подхода являются резко различными в силу неопределенности будущего. Заимствуя классический подход, мы можем поставить следующую задачу. Определить а рпоп пОследовательность векторов ун у, ..., у, которые минимизируют функцию В этой формулировке мы отбрасываем возможность использования для выработки наших решений знания действительного состояния системы в любой частный момент времени.
Легко видеть, что могут возникнуть ситуации, в которых эта постановка является единственной из возможных, так как требуемая информация может быть недоступной. Вместо задач этой природы мы хотим поставить задачи, в которых принимается во внимание обратная связь, позволяющая использовать знание действительных значений некоторых или всех координат системы на каждом шаге. Мы увидим тогда, что решения должны приниматься следующим образом. Начиная с состояния хн принимаем решение ун Комбинация хн у, и случайного вектора г, в силу (8. 54) приводит в новое состояние х,. Нзчиная с известного лм этот процесс повторяется.
Теперь желательно определить последовательность векторов у„, которая минимизирует мзтематическое ожидание Й ЗЗ5 18] вгнкционлльныв гялвнвния Пожалуй, удивительно, чао первая задачз, которая включает только минимизацию нз пространстве конечной размерности, подлинно трудна, в то время как вторая задача, которая требует минимизации па пространстве функций, пространстве политик у,(х,), у,(хя) и т. д., поддается исследованию с помошью метода функциональных уравнений динамического программирования.
Это хороший пример того, что более изошренное и более реалистичное рзссмотрение действительных физических процессов можег быть значительно более легким математически, чем рассмотрение, которое кажется заметно более податливым для математического исследования. Это только одна из причин, по которой ваипю изучить много различных математических формулировок, прежде чем погрузиться в море уравнений и поток вычислений. !8. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ Вводя функцию Ум (с) = пп'п Е ] Ям], (8.57) где Е ] ] ознзчает операцию определения математического ожидания по всем г„, мы сможем теперь для описанного выше процесса с обратной связью записать некоторые уравнения обычного вида.
Мы имеем; Д,(с)=ппп Е',6(с, у, г,)], (8.58) ~,(с) =-пбш Е]й (с, ун г)+7 ., (л(с, уь г))]. ! и Предположим, по г„имеют обитую функцию рзспределения 0(г). Тогда соотношения принимают вид Л (с) = пнп ) Л (с,ун г) 40 (г), ( (8.59) г . (с)=пи'п $(6(с,уьг)-]-~~, (д(с,унт))] ~И(г). ~ ю Отсюдз следует, что если не считзть введения некоторых усредненных величин, уравнения формально остаются точно такими же, что и вдетерминированном случае, 886 пгоцвссы гвгтлигования с овяатной связью 1гл. шп 19. ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ )(ля того чтобы привести (8.
о9) к зрифметической форме, примем, что рзспределение 0(г) являегся дискретным. Тогда вместо 0 (г) мы имеем совокупность вероятностеп ~ро рм..., рм), где р; есть вероятность того, что г принимает значение г,. В этом случае (8. 59) ииеет вид и у (с) = гп1 п ~ ~ р . Л (с,уи г,) ~, 1=:! м ~гг (г) =ш 1п ~ ~ р ( Л (с у, г ) + Ум, (д(г у, г ))) ~ (8.60) Отсюда следует, что численное решение для сзохастических процессов регулирования почти в точности совпадаетс обычным решением для дискретного случая, хогя требуется некоторое дополнгпельное время для производства операции усреднения, входящей в (8.60). 20.
КОРРЕЛЯЦИЯ Ум(г,га)=ш1п Е(йл) г г и вместо (18.3) получим соотношения У, (г, г,) = ш1п ~ й (с, ун г,) г10 (г,, г,), т1 у.(г,г)=ппп ~ (й(суп г)+ ух, (я(суп г))) Уг Х аа(ги га) (8.61) (8.62) Предположим теперь, чго случаиные векторы пе являются независимыми.
Просгейшим шагом в направлении учета их взаимосвязи является, возможно, предположение о том, что распределение г„зависит от значений г„н но пе зависит от каких-либо других го Иа (и — т)-и шаге мы должны тогда добавлять к векгору координат системы значения г„н Векторы х„и г„, определяют «состояние» системы в момент и. Как мы увидим, при изучении процессов регу.чирования с приспособлениел~ понятие «состояние системы» поддается еще большему обобщению.