Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 41
Текст из файла (страница 41)
дл дИ дг (бЛО~) ду; да ду; Значит, (0.100) можно переписать в виде ,и д дУ Ъ' дя дИ вЂ” — = — ~ 17 — с+9 — —, д! ду; ~. ду; ' ду; ' /=1 (6.102) ду' дуг (6.103) м дд ду' дг ду~ 7=1 дл дг (0.104) 24. УРАВНЕНИЕ ГАМИЛЬТОНА — ЯКОБИ Покажем теперь, что уравнение Гамильтонз — Якоби классической механики чрезвычайно просто следует из принципа оптимальности, связанного в данном случзе с принципом Гамильтона.
Принцип Гамильтона состоит в том, что частица Мы видим, тзким образом, что с ограничениями в виде неравенств указанного типа можно легко справиться. В классической теории ц появляется как дополнительный множитель Лагранжз, вводимый для включения ограничения. 259 увлвнвиив гхыильтоих — якоги 8(д, 1; Я, 1) = внп(5(Я, Я, !я) Л+ 8(д, (; Я+ ЯЛ, !я+ А)), (5.105) Ь'(д, 1; О, !я) = пи! п (5 (д, Ч, !) Ь + 8(гу — о5, 1 — Л; О, (я) ~. дш (о.
! 06) Эти уравнения вьг~екают из принципа оптимальности, при- мененного к каждому концу интервала. В момент (, 0 = ш!и ~ У + Я - — — ,' . д5 , д5 ! дЯ ' дго~' (5. 107) что влечег за собой, если определить импульс Р, как обычно, д! через —, дь) дс д5 — = — — = Р. дО Выражение (5.! 06) лля произвольного ггриводит к двум уравнениям: . д5 д6 0=(.— д —,— —,, да дг ' дб дх дд дя (5. ! 08) момента времени (5.109) (э.! !О) движегся таким образом, чтобы лагранжиан ~(.(д, ф, !)г(г обратился в минимум. 1!усть д — вектор, описывающий состояние системы (г. е. в терминологии классической механики д есть точка в конфигурационном пространстве) и пусть Ч=Ы!(И вЂ” искомая величина (решение), которая должна быть выбрана оптимальным образом.
Задача заключается в том, чтобы перейти из состояния Я, залашюго в момснг !и в состошше гу в момент ! с таким образом, чтобы мигшмизировать функционал ~ Е. (гг, гг, ы (,)гйи 11осту~аем следующим образом. Определим функцию 5'(гу, (: Я, (,), равную минимальному значению функционала '1 5(д, г), (г)д(, при соответствуюгцих граничных условиях. гя Затем, рассматривая оба конца ингервала как переменные, получим лва соогношения: йбО [гл.
ч ВАРИАЦИОННОЕ ИСЧИСЛЕНИЕ Определяя функцию Гамильтона Н (д, р, «) согласно формуле Н =рг) — «., получим из (5.109) уравнение Гамильтона — Якоби в частных производных 0=~(~,',-', «~+~. (5.111) 25. ДИСКРЕТНЫЕ ПРИБЛИЖЕНИЯ Если мы хотим применить цифровые вычислигельные машины для численного решения указанных вариационных задач но намеченному выше пути, то необходимо преобразовать нелинейное дифференциальное уравнение в частных производных (5.46) в уравнение, требующее только арифметических операций.
Это можно сделать рваными способами. Один класс методов основан на дискретной аппроксимации точного уравнения; другой — на получении точного уравнения для дискретной аппроксимации исходного непрерывного процесса. Первый класс содержит общепринятые методы, изложенные в целом ряде легко доступных источников. Поскольку в настоящей книге они не будут применяться, мы приступим к рзссчотрению методов второго типа, который будет использован при изучении траекторных процессов, многошаговых процессов производства и пропессов управления с обратной связью.
Вместо того чтобы выбирать среди функций у (х), заданных на всем интервале [а, Ь[, предположим, что допускается только выбор значений функции у (х) в точках а = Ад, Начальное условие о том, что в момент «, система находилась в состоянии О, определяет требуемые константы интегрирования для функции решения 5(д,«; О,«,). Кроме того, если известны начальные импульсы Р, то из уравнения (5.108) находим <«=д(«; О, Р, «,), а из (5.110) р=р(«; О, Р, «„).
Следовательно, решение уравнения Гамильтона — Якоби (5.111) выдает нам положение у и импульсы р как функции от времени и начальных условий. Поскольку Не~оды для аналитического отыскания решения (5.111) и нахождения координат и импульсов как функций от времени рассматриваются во многих публикациях, мы не будем здесь углубляться в детали.
261 251 дисКРетные пРиБлижения мы теперь ищем минимум конечной суммы Х вЂ” 1 У„(у) = ~,' д(уи (у, „, — у,.)/Ь, 15) Ь, (5.113) где у(15)=уп и производная у' приближается выражением (уы — у И. В общем случае вместо минимизации интеграла 1(у) = $ с (у, е, х) Ых, а (5.114) где — =Ь(у, г, х), у(а)=с, лу (5.! 15) мы хотим минимизировать сумму Х вЂ” 1 7,(у) = Х К(уи еи 111) 5, (5.116) где уг~,=у;+Ь(ун ен 15)Ь, у„=с. (о.117) Обозначив 7а (с) = ппп 7„(у), (е,) (5.118) мы путем обычных рассуждений придем к нелинейному дифференциальному уравнению т „(с) = шш [д (с, ам АЬ) Ь + Уа и (с -~- й (Ум е, Уг5) 5)].
'а (5.119) Если ть подчинены дополнительным ограничениям, то минимум берется по соответствующему множеству. В пределе при Ь -э 0 мы получим, конечно, такое же нелинейное уравнение в частных производных, как и раньше. Именно уравнения такого типа мы будем использовать в следующей главе для получения численного решения траекторных задач. (й+!)д...,, 1ТЬ=Ь. Вместо минимизации интеграла а 7 (у) = ~ а (у, у', х) гсх (5.112) а (гл.
ч 262 вавнашионпов исчисление 26. ОБСУЖДЕНИЕ Описанная выше дискретная вариацноппая задача полу- чается применением простейшей приближенной формулы для вычисления плошади под кривой. Используя правило трапеций, мы получим более сложное выражение, чем (5.116), а более точные квадратурные формулы, как, наприл|ер, формула Гаусса, приводят к сумме вида м — ! /„(у)= ~х~~ с;х,(уп гв х;) Ь, (=а где х; больше не являются равноогстояшими. Эта идея будет развита далее в главе Х!!.
Поскольку эти вариационные задачи можно рассматривать с помощью того же аппарата функциональных уравнений, то пеной небольших дополнительных усилий мы можем получить существенное повышение точности. Точно так же и (5.117) получается из (5.115) с помошью грубого приближения н+ на н+ на ! в ⠄— Ых= ~ /г(у, х, х)в/хам 6(ув ав !Ь)Ь, (5.121) в'х ы или у;и — у; = й(уп гп 15)Ь. (5.122) Снова более точная квадратурная формула позволит дать значительное повышение точности при небольшом увеличении объема вычислений.
Однако в дальнейшем мы будем применять только простейшее прямоугольное приближение и будем иметь дело с соотношениями типа (5.116) и (5.! 17), так как они достаточны для демонстрации используемых методов. 27. ДВУХТОЧЕЧНЫЕ КРАЕВЫЕ ЗАДАЧИ На первый взгляд кажется довольно неожиданным, что при подходе с помощью функциональных уравнений двухточечные краевые задачи можно замени~в задачами с начальным Значением. двгхточвчпыв кглввыв задачи Рассмотрим задачу минимизации суммы Х вЂ” ! У„(у) = ~~ д(ув «и 15) Ь, /=- ь (б.123) Иными словами, «ч ~ находится из условия, что мы должны идти из состояния г в фиксированное состояние ум Если таким путем получено верное значение ум ~(с), то дальше вычисления выполняются, как и выше, по (5.119). Ко~да на «наложены ограничения, может оказаться невозможным прийти в у,~ на шаге Л/ из любого с на шаге Лг — 1.
В эзом случае Ул ~ (г) определена только для тех г, из которых мы приходим в ую Аналогично Ул — г(с) определена только для тех с, из которых можно прийти в возможные состояния на шаге М вЂ” 1, и т. д. (рис. 62). Как обычно, если следовать методу динамического программирования, ограничения упрощают численное решение. где () у„=с, (ь) у,, = у; -'- Ь (у„«п Ы) Ь и не~ никакого ограничения на значение ум ь Тогда для Д = О, 1, 2. .. Л1 — 2 имеет место рекуррентнсе соотно- шение (5.119) ул — ~(с)= пнп д(с, «л — и (Л1 — 1)Ь)Ь (5125) ж — ~ Мы называем эту задачу задачей о начальном значении, посколь- куул ~(с) известно, а с помощью простого итеративного про- цесса, применяемого к(о.1! 9), можно определить 7,(с). г)го получится, если значение ул задается заранее? гггл~~~нил = '~ч «ггнегное Тогда уч ~ (с) находится на ка«г ж-' ° ' 'ччсгллгля» не из(5.125), а из выражения 7 л — ~ (г) = к'(с, «м (Л( — 1) Ь) Ь, (5.126) 'Г где «л ~ определяется соЛююлюлт о~ношением г жг~лягд на иа.г л~-я у,с=с — '-Ь(г, тм (Лг — 1) Д) Ь.
(5,127) Рис. 62, 264 вьэнлционнов исчислвнив 28. ДВОЙСТВЕННОСТЬ Поясним сделзнное выше замечание, что вариационное исчисление и динамическое программирование представляют собой дополняющие друг друга теории. В вариационном исчислении экстремальную кривую рассматривают как геомечрическое место точек и пьмаются найти эту кривую с помощью дифференцизльного урзвнения. В теории динзмического программирования за экстремаль принимают огибающую касательных и пытаются определить оптимальное направление в каждой точке экстремали.
Из двойственности евклидовой геометрии следует, что кривую можно с одинаковым успехом рассматривагь как геометрическое месго точек и как огибающую касательных. Следовательно, мы видим, что два представленных здесь подхода — подход с помощью вариационного исчисления и подход с помощью динамического программирования — двойственны друг к другу. По этой причине можно ожидать, что объединение этих двух подходов окажется гораздо более мощным методом, чем каждый из них в отдельност.и. 29. ЗАКЛЮЧЕНИЕ В этой главе мы познакомили читателя с основными задачами вариационного исчисления и с подходами к регнению этих задач классическими методами и методами динамического программирования.