Основы ТАУ - Ч-3 Оптимальные, многосвязные и адаптивные системы - Воронов [1970] (1189551), страница 12
Текст из файла (страница 12)
д. и т. д.), или же потери (расход энергии, штрафы и неустойки, расход ресурсов и т. д.). Будем называть его в первом случао функционалом выгоды, во втором — функционалом потерь. Мы будем рассматривать применение метода к так называемым терминальным задачам, где требуется перевод системы из начального состояния х (ге) в конечное х (Т). В этих аадачах изменение состояния системы изобраягается в фазовом пространстве координат траекторией с закрепленными концами.
Оптимальные управления, доставляющие экстремум функционалу, и соответствующие им оптимальные процессы будем отмечать звездочкой и,""(г), х;(8). При найденном оптимальном управлении функционал У будет функцией начальных условий и интервала времени управления Т. Его также будем отмечать звездочкой — г' * (х (е,), Т). Для определенности в дальнейшем будем считать, что отыскиваются оптимальные управления, доставляющие максимум функционалу выгоды. По определеник~ У* [х (е,), Т) = шах У [х (е), и (~), ~). (3-5) еи н †. ~ -.
т Соотношение (3-5) представляет собою функциональное уравнение, из которого может быть найдено оптимальное управление и * (г). Выберем на промежутке гю Т некоторую промежуточную точку Г„. Ей будет соответствовать точка х з (гь) на оптимальной траектории, разделяющая траекторию на дзо части. Функционал (3-4) также разбивается при этом на дза слагаемых: 'ь т У[х(е), Т~)= ')г" (х, о)еИ-)- ')г(х, и) ~Й. (36) н 'ь Принцип оптимальности, сформулированный Р. Беллманом, сводится к следующему: оптимальное управление таково, что каким бы ни было начальное состояние системы и начальное оптимальное управление (т.
е. оптимальное управление, определенное для интервала гь =- г = гь), всегда последующее управление и ~*(г) (на интервале Г„=- г = Т) должно быть также оптимальным от- (3-7) этому х ! (ю>, т~= ($гэ, ~а-~у ~ ээ, уу) з8) ы яосительно состояния, возникшего в результате первого этапа. Это означает, что значение функционала У * в интервале 1, == Ь=Т яа управлениях и * (1) и и ** (1) должно быть одинаковым. Если бы это было не так и значение функционала на управлении и э* (1) оказалось бы, например, больше значения функционала на управлении и з (1) и начальном состоянии х з (1 ), то управление и * (1) можно было бы улучшить, заменив его управлением г (1) = )'и* (1), гэ - 1 ~ Ю„ (и'*(1), 1,-= г«= Т.
Но если и э (1) оптимально, то оно не может быть улучшено, поэтому и значения функционалов на управлениях и ~ и и э* в интервале (Фь, Т) должны быть одинаковы. Это означает, что и управление и э (1) х(т) — — — — - — — — — — —— будет той же функцией, что и и ээ (1) в интервале 1 ( т) (1 =Т. зр~ На рис.
34 показан при- в, мер траекторий в плоскости двух переменныхгих. Пусть из состояния х (1,) в состоя- ™~ ние л (Т) ведет лишь одна оптимальная траектория АВзС. Расчленим процесс на дза О 1, й этапа: 1, — 1, и 1, — Т. В па- рис. 3-1. чапе второго этапа исследуем движение из нескольких точек — х,', хз, хз. Принимая эти точки за начальные, мы из каждой из них сможем на втором шаге привести оптимальную траекторию. Траектории В,С, ВэС, В,С будут оптимальными для второго шага, для каждой из них можно соответственно найти и оптимальные управления.
Их называют условно-оптимальными, так как они оптимальны лишь для рассматриваемого отрезка времени и исходных точек. Но оптимальной траекторией для обоих шагов будет лишь траектория ВэС, являющаяся частью оптимальной траектории АВзС. Нахождение оптимального управления и э (1) на отрезке времени (Г„Т), соответствующего отрезку оптимальной траектории ВзС, можно выполнить с помощью функционального уравнения У*[л(1,), Т»= шах Х(л(1,), Т, и). мк) еп сят В соответствии с принципом оптимальности выражение (3-7) должно быть равно второму слагаемому в уравнении (3-6), по- 3-2. Уравие«ие Беллмена Пусть в примере предыдущего параграфа конец оптимальной траектории закреплен, т. е.
х * (Т) задано. Будем двигаться, как это обычно делается в динамическом программировании, от конца траектории к началу, причем начало не фиксируется,и момент г, рассматривается как переменная величина. Поэтому начало будет обоаначать не х (1,), а х (!). Момент г„ разделяющий траекторию на две части, также будет переменной величиной, которая сколь угодно близко может приближаться к $, поэтому будем вместо г! подставлять величину г + !т!. В соответствии с этим уравнение (3-8) перепишем в следующем виде: Разложим интеграл в (3-9) в ряд Тэйлора в окрестности г по степеням й! Здесь з, и ею содержащие члены ряда с производными выше второго порядка, являются малыми высшего порядка по сравнению с Л!. Слагаемое )г" (х, и)дт, полученное в результате замены те! кущего значения 1 + Л! значением, в окрестности которого производится разложение в ряд, очевидно, равно нулю.
При фиксированном ~ производная от определенного интеграла в квадратных скобках равна производной по !т! и, в соответствии с теоремой о дифференцировании интеграла по параметру, от которого зависит верхний предел, равна подынтегральной функции Р (х(г+ йг), а (з+ йг)1. Так как величина !' * [х (Ф), Т1, стоящая в фигурных скобках, не зависит от в, ее можно вынести из под знака шах и сокраэ тить с тождественным выражением левой части уравнения.
Разделив после этого все члены уравнения на >!>! и устремив Ь$ к нулю, мы получим, учитывая, что е, и ез малые высших порядков в сравнении с И Боли рассматривать это уравнение совместно с исходной системой дх; уравнений объекта (3-1), то мы получаем, заменяя — ' их выра!кениями из (3-1), *(г~ ОО, ° Оцо-2-'~ .о!и!О, .Оо-о ' —,")-о. !оооо 1=! Уравнение (3-11), называемое уравнением Беллмана, представляет собой специфическое уравнение в частных производных, решая которое, мы в конечном итоге находим и * (!) и х * (!). Обычно непосредственное точное решение уравнений Беллмана связано с серьезными затруднениями и для решения задачи применяют численные методы.
Но в некоторых простейших задачах удается непосредственно решить уравнение Беллмана. В качестве одного из примеров приведем задачу, рассмотренную А. М. Летовым [1О4). Даны линейные дифференциальные уравнения объекта: — „' = Ьо,х, + Ььтх, +... + Ь1„х„+ тэи, 'Требуется найти уравнения регулятора, который эа бесконечное время осуществляет перевод системы из возмущенного состояния в заданное, минимизируя при этом функционал ! = ) А' о!!, У = ~~», аьх1+ аоиэ, А-1 где а„и а, — заданные положительные весовые коэффициенты. Уравнения динамического программирования (3-11) примут зид: и!ах К+ ~,(Ь!!х!+...+Ь1„х„+т!и) — =О. (3-12) 1=! Чтобы найти и, доставляющее функционалу минимум, приравниваем нулю производную по и от левой части (3-12): др ч! д/! дух ч! дхо — + 7 - — ' — =2а и+ 7 т — =О. (3-13) ди !~О ди дх! ~~! 1 дх! 1=1 Исключив из (3-12) и (3-13) и, получаем п и А 1 1-1 1 1 Решение этого нелинейного уравнения ищется в виде квадратичной формы У*= ~~ '~ '„А,,хсхс (3-15) Коэффициенты Ан определяются сравнением коэффициентов после подстановки (3-15) в (3-14).
В результате параметр и находится в виде и = Й,хс+ Й,х, + ... + Й„х„. Весьма интересно, что в этом случае бесконечного времени регулирования функция У * оказывается функцией Ляпунова, а функция У вЂ” ее полной производной, причем д.с* — = — У дс т. е. в результате синтеза получается устойчивая система. Пусть критерий оптимальности задан в виде функционала потерь с-~- г .с= $ [Л(о)с„[Х(п) — х(о))+~ [1)(о) — и(о)))ссо, с где сс (о) и Х (о) — желаемые векторы управления и состояния; Функции с„и с, обладают свойством У„(0) = ~„(0) = 0 и являются строго вогнутыми; Л (о) — неотрицательная функция веса, учитывающая ценность критерия в различные моменты.
Обычно по прошествии большого времени практическое значение функций выгод и потерь падает. Уравнение Беллмана (3-11) принимает вид (так как э э— потери, их надо минимизировать): шш Л (с) с„ [Х (с) — х (с)] + с'„ [П (с) — и (с)) + эЕ и( п ~у аЬ~ ду' (х (с), с] ду* [х(с), с) +~.'~ Сс д; + дс с=с Рассмотрим простейшую систему первого порядка Ых ( — + —,х=аи. ш т Функции )'„и ~ задаются в виде: Уравнение Беллмана принимает вид: ш!в (Л (С) [Х (С) — х (С)]з+ [(7 (С) — и (С)]'+ и е о~ + [ ()' [+'[аи(С) — — х(С)~-- — [ ()' )[=О.
(3-16) Сначала рассмотрим случай отсутствия ограничений, налагаемых на и (С). Продифференцируем (3-16) по и и прнравняем производную нулю: — 2 [сС (С) — и (С)] + а * ' = О. Отсюда находится оптимальное управление а дХ" [х(С), С[ 2 дх Оптимальное управление выражено через неизвестные еще производные Х *.