XV Ванько В.И., Ермошина О.В., Кувыркин Г.Н. Вариационное исчисление и оптимальное управление (1081425), страница 36
Текст из файла (страница 36)
Этим завершается первый цикл производства. Вырученную от продажи оборудования сумму хз = пи~ + 6(х~ — и~) используют как стартовую для организации второго цикла производства. Из нее на оборудование типа А выделяется сумма из, О < из < х„, а оставшаяся сумма хз — из идет на приобретение оборудования типа В. Следующий цикл эксплуатации 278 8. МЕТОД ДИНЛМИЧЕСКОГО НРОГРАММИРОВАНИЯ оборудования даст экономический эффект д(из) + 6(х2 — и2) и остаточную сумму тз = аия+ б(хз — ия) за проданное оборудование.
Описанный цикл производства многократно повторяется. Считая известными функции д®, 6(~) и постоянные л, а, 6, найдем такую стратегию распределения средств при покупке обрудования типов А и В, чтобы обеспечить наибольший экономический эффект за фиксированное количество и производственных циклов. Другими словами, надо так выбрать значения им ..., и„в допустимых пределах, чтобы получить максимум величины Я(л,иыи2,....,и„) = ~~ (д(иь)+Цхь — щ)), (8.3) где х1 = э~ хт 1 =аит+Ь(хт — ит), 0 < ит <хьп па= 1, и, Мы пришли к дискретной задаче оптимального управления. Параметры иы из, ..., и„, которые нужно определить, решая задачу, есть управление, неравенства 0 < ит < хяо га = 1, и, описывают область допустимого управления, а суммарная величина (8.3) есть целевой функционал.
Отметим, что для планирования процесса на к-м цикле необходимо знать лишь величину хя и число п — й оставшихся циклов. Процесс планирования в предыдущие циклы никак не влияет на планирование в текущем цикле, т.е, история" процесса не имеет значения. Основной интерес в этой задаче представляет не значение максимального экономического эффекта, а процедура его достижения, вли, другими словами, оптимальная стратегия распределения средств. Принцип оптимальности предполагает использование хорошо известного приема, состоящего в планировании от конца к началу. Рассматривая последний и-й цикл, найдем значение оптимального управления и„как функцию состояния процесса 279 З,Ь Прииции оитииильиости на начало этого цикла. Это позволит распределять средства на этом цикле в зависимости от их количества хи. Затем, используя оптимум последнего цикла, найдем оптимальную стратегию на двух последних циклах как функцию состояния процесса на начало предпоследнего цикла.
Для этого достаточно найти величину ии ~ как функцию х„ь Процедуру повторяем для трех последних циклов, четырех и так далее до тех пор, пока не охватим все циклы. На последнем шаге, найдя п1 как функцию х1 и зная фактическое значение х1 = и, мы сможем вычислить всю серию значений ип из, ..., .ии, т.е. определить оптимальную стратегию. Итак, на пим цикле и зависимости от х„максимальный экономический эффект равен: т„(т,„) = шах (д(ии) + 6(х„— ии)), 0<и„<т„ а значение а„'(хи), на котором достигается этот максимум, является искомым оптимальным значением в зависимости от хи. Считая, что на последнем цикле и„= и,*,(хи) и достигаемый экономический эффект равен ти(хи), ищем максимум: ти ~(хи 1)= шах [д(0,„1)+Цх 1 — ии ~)+ти(хи)) = 0<и„1<и„ шзх [д(ии 1)+й(хи 1 — ии 1)+ 0<и„~ <и„ + ти (апи-.1 + Ь(хи ~ — ви-1)) ~ .
Найденный максимум ти 1(хи ~) и соответствующее значение и,*, и при котором он достигается, позволяют перейти к следующему этапу. Продолжая продвигаться к началу процесса, мы на и-м этапе ищем максимальный экономический эффект и (хи,), т = = а — Й + 1, за последние Й производственных циклов в зависи- 280 8. МЕТОД ДИНАЫИНЕСКОГО ПРОГРЛМЫИРОНАНИЯ мости от средств хтл на начало т-го цикла по формуле ттл(хтп) — шах 9(т~т) + Цхт ттт) + о«;,~ + г, ~1(аи + 6(х — игл))], тп = и — Й+ 1, Й = 1, п. (8.4) Соотношение (8.4) — это ренуррентпное соотпнотиение Белл.
нана для рассматриваемой задачи. Оно сводит задачу оптимизации на Й последних циклах к оптимизации на первом из них с учетом уже найденной оптимизации на Й вЂ” 1 последних циклах. Величина гт(х1) представляет собой суммарный экономический эффект за все и производственных циклов в зависимости от стартового значения хь Задача отыскания максимума функции и переменных с очень сложной зависимостью свелась к и последовательным задачам поиска максимума функции одного переменного. Изложенный метод решения дискретных задач оптимального управления можно использовать в непрерывных задачах оптимального управления, но для этого непрерывную задачу нужно заменить близкой ей дискретной задачей (эту замену называют дискретизацией исходной задачи).
Пусть система имеет закон движения х = 1(х,и), х Е Е, и Е й„ (8 5) т 1(х,и] = 1" (х,и)тй. о (8.6) Для замены поставленной непрерывной задачи оптимального управления близкой ей дискретной выберем некоторое и задано начальное состояние х(0) = хо системы. Для управления и(1) (как и выше, это кусочно непрерывная функция) введем ограничение ]и] < 1. Время движения Т = 1э — 1~ считаем фиксированным. Так как система автономна, можно считать, что 11 = О. В качестве целевого функционала возьмем 281 8,1. Принцип оптимнльности натуральное число 1"и" и разобъем отрезок ~О, Т) на 1н' участков одинаковой длины д = Т(М.
Будем искать значения функций лишь в дискретные моменты времени ~ = ьо, й = О, Х. Вместо х(йб) и и(Ы) будем писать хь и иь соответственно. Дифференциальное уравнение (8.5) заменим разностным, аппроксимируя первую производную в дискретные моменты времени согласно формуле ХЬ-~-1 — ХЬ П'1 б В результате получим хь11 — — хи+ ~(хр.,иьин, й = О, Х вЂ” 1. (8.7) Заменим также целевой функционал (8.6) интегрального типа соответствующей интегральной суммой Ю вЂ” 1 7(х~,...,хм 1,иш...,ии 1) = ~1 ~~(хыиь)М (8.8) и — -О Итак, мы пришли к дискретной задаче, в которой нужно НайтИ таКОЕ УПРаВЛЕНИЕ (ию и1, ..., ии 1), КОТОРОЕ УДОВЛЕтВО- ряет ограничению ~иь~ ( 1, й = О, Ю вЂ” 1, и минимизирует функционал (8.8) при начальном условии хо = х". Эта зада1а тем лучше аппроксимирует исходную задачу (8.5), (8.6), чем больше число Х. Так как функционал (8.8) рассматривается только при значениях хь и иы удовлетворяя>щих закону движения (8.7), мы можем опустить в его аргументах х1, ..., хм 1, т.е.
будем писать 1(хе,иш...,ил 1). положим, что Х-1 1м п,(хм.,~,иу ~,...,.ик «) = ~1 7 (хы11ь)о, 1п=1,11', где хл — т.11, "., х1у — 1 определяются согласно рекуррентным формулам (8.7). Другими словами, 7н „это часть интегральной суммы в представлении целевого функционала (8.8), 282 8. МЕТОД ДИНАМИНЕСКОГО ПРОГРАММИРОВАНИЯ относящаяся к моментам времени ! = ЙБ, Й = 11' — т., Х вЂ” 1, и вычисленная в зависимости от состояния хж „, системы в момент времени 1 = (д! — т)д.
Обозначим Иж — т(хх — ш) = ™п Б — т~(хх — т;иж — т~ ° ° ° 1их — !) ° ~~л — и ~ < ! Применим описанный выше прием оптимизации от конца к началу в рассматриваемой дискретной задаче. Согласно принципу оптимальности, управляющее воздействие и*,~ должно быть выбрано так, что и!! — !(х!у — !) =1ж — !(хж !,и~ !) = шш 1!у ~(х~ !,иж !). , ~<1 Для простоты считаем, что указанный минимум достигается в единственной точке и значение и* ! определено однозначно, т.е.
тем самым определена функция и*,,! (х!у. !). На следующем этапе рассматриваем оптимизацию 1А! захватывая два отрезка времени от (Х вЂ” 2)1! до Хб. Так как 1ь 2(х~ 2,и~ 2,им !) = ~е(х~- 2,и!! 2)5+1а !(х!у !,иж !), задача сводится к определению и~, 2, для которого !22! 2(хм 2) = 1% 2(хх 2.,и~~ 2 иу !) = !пш [1~(хж. 2,.иу 2)б+ 1~ !(хж — !,и*„,)1, (ил -~(<1 где хж ! выражается через хл 2 и и!! 2, согласно закону движения (8.7) при /с = г1 — 2, а и', = и,*, (хл !). Тем самым найдено оптимальное управление на двух последних отрезках времени в зависимости от того, какое состояние ху 2 получит система на момент времени (1!! — 2)д.
Повторяем процедуру, последовательно добавляя частичные отрезки времени. На й-м этапе нам необходимо определить 283 а2. УравнЕниЕ БЕллмааа оптимальное управление и~ ь из условия рх-а(хм-ь) = 1Б-а(хм-ьим — а иа — ье1 " ил — у) = ~1 (хм-ыпи-а) + ~вн у <1~- +1Б аа,(хл е ~,,иж а,,,...,ин,)1, (8.9) й = 2, г1., где значение хм а е1 выражается через хм у и им ы согласно (8.7), следующим образом: ха ьа1 — — хм й+~(хм й,ии ь)Е 8.2. Уравнение Беллмана Хотя метод динамического программирования ориентирован на решение дискретных задач оппиамоланоео управления, его идею, которая на основе принципа оптимальности даст рекуррентные соотношения, можно использовать при изучении "Саь: Беллмаа Р., Дрейфус С.
Определив на последнем этапе величину ро(хо) и управление ио, можно по известному начальному состоянию хо = х найти о последовательно хм и*,, ..., хм ы и*,. Значение ро(хо) дает минимальное значение функционала (8.8). Соотношения (8.9) представляют собой ренуррентпные соогпноиления Беяямана для данной задачи. Приведенный алгоритм решения задачи оптимального управления (алгоритм динамического программирования) можно перенести на общий случай задачи оптимального управления с векторным законом движения (8.1). При этом на каждом шаге нужно будет искать минимум функции г переменных, зависящей от г-мерного вектора управления.