Диссертация (1145356), страница 7
Текст из файла (страница 7)
Для этого в подынтегральная функция, как правило, домножается на дисконтирующий множитель − , где > 0. Кроме того, в задачах, определенных на бесконечности,правый конец траектории полагается свободным.Таким образом, можно сформулировать задачу оптимального управления,соответствующую кооперативной игре, развивающейся на бесконечном интервале:⎧∫︀∞ −⎪⎪⎨max ℎ(( ), ( )),(1.2.11)0⎪⎪⎩ () удовлетворяет (1.1.1) с (0 ) = 0 .В дополнение к условиям, сформулированным в предположении 1.1.1, потребуем выполнения следующего условия, гарантирующего сходимость несобственного интеграла в задаче (1.2.11):Предположение 1.2.2.
Для любой допустимой пары (, ) должны выполняться неравенства− max |ℎ((), )| ≤ (),()∈∫︁∞− |ℎ(( ), ( ))| ≤ (), ≥ 0 , ≥ 0 ,где (), () – некоторые положительные функции, такие, что выполняется lim () = +0 и lim () = +0.→∞→∞Сформулируем принцип максимума для задачи (1.2.11).Глава 1.41Основные модели и методыТеорема 1.2.6 ([272]). Пусть пара (* (), * ()) является решением задачи(1.2.11). Тогда существует непрерывная функция () и константа 0 ≥ 0такие что (0 , ()) ̸= 0 и для всех ≥ 0 выполняются следующие условия:1.
Переменные () и () удовлетворяют системе 2 дифференциальныхуравнений⎧⎪⎨ ˙ () =⎪⎩ ˙ () = () − ,где ((), (), ()) = 0 ()ℎ(( ), ( )) + ⟨(), ((), ())⟩ – гамильтониан, соответствующий задаче (1.2.7);2. Для всех ∈ [0 , ) гамильтониан ((), (), ()) достигает своегомаксимального значения: * ((), ()) = max ((), (), ());()∈3. Функция (* (), * (), 0 , ()) удовлетворяет условию(0 , * (0 ), 0 , (0 )) = 0∫︁∞− ℎ(* ( ), * ( )),04. Выполняется условие трансверсальности:lim − * (* (), * (), 0 , ()) = 0.→∞(1.2.12)Замечание 1.2.2. Сопряженные переменные (), используемые в теореме 1.2.6,называются текущими значениями соответствующих сопряженных переменных и связаны с сопряженными переменными () соотношением () = ().Результаты теоремы 1.2.6 могут быть переформулированы в терминах «обычных» сопряженных переменных ().Глава 1.42Основные модели и методыЗамечание 1.2.3.
Заметим, что в отличие от случая с предписанной продолжительностью, теорема 1.2.6 включает условие трансверсальности, сформулированное для гамильтониана * . Распространение условий трансверсальностидля сопряженных переменных на случай бесконечного времени, т.е.lim − () = lim () = 0→∞→∞(1.2.13)может в ряде случаев приводить к неверным результатам (см. детальный анализ проблемы в [2]). В то же время представляется возможным использованиеусловий трансверсальности в виде (1.2.13) для определения возможных решений задачи (1.2.11) с последующей проверкой выполнения условия трансверсальности в виде (1.2.12).Аналогично случаю с предписанной продолжительностью, для задач с бесконечной продолжительностью также могут быть сформулированы достаточные условия оптимальности Мангасаряна и Эрроу, которые приводятся ниже.Эти и другие результаты подробно анализируются в [320].Теорема 1.2.7 (Мангасарян).
Пусть пара (* (), * ()) и функция () удовлетворяют условиям теорем 1.2.6 и 1.2.2. Пусть, кроме этого, для всех допустимых траекторий () выполняется предельное условие трансверсальностиlim ()(() − * ()) ≥ 0.→∞(1.2.14)Тогда (* (), * ()) есть оптимальное решение задачи (1.2.11) либо единственное оптимальное решение задачи (1.2.11) если условия теоремы 1.2.2выполняются в строгом смысле.Теорема 1.2.3 переформулируется для случая бесконечной продолжительности аналогичным образом, путем добавления предельного условия трансверсальности (1.2.14).Глава 1.1.31.3.1Основные модели и методы43Позиционные управленияИгры с предписанной продолжительностьюВ случае, когда оптимальное управление разыскивается в классе позиционных управлений, т.е.
полагается, что * = * (, ()), основным инструментомявляется аппарат динамического программирования. Рассмотрим игру на конечном интервале времени.Отличие метода динамического программирования заключается в том, чтоправый конец траектории обычно оставляется свободным. Ограничения направый конец вводятся, если необходимо, через терминальные функции выигрыша. Ниже мы рассмотрим случай, когда правый конец свободен, а терминальные функции выигрыша равны нулю.Как и ранее, начнем с кооперативной постановки. Задача оптимальногоуправления описывается следующим образом:⎧∫︀⎪⎪⎨max ℎ(( ), ( )),0(1.3.15)⎪⎪⎩ (0 ) = 0 , () удовлетворяет (1.1.1).Решение этой задачи дает классический результат, сформулированный Р.
Беллманом в [7]:Теорема 1.3.1. Пусть существует непрерывно дифференцируемая по своимаргументам функция (, ()) удовлетворяющая уравению[︂]︂ (, ) (, )−= max(, ) + ℎ(, )(,)∈(1.3.16)с краевым условием ( , ( )) = 0 и существует допустимое управление * (, ), доставляющее максимум выражению в квадратных скобках в(1.3.16), то управление * (, ) является оптимальным, а значение функцииБеллмана, вычисленной в начальный момент времени, (0 , (0 )), равносуммарному выигрышу игроков в игре (1.1.4): (0 , (0 )) = (0 , 0 , , ).Глава 1.44Основные модели и методыУравнение (1.3.16) обычно называется уравнением Гамильтона-Якоби-Беллмана.Вопрос существования и единственности гладких решений уравнения (1.3.16)является открытым.
В то же время существует ряд результатов, позволяющих установить существование и единственность слабого решения уравнения(1.3.16), называемого вязкостным решением. Не вдаваясь в детали относительно определения и свойств вязкостного решения, приведем несколько результатов, которые могут быть полезны в дальнейшем.Для удобства изложения введем обозначение = (,) .Теперь уравнение(1.3.16) можно переписать как (, )+ ℋ(, ) = 0,(1.3.17)(︀)︀где ℋ(, ) = min ⟨, (, , )⟩ + ℎ(, ) представляет собой гамильтониан,определенный аналогично гамильтониану в теоремах 1.2.1 и 1.2.6.Теорема 1.3.2 ([201]).
Пусть гамильтониан ℋ(, ()) удовлетворяет следующим условиям для всех ∈ [0 , ):⎧⎪⎨‖ℋ(, ) − ℋ(, )‖ ≤ ‖ − ‖,(1.3.18)⎪⎩‖ℋ(, ) − ℋ(, )‖ ≤ ‖ − ‖(1 + ‖‖),где > 0 – некоторая положительная константа. Тогда существует неболее одного вязкостного решения уравнения (1.3.16) .Следующий результат следует из свойств вязкостного решения.˜ (, ) ∈ 1 (R × [0 , ]) есть вязкостноеУтверждение 1.3.1. Пусть ˜ (, ) ограничено и равномернорешение уравнения (1.3.16) и, кроме того, ˜ (, ) представляет собой классическое решение уравненепрерывно. Тогда ния (1.3.16).Глава 1.45Основные модели и методыТаким образом, результат теоремы 1.3.2 может быть естественным образомраспространен на классические решения уравнения (1.3.16).Уравнение (1.3.16) является дифференциальным уравнением в частных производных первого порядка, поэтому для его решения может быть примененметод характеристик.
Метод характеристик заключается к сведению решенияуравнения в частных производных к решению системы обыкновенных дифференциальных уравнений, [201]. Опишем схему решения в общем случае.Для начала предположим, что существует достаточно гладкое решение уравнения (1.3.16), которое обозначим (, ). Рассмотрим некоторую кривую впространстве R+1 начинающуюся в точке (, ) и параметризованную переменной : ((), ()). Соответственно, можно записать () = ((), ()) и((), ())((), ()), () =. Подставляя параметризованныевыражения в (1.3.17) и дифференцируя по получаем выражений, которое0 () =должно равняться нулю, т.е. мы требуем, чтобы кривая (, ()) была интегралом (1.3.17). Полученное выражение распадается на ряд обыкновенныхдифференциальных уравнений, где производные понимаются взятыми по :⎧⎪⎪⎪˙ = 1,⎪⎪⎪⎪⎪ℋ(, , )⎪⎪⎪˙=,⎪⎪⎪⎨ℋ(, , )˙0 = −,⎪⎪⎪⎪ℋ(, , )⎪⎪˙=−,⎪⎪⎪⎪⎪⎪ℋ (, , )⎪⎪⟩,⎩˙ = 0 + ⟨,(0) = (0) = 0 ( ) =(, )(1.3.19) ( ) = 0( ) = 0.Справедлива следующая теорема.Теорема 1.3.3 ([183]).
Для любой пары (, ) ∈ [0 , ] × R пусть (; , ),(; , ) и (; , ) являются решениями (1.3.19) для ≥ такими что1. Максимальный интервал существования решений (1.3.19) содержитГлава 1.46Основные модели и методы[0 , ],2. Отображение → (; ) является 1 гладким вместе со обратнымотображением → (; ) для всех ∈ [0 , ].Тогда существует единственное решение ∈ 2 ([0 , ] × R ) уравнения(1.3.16) которое определяется как (, ) = (; (, )).В некооперативном случае задача оптимального управления формулируется в виде системы связанных задач оптимального управления:⎧∫︀⎪⎪⎪ = max ℎ (( ), ⎪− ( )),⎪⎪0⎨ = 1, .
. . , ,⎪− = (1 , . . . , −1 , , +1 , . . . , , ),⎪⎪⎪⎪⎪⎩ (0 ) = 0 , () удовлетворяет (1.1.1).(1.3.20)Соответственно, для задачи (1.3.20) можно сформулировать результат, аналогичный Теореме 1.3.1:Теорема 1.3.4 ([169]). Пусть существует непрерывно дифференцируемыхпо своим аргументам функций (, ()), удовлетворяющих системе дифференциальных уравнений в частных производных[︂]︂ (, ) (, )−= max(, − ) + ℎ (, − ) , (,)∈ = 1, . .
. , (1.3.21)с краевыми условиями ( , ) = 0 и существуют допустимые управления (, ), доставляющие максимум соответствующим выражениям в квадратных скобках в (1.3.21), то управление (, ) = (1 (, ), . . . , (, ))является оптимальным, а значение функций Беллмана, вычисленных в начальный момент времени, (0 , (0 )), равны выигрышам игроков в случаеравновесия по Нэшу: (0 , (0 )) = (0 , 0 ).Задача разыскания функции Беллмана, удовлетворяющей уравнению (1.3.16)или системе уравнений (1.3.21) в общем случае не имеет решения. ОднакоГлава 1.Основные модели и методы47оказывается, что для задач оптимального управления с динамикой, описываемой линейными ДУ и линейно-квадратичными функциями мгновенного выигрыша функция Беллмана может быть выбрана в виде квадратичной функции состояния (, ) = ′ () + () + () или линейной по состоянию: (, ) = () + ().
Конкретный вид функции Беллмана определяется условиями задачи и, соответственно, видом уравнения Гамильтона-ЯкобиБеллмана. В работах [51, 48, 194, 195, 204, 303, 341] приведены примеры выбора вида функций Беллмана для различных постановок задач оптимальногоуправления.Кроме того, в ряде случаев для определения вида функции Беллмана можетбыть использован эвристический метод, основанный на использовании принципа максимума Понтрягина.
Рассмотрим кооперативный случай. Если выражения для оптимальных управлений * () и соответствующей им оптимальнойтраектории (, * ()) могут быть представлены в виде функций от начального состояния 0 и начального момента времени 0 , т.е. * () = * (0 , 0 , ) и(, * ()) = (0 , 0 , , * ()), то подставляя полученные выражения в (1.1.6)можно вычислить значение функции выигрыша (1.1.6) вдоль оптимальнойтраектории, что соответствует функции Беллмана (0 , 0 , , ).