Диссертация (Управление и контроль безопасного причаливания речных судов), страница 9
Описание файла
Файл "Диссертация" внутри архива находится в папке "Управление и контроль безопасного причаливания речных судов". PDF-файл из архива "Управление и контроль безопасного причаливания речных судов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 9 страницы из PDF
Этапроцедура повторяется, двигаясь от конца к началу для всех шагов, кромепервого. При этом необходимый объем памяти непрерывно растет. Наконец напервомшаге,воспользовавшисьединственнымвариантомзаданногоначального состояния, численно определяют оптимальное управление u r (t0 ) , ноименно ради этого необходимо было запомнить итоги оптимизации на второмшаге, а это приводит к необходимости помнить результаты на предыдущихшагах.61Теперь, поскольку управление u r (t0 ) найдено и, значит, определенозначениеS0 [ x(t0 ), t0 ] ,представляющее собой минимизируемое значениефункционала, осталось выявить конкретные значения u r (t1 ), u r (t2 ),...., u r (tk ) ,соответствующие данной оптимальной траектории. Для этого на основанииуравнения (2.7) и известного управления u r (t0 ) определяется состояние x n ( t1 ) ,которому соответствует запомненное управление u r (t1 ) . Продольная теперьдвижение слева направо, последовательно восстанавливают всю программууправления и оптимальную траекторию за все к шагов.Рис.
2.1. Иллюстрация численного решения с правого конца задачи придискретной форме динамического программированияРассмотренным методом решаются задачи, когда на правом конце частьфазовых координат закреплена. Например, на рис.2.1 представлен случайперехода из точки А в точку В с произвольной конечной скоростью; Тогдадвижение справа налево, как это показано на рис.2.1, при к = 3 требуетпеременного объема запоминаемых результатов, поскольку по координатамx1 и x 2 вначале оценивается малое число вариантов, а потом число растет,вплоть до момента достижения точки А. При этом основное содержаниерасчета на каждом шаге остается прежним.Нужно отметить, что, несмотря на определенную утомительностьрассмотреннойвычислительнойпроцедуры,62методдинамическогопрограммирования сводит задачу минимизации функции (k 1) r переменныхk 1 отдельным шагам расчетами минимизации функции Беллмана, зависящейтолько от r переменных.
Это экономит время расчета, требуя, правда,значительного объема памяти ЭВМ. Достоинством метода при численныхрасчетах является также и снижение объема вычислений при сужении областидопустимых управлений U или допустимого множества значений X . Однако сувеличением размерности задачи дискретизация увеличивает число вариантоврасчета запоминаемых результатов в степени п, что известно как «проклятиеразмерности» и требует иных подходов к применению динамическогопрограммирования [34-36, 38, 39].Б) Непрерывная форма динамического программированияПринцип оптимальности Беллмана дает достаточно общее условие,которое можно применять как для дискретных, так и для непрерывных системуправления.Рассмотрим следующий предельный случай, когда дискрет времени tбесконечно мал, т.
е. t 0 . Обратимся к функциональному уравнениюБеллмана для одномерного объекта, заменив в нем дискретный моментвремени tl (на текущее время) и согласно (2.3) и (2.4) функции ( xl ,ul ) и F ( xl ,ul )соответственно на f (x, u)t и f0 ( x, u)t . Тогда можно получить выражение:S ( x , t ) min{ f 0 ( x , u ) t S [ x f ( x , u ) t ; t t ]}(2.8)u (t )При этом функция S во втором слагаемом правой части уравнения такжеимеет бесконечно малые приращения. Допустим, что функция Беллмана Sнепрерывна и, кроме того, существуют частные производные дS и дS .
Тогдадtдxможно разложить функцию S(x f t, t t) в ряд Тейлора в точке (х, t) и,пренебрегая членами второго порядка малости, получить:S [ x f ( x,u ) t ; t t ] S ( x , t ) дSдSд 2 S t 2 д 2 Sд 2 S x 2t f ( x, u ) t 2f ( x ,u ) t 2 2 ....дtдxдt 2дxдtдx 2Заметим, что последнее слагаемое может быть учтено, если переменная х (t)63есть случайный процесс, в котором присутствует составляющая типа белогошума с бесконечно большой дисперсией D, равной 2 t где 2 – коэффициентдиффузии.
Подставим полученный результат в правую часть уравнения (2.8).С учетом того, что функции S(x, u) иS.t от управления на зависят какtрезультаты уже проведенной оптимизации и могут быть вынесены зафигурные скобки, уравнение (2.8) можно представить в виде:Sf(x,u)tf(x,u)t0дSxS ( x, t ) S ( x, t ) t max 22222u (t )дt д S t д S f ( x u )t 2 д S t , дt 2 2 дxдtдx 2 2 Перенеся первые два члена в левую часть, разделим уравнение на t :SSд2 S 2 д2 Sд2 S max f 0 ( x, u ) f ( x, u ) 2 2 t f ( x,u ) t u (t )txдx 2 дtдxдtПоследними двумя слагаемыми при t 0 можно пренебречь из-за ихмалости. Тогда с учетом случайного характера оптимизируемого процессаполучим уравнение [30, 45]:S ( x, t )Sд2S 2 max f 0 ( x , u ) f ( x, u ) 2u (t )txдx2(2.9)Если рассматривать детерминированный случай при 2 0 и, наконец,исследовать поведение системы с п координатами xi и r управлениями u j , томожно получить известное уравнение Беллмана в частных производных:nS ( x n , t )S max f 0 ( x n , u r , t ) fi ( x n , u r , t ) u r (t )ti 1 x i(2.10)Очень важно подчеркнуть, что уравнение Беллмана (2.10) является нелинейным дифференциальным уравнением, поскольку в нем присутствуетоперация минимизации.
В векторной форме его можно записать так:64S min{ f0 ( x, u, t ) gradS f }uttkS(x,t)minгде f 0 ( x, u, t )dt . t1Поясним теперь смысл слагаемых, входящих в правую часть уравнения(2.10). Первое слагаемое f 0 характеризует потери на текущем шаге, второеслагаемое в виде суммы членов оценивает последствия от принятого решенияв будущем. Причем каждый член учитывает изменение текущего состояния покоординате x j , возникающее за счет управления u r (t ) , с помощью производнойxi fi ( x, u, t ) , которая умножается на свой весовой коэффициентобразом, производныеS. ТакимxiSесть своего рода «коэффициенты чувствительности»xiоставшегося значения минимизируемого функционала к изменениям текущихзначений фазовых координат xi .
Это соображение иллюстрирует дальновидность метода и оживляет представление о функции Беллмана S ( xn ) как онекоторой функции отклика критерия оптимальности на измененные векторасостояния x n . Часто в технических задачах можно физически уяснить себехарактер зависимости функции S от фазовых координат системы. Поэтомуудается найти управление в функции от состояния фазовых координата x i , чтопозволяет прийти к замкнутой системе управления с обратной связью и темсамым ускорить решение задачи, что будет показано ниже в примерах.С помощью динамического программирования можно решать задачи и снезакрепленным временем управления t k . В частности, для автономныхсистем можно получить уравнение Беллмана в виде:n0 min{ f 0 ( x n , u r ) u r (t )i 165S ( x n )f i ( x n , u r )} xi(2.11)где функцияS ( xn ) от времени не зависит.
Для задач максимальногобыстродействия в уравнении (2.11) нужно ввести замену f0 ( x n , u r ) 1 .В заключение отметим, что вывод уравнений (2.10) и (2.11) требовалдифференцируемоcти функции S. Однако существуют задачи, где эта функцияне является дифференцируемой, а оптимальное управление существует.Поясним на примере, что на линии переключения функция S всегданедифференцируема.В)Связьдинамическогопрограммированиясвариационнымисчислением и принципом максимумаМетод динамического программирования носит более универсальныйхарактер, чем методы, основанные на принципе максимума и вариационномисчислении, поскольку он был разработан для оптимального управленияпроцессами, не обязательно описываемыми системой дифференциальныхуравнений. Вместе с тем этот метод не имеет строгого обоснования в рядеслучаев по сравнению с принципом максимума и вариационным исчислением,хотя и тесно связан с ними [1].Пусть целевая функцияf 0 зависитот скорости x изменения фазовыхкоординат.
Тогда уравнение (3.10) можно записать в виде:SS f 0 ( x , x , t ) x (t )tx(2.12)Продифференцируем уравнение (2.12) по x с учетом того, что функцияБеллмана S(x, t) от x не зависит:0 f 0 Sx x(2.13)Затем запишем полную производную по t:d f 0 2S 2S0 xTdt x x xt xПродифференцируем теперь уравнение (2.14) по x :66(2.14) 2 S f 02S x.x t x x x TВычитая из полученного результата предыдущее уравнение, приходим куравнению Эйлера в вариационном исчислении:f 0 d f 0 0x dt x Заметим это соотношение было получено в предположении онепрерывности частных производных второго порядка.Пусть теперь граничное условие задачи в конечный момент времени t kесть соотношение:Sttk f cT 0 x tkТогда с учетом равенства (2.13) получим из (2.12) следующее соотношение, идентичное условию задачи с подвижным концом в вариационномисчислении:[c (tk ) x (tk )]f 0 (tk ) f 0 (t k ) 0xКроме того, можно убедиться, что уравнение (2.13) есть необходимоеусловие минимума для выражения в правой части (2.13), поскольку, во-первых,уравнение (2.13) есть частная производная от этого выражения по x ,приравненная к нулю.
Во-вторых, дифференцируя по x уравнение (2.13)вторично и учитывая равенство нулю производной от первого слагаемого, 2 f0получаем еще одно необходимое условие минимума, T состоящее вx xположительной определенности матрицы частных производных второгопорядка, что совпадает с условием Лежандра в вариационном исчислении.Можно также показать, что если экстремум в точке xопт совпадает сабсолютным минимумом, т.е.:67S ( x , t ) S f 0 ( x , x , t ) xf(x,x,t)xопт0оптTTxxто это соответствует известному условию Вейерштрасса.Геометрическаяинтерпретациядинамического программирования.Связь с функцией Ляпунова. Классическое описание данной взаимосвязистроится на том, что из уравнений динамического программирования приопределенныхдопущенияхвыводятсярезультаты,соответствующиепринципу максимума [1].
Основной смысл этих сопоставлений состоит в том,чтобы показать, что для применения динамического программирования нужныизлишне жесткие требования, связанные с существование непрерывныхчастных производныхS2 Sи.xi xi xlДействительно, если для задачи сзакрепленным временем ввести (п + 2) - мерную вектор-функцию:SSS 1, , ..., , x1xn x n 1 то уравнение Беллмана (2.10) можно записать в виде [1]:nS0 m ax f 0 ( x , u )( 1) i f i ( 1) u x n 1i 1или так f 0 , что соответствует принципу максимума, если ввести функциюH f .Если рассмотреть задачу максимального быстродействия, то, воспользовавшись уравнением (2.14) для автономных систем и продифференцировав его по xl , получим:n2SS f i ( x , u )fi ( x , u ) 0xxxxi 1i 1iiilnПервоеслагаемоеможнопреобразовать,учитываясоотношениеnd S n 2 S2Sxi fi ( x , u ) dt xl i 1 xi xlxxi 1il68очевидноеоткуда получаем следующий результат:ddt S xl n S ( x ) f i ( x , u )0xx i 1ilВидно, что в оба слагаемых входят одни и те же функции (2.15)SS,..., ,x1xnкоторые мы теперь «обозначим через 1 (t ),..., n (t ) .