Диссертация (Кооперация и конкуренция в динамических моделях управления возобновляемыми ресурсами), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Кооперация и конкуренция в динамических моделях управления возобновляемыми ресурсами". PDF-файл из архива "Кооперация и конкуренция в динамических моделях управления возобновляемыми ресурсами", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой докторскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени доктора физико-математических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Дляопределенности будем полагать, что система начинает действовать в момент времени t = 0.Запишем закон развития управляемой системы какx0 (t) = f (x(t), u(t)) , x(0) = x0(1.1)в случае непрерывного времени, иxt+1 = ft (xt , ut ) , x0 = x0(1.2)в случае дискретного времени.Здесь x = (x1 , . . .
, xn ) ∈ Rn – вектор фазовых переменных, характеризующих управляемую систему, u = (u1 , . . . , um ) ∈ U – вектор управления. При этом на управление могутбыть наложены некоторые ограничения U ⊂ Rm – множество допустимых управлений.Задачи оптимального управления могут быть рассмотрены как для конечного t ∈ [0, T ],так и для бесконечного горизонта планирования t ∈ [0, ∞).Следующий элемент задачи управления – цель управления. Обычно она состоит в максимизации (минимизации) некоторого функционала, отражающего эффективность управления.Приведем формулировки основных теорем теории оптимального управления для непрерывной модели управления с конечным горизонтом планирования со следующим функционалом:ZTJ(u) =g(x(t), u(t))dt + G(x(T )) −→ min ,0u∈U(1.3)22а для бесконечного горизонта планирования будем рассматривать функционал специального вида, так называемую задачу экономического роста:Z∞e−ρt g(x(t), u(t))dt −→ min ,J(u) =u∈U(1.4)0где 0 < ρ < 1 – коэффициент дисконтирования, отражающий обесценивание капитала,прибыли и т.
д.Для задач с дискретным временем аналогичные функционалы принимают видJ(u) =N−1Xgt (xt , ut ) + G(xN ) −→ minu∈Ut=0иJ(u) =∞Xδ t gt (xt , ut ) −→ min ,u∈Ut=0(1.5)(1.6)где 0 < δ < 1 – коэффициент дисконтирования.Основными методами исследования задач оптимального управления являются принципмаксимума Понтрягина [57] и метод динамического программирования [8], [9].Начнем с рассмотрения непрерывных задач (1.1), (1.3) и (1.1), (1.4).Для задачи (1.1), (1.3) введем функцию БеллманаZ TV (x, t) =min [g(x(s), u(s))ds + G(x(T ))] ,u(s), t ≤ s ≤ Ttудовлетворяющую граничному условиюV (x, T ) = G(x(T )) .Уравнение Гамильтона–Якоби–Беллмана [8] имеет следующий вид:−∂V (x, t)∂V (x, t)= min [f (x(t), u(t)) + g(x(t), u(t))]u(t) ∈ U∂t∂x(1.7)с граничным условием V (x, T ) = G(x(T )).Теорема 1.1.
[8]. Пусть существует единственное непрерывно дифференцируемое решение уравнения Гамильтона–Якоби–Беллмана (1.7) V ∗ (x, t) и существует допустимоеуправление u∗ (x, t), такое, чтоmin[u∈U∂V ∗ (x, t)∂V ∗ (x, t)f (x, u) + g(x, u)] =f (x, u∗ ) + g(x, u∗).∂x∂xТогда u∗ (x, t) – оптимальное управление в задаче (1.1), (1.3), а соответствующая емуфункция Беллмана – V ∗ (x, t).23Лемма 1.1. Для задачи оптимального экономического роста с бесконечным горизонтомпланирования (1.1), (1.4) уравнение Гамильтона–Якоби–Беллмана принимает видρW (x) = min[u∈UdW (x)f (x(t), u(t)) + g(x(t), u(t))] .dx(1.8)Доказательство. Введем функцию Беллмана для задачи (1.1), (1.4)V (x, t) =mine−ρs g(x(s), u(s))ds =R∞min t e−ρ(s−t) g(x(s), u(s))ds .u(s) ∈ U= e−ρtR∞tu(s) ∈ UРассмотрим другую задачуx0 (s) = f (x(s), u(s)), x(t) = x, u ∈ U ,Z ∞J(u) =e−ρ(s−t) g(x(s), u(s))ds −→ min .(1.9)tЗдесь управление не зависит от времени, а только от текущего состояния x.
Поэтомуфункция Беллмана примет видZ∞W (x) = minu(s) ∈ Ue−ρ(s−t) g(x(s), u(s))ds .tФункции Беллмана для задач (1.1), (1.4) и (1.9) связаны какV (x, t) = e−ρt W (x) ,∂V (x, t)∂V (x, t)dW (x)= −ρe−ρt W (x) ,= e−ρt.∂t∂xdxПодставляя их в уравнение (1.7), получим (1.8).Перейдем к формулировке принципа максимума Понтрягина [57].Введем в рассмотрение функцию Гамильтона (гамильтониан)H(x, u, ψ) =nXψi fi (x, u) ,i=0где ψ = (ψ0 , .
. . , ψn ) – вектор сопряженных переменных.Теорема 1.2. (принцип максимума [57]). Пусть функции fi (x, u) и G(x) имеют частные производные и непрерывны вместе с этими производными по совокупности своихаргументов при x ∈ Rn , u ∈ U . Для оптимальности управления u∗ (t) и траектории x∗ (t)в задаче (1.1), (1.3) необходимо существование ненулевой вектор-функции ψ(t), такой,что:241) выполнено условие максимумаH(x∗ (t), u∗ (t), ψ(t)) = max H(x∗ (t), u, ψ(t)) ;u∈U2) сопряженные переменные удовлетворяют сопряженной системеψ 0 (t) = −∂H(x∗ , u∗ , ψ);∂x3) выполнено условие трансверсальности на правом концеψ(T ) = −G0 (x∗ (T )) ;4) выполнено условие нормировкиψ0 (t) = −1 .Теперь перейдем к рассмотрению дискретных задач (1.2),(1.5) и (1.2),(1.6).Введем функцию БеллманаBt (xt ) =minut , ..., uN −1 ∈ UN−1Xgi (xi , ui ) + G(xN ) .i=t−1Теорема 1.3. [9]. Оптимальное управление {u∗t (xt )}Nt = 0 в задаче (1.2),(1.5) определяетсяиз уравнения БеллманаBt (xt ) = min {gt (xt , ut ) + Bt+1 (ft (xt , ut ))}ut ∈ U(1.10)с граничным условиемBN (xN ) = G(xN ) .Лемма 1.2.
[91]. Для задачи оптимального экономического роста с бесконечным горизонтом планирования (1.2), (1.6) уравнение Беллмана принимает видB(x) = min{g(x, u) + δB(f (x, u))} .u∈UПерейдем к формулировке дискретного принципа максимума Понтрягина [57].Введем в рассмотрение функцию Гамильтона (гамильтониан)H(xt , ut , ψt + 1 ) =nXψti + 1 f i (xt , ut ) , t = 0, . .
. , N − 1 ,i=0где ψ = (ψ 0 , . . . , ψ n ) – вектор сопряженных переменных.(1.11)25Теорема 1.4. [57]. Для оптимальности управления u∗t и траектории x∗t в задаче (1.2),(1.5) необходимо существование набора ненулевых функций ψt1 , . . . , ψtn , такого, что:1) выполнено условие максимумаH(x∗t , u∗t , ψt + 1 ) = max H(x∗t , ut , ψt + 1 ) , t = 0, . . .
, N − 1 ;ut ∈ U2) сопряженные переменные удовлетворяют сопряженной системеψt = −∂H(x∗t , u∗t , ψt + 1 );∂xt3) выполнено условие трансверсальности на правом концеψN = −G0 (xN ) ;4) выполнено условие нормировкиψt0 = −1 .Теперь покажем как стандартные методы решения задач оптимального управления применяются в теории динамических игр.1.1.2. Динамические игры и методы их решенияВ динамических играх игра развивается во времени. При этом игроки управляют некоторым объектом, или системой, динамика которой описывается системой разностных илидифференциальных уравнений видаx0 (t) = f (x(t), u1 (t), . .
. , un (t)) , x(0) = x0 , ui ∈ Ui(1.12)в случае непрерывного времени, иxt+1 = ft (xt , u1t , . . . , unt ) , x0 = x0 , ui ∈ Ui(1.13)в случае дискретного времени.Определение1.1. ДинамическойигройбудемназыватьигруΓ =< N, x, {Ui }ni= 1 , {Ji }ni= 1 >, где N = {1, . . . , n} – множество игроков, x = (x1 , . .
. , xm )– фазовый вектор управляемой системы, развитие которого описывается дифференциальными или разностными уравнениями вида (1.12) или (1.13), U1 , . . . , Un – множествастратегий игроков и Ji (u1 , . . . , un ) – выигрыш игрока i ∈ N .26Динамическая игра может быть рассмотрена как на конечном, так и на бесконечномпромежутке планирования. Стратегии игроков представляют собой функции ui = ui (t), i =1, . . . , n.
В зависимости от выбранных стратегий каждый из игроков получает выигрыш,зависящий от действий других игроков. Таким образом, динамическая игра – это многокритериальная задача управления со многими участниками, действующими в условияхконфликта.Непрерывные игрыРассмотрим динамические игры с непрерывным временем. Выигрыш игрока i, i =1, . . . , n имеет видZTJi (u1 , .
. . , un ) =gi (x(t), u1 (t), . . . , un (t))dt + Gi (x(T )) → maxui ∈U0для конечного горизонта планирования, иZ ∞gi (x(t), u1 (t), . . . , un (t))dt → maxJi (u1 , . . . , un ) =0(1.14)(1.15)ui ∈Uдля бесконечного горизонта планирования.Также будем рассматривать выигрыши игроков в специальном виде, так называемыезадачи экономического роста:Z TJi (u1 , . . . , un ) =e−ρt gi (x(t), u1 (t), . . .
, un (t))dt + Gi (x(T )) → maxui ∈U0для конечного горизонта планирования, иZ ∞Ji (u1 , . . . , un ) =e−ρt gi (x(t), u1 (t), . . . , un (t))dt → maxui ∈U0(1.16)(1.17)для бесконечного горизонта планирования,где 0 < ρ < 1 – коэффициент дисконтирования, связанный с инфляцией, амортизацией ит.д., т.е. уменьшающий выигрыш во времени относительно выигрыша в начальный моментигры.Введем стандартное обозначениеu∗ = (u∗1 , . . .
, u∗n ), u−i∗ = (u∗1 , . . . , u∗i − 1 , ui , u∗i + 1 , . . . , u∗n ) .Определение 1.2. Равновесием по Нэшу в динамической игре Γ называется набор стратегий (u∗1 , . . . , u∗n ), для которого выполняются следующие условия:Ji (u−i∗ ) ≤ Ji (u∗ )для произвольных стратегий ui ∈ Ui , i = 1, . .
. , n.27Таким образом, для каждого игрока i условие равновесия по Нэшу выполняется, когдамаксимум Ji достигается на u∗i при динамикеx0 (t) = f (x(t), u∗ (t)) ,что является задачей оптимального управления для каждого игрока i.Поэтому для построения оптимального по Нэшу решения динамической игры Γ используются методы решения задач оптимального управления – метод динамического программирования и принцип максимума Понтрягина, описанные в разделе 1.1.1. Приведемутверждения о существовании и методах построения решения для конечного горизонтапланирования.Утверждение 1.1. Пусть f , gi – непрерывно дифференцируемы. Тогда, если u∗ (t) – равновесие по Нэшу в игре (1.12), (1.14) и x∗ (t) – соответствующая ему траектория процесса,то существует набор m-мерных непрерывно дифференцируемых функций ψi (·) : [0, T ] →Rm , i = 1, .