STOXAST (932351), страница 4
Текст из файла (страница 4)
Стохастические дифференциальные уравненияС интуитивной точки зрения случайно возмущенный процесс представляется возможным моделировать, например, дифференциальнымуравнениемdx/dt = ẋ = f (x, t) + v(t),(3.1)в котором f (x, t) — детерминированная функция вектора x переменныхсостояния (фазовых переменных) и времени t, а v(t) — случайныйпроцесс с нулевым математическим ожиданием (в случае ненулевогоматематического ожидания его можно было бы внести в функцию f итем самым свести задачу к рассматриваемому случаю).Доступной для исследования современными методами стохастической теории управления является модель, в которой следует потребовать: 1) независимости v(t) и v(s) при t 6= s, иначе вероятностноераспределение dx/dt зависело бы не только от текущего состояния,но и от его предыстории; 2) чтобы случайная величина v(t) (а следовательно, и dx/dt) имела конечную дисперсию и была непрерывна всреднеквадратическом при всех t ∈ T ; 3) E[v(t)] = 0.
При этих условиях можно доказать, что E[v 2 (t)] = 0. Но поскольку процесс v(t) равеннулю в среднеквадратическом, то он не влияет на решение уравнения (3.1), т.е. влияние случайной переменной v на процесс (3.1) несущественно. Подобный вывод получился вследствие слишком жесткихтребований к процессу, в основном, вследствие требования конечности16дисперсии процесса v(t). Чтобы получить корректную стохастическуюмодель, следует несколько ослабить требования.Пусть v(t) —случайный процесс с независимыми приращениями.Сначала вместо дифференциальной рассмотрим конечноразностную аппроксимацию модели (3.1):x(t + h) − x(t) = f (x, t)h + v(t + h) − v(t) + o(h).(3.2)Если условное распределение приращения v(t + h) − v(t) при заданном x(t) нормально, то это приращение можно представить в видеσ(x, t)[w(t + h) − w(t)], где w(t) — винеровский процесс (с нулевым математическим ожиданием и дисперсией, равной h).
Тогда вместо уравнения (3.2) можно рассматривать следующее уравнениеx(t + h) − x(t) = f (x, t)h + σ(x, t)[w(t + h) − w(t)] + o(h),(3.3)для которого получаемE[x(t + h) − x(t)] = f (x, t)h + o(h),var[x(t + h) − x(t)] = σ 2 (x, t)E[w(t + h) − w(t)]2 +o(h) = hσ 2 (x, t) + o(h).Дисперсия приращения винеровского процесса пропорциональна h,а не h2 . Это связано с тем, что производная от винеровского процесса не существует, а следовательно, невозможно разделить уравнение(3.3) на h и устремить затем h к нулю. Однако можно формально допустить, что h → 0 в уравнении (3.3), что приводит к следующемудифференциальному уравнению (в дифференциалах)dx = f (x, t)dt + σ(x, t)dw,(3.4)называемому стохастическим дифференциальным уравнением.4Поскольку производная dw/dt = e(t) выражает собой непрерывныйбелый шум, то уравнение (3.4) формально можно переписать также ив видеdx/dt = f (x, t) + σ(x, t)e(t).(3.5)Таким образом, нетривильную стохастическую модель удается получить только в случае, если предположить, что случайная помеха неимеет конечной дисперсии и подобна белому шуму.
Однако подобноепредположение выглядит очень странно с точки зрения физическихприложений. Правда, имеется ряд приложений, особенно в теории связи, где нежелательно иметь дело с производными от сигналов и гдемодель типа (3.3), (3.4) оказывается вполне уместной.17Разностное уравнение (3.3) приводит к дифференциальному уравнению (3.4).
Однако можно получить совсем иной результат, если исходить из следующего разностного уравненнияx(t) − x(t − h) = f (x(t), t)h + σ(x(t), t)[w(t)−w(t − h)] + 0(h)(3.6)Пусть функция f непрерывно дифференцируема, а функция σ дважды непрерывно дифференцируема. Разность [w(t) − w(t − h)] не зависит от x(t − h), а зависит от x(t). Раскладывая правую часть равен4ства (3.6) в ряд в окрестности точки (x(t − h), t − h) = y и оставляязатем только члены порядка не выше h (имея в √виду, что разности[x(t) − x(t − h)] и [w(t) − w(t − h)] имеют порядок h, получаемx(t) − x(t − h) = [f (y) + fx (y)(x(t) − x(t − h)) + ft h]h+[σ(y) + σx (y)(x(t) − x(t − h)) + σt (y)h][w(t) − w(t − h)] + o(h) =f (y)h + σ(y)[w(t) − w(t − h)] + σx (y)[w(t) − w(t − h)]2 + o(h).Вычисляя математическое ожидание и дисперсию, получаемE[x(t) − x(t − h)] = f (y)h + σx (y)σ(y)h + o(h),var[x(t) − x(t − h)] = σ 2 (y)h + o(h).(3.7)Таким образом, в зависимости от того, в какой форме берется разностное уравнение, получается различное значение среднего приращения процесса.
Если использовать смешанную разностьδx(t) = (1 − α)[x(t + h) − x(t)] + α[x(t) − x(t − h)],то математическое ожидание от приращения равноE[dx] = f (x, t)dt + ασx (x, t)σ(x, t)dt,а дисперсия во всех случаях одинакова и равнаvar(dx) = σ 2 (x, t)dt.Итак, среднее приращение совпадает с интуитивно ожидаемым значением f (x, t)h в случае использования прямых разностей и совпадаетсо значением (3.7) в случае использования обратных разностей.
Интегрирование возникающих дифференциальных уравнений приводит кразличным понятиям интеграла.18Если подходящим образом определить понятие интеграла, то уравнение (3.4) можно представить в следующем интегральном видеx(t) = x(t0 ) +Ztf (x(s), s)ds +t0Ztσ(x(s), s)dw(s).(3.8)t0В (3.8) интегралы можно рассматривать в виде интегралов Ито,Стратоновича или в виде (2.2) при 0 ≤ α ≤ 1.
Независимо от используемого понятия интеграла необходимо выяснить условия, при удовлетворении которых уравнение (3.8) имеет единственное решение.Допущения 3.1. Пусть функции f (x, t) и σ(x, t) измеримы по Борелю и удовлетворяют в ограниченных областях своего измененияследующим условиям:1) Существуют постоянные C1 и C2 , с которыми имеют местонеравенства|f (x, t)| ≤ C1 (1 + |x|), |σ(x, t)| ≤ C1 (1 + |x|),|f (x, t) − f (y, t)| ≤ C2 |x − y|, |σ(x, t) − σ(y, t)| ≤ C2 |x − y|.Теорема 3.1. Пусть удовлетворяются допущения 3.1 и E|x(t)|2 <∞. Тогда решение уравнения (3.8) существует и единственно в томсмысле, что если x(t) и y(t) такие два решения уравнения (3.8), чтоy(t) = x(t), то с вероятностью 1 выборочные функции процессов xи y совпадают.Доказательство этой теоремы проводится методом последовательных приближений по классической схеме доказательства решения обыкновенного дифференциального уравнения.Решение уравнения (3.8) конечно же зависит от используемого понятия интеграла.
Если используется интеграл Ито, то, вследствие егосвойства (2.3) перестановочности операций интегрирования и математического ожидания, а также с учетом нулевого математическогоожидания от винеровского процесса, получаемEx(t) = Ex(t0 ) + EZtf (x(s), s)ds.t0Далее, имеемE[x(t + h) − x(t)|x(t)] = f (x, t)h + o(h).В случае же интеграла Jα , определенного выражением (2.2), получаемE[x(t + h) − x(t)|x(t)] = [f (x, t) + ασx (x, t)σ(x, t)] + o(h).19Однако в любом случае ковариация приращений равнаcov[x(t + h) − x(t)|x(t)] = σ(x, t)σ T (x, t)h + o(h).Интеграл Ито удобен, разве что, тем, что в нем величина f (x, t)hопределяет среднее значение приращения [x(t + h) − x(t)], что в точности согласуется с интуитивно ожидаемым представлением об этомприращении.Наиболее простым является случай, когда уравнение (3.4) оказывается линейным:dx = A(t)xdt + dw,(3.9)где x — n-мерный вектор, w — винеровский процесс с ковариациейприращений Rdt, A —квадратная матрица n × n, причем матрицы Aи R непрерывны по времени.
Если уравнение (3.9) рассматривать каксреднеквадратический предел разностного уравнения, то оказываетсяневажным, какие разности использовать — прямые или обратные.Если допустить, что переменная w в уравнении (3.9) имеет ограниченную вариацию, то решение этого уравнения можно представить ввидеdx = Φ(t, t0 )x(t0 ) =Ztφ(t, s)dw(s),(3.10)t0где функция Φ удовлетворяет уравнениюdΦ(t, t0 )= A(t)Φ(t, t0 )6 Φ(t0 , t0 ) = I.(3.11)dtЗаметим, что если для линейных стохастических систем вида (3.9)условные вероятностные распределения будущего состояния x(t) оказываются нормальными, то для нелинейных дифференциальных уравнений вида (3.4) они уже не являются нормальными, а удовлетворяютдифференциальному уравнению в частных производных параболического типа. Если через p(x, t; x0 , n0 ) обозначить плотность вероятностисостояния x в момент t при условии, что в момент t0 процесс находитсяв состоянии x0 , то это уравнение, называемое уравнением Фоккера—Планка, или прямым уравнением Колмогорова, имеет видn ∂(pf )nXX∂p∂ 2 (pσik σjk )i= Lp = −+ 1/2∂t∂xi ∂xji=1 ∂xii,j,k=1с начальным условиемp(x, t; x0 , t0 ) = δ(x − x0 ).204.
Стратегии управления, минимизирующие дисперсиюРассмотрим задачу управления простейшей линейной стохастической системой с одним входом u(t), представляющим собой управляющую переменную, и одним выходом y(t), определяющим состояниесистемы в момент t. Предположим, что на систему действует нежелательное случайное возмущение e(t), представляющее собой последовательность независимых нормально распределенных случайных переменных с параметром (дисперсии) c, |c| < 1. Рассматривается дискретный процесс, в котором независимая переменная (время) t принимаетцелые значения t = 1, 2, ..., T .
Состояние системы описывается следующим линейным уравнением в дискретном времени:y(t + 1) = −ay(t) + u(t) + e(t + 1) + ce(t).(4.1)Ищется закон управления u(t), минимизирующий дисперсию Ey 2 (t+1). В этом уравнении предполагается, что e(t + 1) не зависит от y(t),u(t) и e(t), а управление u(t) является функцией предшествующих измеренных переменных состояния y(t), y(t − 1),... и предшествующихзначений управления u(t − 1), u(t − 2),.... Как следует из уравнения(4.1), изменение u(t) в момент времени t, изменяет состояние y(t + 1)в следующий момент. Интуитивно ясно, что если в уравнении (4.1) вкаждый момент t использовать управлениеu(t) = ay(t) − ce(t),(4.2)то из этого уравнения следуетy(t + 1) = e(t + 1),(4.3)откуда, в свою очередь, получаемu(t) = (a − c)y(t).(4.2a)Учитывая, что величина e(t + 1) не зависит от u(t), y(t) и e(t), аследовательно, на нее не может явно воздействовать управление u(t),с учетом управления (4.2) получаем из уравнения (4.1), что дисперсияEy 2 (t+1) = Ee2 (t+1) оказывается теоретически возможной минимальной дисперсией процесса y в любой момент t.Если подставить предполагаемое оптимальное управление (4.2a) вуравнение (4.1), получаемy(t + 1) − e(t + 1) = −c[y(t) − e(t)].21(4.4)Полагая в этом уравнении [y(0)−e(0)] = A в момент t = 0, получаем,решая уравнение (4.4) итерационно:y(1) − e(1) = −cA,y(2) − e(2) = −c[y(1) − e(1)] = a(−c)2 ,.....y(t) − e(t) = A(−c)t → 0 при t → ∞.Поскольку |c| < 1, то y(t) = e(t) при t → ∞.
Так что в установившемся режиме выходная переменная также имеет минимальнуюдисперсию.С учетом управления (4.2) величину u(t) + ce(t) − ay(t) можно рассматривать как оптимальную среднеквадратичную оценку состоянияy(t + 1), полученную на основе предшествующей информации в момент t. Так что ошибка управления равна ошибке упреждения e(t + 1)(т.е. оптимальное управление оказывается тесно связанным с упреждением), причем согласно (4.3) оптимальная величина выходной переменной оказывается белым шумом.Поскольку стохастическая оптимизация оказалась связанной с задачей оптимального упреждения, то рассмотрим эту последнюю задачуподробнее. Устранив управляющую переменную в уравнени (4.1), получаемy(t + 1) = −ay(t) + ce(t) + e(t + 1),(4.5)где e(t) и e(t+1) — независимые нормально распределенные случайныепеременные.
Если третий член e(t + 1) в уравнении (4.5) не зависитот наблюдений переменной состояния в предшествующие моменты, топервый член ay(t) непосредственно определяется из наблюдений, а второй ce(t) может быть найден итерационно и выражен через результатынаблюдений переменных состояния y(t), y(t − 1),... непосредственно спомощью уравнения (4.5), которое можно записать в следующем виде,если добавить и вычесть член cy(t):e(t + 1) = y(t + 1) − c[e(t) − y(t)] + (a − c)y(t).Итерационно решая это уравнение, получаемe(1) = y(1) − c[e(0) − y(0)] + (a − c)y(0),e(2) = y(2) − c[y(1) − c(e(0) − y(0)) + (a − c)y(0) − y(1)] + (a − c)y(1) =y(2) + (−c)2 [e(0) − y(0)] + (a − c)(−c)y(0) + (a − c)y(1),.....................e(t) = y(t) + (−c)t [e(t0 ) − y(t0 )] + (a − c)22t−1Pi=t0(−c)t−(i+1) y(i).Поскольку |c| < 1, то второй член в правой части последнего уравнения стремится к нулю при t0 → −∞.