Диссертация (1137423), страница 6
Текст из файла (страница 6)
Очевидно, что fN (S• ) − FNS -измеримая случайнаявеличина, которая имеет смысл терминальной функции (риска).SОпределение. Оценкой t−бистратегии Q, γ Nt+1 , t ∈ N1 , назовем Ft -измеримую случайнуюQ,γ Nt+1(S0t ) и определяемую равенствомNPtQSS0 , E exp fN (S• ) −(γ i , ∆Si ) |Ft ,величину, обозначаемую через ItQ,γ Nt+1It(1.1)i=t+1где ∆St , St − St−1 , E Q •|FtS −условное математическое ожидание относительно меры Q иσ−алгебры FtS .Определение.
Случайную величину fN (S• ) и стратегию γ N1 назовем допустимыми, еслиP −п.н.Q,γ N1sup E Q I0(S0 ) < ∞.(1.2)Q∈<NСоглашение (f ). Везде ниже предполагается, что fN (S• ) любая FNS −измеримаяограниченная случайная величина.25Очевидно, что если выполнено соглашение (f ), то для того, чтобы стратегия γ N1 быладопустимой достаточно выполнения условия NPQsup E exp − (γ i , ∆Si ) < ∞.Q∈<N(1.3)i=1Множество стратегий таких, что выполнено (1.3), обозначим через D1N .Определение. Бистратегию Q, γ N∈ <N × D1N назовем допустимой.1Соглашение. Везде ниже мы полагаем, что <N 6= ∅ и D1N 6= ∅, не оговаривая этодополнительно.В этой главе мы устанавливаем условия существования решения следующей проблемыQ,γ N1I0(S0 ) → essinfNγN1 ∈D1esssup.(1.4)Q∈<NОпределение essinf и esssup можно найти в [13], [30], [34], [35].Задачу (1.4) будем называть минимаксной.Определение.
F0S −измеримую случайную величину V 0 определяемую равенствомV 0 , essinfNγN1 ∈D1Q,γ N1esssupI0Q∈<N(S0 )будем называть верхним гарантированным значением.В данной главе устанавливаются достаточные условия существования допустимойтакой, что P −п.н. выполняется равенствобистратегии Q∗ , γ ∗N1Q∗ ,γ ∗N1V 0 = I0(S0 ) .(1.5)Заметим, что, без ограничения общности, можно считать, что на σ−алгебре F0S меры P иQ∗ эквивалентны.Определение. Пару Q∗ , γ ∗Nтакую, что выполнено (1.5) будем называть минимаксной1Nбистратегией, вероятностную меру Q∗ −наихудшей, а стратегию γ ∗N1 ∈ D1 −минимаксной.Определение. Триплет Q∗ , γ ∗N1 , V 0 назовем решением минимаксной проблемы (1.4).1.1.2. Приведем игровую интерпретацию минимаксной проблемы (1.4).Предполагается, что на стохастическом базисе Ω, F, {Ft }t∈N0 , P задана d−мерная,случайная,согласованнаяпоследовательностью{St }t∈N0 .Нанемрассматриваетсятерминальный FNs −измеримый функционал fN , зависящий от S0 , ..., SN .
Предполагается, чтоимеется два игрока которым доступно наблюдение d−мерной последовательности {St , Ft }t∈N0 .Первый игрок - природа, ее стратегиями являются вероятностные меры Q ∈ <N на траекторияхпоследовательности {St , Ft }t∈N0 , эквивалентные базовой мере P . Стратегиями второго игрокаявляются многомерные предсказуемые последовательности {γ t }t∈N1 . Предполагается, чтоNPфункция риска второго игрока, аргументом которой является fN (S• ) −(γ i , ∆Si ), гдеi=126(•, •) −скалярное произведение в d−мерном евклидовом пространстве, - экспоненциальная.Предполагается также, что игроки "разумны"и выбирают свои стратегии независимо другот друга. При этом первый игрок (природа) максимизирует ожидаемый риск на множестве<N , а второй игрок его минимизирует на множестве D1N −допустимых стратегий γ 1 , ..., γ N .
Врезультате мы приходим к минимаксной задаче (1.4).Замечание 5. Такая постановка задачи отражает точку зрения второго игрока.Действительно, разумный второй игрок предполагает, что в наихудшем для него случаепервый игрок (природа) выбирает такое распределение вероятностей Q ∈ <N которое бымаксимизировало значение ожидаемого риска, а он выбирает такую стратегию, которая быминимизировала его ожидаемый риск.ВеличинуV0 =infQsup E exp fN (S• ) −NγN1 ∈D1 Q∈<NNP(γ i , ∆Si )i=1(как это принято в теории игр [8]), назовем верхним гарантированным значением.∗∗NNОпределение.
Тройка Q∗ , γ ∗N1 , V 0 , где Q −вероятностная мера и γ 1 ∈ D1 , такая, чтоV0 =EQ∗NP∗exp fN (S• ) −(γ i , ∆Si ) ,i=1названа решением задачи (1.4).1.2 Обоснование применимости стохастического варианта метода динамическогопрограммирования к построению решения минимаксной задачиВ этом разделе обосновывается возможность применения стохастического варианта методадинамического программирования к построению решения многошаговой, стохастической,минимаксной задачи (1.4).1.2.1 В этом пункте мы приводим обоснование возможности использования такого подхода.Для его формулировки нам понадобится следующее определение.1.2.1.1 Определение.
FtS -измеримую случайную величину V t , t ∈ N0 , определяемуюравенствомV t , essinfesssupNQ∈<NγNt+1 ∈Dt+1Q,γ Nt+1ItS0tбудем называть верхним гарантированным значением в момент времени t ∈ N0 .(1.6)27Сформулируем условия при выполнении которых согласованная последовательностьV t , FtS t∈N0 удовлетворяет рекуррентному соотношению.Теорема 1.1. Пусть fN (S• ) − FNS -измеримая, ограниченная, случайная величина. ТогдаV t , FtS t∈N0 P −п.н. удовлетворяет рекуррентному соотношению V t = essinfesssup E Q V t+1 e−(γ,∆St+1 ) |FtSγ∈Dt+1Q∈<N.(1.7) V t |t=N = efN (S• )1.2.1.2 Для доказательства теоремы 1.1 нам понадобятся некоторые сведения изстохастического анализа.Пусть Q ∈ <N .
В силу теоремы Радона-Никодима [34], существует единственная,FNS -измеримая, положительная, случайная величина zN , являющаяся плотностью меры QdQdPотносительно меры P т.е. zN (ω) ,(ω). Пусть Qt , Q|Ft , Pt , P |Ft . Тогда для любогоt ∈ N0 Qt ∼ Pt . Поэтому существует единственная FtS -измеримая положительная случайнаявеличина, называемая локальной плотностью [34], обозначаемая zt (ω) ,dQtdPt(ω) такая, что: i)для любого t ∈ N0 P −п.н. 0 < zt < ∞ ; ii) если Q0 = P0 , то zt |t=0 = 1; iii) для любого t ∈ N1NE P (zt |Ft−1 ) = zt−1 P −п.н. Через Z t обозначим множество, элементами которого являютсяSпоследовательности z t,Ns , Fs s∈N0 , где любое t ∈ N0z t,Ns 1,, zs ,zt0≤s≤t.t<s≤Nt,NПоложим z Nt , zN .Замечания 6.
1) Относительно меры P последовательностьz t,Ns , Fss∈N0являетсямартингалом;n No2) Семейство множеств Z t... ⊆NZ0 ,t∈N0NNобладает следующими свойствами [34]: i) Z t ⊆ Z t−1 ⊆Nii) для любого t ∈ N0 множество Z t − выпукло.Nt2Сужение множества Z 0 на {t1 , ..., t2 }, где t1 < t2 и t1 , t2 ∈ N0 обозначим через Z t1 , а егоэлементы через z tt21 .1.2.1.3 Для доказательства теоремы 1.1 нам понадобятся следующие замечания.
ИзQ,γ Nопределения оценки It t+1 (S0t ) допустимой t-бистратегии Q, γ Nt+1 и телескопического свойстваQ,γ Nt+1условных математических ожиданий следует, что It(S0t ) удовлетворяет рекуррентномусоотношению Q−п.н.hiNN I Q,γ t+1 (S t ) = E Q I Q,γ t+2 S t+1 e−(γ t+1 ,∆St+1 ) |F Stt+100tNQ,γ I t+1 (S t ) |t0 t=N = exp {fN (S• )} .(1.8)28Q,γ Nt+1Заметим, что из определений оценки It(S0t ) допустимой t−бистратегии Q, γ Nt+1 , тогоQ,γ Nt+1факта, что Q, P ∈ <N , и в силу теоремы Гирсанова [34], It(S0t ) можно представить ввиде Q (P ) −п.н.Q,γ NIt t+1S0tNPSN= E z t exp fN (S• ) −(γ i , ∆Si ) |Ft .P(1.9)i=t+1Для удобства изложения выражение, стоящее в правой части равенства (1.9), также будемP,z N ,γ NNNNобозначать через It t t+1 (S0t ), где z Nt , γ t+1 ∈ Z t × Dt+1 . Из (1.8) и (1.9) следует, что дляNP,z NNt ,γ t+1NNлюбых t ∈ N0 и z N(S0t ) − FtS -измерима иt , γ t+1 ∈ Z t × Dt+1 случайная величина Itудовлетворяет следующему рекуррентному соотношению P −п.н.NP,z Nt ,γ t+1IthN −(γ ,∆St+1 ) S iP,z Nt+1 ,γ t+2t+1|Ft .S0t = E P z t,NISe t+1t+1 t+10(1.10)Очевидно, что для любого t ∈ N0 :i)Q,γ Nt+1P,z N ,γ NS0t = It t t+1 S0t P − п.н.,Itii) V t допускает представлениеNP,z Nt ,γ t+1S0tV t = essinf esssup ItNNNγNt+1 ∈Dt+1 z t ∈Z tP − п.н.(1.11)1.2.1.4 Доказательство теоремы 1.1.
Установим, сначала, что для любого t ∈ N0справедливо неравенство P −п.н.esssup E Q V t+1 e−(γ,∆St+1 ) |FtS .V t ≥ essinfγ∈Dt+1(1.12)Q∈<NОбозначимP,z N ,γ NS0t , esssup It t t+1 S0t .P,γ Nt+1It(1.13)NzNt ∈Z tP,γ Nt+1Из определения существенной верхней грани следует, что I tNP,z Nt ,γ t+1It(S0t ) − FtS -измерима. Так как(S0t ) удовлетворяет рекуррентному соотношению (1.10), то в силу свойств существеннойверхней грани и теоремы Гирсанова, имеем неравенство P −п.н.P,γ Nt+1IthN −(γ ,∆St+1 ) S iP,z Nt+1 ,γ t+2t+1S0t = esssup E P z t,NISe t+1|Ft ≥t+1 t+10NzNt ∈Z t≥ esssupNEPhNP,z Nt+1 ,γ t+2z t,Nt+1 It+1S0t+1−(γ t+1 ,∆St+1 )e|FtSi=zNt+1 ∈Z t+1= E P z t,Nt+1 esssupNzNt+1 ∈Z t+1NP,z Nt+1 ,γ t+2It+1t+1S0e−(γ t+1 ,∆St+1 ) |FtS =29h P,γ Nh −(γ ,∆St+1 ) S i −(γ ,∆St+1 ) S iP,γ NQt+1t+1t+2t+2t+1=E|F|Ft .= E P z t,NISeISe t+1t+1 t+1t0t+10(1.14)Поскольку левая часть (1.14) не зависит от Q, то из (1.14) следует, что справедливы неравенстваP −п.н.P,γ Nt+1Itih P,γ NS0t ≥ esssup E Q I t+1t+2 S0t+1 e−(γ t+1 ,∆St+1 ) |FtS .Q∈<NПоследнее неравенство можно усилить, имеем P −п.н.#"NP,γ NP,γ−γ,∆SI t t+1 S0t ≥ esssup E Q essinf I t+1t+2 S0t+1 e ( t+1 t+1 ) |FtS ≥"esssup E Q≥ essinfγ t+1 ∈Dt+1(1.15)NγNt+2 ∈Dt+2Q∈<NessinfNγNt+2 ∈Dt+2Q∈<NP,γ NI t+1t+2#t+1S0e−(γ t+1 ,∆St+1 ) |FtS .P,γ NУчитывая в неравенстве (1.15), что V t+1 = essinf I t+1t+2 S0t+1 , имеем P −п.н.NγNt+2 ∈Dt+2P,γ Nt+1S0t ≥ essinfItγ t+1 ∈Dt+1hiesssup E Q V t+1 e−(γ t+1 ,∆St+1 ) |FtS .(1.16)Q∈<NТак как правая часть (1.16) не зависит от γ t+1 ∈ Dt+1 , то из (1.16) следует неравенство (1.12).Установим теперь, что для любого t ∈ N0 справедливо неравенство P −п.н.V t ≤ essinfγ∈Dt+1P,z N ,γ Nt+2Поскольку It+1t+1S0t+1esssup E Q V t+1 e−(γ,∆St+1 ) |FtS .(1.17)Q∈<NP,γ N≤ I t+1t+2 S0t+1 P −п.н., то в силу теоремы Гирсанова, из (1.10)Nследует, что для любого γ Nt+1 ∈ Dt+1 справедливы неравенства P −п.н.NP,z Nt ,γ t+1Ith P,γ NiS0t ≤ E Q I t+1t+2 S0t+1 e−(γ t+1 ,∆St+1 ) |FtS ≤h P,γ Ni≤ esssup E Q I t+1t+2 S0t+1 e−(γ t+1 ,∆St+1 ) |FtS .(1.18)Q∈<NТак как правая часть неравенства (1.18) не зависит от меры Q, то из него следует, что дляNлюбой γ Nt+1 ∈ Dt+1 справедливо неравенство P −п.н.P,γ Nt+1Ith P,γ NiS0t ≤ esssup E Q I t+1t+2 S0t+1 e−(γ t+1 ,∆St+1 ) |FtS .(1.19)Q∈<NP,γ Nt+1NЗаметим, что: i) для любого γ Nt+1 ∈ Dt+1 справедливо неравенство V t ≤ I t(S0t ) P −п.н.;ii) из определения существенной нижней грани следует, что для любого ε > 0 существуетεεNγ ε,Nt+1 , {γ s }s∈{t+1,...,N } ∈ Dt+1 , где γ s − Fs−1 −измеримый, d−мерный вектор (зависящий от ε)такой, что для любого t ∈ N0 имеет место неравенствоP,γ ε,Nt+1V t ≥ ItS0t − ε P − п.н.30Поэтому, в силу сделанных замечаний, неравенство (1.19) можно усилить, и переписать в виде −(γ ,∆St+1 ) SP,γ ε,NP,γ ε,Nt+2Qtt+1t+1t+1S0 ≤ esssup E I t+1|Ft ≤V t ≤ IteS0Q∈<Nhi≤ esssup E Q V t+1 + ε e−(γ t+1 ,∆St+1 ) |FtS ≤Q∈<Nih≤ esssup E Q V t+1 e−(γ t+1 ,∆St+1 ) |FtS +Q∈<Nih(1.20)+ε esssup E Q e−(γ t+1 ,∆St+1 ) |FtS .Q∈<NРассмотрим второе слагаемое правой части (1.20).