1625915153-62da7fb2e48a28563c377c8e71d63db2 (843881), страница 14
Текст из файла (страница 14)
Задача состоит в том, чтобы наиболее точно предсказать «завтрашнее» наблюдение, то есть ξn+1 . Будем строить оценку наблюдения ξn+1 в∗=виде некоторой детерминированной функции от всей предыстории наблюдений: ξn+1g(ξ1 , ξ2 , ..., ξn ). Оценка должна быть оптимальной в следующем смысле: она должна минимизировать среднеквадратическое отклонение от будущего наблюдения ξn+1 :∗E(ξn+1 − ξn+1)2 → min,g∈Lгде L – то или иное пространство функций. Если найдем «точку» минимума ĝ(·), то будем∗говорить, что ξn+1– это оптимальный прогноз в пространстве L для случайной последовательности ξ1 , ξ2 , . .
. , ξn , . . .. Введем в рассмотрение вектор сопутствующих (прогнозу) наблюдений – всю предысторию наблюдений:η = (ξ1 , ξ2 , . . . , ξn ).Рассмотрим семейство случайных величин L(η) = {g(η) : Eg 2 (η) < ∞} – замкнутоелинейное подпространство пространства L2 (Ω, P) (здесь g – всевозможные детерминированное преобразование с указанным конечным вторым моментом), порожденное вектором сопутствующих наблюдений.Уже было отмечено, что имеется два эквивалентных определения ортопроекции:b y) ≡ 0, (∀y ∈ L)(ξ − ξ,илиξb = arg min kξ − yk2 = arg min E(ξ − g(η))2 .y∈Lg∈L(η)69Ясно, что мы ищем оптимальный прогноз в классе L2 , т.
е. при условии Eg 2 (η) < ∞. Намтребуется минимизировать E(ξn+1 − g(ξ1 , ξ2 , . . . , ξn ))2 по всевозможным g ∈ L2 (Rn , Pη ).Иными словами, мы свели задачу к вычислению соответствующей ортопроекции:min E(ξn+1 − g(η))2 = E(ξn+1 − ξbn+1 )2 ,g∈L(η)где ξbn+1 = gb(ξ1 , ξ2 , . . . , ξn ).Важно отметить, что если мы не располагаем никакой информацией о совместномраспределении компонент ξ1 , . . . , ξn , ξn+1 , то оптимальный прогноз построить невозможно. То есть для того, чтобы заниматься прогнозом, нужно знать вероятностный закон,управляющий всей последовательностью. Только тогда задача будет корректна. Скажем, если указанное совместное распределение имеет плотность то, как мы уже знаем,Zp(ξ ,ξ ,...,ξ )ξ (ξ1 , ξ2 , ..., ξn , x)∗dx.ξn+1 = x 1 2 n n+1pξ1 ,ξ2 ,...,ξn (ξ1 , ξ2 , ..., ξn )RЭто один из вариантов построения оптимального прогноза (по формуле Байеса).Оптимальный линейный прогноз случайных последовательностей.Пусть ξ1 , .
. . , ξn , ξn+1 , . . . – последовательность случайных величин из L2 (Ω, P). Введем подпространство, состоящее из линейных комбинаций координат вектора сопутствующих наблюдений:( n)XL0 (ξ1 , . . . , ξn ) =ci ξi : ci ∈ R .i=1Конечномерное линейное пространство L0 (η) замкнуто относительно евклидовой нормы, причем L0 ⊂ L(η).nXПостроим оптимальный линейный прогноз, т. е. функцию gb(η) =bci ξi , котораяi=1минимизирует на пространстве L0 среднеквадратичное отклонениеmin E(ξn+1 − g(ξ1 , . . .
, ξn ))2 .g∈L0Из предыдущих рассмотрений следует, что случайная величина gb(ξ1 , . . . , ξn ) представляет собой ортопроекцию элемента ξn+1 на замкнутое линейное подпространство L0 (η),которое существенно у́же пространства L(η). Ясно, что в этом случае ортопроекции случайной величины ξn+1 на линейные подпространства L0 (η) и L(η) не обязаны совпадать.Далее, по тождеству ортопроекции E(ξn+1 − gb(ξ1 , . . . , ξn ))ζ = 0, ∀ζ ∈ L0 . В качествеζ возьмем n различных порождающих элементов из L0 : ξ1 , .
. . , ξn . Тогда имеем(ξn+1 − ξbn+1 , ξk ) = 0, т. е.nXci Eξi ξk = Eξn+1 ξn , k = 1, . . . , n.i=170Получили систему n линейных уравнений относительно {ci ; i = 1, . . . , n}. Матрица этойсистемы – это классическая ковариационная матрицаC = ||E(ξi , ξk )||n×n .Это симметричная неотрицательно определенная матрица, так какnXj,i=1xi xj Eξi ξj = EnXxi xj ξi ξj =j,i=1nX!2xi ξi>0i=1для любых вещественных {xi }. Отметим, что если эта ковариационная матрица (строго)положительно определена, то она будет обратимой, что немедленно приводит к единственности линейного прогноза.Когда же условие строгой положительной определенности указанной матрицы можетнарушаться? Допустим, что для некоторого набора чисел {exi }, не все из которых равнынулю, выполнено!2nXExei ξi= 0.i=1Pnei ξi = 0 с вероятностью 1.
Следовательно, {ξi } линейно связаны, что преТогда i=1 xвращает задачу прогноза в малосодержательную: мы можем представить наблюдениеξn+1 как линейную комбинацию предшествующих. Такой «детерминированный» прогнозмы в дальнейшем рассматривать не будем. Тогда C > 0 (т. е. матрица C положительноопределена), и система имеет единственное решение.Конечно, возникает проблема вычислений смешанных моментов E(ξi , ξk ) при всевозможных индексах i и j.
Пусть имеются N серии наблюдений, которые представляютсобой независимые «копии» (т. е. совпадающие по распределению) исходной последовательности,(1)(1)ξ1 , . . . , ξn(1) , ξn+1 ,(2)(2)ξ1 , . . . , ξn(2) , ξn+1 ,...Если речь идет, например, о прогнозе погоды за год, то отмеченные последовательностикопии представляют собой соответствующие серии наблюдений за многие предыдущиеN1 X (j) (j)(j) (j)ξ ξ , где ξi , ξk – незавигоды (скажем, 100 лет). Построим среднюю суммуN j=1 i kсимые по верхнему индексу ограниченны случайные величины. Когда N велико, в силуЗБЧ получаемN1 X (j) (j)(1) (1)ξi ξk ∼ Eξi ξk .N j=1с вероятностью 1, т. е.
массивы Eξi ξk и Eξn+1 ξk легко могут быть оценены с той точностью, которая определяется объемом предшествующей информации. После этого остается только решить приведенную выше систему линейных уравнений.71Многомерные нормальные (гауссовские) распределения.Сначала нопомним определение скалярной случайной величина ξ с нормальным распределением: ξ ∈ N (α, σ), если1pξ (x) = √σ 2π(x − α)2−2σ 2 .eОпределение. Вектор ξ¯ = (ξ1 , . . . , ξn ) имеет многомерное нормальное распределение , если n/2111−1p exp − ((x̄ − ᾱ)C , x̄ − ᾱ) ,pξ̄ (x̄) =2π2|C|где x̄ = (x1 , . . .
, xn ), |C| – детерминант ковариационной матрицы, cij = Cov(ξi , ξj ) =E(ξi − Eξi )(ξj − Eξj ).В дальнейшем условимся, что координаты ξi не являются линейно зависимыми (см.рассуждения предыдущего пункта), т. е. мы рассматриваем невырожденное гауссовское распределение, для которого ковариационная матрица положительна определена(значит, |C| > 0). Без ограничения общности, можно ограничиться рассмотрением только центрированных случайных величин (т. е. ᾱ = 0̄).Напомним, что если ξ и η независимы, то Cov(ξ, η) = 0. Обратное неверно.
Например, если ξ симметрично распределена, а η = ξ 2 – невырождена, то эти две случайныевеличины будут зависимыми (они функционально связаны), но Cov(ξ, η) = 0 (если ковариация определена!).Упражнение. Показать, что в последнем примере нет факторизации совместного распределения.Теорема. Пусть ξ¯ – гауссовский вектор (центрированный). Рассмотрим дваподвектора ξ¯1 = (ξ1 , . .
. , ξm ) и ξ¯2 = (ξm+1 , . . . , ξn ). Тогда ξ¯1 и ξ¯2 независимы тогда итолько тогда, когда Eξi ξj = 0, ∀i 6 m, ∀j > m + 1.Д ОКАЗАТЕЛЬСТВО . (→) Доказано ранее.(←) Введем обозначения x̄1 = (x1 , . . . , xm ) и x̄2 = (xm+1 , . . . , xn ). Тогда(x̄C −1 , x̄) = ((x̄1 C1−1 , x̄2 C2−1 ), (x̄1 , x̄2 )) = (x̄1 C1−1 , x̄1 ) + (x̄2 C2−1 , x̄2 ),|C| = |C1 ||C2 |,где C1 и C2 – крвариационные матрицы случайных векторов ξ¯1 и ξ¯2 соответственно. Следовательно, исходная плотность факторизуется на две и выполнен критерий независимости. Заметим, что гауссовское распределение – единственное из абсолютно непрерывных, для которого верно утверждение приведенной теоремы.Лемма.
Пусть ξ¯ = (ξ1 , . . . , ξn ) – гауссовский вектор с плотностью¯ =pξ̄ (ξ)12πn/211−1p exp − ((x̄ − ᾱ)C , x̄ − ᾱ) ,2|C|72где C = ||Cov(ξi .ξj )|| > 0. Тогда для любой невырожденной матрицы A размера¯ – снова гауссовский вектор.n × n (т. е. |A| = | det A| > 0), η̄ = ξAД ОКАЗАТЕЛЬСТВО .
В одномерном случае это утверждение, очевидно, следует изформулы для плотности монотонного преобразования случайных величин с абсолютнонепрерывным распределением. Докажем утверждение для n-мерного случая. Воспользуемся определением плотности через интегральное представление.
Тогда для любогоборелевского B ⊂ Rn должно выполнятьсяZPη̄ (B) = P(η̄ ∈ B) = p(t̄)dt̄.BПусть ξ – случайный вектор с абсолютно непрерывным распределением (не обязательно гауссовский). ТогдаZZ1¯pξ̄ (ȳA−1 )dȳ.pξ̄ (x̄)dx̄ = [ȳ = x̄A] =Pη̄ (B) = P(η̄ ∈ B) = P(ξA ∈ B) =|A|Bx̄A∈BТогда1pξ̄ (ȳA−1 ) =|A|[теперь докажем, что если pξ̄ – гауссовская плотность, то pη̄ – также гауссовская. Дляпростоты рассмотрим центрированные величины, т. е. положим ᾱ = 0̄] n/2111−1 −1−1pexp − ((ȳA C , ȳA ) ==2π2|C||A|pη̄ (ȳ) =e = (z̄ AeT , z̄)][известно, что (z̄, z̄ A) n/2111−1 −1T −1p=exp − ((ȳA C (A ) , ȳ) =2π2|C||A|[напомним, что (AB)−1 p= B −1A−1 , и используем эту формулу дважды.