Цепи Маркова (1121219), страница 80
Текст из файла (страница 80)
Элементы теории управления и теории информацииОтсюда следует неравенство (3.6.27).Теперь, как и в доказательстве леммы 3.6.6, используя неравенствоln y 6 y − 1, y > 0, докажем такое неравенство:hXi X2−2 lnf1 (x) 1/2 f0 (x) 1/2 >f1 (x) 1/2 − f0 (x) 1/2 .Наконец, проверим, чтоXf1 (x) 1/2 − f0 (x) 1/22>i2h1 X|f1 (x) − f0 (x) | .4Действительно, в силу неравенства Коши—ШварцаhX|f1 (x) − f0 (x) |i2=X 2f1 (x) 1/2 − f0 (x) 1/2 f1 (x) 1/2 + f0 (x) 1/26XX2f1 (x) 1/2 − f0 (x) 1/2 26f1 (x) 1/2 + f0 (x) 1/2 .Затем, возводя в квадрат, убедимся, что вторая сумма не превосходит 4.Отсюда и следует неравенство (3.6.26).На самом деле более аккуратные выкладки и рассуждения позволяютзаменить постоянную 1/4 в неравенстве (3.6.26) на 1/ (2 ln 2).X1Y1.. ..
Пусть X =иY=— два случайных вектора, оба с неза..XnYn(i)(i)висимыми компонентами, причем Xi ∼ f0 и Yi ∼ f1 . ТогдаD(fY k fX) =nXi=1(i) x1б) Аналогично, при x = ... ∈ In получаемxnD(fY k fX) =XP (Y = x)=P (X = x)P (Y = x) lnx=(i)D(f1 k f0 ).(3.6.28)Xx1x=Xxб) Пусть (Xm) и (Ym) — две ц.м.д.в. на одном и том же (конечном) пространстве состояний I с матрицами перехода P (1) = (pij(0) )x1nY−1nY−1i∈IКак и раньше, пусть fX и fY обозначают дискретные распределениявыборочных векторов X и Y. ТогдаD(fY k fX) = D( k ) + (n − 1)E (P (1) k P (0) ),где= ( i),(3.6.29)= ( i) иE (P (1) k P (0) ) =Xi,j∈I(1)i pijlnpij(1)pij(0).(3.6.30)px(1)l xl+1l=1px(1)l xl+1l=1lnx1lnx1x1=Xi∈I(1)и P (1) = (pij ) соответственно. Предположим, что цепь (Xm) имеетначальное распределение вероятностей i = P (X1 = i), в то времяP(1)как (Yi) находится в равновесии, P (Ym = i) = i и j =i pij , i, j ∈ I.513x1+nQ−1l=1nQ−1l=1n−1X(1)p x l x l+ 1=px(0)l xl+1lnl=1px(1)l xl+1px(1)l xl+1=Лемма 3.6.11 (аддитивность расстояния Кульбака—Лейблера).
а) § 3.6. Элементы теории управления и теории информацииГлава 3. Статистика цепей Маркова с дискретным временем512i lnii+ (n − 1)Xi,j∈I(1)i pij lnpij(1)pij(0),откуда вытекает соотношение (3.6.29).Замечание 3.6.12. Величину E (P (1) k P (0) ) из равенства (3.6.30) можно записать в виде математического ожидания:E (P (1) k P (0) ) =XpY(1)m Ypij(1)=P (Ym = i, Ym+1 = j) ln (0) = E Ym ,Ym+1 ln (0) m+1 ;piji,j∈IpYm Ym+1(3.6.31 а)оно не зависит от m, поскольку цепь (Ym) находится в равновесии. Эквивалентным образом, пусть pi(0) и pi(1) — это вероятностные распределенияна I, равные i-м строкам матриц P (0) и P (1) соответственно. Тогда опреде(1)(0)лена дивергенция Кульбака D(pi k pi ), и ее можно рассматривать какфункцию на I:(1)(0)K : i ∈ I 7→ D(pi k pi ).При этом E (P (1) k P (0) ) является математическим ожиданием функции K,рассматриваемой как с.в.
с вероятностным распределением = ( i):X(1)(0)(3.6.31 б)E (P (1) k P (0) ) =i D(pi k pi ) = E K,i∈IД о к а з а т е л ь с т в о. а) Получаем моментально, с помощью соответствующего преобразования логарифма.и это просто другая форма равенства (3.6.31 а).Часто полезным оказывается «цепное правило»: пусть pX1 ,X2 — это совместное распределение с.в. X1 и X2 , а pY1 ,Y2 — аналогичное распределение514Глава 3. Статистика цепей Маркова с дискретным временемс.в. Y1 и Y2 ; в обозначениях леммы 3.6.11 б)((0)pX1 ,X2 (i, j) = P (X1 = i, X2 = j) = i pij ,(1)pY1 ,Y2 (i, j) = P (Y1 = i, Y2 = j) = i pij ,=Xi,j∈IpY1 ,Y2 (i, j) lni,j∈I(1)i pijD(pY1 ,Y2 k pX1 ,X2 ) =lnii+ lnpij(1)pij(0)i, j ∈ I.pY1 ,Y2 (i, j)=pX1 ,X2 (i, j)Xf0 (x) = g0 (x) + (1 − )h0 (x) и f1 (x) = g1 (x) + (1 − )h1 (x),(1)i pijlni,j∈I(1)i pij(0)i pij== D( k ) + E (P (1) k P (0) ).D(fY1 ,Y2 k fX1 ,X2 ) = D(fX1 k fY1 ) + DfY1 (fY2 |Y1 k fX2 |X1 ),(3.6.32)(3.6.33)гдеPPfY2 |Y1 (y2 |y1)y ∈S fY1 (y1) y ∈S ln fX2 |X1 (y2 |y1) ,1122ZS1fY1 (y1)ZS2fY1 (y2 |y1) lnfY2 |Y1 (y2 |y1)dy2 dy1fX2 |X1 (y2 |y1)> 0;(3.6.34)причем равенство имеет место тогда и только тогда, когда fY2 |Y1 == fX2 |X1 .Это приводит нас к обобщению определения 3.6.4.Определение 3.6.14.
Величина DfY1 (fY2 |Y1 k fX2 |X1 ) из равенства (3.6.34)называется условной дивергенцией Кульбака.Теперь можно распространить равенство (3.6.28) на случай произвольных случайных векторов X и Y:D(fY k fX) = D(fY1 k fX1 ) + DfY1 (fY2 |Y1 k fX2 |X1 ) + . . .. . .
+ DfY1 ,...,Yn−1 (fYn |Y1 ,...,Yn−1 k fXn |X1 ,...,Xn−1 ).(3.6.36)где 0 < < 1, а gi и hi , i = 0, 1, — это д.р.в./в.п.р. на том же множестве.Лемма 3.6.15 (выпуклость расстояния Кульбака—Лейблера). Имеетместо следующее неравенство:Этот факт можно записать в общем виде.Лемма 3.6.13 (цепное правило для расстояния Кульбака —Лейблера).Пусть X1 , X2 и Y1 , Y2 — две пары случайных величин, причем X1 , Y1принимают значения в множестве S1 , а X2 , Y2 — в множестве S2 .Пусть fX1 ,X2 и fY1 ,Y2 обозначают совместные д.р.в./в.п.р. случайныхвеличин X1 и X2 , а также Y1 и Y2 , соответственно, и пусть fX1 и fY1 —это маргинальные д.р.в./в.п.р. с.в. X1 и Y1 соответственно. Далее,пусть fX2 |X1 и fY2 |Y1 — это условные д.р.в./в.п.р.
с.в. X2 при заданнойс.в. X1 и с.в. Y2 при заданной с.в. Y1 соответственно. ТогдаDfY1 (fY2 |Y1 k fX2 |X1 ) =515Предположим, что д.р.в./в.п.р. f0 и f1 записаны в виде выпуклых линейных комбинацийТогдаX§ 3.6. Элементы теории управления и теории информации(3.6.35)D( g1 + (1 − )h1 k g0 + (1 − )h0) 6 D(g1 k g0) + (1 − )D(h1 k h0).(3.6.37)Д о к а з а т е л ь с т в о.Используем сумматорно-логарифмическоенеравенство:hig (x) + (1 − )h1 (x)g1 (x) + (1 − )h1 (x) ln 16g0 (x) + (1 − )h0 (x)6 g1 (x) lng1 (x)h (x)+ (1 − )h1 (x) ln 1 .g0 (x)h0 (x)Суммирование/интегрирование приводит к равенству (3.6.37).Замечание 3.6.16. Выпуклые линейные комбинацииf0 (x) = g0 (x) + (1 − )h0 (x) и f1 (x) = g1 (x) + (1 − )h1 (x)имеют прозрачный вероятностный смысл: рассмотрим с.в.
U, принимающую два значения, скажем 1 и 2, с вероятностями и 1 − , совместнос такой с.в. X, что д.р.в./в.п.р. с.в. X при условии, что U = 1, — это g0 ,а при условии U = 2 — это h0 . Безусловное д.р.в./в.п.р. с.в. X совпадетс f0 . Аналогичное «склеивание» можно произвести, используя g1 вместо g0и h1 вместо h0 ; возникнет с.в. Y с д.р.в./в.п.р. f1 . Тогда равенство (3.6.37)примет видD(fY k fX) 6 DfU (fY |U k fX|U)(3.6.38)и может быть распространено на случай произвольной с.в.
U.Следующее свойство расстояния Кульбака—Лейблера называетсянеравенством обработки данных. Предположим, что с.в. X и Y со значениями в множестве S преобразуются с помощью переходной функции созначениями p(x, y); в случае д.р.в. речь идет о переходной матрице (p ij),т. е. предполагается, чтоZXpxy = 1 иp(x, y) dy = 1,yCall Back and Libel’erЭто немедленно следует из леммы 3.6.17.Завершим наше обсуждение свойств расстояния Кульбака —Лейблера его монотонностью в случае параметрических семейств с монотоннымотношением правдоподобия. В нашем определении семейство д.р.в.
/в.п.р.f( · ; ), ∈ Θ, имеет монотонное отношение правдоподобия (м.о.п.),если существует такой порядок ≺ на множестве Θ, что для 1 ≺ 2отношение f(x; 1) /f(x; 2) имеет видД о к а з а т е л ь с т в о. Используем цепное правило (3.6.33):D(fY,Y 0 k fX,X0 ) = D(fY k fX) + DfY (fY 0 |Y k fX0 |X) == D(fY 0 k fX0) + DfY0 (fY |Y 0 k fX|X0).=f (x;f (x;1)2)=g1, 2(T (x)),В то же время, DfY 0 (fY |Y 0 k fX|X0 ) > 0. Отсюда получаем неравенство(3.6.40).Нетрудно видеть, что в формуле (3.6.40) достигается равенство тогдаи только тогда, когда DfY 0 (fY |Y 0 k fX|X0 ) = 0, т. е. когда(3.6.41)3)k f( · ;2))6 D(f( ·3)k f( · ;D(f( · ;DfY (fY 0 |Y k fX0 |X) = 0.(3.6.42)где T — действительнозначная статистика и g 1 , 2 (y) — монотонно неубывающая функция (действительного переменного y); ср.
том I, с. 307.Лемма 3.6.19. Предположим, что д.р.в./в.п.р. f( · ; ), ∈ Θ, образуют семейство с м.о.п. Тогда для любых таких 1 , 2 , 3 ∈ Θ, что1 ≺ 2 ≺ 3 , выполняется неравенствоТаким образом, условная дивергенция DfY (fY 0 |Y k fX0 |X) обращается в 0:fY |Y 0 = fX|X0 .1, 2Но плотности fX0 |X и fY 0 |Y совпадают по построению:(pxy ,fX0 |X (y|x) = fY 0 |Y (y|x) =p(x, y).Λ(3.6.40)D(fY 0 k fX0 ) 6 D(fY k fX)Лемма 3.6.17 (неравенство обработки данных для расстояния Кульбака—Лейблера). При выполнении преобразования, описанного выше,дивергенция Кульбака не увеличивается:D(fYm+1 k fXm+1 ) 6 D(fYm k fXm ).(Из серии «Фильмы, которые не вышли на большой экран».)Эта операция называется «обработкой» и включает в себя «слияние»нескольких значений x1 , . .
. , xl (если pxy = 1 для заданного y при x == x1 , . . . , xl) и другие виды «огрубления» данных, содержащихся в X и Y.Лемма 3.6.17, приведенная ниже, показывает, что любая такая операцияне может привести к увеличению дивергенции.SS517Наглядно говоря, обработка данных не изменяет расстояния Кульбака—Лейблера тогда и только тогда, когда условное д.р.в. /в.п.р. с.в. Y призаданном Y 0 = y и те же характеристики с.в. X при заданном X 0 = yсовпадают (для почти всех y относительно д.р.в. /в.п.р. fY 0 ). Это свойствоможно назвать свойством достаточности преобразования обработки данных по двум с.в. X и Y, что является обобщением понятия достаточнойстатистики.Пример 3.6.18. Пусть (Xm) — ц.м.д.в.