Цепи Маркова (1121219), страница 79
Текст из файла (страница 79)
(Проведем только для скалярного дискретногораспределения с конечным числом исходов.) Предположим, что множествоS конечно. Применим стандартную формулу Тейлора, при этом используятот факт, что ln(1 + ε) = ε − ε2 /2 + o(ε2):x∈Sx∈Six∈S∂i(∂ f (x; ) /∂ ) 2+ o( 2) =2f (x; ) 22−∂ 2 f (x; )(∂ f (x; ) /∂ ) 2+22∂f (x; )2+2X h ∂ f (x; )2f (x; )f (x; )=i∂f(x; ) +f(x; ) + o( ) ×∂h ∂ f (x; ) ∂∂ 2 f (x; ) /∂/×+ 2x∈Sf (x; + )=f (x; )∂f (x; ) + ∂ f (x; ) /∂ + o( )f(x; ) +f(x; ) + o( ) ln=∂f (x; )=XhXh+ ) lnf(x;=X+ ) k f( · ; )) =D(f( · ;Положим в этом определении f1 (x) ln [f1 (x) /f0 (x)] = +∞, если f0 (x) == 0, а f1 (x) > 0; таким образом, D(f1 k f0) может принимать значение+∞.
Если f1 и f2 имеют носителем одно и то же множество S ⊆ Rили Rd (так что f0 (x) > 0 тогда и только тогда, когда x ∈ S, и f1 (x) >> 0 тогда и только тогда, когда x ∈ S), то суммирование /интегрированиев правой части уравнения (3.6.3) выполняется именно по множеству S.(Структура носителя S не имеет значения: определение работает, когда f 0и f1 — д.р.в./в.п.р. на любом заданном множестве.) Индикатор 1(f 1 (x) > 0)можно опустить, если принять стандартное соглашение о том, что 0 ln 0 = 0(продолжение по непрерывности).Термин «расстояние» здесь скорее сбивает с толку: величина D(f1 k f0)не обладает свойством симметрии и не удовлетворяет неравенству треугольника (имеются примеры, в которых D(f1 k f0) 6= D(f0 k f1), и примеры,в которых D(f2 k f0) > D(f2 k f1) +D(f1 k f0); см. далее).
Однако это понятиеимеет глубокий геометрический смысл, и поэтому термин «расстояние»широко употребляется.+ ) k f( · ; )) =p11 − p1+ (1 − p1) ln.p01 − p0D(f( · ;D(p1 , 1 − p1 k p0 , 1 − p0) = p1 ln505Аналогично в векторном случае при || || → 0,допускает разложениеинформационной дивергенцией) между f1 и f0 .
Еще один популярныйтермин — относительная энтропия плотности f1 по отношению к f0 .Мы часто будем называть ее просто дивергенцией.В случае распределений на двух точках, S = {0, 1}, задаваемых вероятностными векторами (p0 , 1 − p0) и (p1 , 1 − p1), дивергенция§ 3.6. Элементы теории управления и теории информацииГлава 3. Статистика цепей Маркова с дискретным временем5042−2+2i+ o( 2) .Дивергенция признаков и вымирание несовершенных форм.D(f ( · ; e) k f ( · ; ))1= J( ),e22e→( − )(3.6.6)lim2+ o( 2) ∀12+ ) k f( · ; )) = J( )D(f( · ;или, что эквивалентно,∈ Θ при→ 0.(3.6.7)(∂ f (x; ) /∂ ) 2дает нужный результат.f (x; )СлагаемоеСвязь между информацией Фишера и расстоянием Кульбака —Лейблера устанавливает следующая лемма.Лемма 3.6.5. Пусть действует определение 3.6.3.
Тогда в скалярном случае имеет место следующее свойство: дивергенция междуд.р.в./в.п.р. f( · ; e) и f( · ; ), , e ∈ Θ, удовлетворяет соотношениюСуммы производных ∂ f(x; ) /∂ и ∂ 2 f(x; ) /∂ 2 обращаются в нуль. (Каки ранее, производные ∂ /∂ и ∂ 2 /∂ 2 можно вынести за знак суммы.)Чарльз Дарвин (1809–1892), английский натуралистЛемма 3.6.6 (неравенство Гиббса). Расстояние Кульбака—Лейблера D(f1 k f0), определенное в формуле (3.6.5), неотрицательно:D(f1 k f0) > 0.(3.6.9)Равенство имеет место тогда и только тогда, когда д.р.в./в.п.р.совпадают.Д о к а з а т е л ь с т в о. Воспользуемся элементарным неравенствомln y 6 y − 1, y > 0, причем равенство имеет место тогда и только тогда,506Глава 3.
Статистика цепей Маркова с дискретным временемкогда y = 1. Подставляя f0 (x) /f1 (x) вместо y, получимP f (x) 1(f1 (x) > 0)f1 (x) 0 − 1f (x)− D(f1 k f0) 6 R= f 1(x)0 1(f1 (x) > 0)f1 (x)− 1 dxf1 (x)(P1(f1 (x) > 0) (f0 (x) − f1 (x))= R1(f1 (x) > 0) (f0 (x) − f1 (x)) dxD(f1 k f0) =6(1−11−1= 0.Расстояние Кульбака—Лейблера возникает естественным образом X1..
в контексте проверки гипотез. Пусть X =— случайный вектор,.Xnи вначале предположим, что что элементы Xm — н.о.р.с.в., принимающиезначения из конечного множества S. Предположим, что проверяется нулевая гипотеза Xm ∼ f0 против альтернативы Xm ∼ f1 , где f0 и f1 — x1два заданных д.р.в. на R. При заданном выборочном векторе x = ... подсчитаем эмпирическое распределение, образованное частотами1n1(xi = b),i=1lnf1 (x1) . . . f1 (xn)=f0 (x1) .
. . f0 (xn)lni=1f1 (xi)=f0 (xi)Xb∈Sbx (b) lnnpb ∈ S.xn(3.6.10)bx k f0) − D(pbx k f1)] .= n [D(pf0 (n) =n!,f1 (n) =n!, n ∈ Z+ .111− n ln+−=0 (r ln r0)=+ 1 − r), r =1(3.6.13)01)01 − p11 − p1p1ln+ ln 1 = D(p1 , 1 − p1 k p0 , 1 − p0).p11 − p0p0p10+(−(3.6.12)1ln(n ln0f0 (n) = p0 (1 − p0) n ,f1 (n) = p1 (1 − p1) n ,n ∈ Z+ ,тоD(f1 k f0) ==Xn>0hi1 − p1pp1 (1 − p1) n n ln+ ln 1 =1 − p0p0в) Предположим, что f0 и f1 — два биномиальных распределения на{0, 1, . . .
, n},f0 (k) = Ckn pk0 (1 − p0) n−k ,f1 (k) = Ckn pk1 (1 − p1) n−k , k = 0, 1, . . . , n.ТогдаD(f1 k f0) =hnXk=0hip1 − p1=Ckn pk1 (1 − p1) n−k k ln 1 + (n − k) ln1 − p0p0i1 − p1p1+ (1 − p1) lnp01 − p0= nD(p1 , 1 − p1 k p0 , 1 − p0).(3.6.14)г) Пусть f0 и f1 — два отрицательных биномиальных распределения наZ+ : f0 ∼ NegBin(p0 , k) и f1 ∼ NegBin(p1 , k),f1 (b)bpx (b)=f0 (b)bpx (b)n − 11en!n>0.= n p1 ln(3.6.11)Приведем вычисления для наиболее интересных примеров.Пример 3.6.7.
а) Пусть f0 и f1 — два пуассоновских распределения наZ+ = {0, 1, . . .},n − 00en − 11eб) Если f0 и f1 — два геометрических распределения на Z+ ,Тогда логарифм отношения правдоподобия можно представить в видеnXX=≡ 1(f1 (x) > 0), а это в точности означает, что два д.р.в. /в.п.р. совпадают.bx (b) =p507Тогдаf (x)Равенство имеет место тогда и только тогда, когда 1(f 1 (x) > 0) 0≡f1 (x)nX§ 3.6. Элементы теории управления и теории информацииf0 (n) = Cnn+k−1 pki (1 − pi) n , n = 0, 1, .
. . , i = 0, 1.ТогдаD(f1 k f0) == k lnXn>0hip11 − p11kn=Cnk−p(1−p)kln+nln1+k−1 1p01 − p0p1k(1 − p1)1 − p1k+ln= D(p1 , 1 − p1 k p0 , 1 − p0).p0p11 − p0p1(3.6.15)Теперь разберемся с непрерывными случайными величинами.Пример 3.6.8. а) Пусть f0 и f1 — две показательные плотности распределения на R+ = (0, +∞):0e−0x1(x > 0),f1 =1e−1xD(f1 k f0) =1e0−1xh(2det Σ1где, как и ранее, I — это единичная (n × n)-матрица, т. е. в случае, когдаΣ0 = Σ1 = Σ, получаем1(x > 0).1)x−0−11+ ln1+ ln1012D(f1 k f0) = h−0,1Σ−0 (1−0) i,что обобщает формулу (3.6.19), в то время как дляdx =0= r − 1 − ln r, r =011.D(f1 k f0) =(3.6.17)0=(3.6.21)имеем111−1[tr(Σ1 Σ−0 ) − ln(det(Σ1 Σ0 )) − n] .2(3.6.22)в) Более трудный пример — это два распределения Коши: f0 ∼ Ca( 0 , )и f1 ∼ Ca( 1 , ).
ЗдесьЗаметим, что в этом случае D(f1 k f0) = D(f0 k f1).(3.6.19)− 0) 24 2+2], x ∈ R,(3.6.23)ведет к представлению12dx := g( ),Дифференцирование этого интеграла по2Z(x2 +x−− )2 +2) [(xg0 ( ) = −приводит0.(x − ) +2где= 1 −к равенству1)1В самом деле, замена переменных x 7→ x −Z1x2 + 2D(f1 k f0) =ln222x +[(x −f1 (x) =,(D(f1 k f0) = ln 1 +− 0) 21( − )2− 2 = 1 20 .2 22212+(2=122]+222иб) Предположим, что f0 и f1 — две плотности нормального распределения. Сначала рассмотрим простой случай, когда f 0 ∼ N( 0 , 2)и f1 ∼ N( 1 , 2) (разные средние, но одинаковая дисперсия), 0 , 1 ∈ R,2> 0.
ТогдаZ2222 [(x −10) − (x − 1) ]D(f1 k f0) = √e− (x− 1) / (2 )dx =222Z222 [x −111 + ( 1 − 0)]=√e− (x− 1) / (2 )dx − 2 =20)1[(x −f0 (x) =(3.6.18)0и f1 ∼0)Распространяя эти вычисления на случай, когда f 0 ∼ Gam( ,∼ Gam( , 1), получим− 1D(f1 k f0) =ln 1 + 0.=0ix ∈ Rn , i = 0, 1.,Тогда, следуя тем же методам, после некоторых вычислений получимh det Σi101−1D(f1 k f0) =ln+ tr(Σ1 Σ−−I)+h−,Σ(−)i, (3.6.20)101000ТогдаZ∞(2 ) n/2 (det Σi) 1/2if0 =i) in1fi (x) =Σi−1 (x −n1i,2n1k=0h1exp − hx −Тогда согласно определению D(f1 k f0) = +∞, если n1 > n0 .
Для n1 6 n0получаемn1X1nnln 0 = ln 0 .(3.6.16)D(f1 k f0) =k = 1, . . . , n1 .1,n1f0 (k) =k = 1, . . . , n0 ,1,n0f0 (k) =509Теперь предположим, что f0 и f1 — две многомерные плотности нормального распределения общего вида: f0 ∼ N( 0 , Σ0) и f1 ∼ N( 1 , Σ1), гдеn0 , 1 ∈ R и Σ0 , Σ1 — две действительные положительно определенныеобратимые матрицы размера n × n. Напомним, что плотность многомерногонормального распределения имеет видд) Теперь предположим, что f0 и f1 — два (дискретных) равномерныхраспределения: f0 ∼ U [1, n0 ] и f1 ∼ U [1, n1 ] ,§ 3.6. Элементы теории управления и теории информацииГлава 3. Статистика цепей Маркова с дискретным временем5082]dx.Подынтегральная функция в правой части является рациональной функцией с двумя полюсами (нулями знаменателя) в верхней комплексной510Глава 3.
Статистика цепей Маркова с дискретным временем)i2+4i2i ( 2 + 2i=)+i −2i ( 2 − 2ihg0 ( ) = 4iполуплоскости в точках x = i и x = + i . Стандартная процедуракомплексного интегрирования дает выражение для производной22.Интегрируя последнее выражение по и учитывая, что g(0) = 0, получаемравенство (3.6.23).Пример 3.6.9. (Сумматорно-логарифмическое Pнеравенство). Пустьa1 , a2 , . . . и b1 , b2 , . .
. — неотрицательные числа, иbi < ∞. Докажите,iчтоPX aiXaiiP1(ai > 0)ai ln >ai ln,(3.6.24)biiiпричем равенство имеет место тогда и только тогда, когда a i ≡ bi .Решение. Не ограничивая общности, предположим, что все числа положительны. Используем неравенство Йенсена для строго выпуклой внизфункции ϕ (t) = t ln t, t > 0:XXi ϕ (ti) > ϕi ti ,гдеi= bijXi(Здесь суммирование ограничивается точками x = x i , для которых f1 (x) >> 0, и индикатор 1(f1 (x) > 0) можно опустить. Аналогичное соглашениеприменяется и далее для различных сумм.) С этой целью запишем h f (x) i1/2f1 (x) 1/2 f1 (x) 1/2 ln 1=f0 (x)hXiX1=2f1 (x) 1/2f1 (x) 1/2 f1 (x) 1/2 ln (f1 (x) /f0 (x)) 1/2 PD(f1 k f0) = 2Xf1 (x) 1/2X aiX aiaiaiP lnP .ln >bjbibjbj1(ai > 0) PijjijВ силу строгой выпуклости вниз равенство имеет место тогда и толькотогда, когда ai ≡ bi .Неравенство Гиббса (лемма 3.6.6 утверждает, что дивергенция D(f 1 k f0)неотрицательна (см.
соотношение (3.6.9)). Лемма 3.6.10 устанавливаетболее точную границу. Определим(P|f1 (x) − f0 (x) |,(3.6.25)||f1 − f0 ||1 = R|f1 (x) − f0 (x) | dx.Лемма 3.6.10. Расстояние Кульбака—Лейблера удовлетворяетнеравенству14D(f1 k f0) > ||f1 − f0 ||21 .(3.6.26).Используем сумматорно-логарифмическое неравенство (3.6.24), положивai =f1 (xi) 1/2 f1 (xi) 1/2Pf1 (xj) 1/2jиbi =f1 (xi) 1/2 f0 (xi) 1/2P.f1 (xj) 1/2ji. P bj и ti = ai /bi , и получим, что511Д о к а з а т е л ь с т в о. (Только для дискретного случая; доказательстводля непрерывного случая аналогично.) На первом шаге покажем, чтоhXiD(f1 k f0) > −2 lnf1 (x) 1/2 f0 (x) 1/2 .(3.6.27)biii§ 3.6.