Ю.В. Прохоров, Л.С. Пономаренко - Лекции по теории вероятностей и математической статистике (1115359), страница 25
Текст из файла (страница 25)
Это неравенство часто называюттакже неравенством информации.В примере 16.1 нашлась оценка, для которой дисперсия имела порядок n12 , В рассматриваемом случае это невозможно.Определение 16.1. Если дисперсия несмещенно оценки параметра θравна при всех θ нижней границе в неравенстве Рао – Крамера (16.1), тооценка называется эффективной.Поясним понятие эффективности. Мы сравниваем точность несмещенных оценок по их дисперсиям. Пусть θ1∗ и θ2∗ — две несмещенныеоценки. Поскольку их дисперсии являются функциями, зависящими отпараметра, то может оказаться, что для одних значений параметра предпочтительнее одна оценка, а для других – другая.
Такие две оценки будемсчитать несравнимыми.Эффективная оценка, если существует, имеет дисперсию, которая одновременно для всех значений параметра меньше (во всяком случае небольше) дисперсии любой другой оценки.Формальное доказательство неравенства информации достаточно просто, оно использует неравенство Коши — Буняковского, которое в дискретном случае сводится к тому, что скалярное произведение двух векторов по абсолютной величине не превосходит произведения длин этихвекторов:!2!!mmnXXXaj b j≤a2j ·b2j ,j=1j=1j=1причем неравенство обращается в равенство тогда и только тогда, когдасуществуют λ, µ (λ2 + µ2 > 0) такие, чтоλaj + µbj = 0, j = 1, 2, . .
. , m.В непрерывном случае неравенство Коши — Буняковского принимаетвид ZZ2 Z22f (x)g(x)dx ≤f (x)dxg (x)dx .Для выполнения равенства необходимо и достаточно, чтобы существовали λ, µ (λ2 + µ2 > 0) такие, чтоλf (x) + µg(x) = 0почти всюду по x.173При доказательстве неравенства Рао - Крамера придется дифференцировать под знаком интеграла или дифференцировать ряды, поэтомунеобходимы условия, обеспечивающие возможность такого действия. Вразличных учебниках приводятся различные достаточные условия. Ноодно условие крайне существенно:{x : p̂(x; θ) > 0} не зависит от θ.В примере 16.1, когда нашлась "сверхэффективная"оценка, это условиене выполнялось.Доказательство.
неравенства информации. Поскольку тождественно повсем θ выполняются равенстваZp̂(~x; θ)d~x = 1,RnZθ∗ (~x)p̂(~x; θ)d~x = θ,Rnто продифференцировав их по θ, получимZ∂ ln p̂(~x; θ)p̂(~x; θ)d~x = 0,∂θ(16.2)RnZθ∗ (~x)∂ ln p̂(~x; θ)p̂(~x; θ)d~x = 1.∂θ(16.3)RnПри дифференцировании мы воспользовались тем, чтоУмножим (16.2) на θ и вычтем из (16.3), получимZ∂ ln p̂(~x; θ)(θ∗ (~x) − θ)p̂(~x; θ)d~x = 1.∂θdfdx=d ln f (x)f (x).dx(16.4)RnОбозначимpf (~x) = (θ∗ (~x) − θ) p̂(~x; θ),∂ ln p̂(~x; θ) pg(~x) =p̂(~x; θ).∂θТогда, применяя к (16.4) неравенство Коши - Буняковского, имеем2ZZZ21 = f (~x)g(~x)d~x ≤ f (~x)d~x · g 2 (~x)d~x =RnRn174RnZ∗Z 2(θ − θ) p̂(~x; θ)d~x ·=Rn∂ p̂(~x; θ)∂θ2p̂(~x; θ)d~x.RnСледовательно,~ θ)∂ ln p̂(X;∂θ~ · Eθ1 ≤ Dθ θ∗ (X)!2.Откуда получаем1Dθ θ ∗ ≥Eθ~ θ)∂ p̂(X;2 .(16.5)∂θЗаметим, что пока наши рассуждения нигде не использовали независимость и одинаковую распределенность наблюдений, и поэтому неравен~ совство (16.5) справедливо для произвольного случайного вектора X,местное распределение компонент которого задается плотностью p̂(~x; θ).Пусть теперь p̂(~x; θ) = p(x1 ; θ) · · · p(xn ; θ).
Тогдаn~ θ) X∂ ln p̂(X;=Wi ,∂θi=1i ;θ)где Wi = ∂ ln p(X- независимые одинаково распределенные случайныеθвеличины, для которых из (16.2) следует, что Eθ Wi = 0. Но тогдаEθ~ θ)∂ ln p̂(X;∂θ!2= DθnXWi = nEθ W12(16.6)i=1и мы приходим к неравенству Рао - Крамера (16.1).Eθ W12∂p(X1 ;θ)∂θ2Величину= I(θ) называют количеством ин= Eθформации о параметре θ, содержащейся в одном наблюдении. Неравенство (16.1) можно переписать в другом видеDθ θ ∗ ≥1,nI(θ)известном как неравенство информации.Необходимым и достаточным условием достижения равенства в неравенстве информации является существование λ и µ, не зависящих от ~x,175но, вообще говоря, зависящих от θ, таких, что с вероятностью 1 для всехθ выполняется соотношениеλ(θ∗ − θ) = µ∂ ln p̂(~x; θ).∂θОбычно его переписывают несколько в другом виде∂ ln p̂(~x; θ)= k(θ)(θ∗ − θ),∂θ(16.7)~где k(θ) не зависит от X.Пусть существует эффективная оценка параметра θ∗ .
Вспомним метод максимального правдоподобия. Если выполнены условия гладкостии максимум достигается во внутренней точке, то оценка максимальногоправдоподобия может быть найдена из уравнения~ θ)∂ ln p̂(X;= 0,θи, следовательно, будет совпадать с эффективной оценкой θ∗ параметраθ.Из условия существования эффективной оценки (16.7) можно получить выражение плотности (совместной вероятности ) параметрическогосемейства:Zln p̂(~x; θ) = k(θ)(θ∗ − θ)dθ + c(~x)илиp̂(~x; θ) = h(~x) · eθ∗R k(θ)dθ· u(θ).Отметим, что первый множитель h(~x) зависит только от наблюдений ине зависит от неизвестного параметра.Таким образом, если есть эффективная оценка, то семейство распределений должно быть экспоненциальным.Пример 16.2. Пусть X1 , .
. . , Xn — независимые случайные величины,распределенные по закону Пуассона с параметром θ > 0. Тогда их совместная вероятность определяется по формуле!−1 PnnYmiPθ {X1 = m1 , . . . , Xn = mn } =mi !θi=1 e−nθ ,i=1следовательно, функция правдоподобия имеет вид!−1 PnnYXi~ θ) =p̂(X;Xi !θi=1 e−nθ .i=1176Но тогдаn~ θ)n∂ ln p̂(X;1X=Xi − n = (X − θ).∂θθ i=1θОткуда находим эффективную оценку неизвестного параметра θ∗ = X.177Приложение 1. Основныераспределения и их свойства• Распределение Бернулли B(1; p) с параметром p ∈ (0, 1).Случайная величина X ∼ B(1; p), еслиP{X = 1} = p,E x = p,P{X = 0} = 1 − p.D x = p(1 − p),характеристическая функция f (t) = 1 − p + peit .Примером случайной величины с таким распределением может служить индикатор случайного события A : IA (ω) = 1, если ω ∈A, иIA (ω) = 0, если ω ∈ A, p = P(A).• Биномиальное распределение B(n; p) с параметрами n ∈ N, p ∈(0; 1).Случайная величина X ∼ B(n; p), еслиk kn−kP{X = k} = Cn p (1 − p) ,E X = np,D X = np(1 − p),k = 0, 1, .
. . , n.f (t) = (1 − p + peit )nПримером случайной величины с таким распределением может служить число успехов в n независимых испытаниях Бернулли с вероятностью успеха p в каждом из них.• Распределение ПуассонаΠ(λ) с параметром λ > 0.Случайная величина X ∼ Π(λ), еслиP{X = k} =E X = λ,λk e−λ,k!D X = λ,178k = 0, 1, 2, . . .f (t) = exp(λ(eit − 1)).Одно из основных свойств этого распределения: сумма независимых случайных величин с пуассоновскими распределениями такжеимеет распределение Пуассона с параметром, равным сумме параметров слагаемых.• Геометрическое распределение G(p) с параметром p ∈ (0, 1).Случайная величина X ∼ G(p), еслиkP{X = k} = p(1 − p) ,EX =1−p;pDX =1−p;p2k = 0, 1, 2, .
. .f (t) = p(1 − (1 − p)eit )−1 .Такое распределение имеет случайная величина, равная числу неудач,предшествующих первому успеху в испытаниях Бернулли.• Отрицательное биномиальное распределение Bi− (m; p) с параметрами m ∈ N, p ∈ (0, 1). Случайная величина X ∼ Bi− (m; p),еслиkmkP{X = k} = Ck+m−1 p (1 − p) , k = 0, 1, 2, . .
.EX =m(1 − p);pDX =m(1 − p),p2f (t) = pm (1−(1−(1−p)eit )−m .Примером случайной величины с отрицательным биномиальнымраспределением может служить число неудач, предшествующихнаступлению m- ого успеха в испытаниях Бернулли. Заметим, чтоG(p) = Bi− (1; p).• Гипергеометрическое распределение HG(N, M, n).Случайная величина X ∼ HG(N, M, n), еслиP{X = k} =kCmCNn−k−M,CNnгде max(0; n − N + M ) 6 k 6 min(n; M ), k ∈ Z,nMnMM N −n, DX =1−.EX =NNN N −1Примером случайной величины с таким распределением являетсяслучайная величина, равная числу красных шаров среди n отобранных, если производится случайный выбор без возвращения изсовокупности, содержащей M красных и N − M белых шаров.179• ПолиномиальноеPmраспределение B(n; p1 , . . .
, pm ) с параметрами n ∈ N, pi > 0, i pi = 1.Случайный вектор (X1 , . . . , Xm ) ∼ B(n; p1 , . . . , pm ), еслиP{X1 = k1 , . . . , Xm = km } =n!pk1 . . . pkmm ,k 1 ! . . . km ! 1где k1 + . . . + km = n, km – целые неотрицательные числа. Средисвойств этого распределения отметим, чтоXi ∼ B(n; pi ),cov(Xi , Xj ) = −npi pj , если i 6= j.Полиномиальное распределение применяется в независимых повторных испытаниях с m различными исходами для совместного распределения случайных величин Xi , равных числу наступлений исходов с соответствующими номерами в n испытаниях (pk – вероятность k - ого исхода в отдельном испытании.) .• Нормальное распределение N (a, σ 2 ) с параметрами−∞ < a < +∞, σ > 0.Случайная величина X ∼ N (a, σ 2 ), если ее плотность распределения имеет вид(x−a)21p(x; a, σ 2 ) = √ e− 2σ2 ,σ 2πE X = a,2DX = σ ,f (t) = eiat−σ 2 t22.Для плотности и функции распределения стандартного нормального закона N (0, 1) приняты специальные обозначения:x21ϕ(x) = √ e− 2 ,2πZxΦ(x) =−∞u21√ e− 2 du2πсоответственно.
Для семейства нормальных распределений параметры a и σ являются параметрами сдвига и масштаба, посколькуp(x; a, σ) =1 x−aϕ(),σσF (x; a, σ) = Φ(x−a),σX −a∼ N (0, 1),σгде F (x; a, σ) обозначает функцию распределения случайной величины X.Любая нетривиальная линейная комбинация независимых нормально распределенных случайных величин снова имеет нормальноераспределение.180• Равномерное распределениеU (a, b) с параметрами −∞ < a <b < +∞.Случайная величина X ∼ U (a, b), если плотность распределенияопределяется формулой 1при x ∈ [a; b],b−ap(x; a, b) =0 при x ∈/ [a; b].EX =a+b,2DX =(b − a)2eitb − eita, f (t) =.12it(b − a)Всякое невырожденное линейное преобразование Y = cX +d снова∼ U (0, 1).имеет равномерное распределение, в том числе X ∗ = X−ab−a• Показательное ( экспоненциальное) распределениеE(α, β) спараметрами α > 0, ∞ < −β < +∞.Случайная величина X ∼ E(α, β), если ее плотность распределенияравна −α(x−β)αeпри x > β,p(x; α, β) =0при x 6 β.EX = β +1,αDX =1,α2f (t) =αeitβ.α − itПараметры β и α−1 являются соответственно параметрами сдвигаи масштаба, Y = α(X − β) ∼ E(1, 0).• Гамма – распределение Γ(α, λ) с параметрами α > 0, λ > 0.Случайная величина X ∼ Γ(α, λ), если она имеет плотность следующего вида(p(x; α, λ) =αλ λ−1 −αxx eΓ(λ)0при x > 0,при x 6 0.Параметр λ называют параметром формы, а параметрпараметром масштаба, поскольку αX ∼ Γ(α, λ).λEX = ,αλDX = 2,αf (t) =it1−α1αявляется−λ.Отметим, что распределение Γ(α, 1) совпадает с распределениемE(α, 0).181• Распределение хи – квадрат χ2 (k) с k степенями свободы,k ∈ N.Случайная величина X ∼ χ2 (k), если ее плотность k x 2 −1 e− x2 при x > 0,kΓ( k2 )2 2p(x; k) =0при x 6 0.E X = k,D X = 2k,3E(X − k) = 8k,kf (t) = (1 − 2it)− 2 .Данное распределение имеет случайная величинаkXX=ξj2 ,j=1где ξ1 , .
. . , ξk – независимые случайные величины с распределениемN (0, 1). Это распределение совпадает с распределением Γ( 21 , k2 ).• Бета – распределениеβ(r, s) с параметрами r, s > 0.Случайная величина X ∼ β(r, s), если плотность распределенияравна(Γ(r+s) r−1x (1 − x)s−1 при x ∈ (0, 1)Γ(r)Γ(s)p(x; r, s) =0при x 6 0, x > 1.rrs, DX =.2r+s(r + s) (r + s + 1)Отметим, что распределение β(1, 1) совпадает с U (0, 1).EX =• Распределение Стьюдента t(n) с n степенями свободы, n ∈ N.Случайная величина X ∼ t(n), если она по распределению совпадает со случайной величинойξ0snP1n,ξj2j=1где ξ0 , ξ1 , . . .