Ульянов (старое издание) (1115357), страница 13
Текст из файла (страница 13)
Если оптимальная оценка существует, то она есть функция от достаточной статистики.Доказательство. Пусть T = T (Y ) - достаточная статистика и T1 = T1 (Y )- некая несмещенная оценка τ (θ). ПоложимXH(t) = E(T1 (Y )|T = t) =T1 (yi )P (Y = yi |T (Y ) = t)i∈Iгде {yi } , i ∈ I - всевозможные значения Y .Мы докажемEH(T (Y )) = τ (θ)DH(T (Y )) ≤ DT1 (Y )20Лекция 6Рассмотрим два равенстваH(t) = E(T1 |T )(4),E(H(t)) = ET1 = τ (θ)(5).Доказательство. (4) Будем действовать по определению. Ограничимсядискретным случаем, как наиболее понятным (условная вероятность быладоказана для дискретного случая).XEH(T ) =H(tj ) · P (T = tj ) =j=XP (T = tj ) ·XjT1 (yi ) · P (Y = yi |T = tj ) =i(все ряды, записанные здесь, абсолютно сходятся, из чего следует существование, а значит, можно их поменять местами.)XX=T1 (yi )P (Y = yi , T = tj ) = ET1 .iЗдесьjXP (Y = yi , T = tj ) = P (Y = yi ).jСравнивая то, с чего начали и то, чем закончили, получаем доказательство первого равенства.Доказательство.
(5) Воспользуемся f (X, Y ). ТогдаEf (X, Y ) = E(Ef (X, Y )|X)(6).Это свойство мы видели, когда изучали математическое ожидание, и оночасто используется. В силу (4)10020 Лекция 6E[(T1 − H(T )) · (H(T ) − τ (θ))] =(где T1 − H(T ) = cov(T1 − H(T ), H(T )), H(T ) - случайная величина, а τ (θ)- константа)= E[(T1 − H(T ))H(T )] =(используем равенство (6))X=(E(T1 |T = tj ) − H(tj )) · H(tj · P (T = tj )) = 0,jтак какE(T1 |T = tj ) − H(tj ) = 0то что записанное выше и есть E(f (X, Y )|X). Получили, что cov = 0.Значит, дмсперсия суммы двух случайных величин будет равнаD(T1 − H(T ) + H(T ) − τ (θ)) =(T1 − H(T ) и H(T ) − τ (θ) - случайные величины)= D(T1 − H(T )) + D(H(T )).Так как D ≥ 0, тоD(T1 − H(T ) + H(T ) − τ (θ)) ≥ DH(T ).Если пренебречь τ (θ), ничто не меняется.
Таким образом равенство (5)доказано.T1 = H(T ) с вероятностью 1.На этом доказательство теоремы Рао-Крамера завершено.Определение 20.1. Достаточная статистика T называется полной,если из того, что Eϕ(T ) = 0 вытекает, что ϕ(T ) = 0 с вероятностью1.(Это не есть равенство нулю всей функции, если попадается значение,которое не является T , то ничего о функции нельзя сказать).Theorem 20.1. Если полная достаточная статистика существует, толюбая функция от нее является оптимальной оценкой своего математического ожидания.Доказательство.
Пусть T -полная достаточная статистика. Возьмем произвольную ϕ, и пустьτ (θ) = Eϕ(T ).Доказательство заключается в том, что существует единственная несмещенная оценка ϕ(T ), и если она одна, то она и оптимальна. Проведем20 Лекция 6101доказательство от противного. Предположим, что есть ϕ1 (T ) - несмещенная оценка для τ (θ), то естьτ (θ) = Eϕ(T ).Следовательно,0 = E(ϕ(T ) − ϕ1 (T )).Отсюда и из определения полноты достаточной оценки следует, чтоϕ(T ) = ϕ1 (T )с вероятностью 1.Пример 20.1. Пусть выборка (X1 , ..., Xn ) имеет равномерное распределение на (0, θ):L(X) : X ∼ U (0, θ).В качестве достаточной статистики, оказывается, можно взять максимальное значение выборки, т.е.
максимальную порядковую статистикуX(n) < max Xi .1≤i≤nДокажем ее полноту. Для этого нужно рассмотреть производящую функцию ϕ, а именно, ϕn (X(n) ) и возьмем ее математическое ожидание. Прежде запишем плотность½ zn−1n θn , z ∈ (0, θ);X(n) : h(z) =0,иначе.ZEϕ(X(n) ) =ϕ(z)h(z)dz =R1θnZθϕ(z)z n−1 dz.0Предположим, что это равенство равно нулю.
Тогда т.к.Zθnθn6= 0, ∀θϕ(z)z n−1 dz = 0.0Значит, ∀θ1 , θ2 : θ2 > θ1 > 0 получаемZ θ2ϕ(z)z n−1 dz = 0.θ1Из того, что z n−1 > 0, все упирается на ϕ(z). Следовательно, ϕ(z) = 0 свероятностью 1 при z > 0.В некоторых учебниках и задачниках этот факт доказывается по-другому.Дифференцируют и получаютZ θϕ(z)z n−1 dz = 0. =⇒ ϕ(z) = 0.010220 Лекция 6Тогда не требуется непрерывность ϕ. Найдем математическое ожиданиемаксимальной статистикиZ θnnEX(n) = nz n dz =θ.θ 0n+1Тогда в силу теоремы о полной достаточной статистикеT (X) =n+1X(n) .nET (X) = θ ⇒T (X)-оптимальная оценка для θ.20.1 Оценки максимального правдоподобияПусть X1 , ..., Xn - выборка. Напомним, чтоpn (y, θ) =nYpθ (X = xi )i=1функцией правдоподобия. Примем y = (x1 , ..., xn ).Определение 20.2.
Оценкой максимального правдоподобия (ОМП) называется такая функция от θ∗ (x1 , ..., xn ):p(y, θ∗ ) = max pn (y, θ).θ∈ΘОпределение выше является формальным определением. Для того, чтобыпояснить содержательное определение, рассмотрим пример. Пусть x1 , x2имеют распределение Бернулли:L(X) = Bi(1, 0),½1, θ;X=0, 1 − θ.Предположим, что множество Θ состоит из двух точек:Θ={1 999;}.100 1000И наблюдается выборка 1, 1. Тогда в качестве неизвестного параметра999следует брать вторую точку ( 1000}).-Если1 211=⇒ p(Y = (1, 1)) = () = 4.θ=1001001020.1 Оценки максимального правдоподобия103-Если999=⇒ p(Y = (1, 1)) = (0, 999)2 .1000Пусть Θ = [0, 1]. Если наблюдается:-(1, 1), то в качестве параметра θ берется 1;-(0, 0), то θ = 0;-(1, 0), то этой выборке соответствует (θ(1 − θ)) и θ = 12 .θ=Замечание 20.1.
Предположим, что:1. существует частная производная функции правдоподобия pn (y, θ)∂pn (y, θ), ∀θ ∈ Θ, i = 1, k, k : θ = (θ1 , ..., θk ).∂θi2. функция правдоподобия pn (y, θ) достигает максимума как функция отθ во внутренней точке области Θ.Если 1 и 2 выполняются, тогда для оценки максимального правдоподобиясоставляется система уравнений∂pn (y, θ)= 0, i = 1, k.∂θiДифференцировать сумму легче, чем произведение, поэтому следует перейти к ln:∂ ln pn (y, θ)= 0, i = 1, k.∂θiЛемма 20.1. Если существует эффективная оценка, скажем, T (Y ) параметра θ ∈ R, то в этом случае T (Y ) - ОМП, где Y = (X1 , ..., Xn ).Доказательство. Напомним, что эффективная оценка - это несмещеннаяоценка, где достигается неравенство Рао-Крамера.∂pn (y, θ)= c(θ)T ((Y ) − θ).∂θЛемма 20.2.
Если есть достаточная статистика T (Y ), и ОМП θ∗ существует и единственна . Тогда θ∗ есть функция от T .Доказательство основывается на характеризации достаточной статистики:pn (y, θ) = g(T (y), θ)h(y).Рассмотрим пример, из которого вытекает, что оценки максимальногоправдоподобия не единственны и, вообще говоря, смещенны и необязательно состоятельны.
Пример связан с равномерным распределением.X1 , ..., Xn ∼ L(X) = U (0, θ) ·1· f (x(1) ) ⇒θn10420 Лекция 6pn (y, θ) = f (θ − x(1) ),где½f (y) =1, y > 0;0, иначе.Пусть выборкаX1 , ..., Xn ∼ L(X) = U (θ, θ + 1) ⇒½=pn (y, θ) = f (x(1) − θ) · f (θ + 1 − x(n) ) =1, x(1) > θ, θ + 1 > x(n) или x(1) > θ > x(n) − 1;0, в противном случае.Оценка МП - любая точка из (xn − 1, x1 ).21Лекция 7Пример 21.1.
Равномерное распределение на U (0, θ).½ 1, x(1) > 0, x(n) ≤ θ;pn (y; θ) = θn0, иначе.⇒ θомп = X(n)Пример 21.2. Общая нормальная модель L(X) N (θ1 , θ22 ).EX = θ1 , DX = θ22 ⇒ θ = (θ1 , θ2 ) - вектор, где θ1 , θ2 - неизвестные.Рассмотрим (− ln pn ); поиск оценки максимального правдоподобия эквивалентен нахождению экстремальных точек, в которых достигается минимум следующей функции:¶µ(X − θ1 )21 s2sψ(y; θ) =+−1− ln ,222θ22 θ2θ2Pn2где s2 = n11 (Xi − X) .Утверждается, что f (X) = n1 (X 2 −1)−ln X ≥ 0 при X > 0 (нули функции:f (1) = 0).
Так как функция убывает при X ∈ (0, 1) и возрастает приX ∈ (1, +∞), следовательно f (X) ≥ 0 ⇒ ψ(y; θ) ≥ 0. Но при θ1 = X, θ2 =sψ(y; θ) = 0 достигается минимум, следовательно θ1∗ = X; θ2∗ = s.Дугой способ: ∂ ln p∂θni(y;θ) = 0 i = 1, 2.Но из первого способа решения следует любопытный факт, состоящийв том, что оценкой максимального правдоподобия для θ22 является s2 :(θ22 )∗ = s2 .21.0.1 Свойство (принцип) инвариантности ОМППусть f : Θ → F - взаимно однозначное отображение. Тогда, если θ∗ естьОМП для θ, то f (θ∗ ) есть ОМП для f (θ).Замечание 21.1.
Θ ⊂ Rn - то есть вектор θ может быть многомерным.10621 Лекция 7Доказательство. supθ∈Θ pn (y; θ) = supx∈F pn (y; f −1 (x)), где x = f (θ).Если левая часть принимает максимальное значение при θ∗ , то праваячасть - при x∗ = f (θ∗ ) = (f (θ))∗ . Что и требовалось доказать.Оценка максимального правдоподобия является:• асимптотически несмещенной (θn∗ - ОМП для θn ; Eθn∗ → θ, n → ∞)• асимптотически эффективной• асимптотически нормальной, то есть ∃{An }, {Bn } такие, что послеθ ∗ −Aнормировки nBn n →d Z (стремление по распределению к стандартному нормальному закону), то естьµ ∗¶θn − Anp< x → p(Z < x),Bnгде Z ∼ N (0, 1).21.1 Интервальные оценкиРассмотрим в начале несколько частных случаев.•n = 1, X1 , N (θ, 1), где θ - соответственно неизвестная.
В таком случаеθ = EX1 - несмещенная эффективная оценка.2• n = 2, X1 , X2 , N (θ, 1); θ = E X1 +X. Чему тогда равна вероятность2X1 +X2того, что=θ?2Поскольку величины X1 и X2 имеют нормальное распределение, зна2чит и величина X1 +Xтак же будет иметь нормальное распределение.2Таким образом, данная случайная величина обладает плотностью.Следовательно, любое конкретноезначениеона принимает с нулевой¡¢2вероятностью.
То есть P X1 +X=θ=02Определение 21.1. Пусть Y = (X1 , . . . , Xn ) - выборка из L(X) ∼F (Z, θ), θ ∈ Θ, где F (Z, θ) - функция распределения случайной величины X. Доверительным интервалом для неизвестного параметра θс уровнем доверия γ называется интервал (T1 (Y ), T2 (Y )) такой, чтоP (T1 (Y ) < θ < T2 (Y )) ≥ γ для ∀θ ∈ Θ.γ называют так же коэффициентом надежности или доверительной вероятностью.Для случая n = 1, X1 , N (θ, 1), θ∗ = X1 возьмем в качестве интервала(X1 − A1 , X1 + A2 ), причем P (X1 − A1 < θ < X1 + A2 ) = γ ⇒ P (−A2 <X1 − θ < A1 ) = γ, где величина X1 − θ дает нулевое математическое ожидание, поскольку имеет нормальное стандартное распределение.Обычно γ близка к единице, то есть имеет значения в районе 0.9, 0.95,0.99, 0.999.Вероятность попасть в доверительный интервал - это суть площадь под21.2 Метод построения доверительных интервалов107кривой плотности.
То есть задача фактически состоит в том, чтобы найти такие A1 , A2 , при которых площадь под графиком равнялась бы γ.Решение такой задачи не единственно, но следует искать кратчайший доверительный интервал. Лучшим, в таком случае, вариантом будет случайA1 = A2 .Если Φ(Z) - функция распределения N (0, 1), то Φ(−A1 ) = 1−γ2 .Поскольку θ - неизвестная, но не случайная величина, значит она либопопадает в интервал, либо нет.21.2 Метод построения доверительных интервалов21.2.1 Метод, основанный на точечных оценках.Предположим, что T (Y ) - точечная оценка θ. Пусть T (Y ) имеет функциюраспределения G(t, θ). Рассмотрим случайные величины G(T (Y ), θ) =ε, G(T (Y ), θ) = 1 − ε (*).Фиксируем некоторый ε такой, что 1/2 < ε < 1.При наложении определенных условий регулярности на функцию распределения случайной величины X имеем, что (*) имеет единственное решение относительно θ.
Кроме того, корни - θ1∗ = T1 (T (Y )) = T1 (Y ); θ2∗ =T2 (Y ) - таковы, что P (T1 (Y ) < θ < T2 (Y )) ≥ 2ε − 1 = γ. Следовательно(T1 (Y ), T2 (Y )) - доверительный интервал для θ.Пример 21.3. Пусть (X1 , . . . , Xn ) - выборка из L(X) ∼ N (θ, 1). Необходимо построить оценку для θ.√T (Y ) = n1 (X1 + . . .