С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 12
Текст из файла (страница 12)
. .Пример 4 (гамма-распределение). Снова мы ограничимся случаемизвестного p, когда достаточной статистикой является сумма S = X1 +· · · + XN . По свойству воспроизводимости (см. параграф 1.6) случайнаявеличина S имеет распределение Γ(α, N p). Поэтому равенство Eα f (S) ≡0 приобретает видZ ∞αN p N p−1 −αxf (x)xe dx ≡ 0.Γ(N p)0Выражение видаZ∞G(α) =Og(x)e−αx dx62Глава 2называется преобразованием Лапласа функции g(x). В теории этогопреобразования доказывается, чтоG(α) ≡ 0 =⇒ g(x) = 0 почти всюду(мынеприводимточнойформулировкисоответствующихпредположений о g). Таким образом, должно выполняться равенствоf (x)xN p−1 = 0,откуда и следует f (x) = 0 (почти всюду).Доказанная полнота S позволяет утверждать, что (см. параграф 5)α̃ =Np − 1S— эффективная несмещенная оценка параметра α. Можно доказать, чтопри неизвестных α и p достаточная статистика (X1 + · · · + XN , X1 · X2 ·· · · · XN ) полна (см.
[1]).Пример 5 (равномерное распределение).Нам потребуется плотность распределения S = (Xmin , Xmax ) (впараграфе 3 была получена лишь индивидуальная плотность Xmax ).Вычисления проводятся так:¶Nµv−u, a < u < v < b.P(u < Xmin , Xmax < v) =b−aСовместнаяплотностьXminиXmaxполучаетсяотсюдадифференцированием: следует взять вторую смешанную производную спротивоположным знакомN (N − 1)(v − u)N −2pS (u, v) =, a < u < v < b.(b − a)NЗапишем теперь равенство Ef (S) = 0 в развернутом виде:¶Z b µZ vN (N − 1)(v − u)N −2du dv = 0.f (u, v)N(b−a)aaСчитая N ≥ 2 и сокращая постоянный множитель, получаем¶Z b µZ vf (u, v)(v − u)N −2 du dv = 0.aaТеория оценивания63Дифференцируя сначала по b, а затем по a, последовательно находимZ bf (u, b)(b − u)N −2 du = 0,af (a, b)(b − a)N −2 = 0(тождественно по a и b, a < b).
Поэтому f = 0 и достаточная статистикаS полна. Отсюда следует (см. параграфы 6 и 3), что (ã, b̃) — эффективнаянесмещенная оценка двумерного параметра (a, b).В модифицированной задаче статистика S, разумеется, не полна.Любая линейная комбинация оценок θ∗ = ã и θ∗∗ = b̃ − 1 видаcθ∗ + (1 − c)θ∗∗будет несмещенной и одновременно функцией от достаточнойстатистики.Определим среди них оценку с минимальной дисперсией.V(cθ∗ + (1 − c)θ∗∗ ) = c2 Vθ∗ + 2c(1 − c)cov(θ∗ , θ∗∗ ) + (1 − c)2 Vθ∗∗ .По соображениям симметрииVθ∗ = Vθ∗∗ .Легко сообразить, что минимум квадратичного по c выражения,инвариантного при замене c на 1 − c, достигается при c = 1/2.Соответствующая оценка имеет видµθ∗ + θ∗∗ã + b̃ − 1 1N1==Xmin −Xmax222 N −1N −1¶N11+Xmax −Xmin − 1 = (Xmin + Xmax − 1) .N −1N −12Вычисления показывают, чтоµ ∗¶N +1 ∗θ + θ∗∗(b − a)2=Vθ ,V=22(N + 1)(N + 2)2Nтак что полусумма почти вдвое эффективнее, чем каждая из оценокθ∗ ,θ∗∗ .Остался нерассмотренным самый важный пример 3 — нормальноераспределение.
Мы уже знаем, что X̄ — эффективная несмещенная64Глава 2оценка математического ожидания a (в том числе и при наличиимешающего параметра σ). Сформулируем аналогичный результат длядисперсии σ 2 . Если предположить, что a известно, то эффективной в K0будет оценкаN1 X2(X − a) =(Xi − a)2 .N i=1Этот результат мы оставляем читателю. В более реалистичной ситуации,когда a неизвестно (т.е. является мешающим параметром), эффективнойв K0 оценкой дисперсии σ 2 , как уже упоминалось в параграфе 5, являетсяN1 XNSиспр. =S2 =(Xi − X̄)2 .N −1N − 1 i=12Мы сейчас докажем это, основываясь на идеях, близких к проверкеполноты, хотя полнота при этом не будет ни доказываться, нидаже упоминаться.
Итак, пусть σb2 — некоторая несмещенная оценкадисперсии. Без ограничения общности можно считать ее функцией отдостаточной статистики(S1 , S2 ) = (X1 + · · · + XN , X12 + · · · + XN2 )и представить в виде2+ f (S1 , S2 ),σb2 = Sиспр.2где Ef (S1 , S2 ) = 0. Докажем, что Sиспр.и f (S1 , S2 ) не коррелируют.Этого достаточно, т.к. тогда22V(σb2 ) = V(Sиспр.) + Vf (S1 , S2 ) ≥ V(Sиспр.)(на самом деле, см. [1], достаточная статистика (S1 , S2 ) полна). Имеем22cov(Sиспр., f (S1 , S2 )) = E[Sиспр.· f (S1 , S2 )]= E[(N S2 − N 2 S12 )f (S1 , S2 )]и мы проверим, чтоE[S2 f (S1 , S2 )] = E[S12 f (S1 , S2 )]= E[S1 f (S1 , S2 )] = 0 (2.7)(отсюда сразу следует желаемая некоррелированность).Теория оценивания65Запишем развернутым образом равенство Ef (S1 , S2 ) = 0:Zp(~x)f (S1 (~x), S2 (~x))d~x = 0,гдеRNNp(~x) = (2π)−N/2 −Nσ1 Xexp{− 2(xi − a)2 }.2σ i=1Сокращая постоянные множители, не обращающиеся в нуль и опускаяаргумент ~x у функций S1 и S2 , перепишем это равенство в видеZ1f (S1 , S2 ) exp{− 2 (S2 − 2aS1 )}d~x = 0.(2.8)2σRNДифференцируя дважды по a, последовательно получаемZ1S1 f (S1 , S2 ) exp{− 2 (S2 − 2aS1 )}d~x = 0,2σNZR1S12 f (S1 , S2 ) exp{− 2 (S2 − 2aS1 )}d~x = 0.2σRNВосстанавливая сокращенные множители, записываем эти равенства ввидеE[S1 f (S1 , S2 )] = 0,E[S12 f (S1 , S2 )] = 0.Возвращаясь к (2.8) и дифференцируя теперь по σ, получаеманалогичным образомE[(S2 − 2aS1 )f (S1 , S2 )] = 0,откудаE[S2 f (S1 , S2 )] = 0.Все равенства (2.7) получены.
Как уже было указано, из этого вытекает2эффективность Sиспр..Отметим в заключение параграфа еще один полезный факт.Теорема. Оценки максимального правдоподобия являютсяфункциями от достаточной статистики.Доказательство. По теореме факторизации~L(θ) = h(X)ψ(S,θ),где S — достаточная статистика. Поскольку первый множитель отпараметра не зависит, точки максимума для функций L(θ) и ψ(S, θ) —одни и те же. Однако точка максимума ψ(S, θ), очевидно, зависит лишьот S.662.8Глава 2Асимптотические свойства оценокмаксимального правдоподобияВ этом параграфе пойдет речь об основных асимптотических свойствахоценок максимального правдоподобия. Эти свойства сформулированыниже в виде теорем 1 – 4. Мы не будем приводить ни доказательстваэтих сложных результатов, ни точные формулировки соответствующихусловий регулярности, однако постараемся объяснить идейную сторонудоказательств.Нам потребуются некоторые предварительные определения.Оценка θ̂ параметра θ называется асимптотически нормальной скоэффициентом разброса σ 2 > 0, если функция распределения величины√ θ̂ − θNσслабо сходится к функции распределения стандартного нормальногозакона:√ θ̂ − θP( N< z) −→ Φ(z), N → ∞.σКоэффициент разброса σ 2 может при этом зависеть от θ.Далее, будем говорить, следуя [1], что оценка√ θ̂ принадлежит классуK̃0 , если ее смещение обладает свойствами: 1) N b(θ) → 0 при N → ∞ ипроизвольном фиксированном θ; 2) производная b0 (θ) существует, причемb0 (θ) → 0 при N → ∞ и произвольном фиксированном θ.Теорема 1.
При некоторых условиях регулярности оценка θ̂M Lсильно состоятельна.Теорема 2. При некоторых условиях регулярности оценка θ̂M L1асимптотически нормальна с коэффициентом разброса i(θ).Теорема 3. При некоторых условиях регулярности оценка θ̂M L лежитв классе K̃0 .Теорема 4. При некоторых условиях регулярности оценка θ̂M Lасимптотически эффективна в классе K̃0 .Заметим сначала, что теорема 1 вытекает из теоремы 2. Далее,теорема 4 легко следует из теорем 2, 3 и неравенства Рао-Краме́ра:(1 + b0 (θ))2+ b2 (θ).E(θ̂ − θ) ≥N i(θ)2Теория оценивания67Действительно, предположим, что θ̂ ∈ K̃0 , и обозначим правую частьнеравенства через gN (θ). Из определения класса K̃0 вытекает, чтоN gN (θ) →1, N → ∞.i(θ)Из теоремы 2 следует, чтоN Vθ̂M L →1.i(θ)ПосколькуE(θ̂M L − θ)2 = Vθ̂M L + b2 (θ)и по теореме 3 θ̂M L ∈ K̃0 , получаем, чтоN E(θ̂M L − θ)2 →1.i(θ)Наконец, для произвольной оценки θ̂ класса K̃0 имеемE(θ̂ − θ)2E(θ̂M L − θ)2≥gN (θ)E(θ̂M L − θ)2=N gN (θ)N E(θ̂M L − θ)2→1/i(θ)= 1.1/i(θ)Обсудим теперь теорему 2.Определим функциюuY (u) = l(θ + √ ) − l(θ),Nгде l — логарифмическая функция правдоподобия, а θ — истинноезначение параметра.
Точку максимума функции Y (u) обозначим u∗ .Очевидно, чтоu∗θ̂M L = θ + √ .NРазложим Y (u) по Тейлору:¸·1 2 l00 (θ)u 0+ o(1) − l(θ)Y (u) = l(θ) + √ l (θ) + u2NN¸·l0 (θ) 1 2 l00 (θ)= u√ + u+ o(1) .2NN68Глава 2По определениюl(θ) =NXln pθ (Xi ),i=10l (θ) =NX(ln pθ (Xi ))0 ,i=100l (θ) =NX(ln pθ (Xi ))00 .i=1Все эти суммы состоят из независимых одинаково распределенныхвеличин. Из доказательства неравенства Рао-Краме́ра мы знаем, чтоE(ln pθ (Xi ))0 = 0,V[(ln pθ (Xi ))0 ] = −E(ln pθ (Xi ))00 = i(θ).По центральной предельной теореме Леви́ (см. параграф 1.4)распределение величиныl0 (θ)ξN = √Nслабо сходится к нормальному закону N(0, i(θ)). По теореме Хинчина(см.
там же) величинаl00 (θ)→ −i(θ)Nпо вероятности. Поэтому тейлоровское разложение можно переписать ввидеu2Y (u) = uξN − i(θ)[1 + o(1)].2Тогда точка максимума этой функции запишется какu∗ =ξN[1 + o(1)].i(θ)(2.9)Из последнего соотношения следует, что θ̂M L асимптотически нормальна1(асимптотическая дисперсия i(θ) величины ξNс разбросом i(θ)1умножается на квадрат постоянного множителя i(θ)).√Перейдем, наконец, к теореме 3. Первое условие ( N b(θ) → 0)проверяется на основе соотношения√√N b(θ) = N E(θ̂M L − θ) = Eu∗ .Теория оценивания69Достаточно сослаться на (7.11) и на сходимость распределения величиныξN к нормальному закону с нулевым средним значением:Eu∗ =EξN[1 + o(1)] → 0.i(θ)Второе условие (b0 (θ) → 0) установить чуть сложнее.
ИмеемµZ¶0θ̂M L (~x)pθ (~x)d~x =1 + b0 (θ) = (θ + b(θ))0 = (Eθ̂M L )0 =ZZp0θ (~x)= θ̂M L (~x)pθ (~x)d~x = θ̂M L (~x)(ln pθ (~x))0 pθ (~x)d~x =pθ (~x)= E[θ̂M L l0 (θ)] = E[(θ̂M L − θ)l0 (θ)] =· 2¸√ξ= E[(θ̂M L − θ) N ξN ] = E[u∗ ξN ] = E N (1 + o(1)) → 1.i(θ)Отсюда вытекает искомое b0 (θ) → 0.Дадим неформальный комментарий к приведенным выше теоремам(см. также [1]). Рассматривать оценки, не принадлежащие классуK̃0 , по-видимому, просто нецелесообразно — неравенство Рао-Краме́рапоказывает, что их относительная эффективность ниже, по крайнеймере, асимптотически. А тогда теорема 4, по существу, утверждает, что, втом же асимптотическом смысле, оценка максимального правдоподобиянеулучшаема. При фиксированном N такое улучшение, конечно, можетоказаться возможным (на величину o(1/N )).Теоремами этого параграфа мы будем пользоваться и для другихцелей (см.
параграф 3.1).2.9Эквивариантные оценки параметра сдвигаКак указывалось в параграфе 1, для нахождения эффективных оценокприходится разумным образом сужать класс всевозможных оценок.Несмещенные оценки (класс K0 ) и оценки с фиксированным смещением(классы Kb ) — примеры такого сужения. Сейчас мы рассмотрим ещеодин полезный класс оценок — эквивариантные оценки параметрасдвига (в книге Боровкова [1] можно найти аналогичное обсуждениеэквивариантных оценок параметра масштаба, а также общую теориюэквивариантности).70Глава 2Будем говорить, что θ — параметр сдвига, если параметрическоесемейство плотностей p(x; θ) задается формулойp(x; θ) = p(x − θ),т.е. все плотности этого семейства получаются сдвигом аргумента изодной и той же плотности p(x).