Н.И. Чернова - Математическая статистика (1115306), страница 6
Текст из файла (страница 6)
е. для вырожденной с точки зрения математической статистики задачи.Вырожденными являются, например, следующие задачи:∗ для выборки из Iθ , θ ∈ IR, выполнено тождество X1 ≡ θ; ∗ для выборки из Uθ,θ+1 , θ ∈ Z, выполнено тождество X1 ≡ θ.Упражнение. Объяснить словесно доказательство теоремы 4.Если в классе всех оценок наилучшей не существует, то, возможно, следует разбитькласс всех оценок на отдельные подклассы и в каждом искать наилучшую.Обычно рассматривают оценки, имеющие одинаковое смещениеb(θ) = Eθ θ∗ − θ.Обозначим через Kb = Kb(θ) класс оценок, имеющих смещение, равное заданнойфункции b(θ):Kb = {θ∗ : Eθ θ∗ = θ + b(θ)} ,Здесь K0 — класс несмещенных оценок.24K0 = {θ∗ : Eθ θ∗ = θ} .Определение 9.
Оценка θ∗ ∈ Kb называется эффективной оценкой в классе Kb , еслиона лучше (не хуже) всех других оценок класса Kb в смысле среднеквадратическогоподхода. То есть для любой θ∗1 ∈ Kb , для любого θ ∈ ΘEθ (θ∗ − θ)2 6 Eθ (θ∗1 − θ)2 .Определение 10. Эффективная оценка в классе K0 называется просто эффективной.Замечание 8. Для θ∗ ∈ K0 , по определению дисперсии,Eθ (θ∗ − θ)2 = Eθ (θ∗ − Eθ θ∗ )2 = Dθ θ∗ ,так что сравнение в среднеквадратичном несмещенных оценок — это сравнение ихдисперсий. Поэтому эффективную оценку (в классе K0 ) часто называют «несмещеннойоценкой с равномерно минимальной дисперсией». Равномерность подразумевается повсем θ ∈ Θ.
Для θ∗ ∈ KbEθ (θ∗ − θ)2 = Dθ (θ∗ − θ∗ ) + (Eθ θ∗ − θ)2 = Dθ θ∗ + b2 (θ),так что сравнение в среднеквадратичном оценок с одинаковым смещением — это такжесравнение их дисперсий.Упражнение. Мы собираемся искать наилучшую оценку в классе Kb . Объясните,почему доказательство теоремы 4 не пройдет в классе Kb .3.2. Единственность эффективной оценки в классе с заданным смещениемТеорема 5. Если θ∗1 ∈ Kb и θ∗2 ∈ Kb — две эффективные оценки в классе Kb , то свероятностью 1 они совпадают: Pθ (θ∗1 = θ∗2 ) = 1.Доказательство теоремы 5. Заметим сначала, что Eθ (θ∗1 − θ)2 = Eθ (θ∗2 − θ)2 . Действительно, так как θ∗1 эффективна в классе Kb , то она не хуже оценки θ∗2 , то естьEθ (θ∗1 − θ)2 6 Eθ (θ∗2 − θ)2 ,и наоборот. Поэтому Eθ (θ∗1 − θ)2 = Eθ (θ∗2 − θ)2 .θ∗ + θ∗2. Она также принадлежит классу Kb .
доказать!Рассмотрим оценку θ∗ = 12Вычислим ее среднеквадратическое отклонение. Заметим, чтоa+b22+a−b22=a2 + b2.2(6)Положим a = θ∗1 − θ, b = θ∗2 − θ. Тогда (a + b)/2 = θ∗ − θ, a − b = θ∗1 − θ∗2 .Подставим эти выражения в (6) и возьмем математические ожидания обеих частей:Eθ (θ∗ − θ)2 + Eθθ∗1 − θ∗222= Eθ(θ∗1 − θ)2 + (θ∗2 − θ)2=2= Eθ (θ∗1 − θ)2 = Eθ (θ∗2 − θ)2 . (7)25Но оценка θ∗ принадлежит Kb , то есть она не лучше, например, эффективной оценки θ∗1 .
ПоэтомуEθ (θ∗ − θ)2 > Eθ (θ∗1 − θ)2 .Сравнивая это неравенство с равенством (7), видим, чтоEθθ∗1 − θ∗22Тогда почему?2=1Eθ (θ∗1 − θ∗2 )2 6 0 и, следовательно, Eθ (θ∗1 − θ∗2 )2 = 0.4Pθ (θ∗1 = θ∗2 ) = 1, что и требовалось доказать.Для примера рассмотрим сравнение двух оценок. Разумеется, сравнивая оценкипопарно между собой, наилучшей оценки в целом классе не найти, но выбрать лучшуюиз двух тоже полезно. А способами поиска наилучшей в целом классе мы тоже скорозаймемся.Пример 11. Пусть X1 , . . .
, Xn — выборка объема n из равномерного распределения U0,θ , где θ > 0. В примерах 4 и 9 мы нашли ОМП θ^ = X(n) = max{X1 , . . . , Xn }и ОММ по первому моменту θ∗ = 2X. Сравним их в среднеквадратичном.Оценка θ∗ = 2X несмещенная, поэтомуEθ (θ∗ − θ)2 = Dθ θ∗ = Dθ 2X = 4Dθ X = 4Dθ X1θ2θ2=4=.n12n3nДля θ^ = X(n) = max{X1 , . . . , Xn } имеемEθ (θ^ − θ)2 = Eθ θ^2 − 2θEθ θ^ + θ2 .Посчитаем первый и второй момент случайной величины θ^ = X(n) . Найдем (полезно вспомнить, как это делалось в прошлом семестре!) функцию распределения и^плотность θ:0,y < 0, nyPθ (X(n) < y) = Pθ (X1 < y)n =, y ∈ [0, θ],nθ1,y > θ,Eθ X(n)0,если y 6∈ [0, θ],n−1fX(n) (y) =n y, если y ∈ [0, θ].θnZθZθnnyn−1yn−12θ, Eθ X(n) = y2 n n dy =θ2 .= yn n dy =θn+1θn+200ПоэтомуEθ (X(n) − θ)2 =nn2θ2 − 2θ2 + θ2 =θ2 .n+2n+1(n + 1)(n + 2)При n = 1, 2 квадратические отклонения равны, а при n > 2Eθ (X(n) − θ)2 =2θ2θ2<= Eθ (2X − θ)2 ,(n + 1)(n + 2)3nто есть X(n) лучше, чем 2X.
При этом Eθ (X(n) − θ)2 стремится к нулю со скоростью n−2 , тогда как Eθ (2X − θ)2 — со скоростью n−1 .26Упражнение.1. Доказать, что X(n) ∈ Kb , где b(θ) = −θ.n+1n+1X(n) ∈ K0 (несмещенная).nn+13. Сравнить оценкиX(n) и X(n) в среднеквадратичном.n2. Доказать, что3.3. Асимптотически нормальные оценки (АНО)qДля того, чтобы уметь сравнивать оценки вида θ∗k = (k + 1)Xk (см. пример 4),среднеквадратического подхода недостаточно: второй момент такой случайной величиныпосчитать вряд ли удастся. Оценки такого вида (функции от сумм) удается сравниватьс помощью асимптотического подхода.
Более точно, этот подход применим к такназываемым «асимптотически нормальным» оценкам.Пусть X1 , . . . , Xn — выборка объема n из параметрического семейства распределений Fθ , θ ∈ Θ.kОпределение 11. Оценка θ∗ называется асимптотически нормальной оценкой параметра θ с коэффициентом σ2 (θ), если√√n(θ∗ − θ)n(θ∗ − θ) ⇒ N0,σ2 (θ) ,или⇒ N0,1 .σ(θ)Пример 12. Пусть X1 , . . . , Xn — выборка объема n из равномерного распределения U0,θ , где θ > 0. Проверим, являются ли оценки θ∗ = 2X и θ^ = X(n)асимптотически нормальными (АНО).
По ЦПТ,nPXi√√ √n(θ∗ − θ) = n(2X − θ) = n 2 i=1 − θ =nnP=i=1nPi=12Xi − nθ√=n2Xi − nEθ 2X1√⇒ N0,Dθ 2X1 = N0,4Dθ X1 .nТо есть оценка θ∗ = 2X асимптотически нормальна с коэффициентомσ2 (θ) = 4Dθ X1 = 4θ2 /12 = θ2 /3.Для оценки θ^ = X(n) имеем:√√n(θ^ − θ) = n(X(n) − θ) < 0 с вероятностью 1.(8)По определению, ξn ⇒ F, если для любой точки x, являющейся точкой непрерывностифункции распределения F, имеет место сходимость Fξn (x) = P (ξn < x) → F(x).√Но Pθ ( n(X(n) − θ) < 0) = 1, тогда как для нормального распределения N0,σ2 (θ)функция распределения всюду непрерывна, и в нуле равна Φ0,σ2 (θ) (0) = 0.5.
Но 1 не√сходится к 0.5 при n → ∞, поэтому слабая сходимость n(X(n) − θ) к N0,σ2 (θ) местане имеет.Таким образом, оценка θ^ = X(n) асимптотически нормальной не является. Осталось ответить на напрашивающиеся вопросы:27√1) Куда все же сходится по распределению n(X(n) − θ)?√Упражнение. Доказать, что n(X(n) − θ) ⇒ 0.Порядок действий: Выписать определение слабой сходимости.
Нарисовать функцию рас√пределения нуля. Найти по определению функцию распределения n(X(n) − θ). Убедиться,что она сходится к функции распределения нуля во всех точках непрерывности последней.Не забудьте о существовании замечательных пределов, логарифмов и ряда Тейлора.√2) Если n(X(n) − θ) ⇒ 0, то на какую степень n нужно попробовать умножить X(n) − θ,чтобы получить сходимость к величине, отличной от 0 и ∞?Упражнение.
Доказать, что −n(X(n) − θ) ⇒ η, где случайная величина η имеет показательное распределение E1/θ .Порядок действий: прежний.n+1X(n) свойство (8) не выполнено. Может ли эта оценка быть АНО?nУпражнение. Модифицировать рассуждения и доказать, что эта оценка тоже не являетсяасимптотически нормальной.3) Для оценки4) Плохо ли, что оценка θ^ = X(n) не асимптотически нормальна? Может быть, сходимостьn(X(n) − θ) ⇒ −η еще лучше?Попробуем ответить на последний вопрос.3.4.
«Скорость» сходимости оценки к параметруТеорема 6. Если θ∗ — асимптотически нормальная оценка для θ, то θ∗ состоятельна.Доказательство теоремы 6.Вспомним свойство слабой сходимости: произведениедвух последовательностей, одна из которых сходится (по вероятности) к постоянной, адругая слабо сходится к некоторой случайной величине, слабо сходится к произведениюпределов. Поэтому1 √θ∗ − θ = √ · n(θ∗ − θ) ⇒ 0 · ξ = 0,nгде ξ имеет нормальное распределение N0,σ2 (θ) .
Но слабая сходимость к нулю влечетсходимость к нулю по вероятности.Упражнение. Верно ли утверждение теоремы 6, если предельная величина ξ имеетраспределение, отличное от нормального?ppТаким образом, если θ∗ асимптотически нормальна, то θ∗ −→ θ, или θ∗ − θ −→ 0.Свойство асимптотической нормальности показывает, в частности, что скорость этой11сходимости имеет порядок √ , т.
е. расстояние между θ∗ и θ ведет себя как √ :nn√pθ∗ − θ −→ 0, ноn(θ∗ − θ) ⇒ N0,σ2 (θ) .Взглянем с этой точки зрения на оценку θ^ = X(n) в примере 12. Для нее (и длятех, кто справился с упражнениями)n(X(n) − θ) ⇒ ξ,(9)где ξ — некоторая случайная величина. Иначе говоря, расстояние между θ^ и θ ведет1себя как .nУпражнение. Лучше это или хуже?283.5. Асимптотическая нормальность ОММВ примере 12 мы видели, что для оценок типа 2X свойство асимптотической нормальности сразу следует из ЦПТ.Установим асимптотическую нормальность оценок более сложного вида, какимиобычно оказываются оценки метода моментов.Пусть функция g(y) такова, что 0 6= Dθ g(X1 ) < ∞.1Pg(Xi ) является асимптотически нормальной оценкойТогда статистика g(X) =nдля Eθ g(X1 ) с коэффициентом σ2 (θ) = Dθ g(X1 ):Свойство 5.√ g(X) − Eθ g(X1 )n p⇒ N0,1 .Dθ g(X1 )Упражнение.
Вспомнить ЦПТ и доказать свойство 5.Следующая теорема утверждает асимптотическую нормальность оценок вида!Png(X)i1.θ∗ = H g(X) = HnТакие оценки получаются обычно найти примеры! при использовании метода моментов,при этом всегда θ = H (Eθ g(X1 )).Теорема 7. Пусть функция g(y) такова, что 0 6= Dθ g(X1 ) < ∞, а функция H(y)непрерывно дифференцируема в точке a = Eθ g(X1 ) и H 0 (a) = H 0 (y)y=a 6= 0.Тогда оценка θ∗= H g(X)является асимптотически нормальной оценкойдля θ = H (Eθ g(X1 )) = H(a) с коэффициентом σ2 (θ) = (H 0 (a))2 · Dθ g(X1 ).Доказательство теоремы 7.Согласно ЗБЧ последовательность g(X) стремится к a = Eθ g(X1 ) по вероятностис ростом n.
Функция H(y) − H(a) , y =6 a,y−aG(y) = 0H (a),y=aпо условию непрерывна в точке a. Поскольку сходимость по вероятности сохраняетсяp−→ G(a)= H 0 (a).под действием непрерывной функции, получим, что G(g(X))√ Заметим также, что по свойству 5 величина n g(X) − a слабо сходится кнормальному распределению N0,Dθ g(X1 ) . Пусть ξ — случайная величина из этогораспределения.
Тогда √ √ n H g(X) − H(a) = n g(X) − a · G g(X) ⇒ ξ · H 0 (a).⇓↓pξH 0 (a)pМы использовали свойство слабой сходимости: если ξn ⇒ ξ и ηn −→ c = const,то ξn ηn ⇒ cξ. Но ξ · H 0 (a) как раз и имеет распределение N0, (H 0 (a))2 ·Dθ g(X1 ) .29Пример 13. Пусть X1 , . . . , Xn — выборка объема n изqравномерного распределеkния U0,θ , где θ > 0. Проверим, являются ли оценки θ∗k = (k + 1)Xk , k = 1, 2, . .
. ,полученные методом моментов в примере 4, асимптотически нормальными.√Пусть g(y) = (k + 1)yk , H(y) = k y. Тогдаθ∗ksPq=k(k +1)Xkk=При этом(k + 1)Xki=HnPg(Xi ).nsθ = H (Eθ g(X1 )) =qkEθ (k + 1)Xk1 =k(k + 1)θk.k+1Впрочем, иначе быть не могло по определению метода моментов. верно? Проверимдругие условия теоремы 7:θk= θk ,a = Eθ g(X1 ) = (k + 1)k+12kk222 θ2kдисперсия Dθ g(X1 ) = Eθ (k+1)2 X2k−a=(k+1)−θ=θ2k12k + 12k + 1конечна и отлична от нуля. Функция H(y) непрерывно дифференцируема в точке a:1 1−k1y k , и H 0 (a) = H 0 (θk ) = θ1−k непрерывна при θ > 0.kk∗По теореме 7, оценка θk — АНО для θ с коэффициентомH 0 (y) =2σ2k (θ) = H 0 (a)Dθ g(X1 ) =1 2−2kk2θ22kθ·θ=.k22k + 12k + 1В том числе для θ∗1 = 2X имеем коэффициент σ21 (θ) =θ2(см.
пример 12).3Осталось понять, при чем тут сравнение оценок и что показывает коэффициентасимптотической нормальности.3.6. Асимптотический подход к сравнению оценокВозьмем две случайные величины: ξ из нормального распределения N0,1 и 10 ξиз нормального распределения N0,100 . Если для ξ, например, 0, 9973.. = P (|ξ| < 3),то для 10 ξ уже 0, 9973.. = P (|ξ| < 30). Разброс значений величины 10 ξ гораздобольший, и дисперсия (показатель рассеяния) соответственно больше.Что показывает коэффициент асимптотической нормальности? Возьмем две АНОс коэффициентами 1 и 100:√√n(θ∗1 − θ∗ ) ⇒ N0,1 иn(θ∗2 − θ∗ ) ⇒ N0,100 .√При больших n разброс значений величины n(θ∗2 − θ∗ ) около нуля гораздо боль√ше, чем у величины n(θ∗1 − θ∗ ), поскольку больше предельная дисперсия (она жекоэффициент асимптотической нормальности).Но чем меньше отклонение оценки от параметра, тем лучше.