Ульянов (новое издание) (1115355), страница 22
Текст из файла (страница 22)
Поэтому такая оценка бессмыслена.4◦ . Из того, что ET (X) = θ, вообще говоря, не следует, что Ef (T (X)) = f (θ).13.5.2Свойства cостоятельных оценок1◦ . Состоятельные оценки не единственны.2SreДействительно, выборочная дисперсия S 2 и исправленная выборочная дисперсияявляются состоятельными оценками теоретической дисперсии.2◦ . Состоятельные оценки могут быть смещенными.Действительно, как было показано ранее выборочная дисперсия является состоятельной, но смещенной оценкой теоретической дисперсии.107Лекция 1414.1Оптимальные оценкиПусть нам требуется оценить заданную параметрическую функцию τ (θ) в моделиF = {F (x, θ), θ ∈ Θ} по выборке X = (X1 , .
. . , Xn ) из распределения L(X) ∈ F.Пусть статистики T = T (X) являются несмещенными оценками заданной параметрической функции. Обозначим через Tτ семейство всех несмещнных оценок. Предположим, что дисперсии всех оценок из Tτ конечны, т.е. Dθ T = Eθ (T − τ (θ))2 < ∞для ∀θ ∈ Θ.Рассмотрим теперь две статистики T1 , T2 ∈ Tτ . ET1 = ET2 .
Возникает вопрос,какую из оценок выбрать. Рассмотрим дисперсии оценок. Если Dθ T1 < Dθ T2 , тоберем T1 , поскольку чем меньше дисперсия, тем меньше разброс среднего. Но оценкадолжна выполняться для ∀θ ∈ Θ.Таким образом мы пришли к определению оптимальной оценики.Определение 14.1. Пусть Tτ семейство несмещенных оценок параметрическойфункции τ (θ). Оценка T = T (X) называется оптимальной, если Dθ T < Dθ T1 , длялюбого θ ∈ Θ и T1 ∈ Tτ .Имеет место следующий результат, показывающий, что если оптимальная оценкасуществует, то она единственна с точность до меры нуль.Теорема 14.1. Пусть статистики T1 , T2 ∈ Tτ .
Если T1 и T2 — оптимальны, тоT1 = T2 с вероятностью 1.Доказательство. Так как T1 и T2 — оптимальные оценки, то DT1 = DT2 . ПоT1 + T2ложим DT1 = DT2 = σ 2 . Определим новую оценку: T3 =∈ Tτ . Вычислим2дисперсию новой оценки.2T3 = T1 + T2 ;D(2T3 ) = D(T1 + T2 ) = DT1 + DT2 + 2cov(T1 , T 2) = 2σ 2 + 2cov(T1 , T 2).222Так√ σ — наименьшая дисперсия, то DT3 > σ . Cледовательно cov(T1 , T2 ) > σ =√ какDT1 DT2 .
И для коэффициента кореляции имеемcov(T1 , T2 )√ρ= √> 1.DT1 DT2Но, как известно, коэффициент кореляции |ρ| 6 1. Следовательно ρ = 1.Из свойств коэффициента кореляции известно, что, если он равен 1, то случайные величины линейны зависимы c вероятностью 1. Таким образом T1 = aT2 + bс вероятностью 1. Так как T1 и T2 несмещенные оценки, то ET1 = ET2 = θ. И мыполучили, что θ = aθ + b или θ(1 − a) = b. Следовательноcov(T1 , T2 ) = E(T1 − θ)(T2 − θ) = E(aT2 + b − θ)(T2 − θ) = aE(T2 − θ)2 = aσ 2 .Так как ρ = 1, то отсюда находим, что a = 1, b = 0, т.е. T1 = T2 .10814.214.2.1Неравенство Рао - КрамераФункция правдоподобияПусть X = (X1 , .
. . , Xn ) — выборка из L(X) ∈ F . x = (x1 , . . . , xn ) — реализациявыборки X.Если X имеет дискретное распределение, то определим функцию Ln = Ln (x, θ)cледующим образомLn =nYP(Xi = xi ),i=1если имеет абсолютно непрерывно распределение, тоLn =nYf (xi , θ),i=1где f (x, θ) - плотность распределения наблюдаемой слуайной величины X.Функция Ln (x, θ) называется функцией правдоподобия.
В дискретном случаефункция правдоподобия является вероятностью того, что выборка X примет значение (x1 , . . . xn ). В непрерывном случае функция правдоподобия является совместнойплотностью распределения выборки X.Прежде чем сформулировать и доказать неравенство Рао - Крамера докажемвспомогательную лемму.∂Ln ∂ 2 LnЛемма 14.1. Предположим, что для ∀θ ∈ Θ ⊂ R cуществуют,, и∂θ ∂θ2¯ 2¯µ¶2¯∂¯∂cуществуют конечные E ¯¯ 2 ln Ln ¯¯ и Eln Ln . Тогда∂θ∂θ¶µ∂ ln Ln= 0,(1)E∂θµ¶2∂ ln Ln∂2E= −E 2 ln Ln .(2)∂θ∂θДоказательство. Доказательство проведем для абсолютно непрерывного случая.Для дискретного случае доказательство предлагается провести читателю самостоятельно.Как отмечалось выше, в абсолютно непрерывнос случае функция Ln (x, θ) является совместной плотностью выборки X, следовательноZ1=Ln (y, θ) dy,y = (x1 , . .
. , xn ).RnПродифференцируем это тождество по θ (это мы можем сделать по условию) и получимZZ∂ ln Ln∂∂Lndy =Ln dy = E ln Ln (x, θ).0=∂θ∂θ∂θRnRn109Тем самым (1) доказано. Следующие выкладки доказывают (2)Z 2∂ ln Ln∂2E 2 ln Ln (x, θ) =Ln dy∂θ∂θ2Rnµ¶2∂ 2 Ln∂LnZ Ln−∂θ2∂θ=Ln dy2LnRn¶2µ¶2Z µ∂∂=−ln Ln Ln dy = −Eln Ln (x, θ) .∂θ∂θRnОпределение 14.2. Количеством информации по Фишеру, содержащейся в выборке X = (X1 , . .
. , Xn ), называется величинаµIn (θ) = E∂ ln Ln (x, θ)∂θ¶2.Из только что доказанной леммы следует, чтоµE∂ ln Ln (x, θ)∂θ¶2n∂2∂2 X= −E 2 ln Ln (x, θ) = −E 2ln f (xi , θ)∂θ∂θ i=1= −nE∂2ln f (x1 , θ) = nI1 (θ).∂θ2Теорема 14.2 (неравенство Рао - Крамера). Пусть выполнены все условияпредыдущей леммы и τ (θ) дифференцируемая функция от θ ∈ Θ, для которой существует несмещенная оценка T = T (X) иDT (X) < ∞,¯Z ¯¯ ∂Ln ¯¯¯¯ ∂θ ¯ dy < ∞ для ∀θ ∈ ΘRnТогдаDT (X) >(τ 0 (θ)2.In (θ)(3)При этом равенство имеет место тогда и только тогда, когда∂ln Ln (x, θ) = c(θ)(T (x) − τ (θ)),∂θс некоторой функцией c(θ) или, что эквивалентноLn (x, θ) = exp{ψ1 (θ) + ψ2 (θ) + f (x)}.110(4)Доказательство.
Так как T (X) — несмещенная оценка, тоZT (y) Ln (y, θ) dy = τ (θ).RnПродифференцируем это равенство по θ ( это мы можем сделать в силу условиятеоремы) и, применяя неравенство Коши - Буняковского - Шварца, получим¯¯ ¯¯¯ ¯Z¯¯Z¯¯ ¯¯∂L∂lnLnn0|τ (θ)| = ¯¯ T (y)dy ¯¯ = ¯¯ T (y)Ln dy ¯¯∂θ ¯ ¯∂θ¯¯ nRn¯R µµ¶¯ ¯¶¯¯¯ ¯¯∂lnL(x,θ)∂lnL(x,θ)nn¯ = ¯E (T (X) − τ (θ))¯= ¯¯E T (X)−0¯ ¯¯∂θ∂θ¶1/2µ∂ ln Ln= (DT (X) · In (θ))1/2 .6 DT (X) · D∂θЧто и доказывает нашу теорему.Следствие 14.1.
Если τ (θ) = θ, тоDT (X) >1.nIn (θ)Замечание. Многие часто встречающиеся модели удовлетворяют условию (4). Например модели, в которых закон распределения представляет собой• нормальное распределение N (θ, σ 2 ),• нормальное распределение N (a, θ),• пуасоновское распределение Π(θ),• биномиальное распределение Bi(n, θ),• гамма - распределение Γ(θ, λ),где θ - неизвестный параметр.Пример.
Пусть имеется выборка X = (X1 , . . . , Xn ) из биномиального распределения с параметрами 1 и θ (L(X) ∼ Bi(1, θ)). Требуется найти оптимальную оценкупараметра θ.Здесь Eθ Xi = θ, поэтому T (X) = X является несмещенной оценкой параметра θ.Покажем, что T (X) является оптимальной оценкой.Вычислим дисперсию T (X)DT (X) =nθ(1 − θ)1 XDXi =.2n i=1nВычислим теперь информацию по ФишеруµI1 (θ) = E∂ ln L1∂θ¶2111= −E∂ 2 ln L1.∂θ2Так как для n = 1 функция правдоподобия имеет вид L1 = θx1 (1 − θ)1−x1 , тоln L1 = x1 ln θ + (1 − x1 ) ln(1 − θ),∂ ln L1x1 (1 − x1 )x1 − θ=−=,∂θθ1−θθ(1 − θ)µ¶2x1 − θ1θ(1 − θ)E=.= 22θ(1 − θ)θ (1 − θ)θ(1 − θ)1, т.е.
оценка T (X) = X имеет наименьшую дисnI1 (θ)персию для любого θ. Следовательно является оптимальной.Таким образом DT (X) =Сформулируем теперь этот результат в виде теоремы.Теорема 14.3. Относительная частота произвольного события в n независимыхиспытаниях является оптимальной оценкой для вероятности этого события.Следствие 14.2. Для любой фиксированной выборки эмпирическая функция распределения является оптимальной оценкой теоретической функции распределения.Определение 14.3. Эффективностью оценки T = T (X), которая является несмещенной оценкой параметрической функции τ (θ), называется величинаe(T ) =(τ 0 (θ))2.DT · In (θ)Замечание.
Из определения и неравенства Рао - Крамера следует, что 0 6 e(T ) 6 1.Определение 14.4. Несмещенная оценка T = T (X) называется эффективной, еслиее эффективность равна 1.Замечание. Можно сформулировать это определение иначе: оценка T = T (X) называется эффективной, если в неравенстве Рао - Крамера достигается равенство.14.3Метод моментовРассмотрим статистическую модель F = {F (x, θ), θ ∈ Θ}, где θ = (θ1 , . . . , θk ). ПустьX = (X1 , . . . , Xn ) выборка из распределения L(X) ∈ F . Предположим, что существует математическое ожидание EX k = ak , тогда существуют все моменты низшихпорядков.
По выборке X построим эмпирические моментыmi =1 i(X + . . . + Xni ) = ai = fi (θ1 , . . . , θk ).n 1Таким образом мы получаем систему из k уравнений с k неизвестными, которуюиногда можно разрешить относительно неизвестных параметров θi : m1 = a1 = f1 (θ1 , . . . , θk )...(5) m = a = f (θ , . . .
, θ ).kkk 1kОпределение 14.5. Оценками по методу моментов называется решение θ1∗ , . . . , θk∗системы (5) .112Пример. Пусть (X1 , . . . , Xn ) — выборка из биномиального распределения Bi(k, θ),где k, θ — неизвестные параметры. Найдем их оценки по методу моментов.Прежде всего нам необходимо найти два момента нашего распределения:a1 = EX = k θ,a2 = EX = DX + (EX)2 = k θ (1 − θ) + (k θ)2 .2Таким образом система (5) запишется следующим образом(a 1 = k θ = m1a2 = k θ(1 − θ) + (k θ)2 = m2Решая его, найдем оценкиm21 + m1 − m2,m1m21.k∗ = 2m1 + m1 − m2θ∗ =Часто оценки по методу моментов являются состоятельными.
Так что имеет место следующая теоремаpТеорема 14.4. Пусть h(x) — непрерывная функция и Yn −→ 0. Тогдаph(Yn + a) −→ h(a).Доказательство. Из непрерывности функции h(x) следует, что для ∀ε > 0 ∃δ >0 : |y| < δ:|h(a + y) − h(a)| < ε.Фиксируем ε > 0, тогдаP(|h(a + Yn ) − h(a)| > ε) = P(A ∩ |Yn | < δ ) + P(A ∩ |Yn | > δ| 6 P(|Yn | > δ) → 0.|{z}|{z}A∅Если оценки, найденные по методу моментов, окажутся непрерывными функциями, то с помощью обобщения теоремы на случай многих переменных, докажем, чтоони являются состоятельными оценками.14.4Достаточные статистикиОпределение 14.6.
Статистика T = T (X) называется достаточной для моделиF = {F (x, θ), θ ∈ Θ}, если распределение выборки X = (X1 , . . . , Xn ) не зависит отθ при условии, что T (X) = t.Это свойство статистики означает, что она содержит всю информацию о параметре θ, имеющуюся в выборке.113Пример.
Пусть L(X) = Bi(1, θ). Покажем, что статистика T (X) =достаточной.PXi будетP(X = x, T (X) = t)P(T (X) = t)PPθ Xi (1 − θ)n− Xi1== P Xi .ttn−tCn θ (1 − θ)CnP(X1 = x1 , . . . , Xn = xn |T (X) = t) =Приведем следующий результат, называемый критерием факторизации, позволяющий определить, существует ли достаточная статистика и установить ее вид.Теорема 14.5 (Критерий факторизации). T (X) достаточная статистика тогда и только тогда, когда функция правдоподобия может быть представлена ввидеLn (x, θ) = g(T (x, θ)h(x).Доказательство. Приведем доказательство для дискретного случая. Для абсолютно непрерывного доказательство предлагается провести читателю самостоятельно.Пусть T (X) достаточная статистика.
Если T (X) = t, то событие {X = x} ⊆{T (X) = t}. ПоэтомуL(x, θ) = Pθ (X = x) = Pθ (X = x|T (X) = t)= Pθ (T (X) = t) Pθ (X = x|T (X) = t) .{z}|{z}|g(T (x),θ)h(x,t)Пусть теперь функция правдоподобия имеет вид Ln (x, θ) = g(T (x, θ)h(x). Тогда,если x таково, что T (x) = t, тоP(X = x, T (X) = t)P(T (X) = t)P(X = x)P==P(X = x0 )P(X = x|T (X) = t) =x0 :T (x0 )=tg(t, θ)h(x)P=g(t, θ)h(x0 )x0 :T (x0 )=th(x)P.h(x0 )x0 :T (x0 )=tЧто и требовалось доказать.Пример. Рассмотрим общую нормальную модель N (θ1 , θ22 ), где оба параметра неизвестны. В этом примере функция правдоподобия будет зависеть от векторного параметра θ = (θ1 , θ22 ).
Найдем функцию правдоподобияLn (x, θ) =nYi=1√12πθ(xi − θ1 )22θ22e−1= √exp( 2πθ)nÃn1 Xn(x − θ1 )22(x−x)−i2θ22 i=12θ22!= g(T (x), θ)h(x).В качестве достаточной статистики можно взять векторную функциюT (X) = (x,nX(xi − x)2 ).i=1Это не единственный, но классический выбор достаточной статистики.114Пример.