Ульянов (старое издание) (1115357), страница 12
Текст из файла (страница 12)
Из того, что ET (Y ) = θ, вообще говоря, не следует, что Ef (T (Y )) =f (θ).Свойства состоятельных оценок:1. Состоятельные оценки не единственны.PnPn122= n−1Пример 17.3. S 2 = n1 1 (Xi − X)2 или Sre1 (Xi − X) 2выборочная дисперсия, где S напрямую следует из DX = E(X −EX)2 , когда X заменяем на Xi , а EX - на X.n−1222Но ES 2 = n−1n σ = n DX, что не совсем удачно, зато ESre = σ =DX.2. Состоятельные оценки могут быть смещенными.Пусть существует параметрическая модель: (X , A, Pθ (θ ∈ Θ)). Обозначим Tθ - совокупность несмещенных оценок параметра θ (либо некоторойфункции τ (θ).Пусть T1 , T2 ∈ Tθ ; ET1 = ET2 = θ. Какую из оценок T1 и T2 выбрать?Рассмотрим дисперсию: если Dθ T1 < Dθ T2 , то берем T1 , поскольку чемменьше дисперсия, тем меньше разброс среднего.
Но неравенство должновыполняться для ∀θ ∈ Θ.Определение 17.1. Если T1 , T2 ∈ Tθ , Dθ T1 < Dθ T2 для ∀θ ∈ Θ, тотогда T1 называется оценкой с равномерно минимальной дисперсией илиоптимальной оценкой.Theorem 17.1. Пусть T1 , T2 ∈ Tθ[τ (θ)] . Если T1 и T2 оптимальны, тоT1 = T2 с вероятностью 1.Доказательство. Определим новую оценку T3 =T1 +T22∈ Tθ .2T3 = T1 + T2 ; D(2T3 ) = D(T1 + T2 ) ⇒4DT3 = DT1 + DT2 + 2cov(T1 , T2 ) = 2σ 2 + 2cov(T1 , T2 )Поскольку σ 2 - наименьшая ⇒ 4DT3 ≥ 4σ 2pp⇒ cov(T1 , T2 ) ≥ σ 2 = DT1 · DT2cov(T1 , T2 )√⇒ √≥1DT1 · DT2⇒√ ρ ≥ 1√- коэффициент корреляции. Но |ρ| ≤ 1 ⇒ ρ = 1 ⇒ cov(T1 , T2 ) =DT1 · DT2 ⇒ T1 = aT2 + b (линейная комбинация).17.1 Неравенство Рао-Крамера89Следовательно, если ET1 = ET2 = θ, то θ = aθ + bcov(T1 , T2 ) = E[(T1 − ET1 )(T2 − ET2 )] = E [(aT2 + b − θ)(T2 − θ)] = {aT2 +b − θ = a(T2 − θ)} = E[a(T2 − θ)2 ] = aDT2 = aσ 22⇒ aσσ 2 = 1 ⇒ a = 1 ⇒ b = 0 ⇒ T1 = T2 , что и требовалось доказать.Соответственно, оптимальная оценка не всегда существует, но если существует, то единственна с точностью меры ноль.17.1 Неравенство Рао-КрамераСуть неравенства: получение нижней оценки для дисперсий несмещенныхоценок.Tτ (θ) - класс несмещенных оценок для τ (θ).
По неравенству Рао-Крамерадля ∀ T ∈ Tτ (θ) DT ≥ ¦ (*). Если удается показать, что в (*) имеет месторавенство для некоторой оценки T ∗ , то T ∗ - оптимальная оценка.Пусть X1 , . . . , Xn - повторная выборка из L(X) ∈ {Pθ , θ ∈ Θ}. Рассмотримдва случая: X - дискретна; X - абсолютно непрерывна, то есть существуетплотность p(y, θ).Определим функцию½ QnP (X = xi ), в первом случае;pn (X1 , . . . , Xn ; θ) = Qi=1nво втором случае.i=1 p(xi , θ),Функция pn называется функцией правдоподобия. Вероятностный смыслфункции правдоподобия:•В первом случае: P (X = xi ) = P (Xi = xi ), поэтому pn (X1 , . .
. , Xn ; θ) это вероятность того, что рассматриваемая выборка есть (x1 , . . . , xn ).• Во втором случае: pn есть совместная плотность случайных величинX1 , . . . , Xn .Лемма 17.1. Предположим, что ∀θ ∈ Θ ⊂ R1 ∃¯ 2¯´2³ 2¯∂¯∂E ¯ ∂θln pn ¯ < ∞ и E ∂θln pn < ∞. ТогдаµEиµE∂ ln pn∂θ∂ ln pn∂θ∂pn∂θи∂ 2 pn∂θ 2 ,при этом¶= 0∀θ ∈ Θ¶2= −E∂2ln pn∂θ2Доказательство. Рассмотрим только второй случай - случай абсолютнойнепрерывности.Z1=pn (y; θ)dy (∗∗)Rn9017 Лекция 3где y = (x1 , . . .
, xn ). Продифференцируем (**) по θ, пусть допустимо делать это под интегралом.ZZ∂pn∂ ln pn0=dy =pn dy =∂θ∂θnnRR∂ln pn (X1 , . . . , Xn ; θ) = 0∂θ⇒ первое равенство доказано.=E2E∂ln pn (y; θ) =∂θ2Z=∂ 2 pndy −∂θ2ZZ µЧто и требовалось показать.2pn ∂∂θp2n −³∂pn∂θ´2p2n∂ ln pn∂θ¶2· pn dy =µpn dy = E∂ ln pn∂θ¶218Лекция 4Определение 18.1. Информацией по Фишеру, содержащаяся в выборке2∂X1 , X2 , .
. . , Xn , называется In (θ) = E( ∂θln pn (Y, θ)) = {из Леммы} =Pn∂2∂2∂2−E ∂θ2 ln pn (Y, θ) = −E ∂θ 2i=1 ln p(Xi , θ) = −nE ∂θ 2 ln p(X1 , θ) = −nI1 (θ)Y = ( X1 , . . . , Xn ) - вектор повторной выборки|{z}(н. о. р. L(X))(И. по Ф. для выборки из 1 наблюдения)Theorem 18.1. Пусть выполнены условия Леммы и τ (θ) - диф. функциядляR ∀θ ∈∂ Θ. Пусть T(Y) - несмещенная оценка для τ (θ), DT (Y ) < ∞ и|T (y) ∂θ pn (y, θ)|dy < ∞∀θ ∈ Θ,Rтогда2DT (Y ) ≥ (τ 0 (θ)) /In (θ)(18.1)Равенство в (1) ⇔∂pn (y, θ) = c(θ)(T (y) − τ (θ))∂θ(18.2)при некоторой функции c(θ) , илиpn (θ) = exp{Ψ1 (θ)T (y) + Ψ2 (θ) + f (y)}(18.3)(т. е.
если для какой-то оценки удалось "= "в (1), то не существует болееминимальная оценка, и она оптимальна).Доказательство. Так как T(Y) - несмещенная оценка для τ (θ), то поопределению несмещенной оценки ET (Y ) = τ (θ).Рассматриваемслучай, когда L(x) - абсолютно непрерывная:RET (Y ) = Rn T (y)pn (y, θ)dy = τ (θ)В силу условия теоремы продифференцируем обе части и внесем производную по θ под интеграл:Z∂|T (y) pn (y, θ)dy| = |τ 0 (θ)|(18.4)∂θRn9218 Лекция 4∂∂∂Рассмотрим левую часть (4): т. к.
∂θpn = pn ∂θln pn , перепишем |ET (Y ) ∂θln pn (Y, θ)| =∂∂{ в силу Леммы } = |E(T (Y )−τ (θ)) ∂θ ln pn (Y, θ)| = |cov(T (Y ), ∂θ ln pn (Y, θ))| =√ ∂q√p2DT (Y ) D ∂θ∂∂√ ∂ ln pn ≤ DT (Y ) E( ∂θ|cov(T (Y ), ∂θln pn (Y, θ))| √ln pn ) =DT (Y )D ∂θ ln pn∂{ т. к. E ∂θln pn = 0} ⇒ (1)Равенство в (1) ⇔ |ρ| = 1 (коэффициент корреляции ), а это возможно ⇔∂случайные величины T (Y ) и ∂θln pn (Y, θ) линейно зависимы, т.е. (2).Представление (3) вытекает из (2) в результате интегрирования.Всюду ниже T(Y) - несмещенная оценка τ (θ).Определение 18.2. Эффективностью несмещенной оценки T(Y) будемназывать 0 2e(T ) = DT(τ(Y(θ)))In (θ)Замечание 18.1.
Из определения ⇒ ∀T (Y ) - несмещенной оценки τ (θ) :0 < e(T ) ≤ 1( =⇔ τ 0 = 0 , т. е. τ = const , т. е. не зависит от θ неинтересно)Определение 18.3. Несмещенная оценка называется эффективной, если ее эффективность равна 1Пример 18.1. Пусть выборка берется из биномиального распределения 1,θ , т. е.(1, θ;L(X) = Bi (1, θ) ∼ X =0, 1 − θ;(X1 , .
. . , Xn ), θ ∈ Θ = [0, 1].Построить эффективную оценку для θ.Solution 18.1. X - дискретнаяслучайнаяQвеличинаPQnn⇒ pnP(x1 , . . . , xn , θ) = i=1 P (X = xi ) = i=1 θxi (1 − θ)1−xi = θ xi (1 −θ)n− xi = pnIn (θ) = nI1 (θ)∂∂I1 (θ) = E( ∂θln p1 (x1 , θ))2 = E( ∂θ(X1 ln θ + (1 + X1 ) ln(1 − θ)))2 = E( Xθ1 −1−X1 211−θ ) = {EX1 = θ, DX1 = θ(1 − θ)} = θ(1−θ) ;В правой части (1) берем τ (θ) = θ (находим несмещенную оценку для θ)Рассмотрим T (Y ) = X̄ = n1 (X1 + . . . + Xn ) ⇒ ET (Y ) = θθ(1−θ)1⇒ в (1) получено равенство ⇒ T (Y ) эффективнаяDT (Y ) = DXn =nоценка, т. е. оценка несмещенная и имеющая минимальную дисперсию.Замечание 18.2. Из определения эффективности оценок вытекает, чтолюбая эффективная оценка является оптимальной (обратное неверно, т.к.
это вытекает из неравенства Рао - Крамера, опирающегося на условиярегулярности, которые выполнены не всегда)18.1 Метод моментов93Замечание 18.3. Равенства (2) и (3) имеют место для следующих статистических моделей:когда рассматривают выборку из L(X) ∼ N (θ, σ 2 ); либо N (µ, θ2 )(надо искать оценку П(θ), Bi(k, θ))Замечание 18.4. Есть n независимых испытаний, P (A) = p - неизвестно.Как имея результаты n испытаний найти неизвестное значение для p ?p̂ = nnA , где nA - число испытаний, в которых А произошло. Это классика,не зная вероятность события,заменяем ее на частоту.(1, если i-тое испытание законч.
А;Задача аналогична Xi =0, иначе;T (Y ) = X̄ = nnAEp̂ = p - оценка несмещенная, эффективная.Theorem 18.2. Относительная частота произвольного события в nнезависимых испытаниях является эффеткивной оценкой вероятностиэтго событияСледствие: Для любого фиксированного Y эмпирическая функция распределения fn (Y ) является эффективной оценкой f (Y )(Вытекает из Теоремы и определения эмпирической функции распределения)18.1 Метод моментовПервый (исторически) метод построения точечных оценок. Не дает хороших результатов, но простой.Пусть I(X) = {F (x, θ), θ ∈ T heta}θ = {θ1 , . . .
, θk } - векторный параметрN ( µ, σ 2 ). Предполагаем, что ∃EX k = ak| {z }неизвестныеПо выборке (X1 , . . . , Xn ) (повторная, из независ., одинаково распределенных величин, с распределением как у X) строим выборочные моментыпорядка i = 1,¯kmi = n1 (X1i + . . . + Xni ) = {Emi = ai } = ai = fi (θ1 , . . . , θk ), i = 1,¯kМеняя i от 1 до k получаем систему:m1 = a1 = f1 (θ1 , . . . , θk )...mk = ak = fk (θ1 , . . . , θk ).(из k уравнений левые полностью определены выборкой)Определение 18.4. Оценками по методы моментов называются решения θ1 ∗, . .
. , θk ∗ системы (см. выше).9418 Лекция 4(они будут функциями от выборки)Пример 18.2. Предположим, что I(X) = Bi(k, p), k, p - неизвестны.a1 = EX = kpa2 = EX 2 = DX + (EX)2 = kp(1 − p) + (kp)2(m1 = x̄ = kpm2 = kp(1 − p) + k 2 p2 .⇓m2 = m1 (1 − p) + m21 ⇒(p=1−m2 −m21m1k = m1 /p =m21.m21 +m1 −m219Лекция 5Theorem 19.1. Пусть h(z) - непрерывная функция и Yn , Yn →p 0. Тогдадля любого а справедливоh(a + Yn ) → h(y).Доказательство. Фиксируем произвольные a, ε > 0. Так как y - непрерывная функция,вытекает что:∃δ : |y| ≤ δ ⇒ |h(a + y) − h(a)| ≤ ε.Нам надо доказать, что:∀ε P (|∆h(Yn )| > ε ) → 0P (|∆h(Yn )| > ε ) = P (A, |Yn | ≤ δ ) + P (A, |Yn | > δ ) == P (A, |Yn | ≤ δ ) = 0; P (A, |Yn | > δ ) ≤ P (|Yn | > δ ) → 0 npu n → ∞ИспользуяPnxki→ EX knи обобщение теоремы 1 на функции многих переменных, получаем, чтооценки, полученные для биномиального распределения на прошлой лекции являются состоятельными.mk =i=1Theorem 19.2.
Пусть z = (z1 , .., zl ) - непрерывная функция l - переменных, Yn = (Yn1 , .., Ynl ) и Yni → 0,i = 1, l. Тогда для любогоa = (a1 , a2 , .., al )⇒ h(a + Yn ) → h(a)9619 Лекция 519.0.1 Достаточные и полные статистикиXt+1 =Pt+1 − Pt∼ N (a, σ 2 )PtPt - ценыXt+1 - относительная доходностьa, σ 2 - неизвестныМожно ли считать последовательность Xt реалиациями нормального распределения с параметрами a, σ 2 ?Пусть ДА.
Тогда нам нужно оценить параметры a, σ 2 .ЦЕЛЬ: сгруппировать все данные без потери информации.Достаточные статистики показывают какие функции брать для оценкипараметров.Пусть (X1 , .., Xn ) - выборка изL(X) ∈ F (z, θ), θ ∈ Θ(L(X) - параметрическое семейство)Определение 19.1. Достаточной статистикой называется функцияT (X1 , .., Xn ) такая, что:1. Если L(X) - абсолютно - непрерывная функция распределения, тоусловная плотность вектора (X1 , .., Xn ) при условии, что T (Y ) = t;2. Если L(X) - дискретно, тоP (X1 = x1 , .., Xn = xn |T (Y ) = t)есть функция, не зависящая от θ.Пример 19.1.T (Y ) = (X1 , .., Xn );P (X1 = x1 , .., Xn = xn ) = θXi = {T (Y ) =nXL(X) = Bi(1, 0);Pni=11, θ0, 1−θxiPn(1 − θ)n−i=1xi;,Xi , Y = (X1 , .., Xn ), y = (x1 , .., xn );i=1P (X1 = x1 , .., xn = xn |T (Y ) = t) =={0, T (y)6=t,P (Y =y)P (T (Y )=y)P (Y = y, T (Y ) = t)P (T (Y ) = t) =19 Лекция 597Theorem 19.3 (Критерий факторизации).
T (Y ) является достаточной статистикой ⇐⇒ pn (Y, θ) может быть представлена в виде:pn (Y, θ) = g(T (Y ), θ) · h(y)где h(Y ) - функция, не зависящая от θ.Для предыдущего примераg(z, θ) = θz (1 − θ)n−z , h(z) = 1Доказательство. Необходимость: Пусть T (Y ) - достаточная статистика и пусть T (y) = t. Тогда{Y = y} ⊂ {T (Y ) = t}.Поэтомуpn (y, θ) = P (Y = y) = P (Y = y, T (Y ) = t) == g(T (Y ), θ) = P (Y = y|T (Y ) = t) · P (T (Y ) = t)Достаточность:P (Y = y|T (Y ) = t).Рассмотрим случай{Y = y} ⊂ {T (Y ) = t}так как в противном случае условная вероятность есть 0.P (Y = y|T (y) = t) ==PP (Y = y)P (Y = y, T (Y ) = t)==P (T (Y ) = t)P (T (Y ) = t)Pn (y, θ)g(t, θ) · h(y)=P=0)0P(Y=yy 0 :T (y 0 )=ty 0 :T (y 0 )=t g(t, θ) · h(y )=Ph(y)y 0 :T (y 0 )=th(y).Пример 19.2 (Общая нормальная модель).N (θ1 , θ22 )2(x −θ )Yn exp(− i2θ21 )2√pn (y, θ) =i=12πθ2Pn(xi − x)2−n(x − θ1 )21n= ( √ ) exp(− i=1 2)22θ22θ2θ2 2π⇒ T (Y ) = (x,nXi=1(xi − x)2 )9819 Лекция 5Пример 19.3.L(X) =[(0, θ)L(X) - равномерно распределена на отрезке (0, θ)1pn (y, θ) = {0θnpn (y, θ) =,x1 ≥0,xn ≤θf (θ − x(n) ) · f (x(1) ),θnгдеf (z) = {1,z≥00,⇒ T (Y ) = X(n)Theorem 19.4 (Rao, Blackwell, Колмогоров).