С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 10
Текст из файла (страница 10)
Пусть θ̂ — несмещенная оценка параметра θ. ТогдаV(θ̂) ≥1.I(θ)Неравенство такого вида справедливо "при некоторых условияхрегулярности". Впервые оно доказано независимо друг от друга Фреше,Рао и Краме́ром в 1943-45 г.г. и в литературе обычно называетсянеравенством Рао-Краме́ра.
Ниже приводится схема доказательства. Вего основе лежат два равенства:El0 (θ) = 0,E[θ̂l0 (θ)] = 1(2.4)(они объясняются чуть ниже, именно в этих объяснениях потребуются"условия регулярности"). Само неравенство Рао-Краме́ра из формул(2.4) получается так.
Заметим сначала, что20ρ (θ̂, l (θ)) =cov2 (θ̂, l0 (θ))Vθ̂Vl0 (θ)≤148Глава 2(известное свойство коэффициента корреляции). Однако из (2.4) следует,чтоcov(θ̂, l0 (θ)) = E[θ̂l0 (θ)] − Eθ̂El0 (θ) = 1,2Vl0 (θ) = El0 (θ) − (El0 (θ))2 = I(θ).Поэтому1cov2 (θ̂, l0 (θ))=.Vθ̂ ≥Vl0 (θ)I(θ)Перейдем теперь к доказательству равенств (2.4), считая дляопределенности, что совместное распределение выборки 5~ = (X1 , . . . , XN )TXзадается плотностью pθ (~x) (дискретный случай рассматриваетсяаналогично). ИмеемZ 0~p0 θ (X)p θ (~x)El (θ) = E=pθ (~x)d~x~pθ (~x)pθ (X)µZ¶0Zpθ (~x)d~x = 10 = 0.= p0 θ (~x)d~x =0Точно так же"# Z0~~ p θ (X) = θ̂(~x) p θ (~x) pθ (~x)d~x =E[θ̂l0 (θ)] = E θ̂(X)~pθ (~x)pθ (X)µ¶0ZZ= θ̂(~x)p0 θ (~x)d~x =θ̂(~x)pθ (~x)d~x = (Eθ̂)0 = θ0 = 1.0В обеих выкладках предполагается существование всех фигурирующихв них выражений, а также возможность "дифференцирования попараметру под знаком интеграла".
Собственно в этом и состоятусловия регулярности. Во второй выкладке дополнительно используетсяравенство Eθ̂ = θ (несмещенность оценки). Условия дифференцированияпо параметру можно найти в подробных курсах математическогоанализа. С точки зрения пользователя главное из них — отсутствиезависимости области интегрирования от параметра. Подробноеобсуждение условий регулярности можно найти у Боровкова [1].5~ записан в строчку.Знак транспонирования присутствует по той причине, что вектор-столбец XТеория оценивания49Полезно отметить, что наш вывод неравенства Рао-Краме́ране использует ни независимости, ни одинаковой распределенностинаблюдений X1 , . .
. , XN . Для независимых наблюдений с плотностямиpθ,j (xj ) легко проверить, чтоI(θ) =NXij (θ),j=1где2ij (θ) = E(ln pθ,j (Xj ))0 .Действительно,Xl (θ) = [ (ln pθ,j (Xj ))0 ]2 ,02jно удвоенные произведения, образующиеся при возведении в квадрат,имеют нулевые математические ожидания в силу независимости и первойформулы (2.4).В частности, для повторной выборки I(θ) = N i(θ), где i(θ) —общее значение величин ij (θ). Функцию i(θ) можно назвать удельнойфишеровской информацией.Следствие.
Пусть θ̂ ∈ Kb . Тогда[1 + b0 (θ)]2V(θ̂) ≥,I(θ)[1 + b0 (θ)]2E(θ̂ − θ) ≥+ b2 (θ).I(θ)Первое неравенство доказывается по той же схеме с использованиемсоотношения2E[θ̂l0 (θ)] = (Eθ̂)0 = (θ + b(θ))0 = 1 + b0 (θ).Второе неравенство вытекает из формулыE(θ̂ − θ)2 = E[(θ̂ − Eθ̂) + b(θ)]2 == V(θ̂) + 2b(θ)E(θ̂ − Eθ̂) + b2 (θ) = V(θ̂) + b2 (θ).Аналогичное (матричное) неравенство Рао–Краме́ра имеет место длямногомерного параметра:C(θ̂) − I −1 (θ) ≥ 0.50Глава 2Здесь C(θ̂) — матрица ковариаций случайного вектора θ̂, аI(θ) = E[grad l(θ) · grad l(θ)T ]— матричный вариант информации Фишера. Запись · · · ≥ 0 означает,что слева стоит неотрицательно определенная матрица.Связь неравенства Рао-Краме́ра с эффективными оценкамиобсуждается в следующем параграфе.2.5Простейшие приемы нахождения эффективныхоценок.
Экспоненциальные семействаПриемы, о которых идет речь, основаны на простом наблюдении. Если (врегулярном случае) оценка θ̂ ∈ K0 обращает неравенство Рао–Краме́рав равенство, то она эффективна. Приведем несколько примеров. В этихпримерах удобно пользоваться следующими представлениями для I(θ)и ij (θ):I(θ) = −El00 (θ), ij (θ) = −E(ln pθ,j (Xj ))00 .Докажем первое из них (второе является следствием):2I(θ) + El00 (θ) = E[l0 (θ) + l00 (θ)]Ã!2 Ã!0 0 ~0 ~pθ (X) p (X)= E θ+~~pθ (X)pθ (X)"#~~ θ (X)~ − p0 2θ (X)~p0 2θ (X)p00 θ (X)p=E+~~p2θ (X)p2θ (X)Z 00~p00θ (X)pθ (~x)=Epθ (~x)d~x=~pθ (~x)pθ (X)µZ¶00Z00= pθ (~x)d~x =pθ (~x)d~x = 0.Разумеется, в этой выкладке используются дополнительныепредположения регулярности, связанные со второй производной.Проверять условия регулярности для каждого отдельного примера мыне будем.Теория оценивания51Пример 1.
Оценка вероятности успеха.Проверим, что p̂ = X̄ эффективна. Для этого сосчитаемI(p) = −E[(SN ln p + (N − SN ) ln(1 − p))00 ]·¸SN N − SNNp N − Np=E 2 += 2 +2p(1 − p)p(1 − p)2NNN=+=.p1 − p p(1 − p)Остается заметить, чтоV(p̂) =V(SN ) N p(1 − p) p(1 − p)1===.N2N2NI(p)Пример 2. Распределение Пуассона Π(λ).Докажем, что λ̂M L = X̄ эффективна.PNNλ NXiI(λ) = −El00 (λ) = E i=12= 2 = ,λλλV(λ̂M L ) =V(X1 + · · · + XN ) N λλ1===.N2N2NI(λ)К сожалению, далеко не всегда дело обстоит столь приятным образом.Общая картина выглядит так.Теорема. Если несмещенная оценка θ̂ обращает неравенство РаоКраме́ра в равенство на всем промежутке изменения параметра θ, тоона удовлетворяет уравнению правдоподобияl0 (θ̂) = 0.Доказательство основано на анализе случаев, когда коэффициенткорреляции ρ(θ̂, l0 (θ)) равен 1.
Так будет, если θ̂ и l0 (θ) линейно связаны:θ̂ = α(θ)l0 (θ) + β(θ)(2.5)Коэффициенты α и β могут (и даже должны) зависеть от θ —в противном случае зависела бы от θ оценка θ̂, что противоречитопределению. Вычисляя математическое ожидание обеих частейформулы (2.5), находимθ = Eθ̂ = α(θ)El0 (θ) + β(θ) = β(θ).52Глава 2Следовательно, тождественно по θ выполняетсяθ̂ = α(θ)l0 (θ) + θ(2.6)Подставляя в (2.6) саму оценку θ̂, получаем α(θ)l0 (θ) = 0.Сокращая на коэффициент, получаем требуемый результат (мы опускаемисследование исключительных ситуаций, когда α(θ) = 0 — свероятностью 1 они не реализуются; аккуратный анализ также требуетнекоторых условий регулярности).Таким образом, кандидатами на роль эффективной оценки являются,в рамках нашего подхода, оценки максимального правдоподобия.
Ксожалению, они не обязаны быть несмещенными, и в этом случаенеравенство Рао-Краме́ра не обращается в равенство ни для какой(несмещенной) оценки, в том числе и для эффективной. В параграфе7 мы обсуждаем другой, более действенный, подход к нахождениюэффективных оценок.Записывая соотношение (2.6) в видеl0 (θ) = α−1 (θ)[θ̂ − θ]и интегрируя по θ, получаемZθl(θ) = l(θ0 ) + θ̂Z−1θα (t)dt −θ0tα−1 (t)dt.θ0Поэтому наше семейство плотностей должно при этом представляться ввидеpθ (~x) = h(~x) exp{θ̂(~x)A(θ) + B(θ)},где A(θ) и B(θ) — какие-то функции от параметра θ, а множитель h(~x),напротив, от параметра θ не зависит.Семейства плотностей такого вида называются экспоненциальнымисемействами.Таким образом, наш подход может дать эффективную оценкутолько для экспоненциальных семейств. Аналогично обстоит дело и вслучае многомерного параметра.
Мы ограничимся только аккуратнымопределением экспоненциальных семейств в этом случае.Пусть θ ∈ Rk — k-мерный параметр. Семейство плотностей(в дискретном случае — вероятностей) pθ (~x) называетсяэкспоненциальным, если допускает представление видаpθ (~x) = h(~x) exp{U (~x)T A(θ) + B(θ)},Теория оценивания53где U (~x) и A(θ) — вектор-функции (столбцы) со значениями в Rk , U (~x)T— транспонированный вектор, h(~x) и B(θ) — функции с числовымизначениями. Подчеркнем, что размерность значений вектор-функций Uи A совпадает с размерностью параметра.Почти все семейства распределений, перечисленные в параграфе 1.5,экспоненциальны.Продолжим серию наших примеров.Пример 3. Нормальное распределение N(a, σ 2 ).Прежде всего заметим, что семейство нормальных плотностейэкспоненциально:( NNXX1a2pa,σ2 (~x) = exp −xi · 2 +xi · 22σσi=1i=1¾N a2N− 2 − −N ln σ − ln(2π) .2σ2Однако с оценками максимального правдоподобия не все в порядке —эмпирическая дисперсия S 2 смещена (а ее исправленный вариант ужене является оценкой максимального правдоподобия).
Ввиду важностинормального распределения для статистики, выпишем информационнуюматрицу I(a, σ 2 ), а также матрицу ковариаций вектора несмещенных2оценок (X̄, Sиспр.)0 .Ã 2!¶µ Nσ00N, I −1 =I = σ2 N42σ0 2σ40 NÃ2C(X̄, Sиспр.)=σ2N0!02σ 4N −1.Из сравнения двух последних матриц следует, что X̄ имеетминимально возможную дисперсию, т.е.
эффективна для a вдвухпараметрическом случае, или, как иногда говорят, при наличиимешающего параметра σ. Сказать что-нибудь определенное об2эффективности Sиспр.в рамках нашего подхода не представляетсявозможным (в дальнейшем мы увидим, что и эта оценка эффективна).Пример 4. Гамма-распределение.Ограничимся однопараметрическим семейством с параметром αпри известном p (при p = 1 получается семейство показательных54Глава 2распределений).
Очевидно,α̂M L =p.X̄pМожно проверить, что эта оценка смещенная (Eα̂M L = NNp−1α), так−1что наш подход ответа не дает. Впрочем, для θ = αоценка−1максимального правдоподобия θ̂M L = p X̄ является несмещенной. Спомощью неравенства Рао-Краме́ра без труда проверяется, что θ̂M Lэффективна для θ в классе K0 несмещенных оценок. Мы увидим позже(см. параграф 7), что несмещенная оценкаNp − 1α̂M LNpэффективна для α в K0 .Пример 5. Равномерное распределение на ha, bi.Это семейство не удовлетворяет условиям регулярности, т.к. носительплотности — промежуток ha, bi — зависит от параметров. Самонеравенство Рао-Краме́ра также не выполняется. Можно показать, чтопостроенные в параграфе 3 эффективные несмещенные оценки ã иb̃ имеют дисперсии, убывающие обратно пропорционально N 2 (ср.
сформулой для VXmin в этом параграфе), в то время как неравенствоРао-Краме́ра разрешало бы им убывать не быстрее, чем обратнопропорционально N . Такая "сверхэффективность"связана с тем, чтопараметры a и b — точки разрыва (нерегулярности) плотности. Извлечьиз наблюдений информацию о таких характеристиках теоретическогораспределения, как правило, легче, чем о параметрах регулярного типа.Напомним, что эффективность оценок a и b будет доказана в параграфе7.2.6Достаточные статистикиОсновное определение этого параграфа опирается на общеепонятие условного распределения. Краткое резюме теории условныхраспределений содержится в приложении D.Итак, предположим, что задана параметрическая статистическаямодель, т.е.
семейство априори допустимых распределений вероятностейPθ , где θ — конечномерный параметр, однозначно определяющий Pθ .~ называется достаточной (для параметра θ),Статистика S = S(X)Теория оценивания55~ ∈ B|S) —если условное распределение выборки относительно S — P(Xне зависит от параметра θ (точнее, существует вариант этого условногораспределения, не зависящий от θ).Неформально это определение означает, что вся информация о~ фактически содержится ужепараметре, содержащаяся в выборке X,~ свобода, остающаяся в выборке после фиксации значенияв S(X):статистики S, имеет "универсальный"характер, не имеющий отношенияк θ. Можно сказать также, что достаточная статистика представляетвыборочную информацию о параметре в сжатом виде, но без потерь(конечно, ее надо еще расшифровывать).Полезно сразу же рассмотреть пример, дающий такое сжатоепредставление.Пример 1.