С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 9
Текст из файла (страница 9)
Необходимое условие максимума в гладком случаеимеет видdl(θ)=0dθи называется уравнением правдоподобия.В учебнике Боровкова [1] объясняется, как оценки максимальногоправдоподобия получаются методом подстановки. Кроме того, вэтой книге можно найти унифицированное изложение дискретного инепрерывного случаев на языке доминирующих мер и доминируемыхсемейств распределений вероятностей.Свойства оценок максимального правдоподобия будут подробнорассмотрены в следующих параграфах.2.3Примеры оцениванияПример 0. Оценивание простейших моментов — математическогоожидания EP и дисперсии VP .Напрашивающимися оценками являются X̄ — эмпирическое среднеезначение и S 2 — эмпирическая дисперсия.
Состоятельность этих оценокбыла уже выведена из закона больших чисел ранее. ПосколькуN1 XEX̄ =EXi = EP ,N i=1Теория оценивания41эта оценка является несмещенной. С другой стороны,ES 2 = E(X 2 − X̄ 2 ) == E(X12 ) −NX1 E(Xi2 ) + 22Ni=1= E(X12 ) −XE(Xi Xj ) =1≤i<j≤N1N2 − NN −12E(X12 ) −VX1 ,(EX)=1NN2Nследовательно, эмпирическая дисперсия S 2 смещена. В то же время онаявляется асимптотически несмещенной (т.к. NN−1 → 1 при N → ∞). Длябольшинства моделей более предпочтительным является исправленный(несмещенный) вариант эмпирической дисперсииNN1 XSиспр.
=S2 =(Xi − X̄)2 .N −1N − 1 i=122Оценка Sиспр., очевидно, является состоятельной и несмещенной (дляVP ).Все приведенные соображения применимы как в параметрических,так и в непараметрических моделях. Что же касается эффективности,то, как было замечено в параграфе 1, ее имеет смысл исследоватьтолько в параметрических моделях. В этом плане интерес представляетраспределение Пуассона, параметр λ которого является одновременнои математическим ожиданием и дисперсией. Для него у нас есть уже2две оценки — X̄ и Sиспр.— обе состоятельные и несмещенные.
Можнопроверить, что первая из них эффективнее второй (для этого нужныскучные вычисления), но вряд ли целесообразно сейчас это делать —нужны общие методы исследования эффективности, разговор о которыхеще впереди.Пример 0 (продолжение). Оценивание коэффициента корреляцииρP .Предположим, что повторная выборка X1 , . . . , XN состоит издвумерных случайных величин. Компоненты Xi0 , Xi00 отдельногонаблюдения не предполагаются независимыми между собой. Дляподобных двумерных выборок к простейшим моментам относятся,помимо математических ожиданий и дисперсий, ковариацияcovP = cov(Xi0 , Xi00 )42Глава 2и коэффициент корреляцииρP = ρ(Xi0 , Xi00 ).Состоятельной оценкой ковариации covPковариацияявляется эмпирическаяN1 X 0(X − X 0 )(Xi00 − X 00 )cov =N i=1 iN1 X 0 00=Xi Xi − X 0 · X 00 = X 0 X 00 − X 0 · X 00 .N i=1Так же как и эмпирическая дисперсия, эта оценка лишь асимптотическинесмещена.
Исправить ее можно точно так же как и эмпирическуюдисперсию (проверьте!):covиспр. =Ncov, Ecovиспр. = covP .N −1Оценкой коэффициента корреляцииcov(Xi0 , Xi00 )ρP = pVXi0 VXi00по методу моментов является эмпирический коэффициент корреляцииr=covиспр.cov.=000S 0 S 00Sиспр.Sиспр.Здесь S 0 2 и S 00 2 — эмпирические дисперсии компонент выборки.Полезно отметить, что при вычислении r можно пользоваться какисправленными, так и неисправленными вариантами эмпирическихдисперсий и ковариации (или просто соответствующими суммами) — этообстоятельство отражает безразмерность коэффициента корреляции.Очевидно, что эмпирический коэффициент корреляции rсостоятельно оценивает теоретический коэффициент ρP . Ожидатьнесмещенности этого нелинейного выражения, конечно, не приходится.В следующих примерах мы будем обсуждать оценки максимальногоправдоподобия, возвращаясь к методу моментов лишь в случаях, неукладывающихся в схему примера 0.Теория оценивания43Пример 1.
Вероятность успеха p ( p = EX1 ).Функция правдоподобия имеет видL(p) = pSN (1 − p)N −SN , 0 ≤ p ≤ 1,где SN = X1 + · · · + XN — общее (суммарное) число успехов в Nиспытаниях. Если SN = N , функция L(p) оказывается степенной:L(p) = pN , так что p̂M L = 1. Аналогично, если SN = 0, p̂M L = 0.В остальных случаях L(p) обращается в 0 (т.е. в минимум) на концахотрезка [0, 1], а точку максимума следует искать дифференцированием.Во внутренних точках отрезка [0, 1] можно перейти к логарифмическойфункции правдоподобия l(p) и написатьdl(p) SN N − SN=−.dpp1−pПриравнивая производную нулю, получаемSN= X̄.NОстается лишь отметить, что выделенные в начале рассуждения особыеслучаи также укладываются в эту формулу. Таким образом, мы неполучили ничего нового по сравнению с примером 0.
Впрочем, было быудивительно, если бы обнаружилось что-нибудь иное.Пример 2. Распределение Пуассона Π(λ).Логарифмическая функция правдоподобия имеет вид· Xi¸NNXXλ −λl(λ) =ln pλ (Xi ) =lne=X!ii=1i=1p̂M L ==NX[Xi ln λ − ln(Xi !) − λ] =i=1NXXi ln λ − N λ −i=1NXln(Xi !).i=1Дифференцируя по λ и приравнивая производную нулю, находимλ̂M L = X̄.Без особого труда проверяется, что найдена именно точка максимума.Особо следует рассмотреть случай X̄ = 0.Пример 3. Нормальное распределение N(a, σ 2 ).N2−N/2l(a, σ ) = ln[(2π)1 X] − N ln σ − 2(Xi − a)2 .2σ i=144Глава 2Дифференцируя по a и приравнивая производную нулю, получаемâM L = X̄(вообще-то надо решать систему двух уравнений, но уравнение∂l/∂a = 0 решается без использования второго уравнения).
Теперь,дифференцируя по σ и подставляя âM L , получаем22σ̂ML = S .Можно было бы оценивать не σ, а σ 2 и дифференцировать по σ 2 .Результат бы не изменился.Стандартным способом — через матрицу вторых производных —можно проверить, что найденные оценки действительно определяют2точку максимума. Как нам уже известно, оценка σ̂ML смещена.Аналогично можно проверить, что для двумерной нормальнораспределенной выборки с параметрами a0 , a00 , σ 0 2 , σ 00 2 , ρ оценкамимаксимального правдоподобия являются X 0 , X 00 , S 0 2 , S 00 2 , r.Пример 4.
Гамма-распределение.Простейший вариант метода моментов дает (при N ≥ 2)X̄X̄ 2α̂ = 2 , p̂ = 2 .SSРешить систему уравнений правдоподобия в элементарных функциях неудается, так что оба метода расходятся в своих рекомендациях.Пример 5. Равномерное распределение на ha, bi.Посколькуa+b(b − a)2E=,V =,212по методу моментов получаем√√â = X̄ − 3S, b̂ = X̄ + 3S.В то же времяL(a, b) = (b − a)−N ,если a < X1 , . .
. , XN < b.Для увеличения значения функции правдоподобия следует сближатьаргументы a и b, пока это возможно. ПолучаемâM L = Xmin (= min(X1 , . . . , XN )),b̂M L = Xmax (= max(X1 , . . . , XN )).Теория оценивания45Эти оценки доставляют если не максимум, то, по крайней мере, супремумфункции правдоподобия 4 . С точки зрения правдоподобия пунктуальноотличать максимум от супремума представляется нецелесообразным(как и менять максимум на супремум в исторически сложившемсяназвании метода).И здесь оба наши метода оценивания дают отличающиеся результаты,причем оценки максимального правдоподобия более соответствуютсмыслу параметров.
Заметим, впрочем, что они явно смещены "внутрь",т.е. âM L ≥ a, b̂M L ≤ b. Равномерное распределение удобно вкачестве учебного примера. Во-первых, практически все вычисленияможно провести явно, в элементарных функциях. Во-вторых, ононе регулярно и иллюстрирует некоторые эффекты, отсутствующиев регулярном случае (см. параграфы 4 и 5). По этой причине мыприведем несколько формул, характеризующих оценки максимальногоправдоподобия, и даже наметим их вывод.
Для определенности будемработать с Xmax (эмпирический минимум рассматривается аналогично,а формулы угадываются из соображений симметрии).Сначала заметим, чтоP(Xmax < x) = P(X1 < x, . . . , XN < x)µ= [P(X1 < x)]N =x−ab−a¶N, a < x < b.Отсюда плотность величины Xmax равнаN (x − a)N −1, a < x < b.(b − a)NЧерез нее находятся (u =ZbEXmax =ax−ab−a )N (x − a)N −1xdx =(b − a)NZ1[a + u(b − a)]N uN −1 du0N=a+(b − a),N +1Z 12E(Xmax ) =[a + u(b − a)]2 N uN −1 du0= a2 + 24NNa(b − a) +(b − a)2N +1N +2Это зависит от определения плотности в точках a и b.46Глава 2и2VXmax = E(Xmax) − (Xmax )2"µ¶2 #NNN= (b − a)2−=(b − a)2 .2N +2N +1(N + 1) (N + 2)ПосколькуEXmax → a + (b − a) = bиVXmax → 0при N → ∞, оценка b̂M L — состоятельная и асимптотическинесмещенная.
То же верно и для âM L .Из формулNEXmax = a +(b − a),N +1NEXmin = b −(b − a)N +1легко выводится (надо "решить"эти равенства относительно a и b), чтолинейные комбинацииã =1NXmin −Xmax ,N −1N −1N1Xmax −XminN −1N −1являются несмещенными оценками a и b соответственно:b̃ =Eã = a, Eb̃ = b.Кроме того, из состоятельности оценок максимального правдоподобияXmin и Xmax сразу же следует и состоятельность ã и b̃.
В параграфе 7будет установлено, что эти последние оценки еще и эффективны в классеK0 несмещенных оценок.Подведем некоторый итог рассмотрения примеров. Кроме ранееотмеченной проблемы поиска эффективных оценок обнаружилась ещеодна трудность — невозможность во многих случаях аналитическирешить уравнения правдоподобия. Полезный итеративный методрешения уравнений правдоподобия будет указан в параграфе 11.Теория оценивания2.447Условия регулярности и неравенствоРао–Краме́раАккуратное математическое обоснование материала этого параграфадовольно громоздко и неинтересно для пользователей. Поэтому мыспрячем эти тонкости при помощи оборота "при некоторых условияхрегулярности".
В конце параграфа условия регулярности будут описанынеформально.Итак, речь пойдет о несмещенных оценках одномерногопараметра θ в параметрической модели, когда априори допустимоераспределение вероятностей Pθ однозначно характеризуется этимпараметром. Для простоты будем предполагать, что областьизменения θ — невырожденный промежуток. Предположим также,что логарифмическая функция правдоподобия l(θ) дифференцируемапо θ и2I(θ) = El0 (θ) < ∞(здесь и далее в этом параграфе штрихом обозначенодифференцирование по θ). Функция I(θ) часто называется информациейФишера.Теорема.