Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 19
Текст из файла (страница 19)
Поскольку ε может быть выбрано произвольно малым, утверждение теоремыдоказано.7.7.6. Применение теоремы 1 для вычисления статистики УилкоксонаТеорема 1 бывает полезна для вычисления критических значений статистики Wm,n при больших m, n.Чтобы воспользоваться теоремой 1, надо вычислить D0 Wm,n (дисперсию при гипотезе, т.е. для однородныхвыборок (x1 , . . . , xm ) и (y1 , . . . , yn )).Мы вычислим D0 Hm,n = D0 Wm,n .Воспользуемся результатом пункта 7.7.3, положивf (x1 , y1 ) = I(x1 < y1 ) − EI(x1 < y1 ) = I(x1 < y1 ) − P (x1 < y1 ).Как сказано, ограничимся однородными выборками.
ТогдаP (x1 < y1 ) = P (x1 > y1 ) = 1/2.Общую функцию распределения (непрерывную!) обозначим черезF (u) = P (xi < u) = P (yj < u).Вычисляемα(xi ) =E{[I(xi < yj ) − 1/2]|xi } = P (xi < yj |xi ) − 1/2 = 1 − P (yj < xi |xi ) − 1/2 = 1/2 − F (xi ).Аналогично: β(yj ) = F (yj ) − 1/2.Заметим, что для случайной величины X, имеющей непрерывную функцию распределения F (u) = P (X < u),«новая» случайная величина ξ = F (X) распределена равномерно на [0, 1].Доказательство следует из чертежа:68✻yy = F (u)zПусть0<z<1✲uСобытие {F (X) < z}Ясно, что P (F (X) < z) = z.Получили, что при гипотезе (однородности)α(xi ) = 1/2 − Ui ,β(yj ) = Vj − 1/2,где U1 , . . . , Um , V1 , .
. . , Vn суть независимые случайные величины, равномерно распределенные на [0, 1].Очевидно, что11E0 α2 = DUi == E0 βj2 = DVj =.1212Поэтомуmn(m + n + 1)mn(n − 1) m(m − 1)n mn++=.D0 Hm,n = D0 Wm,n =1212412ибо D0 f здесь равноD0 f = D0 I(x1 < y1 ) = P (x1 < yi )[1 − P (x1 < y1 )] = 1/4.Итак, для непрерывных однородных выборок теорема 1 дает:∗Wm,n=Wm,n − n n+m+1d2q−→ N (0, 1) при m, n → ∞.m+n+1mn 12Пользоваться этим нормальным приближением (для не слишком малых или больших вероятностей) можнопри m, n > 10.
Центральная предельная теорема не дает нам оценок для скорости сходимости. Сказанноеправило подтверждается сравнением точного распределения Wm,n и его нормальной аппроксимации.8. Метод наибольшего правдоподобия8.1. ОпределенияПусть X - наблюденная случайная величина, распределение которой принадлежит параметрическому семейству Pθ , θ ∈ Θ; пусть θ0 обозначает истинное значение параметра.Предположим, что распределения Pθ имеют плотность (обозначаемую p(x, θ)) относительно какой-либо меры.(Если эта мера считающая, то p(X, θ) - это вероятность события X = x).Правдоподобием значения параметра θ называют (случайную величину) p(X, θ).То значение параметра θ, для которого правдоподобие принимает наибольшее значение, называют оценкойнаибольшего правдоподобия θ:θ̂ = arg max p(X, θ).(1)θ∈ θАсимптотические свойства оценок наибольшего правдоподобия мы изучим для выборки, объем которойнеограниченно возрастает.Итак, пусть X = (x1 , .
. . , xn ) - выборка из распределения, обладающего плотностью f (x, θ), где θ ∈ Θ —неизвестный параметр; его истинное значение (при котором получена выборка X) есть θ0 ∈ Θ.Относительно оценки (1) мы докажем - при определенных условиях на f (·, θ), чтоa) θ̂n - состоятельная оценка для θ0 ,b) θ̂n распределена асимптотически нормально.69Дадим определения.Определение 1.pОценка t = t(X) параметра θ называется состоятельной, если t(X) −→ θ0 при n → ∞.Определение 2. (упрощенное)Мы говорим, что статистика θ̂n распределена асимптотически нормально, когда√dn(θ̂n − θ0 ) −→ N (0, σ 2 )для некоторых θ0 и σ 2 .При этом θ0 называют асимптотическим средним, а σ 2 /n - асимптотической дисперсией θ̂n .8.2. Состоятельность оценок наибольшего правдоподобияНачнем с леммы (варианта т.н.
неравенства информации).Лемма.Пусть f (·), g(·) - две плотности вероятности.ТогдаZf (x) ln f (x)dx >Zf (x) ln g(x)dx,(1)причем равенство возможно, только если f = g почти всюду.Соглашения:1. Для интегралов допускается значение −∞.2. Будем считать, чтоZесли f (x) = 0 для x ∈ Af (x) ln g(x)dx = 0,Aвне зависимости от значений g(·).Доказательство.Достаточно показать, чтоZf (x) lng(x)dx 6 0.f (x)Заметим, что ln(1 + x) 6 x для x > −1. (См. на рисунке 1 графики функций y = x и y = ln(1 + x))Рассмотрим множество A = {x : f (x) > 0}.Для x ∈ A:g(x)g(x)g(x)ln≡ ln 1 +−16− 1.f (x)f (x)f (x)Умножив обе части неравенства на f (·), интегрируем:ZZg(x)f (x) lndx 6 [g(x) − f (x)]dx = 0,f (x)ч.т.д. .8.3.
Почему оценка наибольшего правдоподобия состоятельна - правдоподобноерассуждение.Qn Если X = (x1 , . . . , xn ) - выборка из распределения с плотностью f (x, θ), то правдоподобие X имеет видi=1 f (xi , θ), а оценка наибольшего правдоподобия (8.1.1) естьarg maxθ∈ΘnYi=170f (xi , θ),или"#n1Xlog f (xi , θ) .arg maxθ∈Θ ni=1(Точка экстремума не изменяется при переходе от функции к ее логарифму и при умножении на положительное число.)В силу закона больших чисел при n → ∞n1Xplog f (xi , θ) −→ E0 log f (xi , θ),n i=1(1)где E0 означает усреднение по плотности f (x, θ0 ), где θ0 - истинное значение θ.Поэтому естественно ожидать, что" n#1Xparg maxlog f (xi , θ) −→ arg max E0 log f (xi , θ).θ∈Θ nθ∈Θi=1Согласно лемме из 8.2 справедливо (8.2.1); это неравенство для g(x) = f (x, θ), f (x) = f (x, θ0 ) дает:ZZE0 log f (xi , θ) ≡ [log f (x, θ)]f (x, θ0 )dx 6 [log f (x, θ0 )]f (x, θ0 )dx.Следовательно,arg max E0 f (xi , θ) = θ0 .θ∈ΘPДоказательство сходимости θ̂n −→ θ0 надо проводить, учитывая свойства E0 log f (x1 , θ), как функции θ,θ ∈ Θ.
Если эта функция непрерывна по θ, обычно удается такой план:• Показать, что сходимость в (1) равномерна по θ на компакте, содержащем θ0 .• В этом случае можно утверждать, что существует последовательность локальных экстремумов функцииθ̂n , по вероятности сходящаяся к θ0 :P(2)θ̂n −→ θ0 , n → ∞.P8.4. Доказательство сходимости θ̂n −→ θ0 для одномерного случаяВ одномерном случае доказательство очевидно.Чтобы доказать (8.3.2), мы покажем, что (локальный) экстремум функцииn1Xlog f (xi , θ)n i=1при достаточно больших n со сколь угодно близкой к 1 вероятностью лежит внутри интервала (θ0 - h, θ0 +h),где h - произвольное число.Рисунок 2.Так какE0 log f (x1 , θ0 ) > E0 log f (x1 , θ0 ± h),то можно подобрать такое ε > 0, чтоE0 log f (x1 , θ0 ) − ε > E0 log f (x1 , θ0 ± h) + ε.Для произвольного, но фиксированного δ > 0, в силу упомянутого в 8.3 закона больших чисел (8.3.1) длядостаточно больших n выполняется неравенство:( n)1 X00 P log f (xi , θ ) − E0 log f (x1 , θ ) < ε > 1 − δ,ni=1( n)1 X00P log f (xi , θ ± h) − E0 log f (x1 , θ ± h) < ε > 1 − δ.ni=171ПоэтомуP()nn1X1X00log f (xi , θ ) >log f (xi , θ ± h) > 1 − 2δ.n i=1n i=1Поэтому (при достаточно больших n) экстремум (локальный) функции правдоподобия из (8.1.1) лежит всколь угодно узкой окрестности точки θ0 .
Поэтому последовательность этих локальных экстремумов сходится(по вероятности) к θ0 , что и требовалось доказать. 8.5. Асимптотическая нормальность оценок наибольшего правдоподобия (повыборке из регулярного семейства)(См. Ивченко, Медведев, §2.4.)Пусть X = (x1 , . . . , xn ) - выборка из распределения с плотностью (вероятностью) p(x, θ), θ ∈ Θ ⊂ R.
(Послетого, как мы закончим исследование одномерного параметра θ, мы обсудим, какие изменения надо сделать,когда θ ∈ Θ ⊂ Rr .) Множество Θ будем считать открытым.В рассматриваемом случае оценка наибольшего правдоподобия есть решение уравнения правдоподобияn∂ Xlog p(xi , θ0 ) = 0∂θ i=1(1)Считая, что p(x, θ) трижды дифференцируема по θ, предположим, что существует функция M (x) такая, что1. 3∂ ∂θ3 log p(x, θ) < M (x),2.Eθ M (x) < ∞для всех θ ∈ Θ.В дальнейшем ради краткости будем писатьl(x, θ) =Введем новую переменную τ , положивn∂ Xlog p(x, θ).∂θ i=1τθ = θ0 + √ .nТеперь уравнение правдоподобия (1) имеет видn1 Xτ√l(xi , θ0 + √ ) = 0.n i=1n(2)Разлагаем левую часть (2) по формуле Тейлора в точке 0. Получим:nnn1 X1 X ′τ1 X ′′√l(xi , θ0 ) + √lθ (xi , θ0 ) √ + √l (xi , θ̃n )n i=1n i=1n 2 n i=1 θθτ√n2= 0,(3)где θ̃n - некая промежуточная точка между θ0 и θ.Заметим, что если ограничить область изменения переменной τ произвольным компактом, т.е.
предположить,что |τ | < C для некоторого C, то третье слагаемое окажется (при n → ∞) бесконечно малым.Действительно:2 nn 1 X2 XτC1 P′′lθθ(xi , θ̃n ) √M (xi ) −→ 0,√< √ nnnni=1i=1т.к. по закону больших чиселn1XPM (xi ) −→ Eθ M (x1 ).n i=172Сопоставим решение уравнения (2), левая часть которого представлена в форме (3), и решение уравненияnn1 X1 X ′τ√l(xi , θ0 ) + √l (xi , θ0 ) √ = 0.n i=1n i=1 θn(Левая часть в (3), но без третьего слагаемого).Решение (4) очевидно:τn∗ =− √1n√1nПри этом легко увидеть, что при n → ∞nPl(xi , θ0 )i=1nPi=1(4).(5)lθ′ (xi , θ0 ) √1ndτn∗ −→ N (0, (i(θ0 ))−1 ).Здесь i(θ0 ) - количество информации (по Фишеру) о θ, содержащейся в одном наблюдении x1 .nP∂Действительно, числитель (5) есть сумма независимых случайных величин ∂θlog p(xi , θ0 ),При обсуждении неравенств Крамера – Рао мы отметили, чтоEθдля θ ∈ Θ, и чтоEθ"i = 1, n.i=1n∂ Xlog p(xi , θ) = 0∂θ i=1#2n∂ Xlog p(xi , θ) = i(θ).∂θ i=1По центральной предельной теореме числитель (5) по распределению сходится к N (0, i(θ0 )), когда n → ∞.Знаменатель (5) по закону больших чисел сходится (по вероятности) к Eθ lθ′ (xi , θ0 ), где θ=θ0 .Мы (при упомянутых выше обсуждениях) отмечали, что"#n∂2 XEθlog p(xi , θ) = −i(θ).∂θ2 i=1Поэтому (по теореме Слуцкого) при n → ∞dτn∗ −→ N (0, (i(θ0 ))−1 ).(6)Разумеется, надо проверить отдельно (дополнительно), что0 < i(θ) < ∞.Остается убедиться, что решение уравнения (2) асимптотически эквивалентно решению уравнения (4) эквивалентно в том смысле, что при n → ∞ разность между ними стремится к нулю (по вероятности).Мы уже отмечали, что левые части (2) и (4) отличаются бесконечно мало (и притом равномерно по τ ), когда|τ | < C, C - произвольная постоянная.Рассмотрим левую часть (4) как функцию от τ : y = ψn (τ ).Для достаточно больших n график левой части (2), скажем y = ϕn (τ ), будет - при τ < C - проходить вε-окрестности графика y = ψn (τ ).Поскольку ε > 0 может быть выбрано сколь угодно малым, у уравнения правдоподобия (2) найдется решениеPτ̂n , такое, что τ̂n −τn∗ −→ 0 - при том дополнительном условии, что уравнение (4) имеет решение, принадлежащеекомпакту {τ : |τ | < C}.Остается сделать последнее замечание, чтобы завершить исследование (2).