1625915143-9358bde957c0693ae60a95b83ad382f6 (843873), страница 15
Текст из файла (страница 15)
Если этогоне происходит, то оценка плоха, неразумна. Не рекомендуется пользоваться несостоятельными оценками!В силу закона больших чисел, выборочные моменты являются состоятельнымиоценками моментов настоящих:na∗k1X k P=X → EX1k = ak .n i=1 iИз изученных ранее свойств сходимости по вероятности вытекает, что S 2 и S02 обе являются состоятельными оценками для дисперсии. В самом деле, положим g(a1 , a2 ) =a2 − a21 ; эта функция непрерывна всюду на плоскости, поэтомуPS 2 = a∗2 − (a∗1 )2 = g(a∗1 , a∗2 ) → g(a1 , a2 ) = σ 2 ,n1PS2 = S2 +S 2 → σ2.n−1n−1Далее мы изучим два метода построения весьма точных оценок для неизвестныхпараметров распределения выборки.S02 =6.2.Метод моментовПусть X ⊂= Fθ и θ = (θ1 , .
. . , θk ) — неизвестный векторный параметр распределения. Применение метода моментов сводится к двум этапам.Первый этап. Выражаем θ1 , . . . , θk через моменты a1 , a2 , . . . распределения. Витоге получаем, например, такие соотношения:θ1θ2θk= g1 (a1 , a2 , . . . , ak ),= g2 (a1 , a2 , . . . , ak ),...= gk (a1 , a2 , . . . , ak ).66Чаще всего именно через первые k моментов можно выразить все неизвестныепараметры. Если это не удается сделать, то берутся любые другие моменты, лишьбы через них выражались все θ1 , .
. . , θk .Поскольку распределение выборки зависит от неизвестных параметров, то и моменты a1 , a2 , . . . неизбежно будут от них зависеть. Другими словами, пока что мывыразили одни неизвестные величины через другие. Однако для моментов нам ужеизвестны хорошие оценки — выборочные моменты.
Поэтому переходим ко второмуэтапу.Второй этап. Заменяем в полученных соотношениях моменты a1 , a2 , . . . , ak навыборочные моменты a∗1 , a∗2 , . . . , a∗k . Тем самым получим оценки по методу моментов(ММ-оценки):θ1∗θ2∗θk∗= g1 (a∗1 , a∗2 , . . . , a∗k ),= g2 (a∗1 , a∗2 , . . . , a∗k ),...= gk (a∗1 , a∗2 , . . . , a∗k ).Замечания1. В одной и той же ситуации методом моментов можно получать разные оценки,потому что первый этап можно реализовывать по-разному.
Например, если X ⊂= Πλ , то, с одной стороны, λ = a1 , поэтому λ∗ = a∗1 = X. Если же на первом этапевоспользоваться формулой λ = a2 − a21 , то придем к другой оценке: λ∗1 = a∗2 − (a∗1 )2 =S 2.2. Если возникают затруднения при реализации первого этапа, то можно сначала выполнить действия, скажем, на нулевом этапе: найти моменты распределенияa1 , a2 , .
. . , ak . Получится набор соотношений видаa1 = h1 (θ1 , θ2 , . . . , θk ),a2 = h2 (θ1 , θ2 , . . . , θk ),...ak = hk (θ1 , θ2 , . . . , θk ).После чего нужно разрешить эту систему уравнений относительно θ1 , . . . , θk —тем самым получим нужные нам формулы для первого этапа.Пример.
Пусть X ⊂= Γα,λ . Найдем ММ-оценки α∗ , λ∗ .Начнем с нулевого этапа. Для моментов гамма-распределения имеемakαλ=Γ(λ)Z∞1tk tλ−1 e−αt dt = kα Γ(λ)0Z∞y k+λ−1 e−y dy =0Γ(k + λ)(k + λ − 1)(k + λ − 2) . . . (λ + 1)λΓ(λ)==kα Γ(λ)αk Γ(λ)(k + λ − 1) . . . (λ + 1)λ.=αk=Поэтомуλa=,1α a = λ(λ + 1).2α267λи подставляем во второе:a1Ã!1λ(λ + 1) 2a1 = 1 +a2 .a2 =λ2λ 1Выражаем из первого уравнения α =Отсюда получаем соотношения первого этапаa21,λ=a2 − a21α=a1.a2 − a21Следовательно,(X)2X, α∗ = 2 .2SSТеорема.
Пусть θ = g(a1 , . . . , ak ) — одномерный параметр распределения выборки. Предположим, что функция g непрерывна в точке (a1 , . . . , ak ). Тогдаθ∗ = g(a∗1 , . . . , a∗k ) является состоятельной оценкой для θ.PДоказательство. В силу сходимости a∗i → ai , i = 1, .
. . , k, данное утверждениевытекает из свойства 2 сходимости по вероятности.λ∗ =Вернемся к рассмотренному примеру, где X ⊂= Γα,λ . Поскольку a2 −a21 = DX1 > 0,то функцииy1y12g1 (y1 , y2 ) =,g(y,y)=212y2 − y12y2 − y12непрерывны в точке (a1 , a2 ), α = g1 (a1 , a2 ), λ = g2 (a1 , a2 ). Значит, полученные намиММ-оценки состоятельны.Свойство несмещенности проверяется в каждом случае по-своему, обычно методмоментов приводит к несмещенным или асимптотически несмещенным оценкам.6.3.Метод максимального правдоподобияПусть, как и ранее, X ⊂= Fθ и θ ∈ R — неизвестный параметр, подлежащий оценке.1.
Дискретный случай. Попробуем пояснить основную идею метода на примере.Пусть, стреляя 10 раз по мишени в тире, мы трижды попали и 7 раз промахнулись.Мы не знаем, какова вероятность p попадания при одном выстреле, можем строитьлишь различные предположения об этом. Рассмотрим три из них:1) p = 0.01;2) p = 0.3;3) p = 0.9.Какое из них выглядит более правдоподобным после того, как стрельба завершена?Разумеется, второе. Конечно, при каждом из этих предположений мы могли бы 7 разпромахнуться и 3 раза попасть, но вероятность такого результата стрельбы будетнаибольшей при p = 0.3.Эти соображения и легли в основу метода максимального правдоподобия.Предположим сначала, что распределение Fθ дискретно, и обозначим f (θ, t) =P(X1 = t).
Имеет смысл рассматривать здесь только те значения t, для которых этивероятности положительны. Пусть, далее, для t = (t1 , . . . , tn )f (θ, t) = P(X1 = t1 , . . . , Xn = tn ) =nYi=168f (θ, ti )— вероятность того, что выборка примет конкретное значение (t1 , . . . , tn ). Коль скоров результате наших экспериментов реализовалась выборка X, то, подставив ее вфункцию f , получим f (θ, X), что при фиксированном значении выборки равняетсявероятности ее появления.Функция f (θ, X) называется функцией правдоподобия.Идея метода состоит в следующем: мы подбираем такое значение θ, при которомвероятность получить нашу выборку максимальна.
Другими словами, мы подбираемнаиболее правдоподобное с точки зрения полученного результата значение параметра.Аналитически это означает, что мы должны исследовать на максимум функцию правдоподобия и взять в качестве оценки метода максимального правдоподобия(ММП-оценки) то значение θ∗ , при которомf (θ∗ , X) = max f (θ, X).θQПоскольку f (θ, X) = ni=1 f (θ, Xi ), то в ряде случаев исследовать эту функциюна максимум удобнее, предварительно взяв от нее логарифм:l(θ, X) = ln f (θ, X) =nXln f (θ, Xi ).i=1Функция l(θ, X) называется логарифмической функцией правдоподобия. Точки максимума у l(θ, X) и f (θ, X) совпадают, а с суммой работать удобнее, чем с произведением.Если производная по θ существует и непрерывна, то точку экстремума можнонайти из уравнения∂l(θ, X)= 0.∂θУбедившись, что в найденной точке действительно достигается максимум, а не минимум, мы тем самым находим ММП-оценку как решение данного уравнения.λt −λПример.
Пусть X ⊂= Πλ . Тогда f (λ, t) =e и для функции правдоподобияt!имеемnYλXi −λλX1 +...+Xn −nλf (λ, X) =e =e .Xi !X1 ! . . . Xn !i=1Как функция переменной λ > 0, это выражение равно степенной функции, умноженной на экспоненту в отрицательной степени. Эта функция дифференцируема поλ сколь угодно раз, и равенство нулю первой производной приведет нас к точке максимума. Для удобства найдемl(λ, X) = (X1 + . .
. + Xn ) ln λ − nλ − ln(X1 ! . . . Xn !).Далее находим точку максимума:X1 + . . . + Xn∂l(λ, X)=− n = 0,∂λλλ∗ =X1 + . . . + Xn= X.nПусть теперь функция распределения Fθ абсолютно непрерывна. Обозначим f (θ, t)соответствующую ей плотность распределения. Пусть для t = (t1 , . . . , tn )f (θ, t) =nYi=169f (θ, ti )— плотность распределения случайного вектора X.По аналогии с дискретным случаем функцией правдоподобия будем называтьf (θ, X).
ММП-оценкой называется то значение θ = θ∗ , которое максимизирует функцию правдоподобия:f (θ∗ , X) = max f (θ, X).θКак и ранее, можно ввести логарифмическую функцию правдоподобия l(θ, X) =ln f (θ, X) и работать с ней.Пример. Пусть X ⊂= Eα . Поскольку все наблюдения при таком условии положительны, то имеемnYf (α, X) =αe−αXi = αn e−α(X1 +...+Xn ) .i=1Ясно, что дифференцирование приведет нас к точке максимума.l(α, X) = n ln α − α(X1 + . .
. + Xn );∂l(α, X)nn1= − (X1 + . . . + Xn ) = 0, α∗ == .∂ααX1 + . . . + XnXЗамечания1. Если θ = (θ1 , . . . , θk ), то все остается по-прежнему, только исследовать на максимум функцию правдоподобия нужно будет как функцию k переменных. Например,поиск максимума с помощью дифференцирования приведет к системе уравнений∂l(θ, X)= 0,∂θ1...∂l(θ, X)= 0.∂θk2. Если функция правдоподобия достигает максимального значения в несколькихточках, то все они, по определению, считаются ММП-оценками.3. ММП-оценки, как правило, являются асимптотически несмещенными и состоятельными.4. Во многих случаях ММ-оценки совпадают с ММП-оценками, но это происходитне всегда.Пример. Пусть X ⊂= U0,θ , и θ неизвестно. ПосколькуZθak =θk1,tk dt =θk+10то мы получаем целую последовательность ММ-оценок:θ = ((k + 1)ak )1/k ,θk∗ = ((k + 1)a∗k )1/k ,k = 1, 2, .
. . .В то же время ММП-оценка будет иной. Построим функцию правдоподобия. Дляt∈R1,если 0 ≤ t ≤ θ,f (θ, t) = θ0,иначе.70Поэтому1, если 0 ≤ Xi ≤ θ при всех i = 1, . . . , n,f (θ, X) = θn0,иначе.Так как все Xi ≥ 0, то можно переписать1, если max(X1 , . . . , Xn ) = X(n) ≤ θ,f (θ, X) = θn0,если X(n) > θ.Построим график зависимости функции правдоподобия от θ.6f (θ, X)0-θX(n)Ясно, что максимум достигается в точке θ∗ = X(n) — это и будет ММП-оценкой.Данный пример служит напоминанием о том, что для нахождения точки максимума не стоит спешить с дифференцированием функции. Переход к логарифмической функции правдоподобия здесь также неуместен.6.4.Сравнение оценокПусть X ⊂= Fθ , θ ∈ R — неизвестный параметр, и пусть мы уже построили две различные оценки θ1∗ и θ2∗ .
Обе оказались хорошими: например, несмещенными (асимптотически несмещенными) и состоятельными. Какую из них предпочесть?Мы до сих пор не учитывали еще одно важное свойство оценок. Чем меньше разброс значений оценки относительно неизвестного параметра, тем она точнее. Естественно из двух оценок выбирать ту, у которой этот разброс меньше. Разброс можнохарактеризовать по-разному.
Мы будем использовать среднее квадратическое отклонение.Определение. Будем считать, что оценка θ1∗ лучше, чем θ2∗ , если при всех значениях θEθ (θ1∗ − θ)2 ≤ Eθ (θ2∗ − θ)2и хотя бы при одном значении θ неравенство является строгим.Если оценка θ∗ несмещенная, то Eθ (θ∗ − θ)2 = Dθ θ∗ . Следовательно, из двухнесмещенных оценок лучше та, у которой дисперсия меньше.Если среди всех несмещенных оценок (а их бесконечно много) найдется та, укоторой дисперсия минимальна, то она называется эффективной.Эффективные оценки являются наиболее точными, к их отысканию и нужно стремиться.