С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 8
Текст из файла (страница 8)
Более общим образом, она называется асимптотическинесмещенной, если Eθ̂ → θ при N → ∞.Аналогичнотому,чтоподразумевалосьвопределениисостоятельности, имеется в виду, что равенство (соотв. сходимость)справедливо при любом выборе априори допустимой меры с даннымзначением параметра или функционала (именно по априори допустимоймере вычисляется математическое ожидание)3 .Величина b(θ) = Eθ̂ − θ называется смещением оценки θ̂. Еслифункционал θ не определяет теоретическое распределение единственнымобразом, то смещение может зависеть не только от θ, но и от выборааприори допустимого распределения.Состоятельные оценки, как правило, являются асимптотическинесмещенными:Достаточные условия состоятельности.
Предположим, чтооценка θ̂ является асимптотически несмещенной и что Vθ̂ → 0 приN → ∞. Тогда θ̂ — состоятельная оценка параметра θ.Для получения этих условий воспользуемся тем же приемом, чтои в доказательстве простейших вариантов закона больших чисел —3В дальнейшем подобные комментарии, как правило, будут опускаться.Теория оценивания35неравенством Чебышёва:Vθ̂,ε2правая часть которого, по предположению, стремится к нулю приN → ∞.
Для несмещенной оценки левую часть неравенства можнозаменить на P(|θ̂ − θ| ≥ ε), откуда сразу следует состоятельность (надовоспользоваться определением сходимости по вероятности). Если жеоценка только асимптотически несмещенная, требуется незначительноеусложнение рассуждения. При достаточно больших N по определениюпредела числовой последовательностиP(|θ̂ − Eθ̂| ≥ ε) ≤|Eθ̂ − θ| ≤ ε/2.Поэтому неравенство |θ̂ − θ| ≥ ε влечет |θ̂ − Eθ̂| ≥ ε/2, так чтоP(|θ̂ − θ| ≥ ε) ≤ P(|θ̂ − Eθ̂| ≥ ε/2) ≤Vθ̂,(ε/2)2а последнее выражение стремится к нулю.Для задач с фиксированным объемом выборки (обычно такаяформулировка возникает в случаях, когда большой объем выборкипо тем или иным причинам не может быть получен), свойствосостоятельности почти полностью теряет свое значение, и на первыйплан выступает тот ущерб, который возникает от расхождения оценкии оцениваемого параметра. Чаще всего этот ущерб измеряют среднимзначением функции потерь.
При этом со времен Гаусса (начало XIX века)принято считать, что наиболее естественной является квадратичнаяфункция потерь. Эта трактовка приводит к определению сравнительнойэффективности. Говорят, что оценка θ̂ эффективнее оценки θ̃, еслиE(θ̂ − θ)2 ≤ E(θ̃ − θ)2 .Ввиду важности этого и последующих определений, подчеркнем ещераз, что символ E относится к априори допустимым мерам, и чтонеравенство должно выполняться для каждого значения θ и длякаждой такой меры. Отсюда сразу же следует, что две оценки могутоказаться несравнимыми. Например, оценка θ̃ ≡ θ0 , где θ0 — конкретноевозможное значение параметра, будет несравнима с оценкой θ̂ ≡ θ00— другое конкретное значение параметра.
Разумеется, приведенныйпример малосодержателен, однако саму возможность несравнимости36Глава 2он иллюстрирует крайне выразительно. Нетрудно выделить и причинуэтого явления. Обе оценки несостоятельны и смещены (за исключениемслучая, когда одна из них совпадает с истинным значением параметра,но надеяться на это — уже не статистический подход, а гадание).
Еслисузить каким-нибудь содержательным образом класс рассматриваемыхоценок, то в пределах этого класса оценки могут оказаться сравнимыми— от сравнительной эффективности иногда удается перейти к"абсолютной": оценка θ̂ называется эффективной в данном классеоценок, если она эффективнее любой другой оценки этого класса.Примерами таких содержательных классов оценок (см.
далеепараграф 4) в параметрических моделях являются K0 — класснесмещенных оценок и Kb — класс оценок с фиксированным смещениемb = bN (θ). Еще один подобный класс — класс эквивариантных оценок —будет определен позже, в параграфе 9.В непараметрических моделях класс априори допустимыхтеоретических распределений скорее всего окажется слишком широким,и не будет существовать эффективной оценки в K0 . Например, длянормального распределения эффективной несмещенной оценкойматематического ожидания является X̄, а для математическогоожидания равномерного распределения существуют и болееэффективные оценки (мы будем обсуждать эти примеры в параграфе3).
Поэтому для непараметрической модели, допускающей оба этираспределения, эффективной несмещенной оценки не существует.Некоторым расширением свойства эффективности являетсяасимптотическая эффективность. Оценка θ̂ называется асимптотическиэффективной в данном классе K, если для любой другой оценки θ̃ этогоклассаE(θ̂ − θ)2lim≤ 1.E(θ̃ − θ)2Символ верхнего предела использован по той причине, что длянекоторых оценок настоящий предел может не существовать. Какправило, при такой асимптотической трактовке эффективности класс Kсостоит только из состоятельных и асимптотически несмещенных оценок(может быть, с какими-нибудь дополнительными ограничениями). Болееподробно об асимптотической эффективности мы будем говорить впараграфе 8.Оценка, являющаяся состоятельной, несмещенной и эффективной (вклассе K0 ), в большинстве случаев рассматривается как наилучшийТеория оценивания37рецепт оценивания.
К сожалению, далеко не всегда ее удается найти.Более того, вполне может оказаться (см. [1]), что для данного параметравообще не существует несмещенных оценок. Собственно, подобныеказусы и объясняют, в значительной степени, введение расширенных —асимптотических — вариантов несмещенности и эффективности.2.2Общие принципы построения оценокВ первую очередь следует назвать уже упоминавшийся в первой главепринцип соответствия и основанные на нем процедуры подстановки.Напомним (см.
параграф 1.3), что этот принцип подчеркивает аналогиюмежду функционалами f (P) от теоретического распределения P и ихвыборочными вариантами — функционалами f (PN∗ ) от эмпирическогораспределения, которые, собственно, и предлагаются в качестве оценок.При необходимости этот принцип может слегка модифицироваться —подстраиваться под специфику задачи. Например, при оцениванииплотности теоретического распределения может потребоватьсяпредварительное "сглаживание"эмпирического распределения.
Другаявозможная модификация обсуждается чуть ниже.Рассмотрим наиболее известную и популярную реализациюсформулированной выше идеи — метод моментов и его обобщения. Дляпростоты рассмотрим сначала параметрическую модель с единственнымодномерным параметром θ ∈ Θ ⊂ R, т.е. будем считать, что имеетсяоднопараметрическое семейство Pθ априори допустимых мер. Навсякий случай полезно подчеркнуть, что при этом подразумеваетсяобратимость параметризации — разным значениям θ ∈ Θ отвечаютразные распределения Pθ . Символом Eθ при необходимости будемобозначать соответствующее математическое ожидание. Как известно,моментом порядка k случайной величины X называется математическоеожидание E(X k ). В современной статистической и эконометрическойлитературе (см.
[1] и [19]) принята более широкая трактовка моментов— любое выражение вида Eg(X), где g — какая-нибудь подходящаяфункция, называется моментом случайной величины X. Выберем g так,чтобы "моментная функция"m(θ) = Eθ g(X1 )была определена при всех θ ∈ Θ и обратима, так чтоθ = m−1 (Eθ g(X1 )).38Глава 2Метод моментов предлагает оценивать моментную функцию (как иположено для математического ожидания по принципу соответствия)эмпирическим среднимN1 Xḡ =g(Xi ),N i=1а сам параметр θ — соответствующим прообразомθ̂ = m−1 (ḡ)(2.1)Согласно закону больших чисел, ḡ — состоятельная оценка моментнойфункции. Поэтому, в предположении, что m−1 непрерывна, θ̂ —состоятельная оценка θ (даже сильно состоятельная).Если ḡ не попадает в область определения m(Θ) обратной функции−1m , формулу (2.1) следует модифицировать. Например, можнозаменить в ней ḡ на ближайшую к ней точку множества m(Θ).Очевидно, что метод моментов дает обширное множество оценокпараметра θ — при разных g (примеры мы рассмотрим в следующемпараграфе).В более общем случае r-мерного векторного параметра θ конструкцияоценки (2.1) практически полностью сохраняется.
Единственноеизменение — в том, что функция g и моментная функция m(θ) такжедолжны браться векторнозначными размерности r.Имеются обобщения метода моментов, пригодные и внепараметрических моделях. Пусть {P} — совокупность априоридопустимых теоретических распределений, θ = f (P) — некоторыйфункционал на этом множестве (параметр, подлежащий оцениванию).Предположим, что функция g(x, θ) такова, что уравнениеEP g(X1 , θ) = 0имеет единственное решение для каждой априори допустимой меры ичто это решение воспроизводит функционал f , т.е. имеет вид θ = f (P).Тогда оценкой обобщенного метода моментов (GMM) или M -оценкойпараметра θ называется решение уравненияNXg(Xi , θ) = 0.(2.2)i=1Обычный метод моментов, описанный выше, укладывается в GMMсхему приg(x, θ) = g(x) − m(θ).Теория оценивания39Некоторой модификацией понятия M -оценки является понятие M̂ оценки.
Если ψ(x, θ) — функция двух аргументов, то M̂ -оценкойпараметра θ называется точка (глобального) максимума выраженияNXψ(Xi , θ).i=1Если ψ дифференцируема по θ, то полагаяg(x, θ) =∂ψ(x, θ),∂θмы получаем уравнение (2.2) как необходимое условие максимума.Можно доказать, что при весьма незначительных ограничениях (см. [1])M -оценки и M̂ -оценки сильно состоятельны.Второй общий принцип построения оценок — принцип максимальногоправдоподобия. Он применим в параметрических моделях с обратимойпараметризацией.Предположим сначала, что априори допустимые распределениядискретны и сосредоточены на едином не более чем счетном множествеE.
Пусть pθ (e), e ∈ E — соответствующие вероятности. РассмотримвероятностьNYpθ (Xi )(2.3)L(θ) =i=1как (случайную) функцию параметра θ (она называется функциейправдоподобия — likelihood function). Точка максимума функцииправдоподобия объявляется оценкой максимального правдоподобия θ̂M Lпараметра θ.Этот рецепт основан на том обстоятельстве, что реализацияслучайной функции L(θ) задает вероятность "реализовавшейсявыборки":Pθ (X1 = X1,эмп. , .
. . , XN = XN,эмп. ),а реализовалась она, видимо, потому, что эта вероятность достаточновелика, немного утрируя — максимально велика.Для непрерывного параметрического семейства распределений,заданного плотностью pθ (x), функция правдоподобия определяется(через эту плотность) той же формулой (2.3), а рецепт построения оценкиθ̂M L сохраняется.40Глава 2Удобно сразу же заметить, что идея максимизации правдоподобияпригодна и для более общих схем наблюдений (скажем, для зависимыхили неодинаково распределенных наблюдений). Нужно лишь заменитьпроизведение вероятностей или плотностей совместной вероятностьюили плотностью.
У нас будут возможности воспользоваться этимзамечанием в последующих (эконометрических) главах.Очевидно, что точка максимума функции правдоподобия лежит вмножестве {θ : L(θ) > 0}. Поэтому можно перейти к логарифмам иискать максимумы логарифмической функции правдоподобияl(θ) = ln L(θ) =NXln pθ (Xi )i=1(они будут в тех же точках).Таким образом, θ̂M L является M̂ -оценкой, а если pθ дифференцируемапо θ, то и M -оценкой.