С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 11
Текст из файла (страница 11)
Модель испытаний Бернулли.Априори допустимыми являются распределения Pp вида~ = ~x) =Pp (XNY[pxi (1 − p)1−xi ] = pPxi(1 − p)N −Pxii=1~(мы представляем выборку Xобычным образом — какпоследовательность независимых случайных величин Xi , принимающихзначения 1 (успех) и 0 (неудача) с вероятностями p и 1 − pсоответственно).
Докажем, что статистика S = SN = X1 + · · · + XN(полное число успехов) является достаточной для p. Выберем некотороеk, 0 ≤ k ≤ N , и согласующееся с ним ~x, так чтоS(~x) = x1 + · · · + xN = k(иначе условная вероятность будет нулевой). Тогда~ = ~x, S = k)Pp (X~Pp (X = ~x|S = k) =Pp (S = k)~ = ~x)Pp (Xpk (1 − p)N −k1.== k k=Pp (S = k)CN p (1 − p)N −kCNkМы видим, что фиксация числа успехов k оставляет только свободув порядке появления в выборке этих успехов и дополнительногочисла неудач. Все такие порядки ("сочетания") оказываются условноравновероятными (а остальные комбинации успехов и неудач —условно невозможными). Таким образом, вся выборочная информация о56Глава 2параметре p содержится уже в суммарном числе успехов S.
Именно этастатистика и позволяет (см. параграфы 3 и 5) оценить p эффективнымобразом: p̂ = S/N .Устанавливать достаточность, пользуясь определением, не всегдаудобно, особенно в непрерывных моделях, поэтому чаще всегоиспользуют следующую теорему факторизации Неймана-Фишера:Теорема факторизации. Статистика S достаточна в том и тольков том случае, если функция правдоподобия L(θ) представляется(факторизуется) в виде~L(θ) = h(X)ψ(S,θ).Мы докажем эту теорему только для семейств дискретныхраспределений. В непрерывном случае доказательство основано на техже идеях, но технически значительно сложнее.Пусть сначала функция правдоподобия факторизуется.
Докажем, чтоS достаточна. Для этого рассмотрим некоторое s (значение функции S)и ~x ∈ S −1 (s). Тогда~ = ~x, S(X) = s) Pθ (X~ = ~x)Pθ (X~Pθ (X = ~x|S = s) ==Pθ (S = s)Pθ (S = s)~ = ~x)Pθ (Xh(~x)ψ(S(~x), θ)=P=P~y )ψ(S(~y ), θ)y)~y ∈S −1 (s) h(~~y ∈S −1 (s) Pθ (X = ~h(~x)ψ(s, θ)h(~x)=P.y )ψ(s, θ)y)~y ∈S −1 (s) h(~~y ∈S −1 (s) h(~=PДля ~x 6∈ S −1 (s) рассматриваемая условная вероятность обращается в 0.Обратно, предположим, что~ = ~x|S = s)Pθ (Xне зависит от параметра θ.
Обозначим ее h(~x). Указывать дополнительноее зависимость от s не нужно, т.к. s = S(~x). Тогда (ср. с предыдущимрассуждением)~ = ~x)Pθ (X= h(~x).Pθ (S = s)Теперь обозначаем Pθ (S = s) через ψ(s, θ) и получаем~ = ~x) = h(~x)ψ(s, θ) = h(~x)ψ(S(~x), θ).Pθ (XТеория оценивания57Теорема в дискретном варианте доказана.Технические проблемы в доказательстве непрерывного вариантавозникают по причине того, что множество S −1 (s) может иметь сложнуюструктуру (см. [1])Факторизация, указанная в теореме Неймана-Фишера, неоднозначна— первый множитель можно домножить (а второй, соответственно,поделить) на произвольную строго положительную функцию отдостаточной статистики S.
Поэтому иногда удобнее рассматриватьотношение правдоподобияL(θ).L(θ0 )Почти очевидно, что статистика S достаточна в том и только втом случае, если отношение правдоподобия является функцией отдостаточной статистики:L(θ)= Z(S; θ, θ0 ).0L(θ )В этом представлении уже нет упомянутой выше неоднозначности.Предположим, что pθ (~x) — экспоненциальное семейство (см. параграф5):pθ (~x) = h(~x) exp{U (~x)T A(θ) + B(θ)}.~Очевидно, что эта формула уже является факторизацией, а U (X)— достаточная статистика, размерность которой равна размерностипараметра.На этом пути сразу получаем:Пример 2.
X1 + · · · + XN и X̄ — достаточные статистики дляпараметра λ распределения Пуассона. Эти две статистики эквивалентныв естественном смысле — взаимно однозначно определяют друг друга.Пример 3. (X1 + · · · + XN , X12 + · · · + XN2 ) — достаточная статистикадля двухпараметрического семейства нормальных распределений (см.параграф 5). Другой, эквивалентный, вариант достаточной статистики— (X̄, S 2 ). Действительно,1(X1 + · · · + XN ),N11S 2 = (X12 + · · · + XN2 ) − 2 (X1 + · · · + XN )2 .NNФормулы обратного преобразования читатель может вывестисамостоятельно.X̄ =58Глава 2Пример 4. (Гамма-распределение.) Легко проверить, что (X1 + · · · +XN , X1 · X2 · · · · · XN ) — достаточная статистика.
При известном pдостаточной будет сумма X1 + · · · + XN .Пример 5. (Равномерное распределение.) Любая из статистик(Xmin , Xmax ), (ã, b̃) (см. параграф 2.3) является при N ≥ 2 достаточной.Рассмотрим модифицированную постановку задачи: пусть a = θ, b =1 + θ. Соответствующее семейство плотностей — однопараметрическое.Но достаточной статистикой по-прежнему является пара (Xmin , Xmax )— наблюдается несоответствие размерностей. Оценивать несмещеннымобразом θ можно теперь двояко:θ∗ = ã, θ∗∗ = b̃ − 1.Почти очевидно, что эти оценки одинаково эффективны.
А как найтисамую эффективную в K0 оценку? Мы вернемся к этому вопросу впараграфах 7 и 9.В заключение параграфа заметим, что вариационный ряд X(1) =Xmin , X(2) ,. . . , X(N ) = Xmax всегда является достаточной статистикой вслучае повторных наблюдений — если его зафиксировать, остается лишьсвобода в последовательности появления этих значений в выборке. Посоображениям симметрии все такие последовательности равновероятны.В непрерывном случае можно считать, что все порядковые статистикиразличны (это событие почти достоверно — имеет вероятность 1). Тогдаусловное распределение приписывает вес 1/N ! каждой перестановкевариационного ряда.
В дискретном случае возможны совпадения, иусловное распределение оказывается иным, но тоже описывается чистокомбинаторно.В книге Боровкова [1] приводится пример — семейство сдвинутыхраспределений Коши с плотностью11pθ (x) =, x ∈ R,π (x − θ)2 + 1для которого вариационный ряд является минимальной достаточнойстатистикой. По существу, этот пример показывает, что достаточныестатистики могут быть практически бесполезными.2.7Достаточность и эффективностьИз неформального смысла достаточности становится правдоподобным,что искать эффективные оценки следует исключительно при помощиТеория оценивания59достаточных статистик. Мы сейчас сформулируем соответствующийрецепт точно, считая для простоты, что θ — одномерный параметр.Буквой S будет обозначаться достаточная статистика. Свойстваусловных математических ожиданий обсуждаются в Приложении D.~ — некоторая статистика.
Тогда Eθ (T |S) —Лемма. Пусть T = T (X)также статистика.Смысл этого утверждения в том, что указанное условноематематическое ожидание не зависит от параметра θ. Лемма вытекает изтого, что оно (т.е. ожидание) получается интегрированием по условномураспределению (которое не зависит от θ):ZEθ (T |S) = T (~x)Pθ (d~x|S).В силу леммы можно опускать индекс θ у таких условных ожиданий.Теорема Блекуэлла-Рао-Колмогорова. Пусть θ̂ ∈ Kb — оценкапараметра θ. Тогда θ∗ = E(θ̂|S) — оценка того же класса Kb , болееэффективная, чем θ̂ 6 .Доказательство. Заметим сначала, чтоEθ θ∗ = E(E(θ̂|S)) = Eθ θ̂ = θ + b(θ).Поэтому θ∗ ∈ Kb — имеет то же смещение b(θ), что и θ̂. Далее,(θ̂ − θ)2 = (θ̂ − θ∗ )2 + 2(θ̂ − θ∗ )(θ∗ − θ) + (θ∗ − θ)2 .ВычислимEθ [(θ̂ − θ∗ )(θ∗ − θ)] = Eθ [E[(θ̂ − θ∗ )(θ∗ − θ)|S]](это равенство — формула полного математического ожидания — см.приложение D).
Вынося "локально постоянный"множитель θ∗ − θ,получаем для внутреннего (условного) ожиданияE[(θ̂ − θ∗ )(θ∗ − θ)|S] = (θ∗ − θ)E[θ̂ − θ∗ |S]= (θ∗ − θ)[E(θ̂|S) − E(θ∗ |S)] = (θ∗ − θ)[θ∗ − θ∗ ] = 0.ПоэтомуEθ [(θ̂ − θ∗ )(θ∗ − θ)] = 0иEθ (θ̂ − θ)2 = Eθ (θ̂ − θ∗ )2 + Eθ (θ∗ − θ)2 ≥ Eθ (θ∗ − θ)2 ,6Согласно приложению D, θ∗ представляется в виде f (S).60Глава 2что и требовалось доказать.Кстати, из проведенного рассуждения следует, что равенствоэффективностей получается в единственном случае: θ∗ = θ̂ свероятностью 1 (при этом уже первоначальная оценка θ̂ являетсяфункцией достаточной статистики).Следствие.
Эффективные в классах Kb оценки являютсяфункциями достаточной статистики.Разумеется, самый важный из всех классов Kb — класс несмещенныхоценок.Приведем два примера использования теоремы Блекуэлла-РаоКолмогорова (справедливости ради следует отметить, что эффективныеоценки в этих примерах нам уже известны).Примеры 1 и 2. Оценка вероятности успеха и оценка параметрараспределения Пуассона.В обоих случаях берем (несостоятельную) несмещенную оценку X1и вычисляем для нее условное математическое ожидание при условиидостаточной статистики S = X1 + · · · + XN .
Имеем по соображениямсимметрииE(X1 |S) = E(X2 |S) = · · · = E(XN |S).Сумма этих (одинаковых) величин естьE(S|S) = S.ПоэтомуS(= E(Xi |S), i = 2, . . . , N ).NДля модификации примера 5, обсуждавшейся в предыдущем параграфе,оценки ã и b̃ − 1 параметра θ не могут быть улучшены этимприемом — теоремы Блекуэлла-Рао-Колмогорова здесь недостаточно длянахождения эффективной оценки.Мы сейчас выделим дополнительное свойство достаточной статистики— полноту, позволяющее сразу указывать эффективные оценки.Достаточная статистика S называется полной, еслиE(X1 |S) =Ef (S) ≡ 0 =⇒ f (S) ≡ 0(точнее, Pθ (f (S) = 0) ≡ 1). В этом определении символ ≡ означает"тождественно по θ".Теорема. Пусть S — полная достаточная статистика, θ̂ ∈ Kb . Тогдаоценка θ∗ = E(θ̂|S) эффективна в классе Kb .Теория оценивания61Доказательство крайне просто.
Пусть θ̃ ∈ Kb эффективнее θ∗ . Тогдаθ̃∗ = E(θ̃|S) еще эффективнее (в Kb ). По одному из свойств условногоматематического ожидания, см. приложение D, θ∗ − θ̃∗ — функция от S.Но Eθ (θ∗ − θ̃∗ ) = 0, т.к. обе эти оценки имеют одинаковое смещение b(θ).По свойству полноты тогда θ̃∗ = θ∗ . Теорема доказана.Проверка полноты достаточной статистики может оказаться труднойаналитической задачей.
Проиллюстрируем на наших примерах, как онаможет проводиться.Пример 1 мы оставим читателям в качестве упражнения.Пример 2. Запишем подробно равенствоEθ f (S) = 0.Согласно параграфу 1.6 статистика S = X1 + · · · + XN имеетраспределение Пуассона с параметром N λ. Поэтому получаем∞Xk=0(N λ)k −nλe≡ 0.f (k)k!Сокращая экспоненту, получаем∞XN k f (k)k=0k!λk ≡ 0.Из курса высшей математики известно, что если сходящийсястепенной ряд тождественно равен нулю на некотором невырожденномпромежутке, содержащем точку 0, то все его коэффициенты равны нулю.Поскольку N k /k! 6= 0, получаем f (k) = 0 при всех k = 0, 1, . .