Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 7
Текст из файла (страница 7)
для проверки предположения отом, что данная выборка извлечена из некоторой нормальной совокупности. Нормальность выборки даетвозможности для ее детального анализа (в дальнейшем будет видно, какие).Для общей линейной гауссовской модели утверждение о равномерном распределении случайного вектора (projL⊥ X)/| projL⊥ X| (на единичной сфере размерности n − r, где r = dim L) и его статистическойзависимости от пары (projL X, | projL⊥ X|2 ) доказывается аналогично.Аналогичным порядком мы можем составить коэффициенты асимметрии и эксцесса, и тоже использоватьих для проверки нормальности распределения X в линейной модели.2.7. Наилучшие несмещенные оценки2.7.1. Наилучшие несмещенные оценкиТак обычно называют несмещенные оценки с минимальным квадратичным риском.Для скалярного параметра (и для скалярных функций от параметра) это несмещенные оценки с минимальной дисперсией; для векторного (конечномерного) параметра и функций от него — это несмещенные оценки снаименьшей матрицей ковариаций.
В некоторых случаях указать наилучшую несмещенную оценку помогаютнеравенства Крамера – Рао: если оценка эффективная, то она и наилучшая в указанном выше смысле, так какимеет наименьшую возможную дисперсию.Но даже для экспоненциальных семейств распределений, для которых только и существуют эффективныеоценки, эффективно оценить можно лишь одну какую-то функцию от параметра.
Скажем, для испытанийБернулли, в которых параметром θ служит вероятность успеха, эффективная оценка есть только для θ (эточастота успехов). Но каковы несмещенные оценки, например, для θ(1 − θ) или θ2 ?Вопрос тем более открыт для семейств распределений, не являющихся экспоненциальными.Известные к настоящему времени обобщения неравенства Крамера – Рао расширяют наши возможности неслишком значительно.22Задачу о наилучших несмещённых оценках удается продвинуть (а часто — полностью решить), если длянеизвестного параметра существует достаточная статистика. Несмещённое оценивание при достаточной статистике и будет нашей текущей темой. Для ее обсуждения нам понадобится понятие условного математическогоожидания одной случайной величины при фиксированном значении другой. В полном объеме оно будет введенои изучено в следующей главе.
А сейчас, чтобы завершить тему наилучшего несмещённого оценивания, мы ограничимся неформальным толкованием этого понятия. А также укажем некоторые его свойства, необходимые дляупомянутой цели.2.7.2. Условные математические ожидания: предварительные сведенияПусть случайные величины X и Y заданы на одном вероятностном пространстве. (Содержательно это означает, что значения переменных X, Y получены в одном эксперименте). Понятие условного математическогоожидания X при данном значении Y — далее E(X|Y ) — можно ввести элементарными средствами, если прикаждом (почти каждом) значении Y существует условное распределение X.
Рассмотрим условное распределение X при данном Y . Усредним значения X (при данном Y ) по этому условному распределению. Полученныйрезультат (число, если X принимает числовые значения, вектор-столбец, если значения X суть векторы-столбцыи т.д.) зависит от фиксированного значения Y , т.е. является функцией Y . Его называют условным математическим ожиданием X при данном Y и обозначают как E(X|Y ). Поскольку Y - случайная величина, E(X|Y )тоже является случайной величиной.Если совместное распределение (X, Y ) имеет плотность p(x, y) (либо дискретно), то формулу для E(X|Y )можно получить явно.
В этом случае условное распределение X при данном Y имеет плотность (в точке x),равнуюp(x, Y )R.p(x, Y ) dxОтсюдаRxp(x, Y ) dxE(X|Y ) = R.p(x, Y ) dxАналогичная формула (с заменой интегрирования суммированием) действует и в дискретном случае.В общем случае соотношение между условным распределением и условным математическим ожиданием —обратное по отношению к описанному: E(X|Y ) первично и вводится непосредственно, а понятие условного распределения X при данном Y может быть определено на его основе.Укажем некоторые свойства условных математических ожиданий, которые нам сейчас понадобятся. Линейные свойства вполне ожидаемы и естественны:1.E(X1 + X2 |Y ) = E(X1 |Y ) + E(X2 |Y )(Здесь случайные величины X1 и X2 должны быть заданы на том же пространстве элементарных исходов,что и Y ).2.E(kX|Y ) = kE(X|Y ),где k — постоянный (неслучайный) множитель.3.E[f (Y )X|Y ] = f (Y )E(X|Y ),где f (Y ) — функция Y .
Это свойство тоже естественно, ибо при фиксированном значении Y функция f (Y )постоянна, а постоянный множитель можно выносить за знак математического ожидания.Надо оговорить, что перечисленные выше равенства выполняются с вероятностью 1, ибо они соединяютслучайные величины. Нужно также, чтобы существовало E|X| (в первом пункте должны существоватьE|X1 | и E|X2 |).Наиболее важным является свойство4.E{E(X|Y )} = EX.232.7.3. Улучшение несмещенных оценокВернемся к обсуждавшейся задаче о несмещенных оценках с минимальной дисперсией. В ее решении можносделать шаг вперед, если в статистической модели есть достаточная статистика.Пусть X — наблюдаемая случайная величина, распределенная по некоторому закону Pθ , где θ — неизвестныйпараметр, θ ∈ Θ, Θ — задано.Пусть d = d(X) — несмещенная оценка τ (θ), где τ (θ) — заданная функция, т.е.:для всех θ ∈ Θ,Eθ d(X) = τ (θ)причем Eθ |d(X)| существует.Пусть T — достаточная статистика для параметра θ.Рассмотрим условное математическое ожидание d(X) при данном T :ϕ(T ) = E(d(X)|T )Заметим, что E(d(X)|T ) не зависит от θ, так как от θ не зависит условное распределение X при данном T —в силу определения достаточной статистики.Теорема 2.3 (Blackwell – Rao, 1947-1949).
При указанных выше условияхEθ ϕ(T ) = τ (θ) и Dθ ϕ(T ) 6 Dθ d(X),причем равенство достигается, если и только если ϕ(T ) = d(X) (с вероятностью 1, для каждого θ ∈ Θ).1◦ Первое утверждение выполняется в силу свойства условных математических ожиданий EE(X|Y ) = EX:Eθ E[d(X)|T ] = Eθ d(X) = τ (θ).2◦ Доказательство второго свойства для одномерных ϕ, d и τ :Dθ d(X) = Eθ [d(X) − τ (θ)]2 = Eθ [(d(X) − ϕ(T )) + (ϕ(T ) − τ (θ))]2 == Eθ (d − ϕ)2 + Eθ (ϕ − τ )2 + 2Eθ (d − ϕ)(ϕ − τ ) = Eθ (d − ϕ)2 + Dθ ϕ,посколькуEθ (d − ϕ)(ϕ − τ ) = Eθ E[(d − ϕ)(ϕ − τ )|T ] = Eθ (ϕ − τ )E[(d − ϕ)|T ] = 0,ибо Eθ [(d(T ) − ϕ(X))|T ] = E(d|T ) − E(ϕ|T ) = ϕ − ϕ = 0.
(Последнее равенство выполняется с вероятностью1 для каждого распределения Pθ ).Равенство в (b) достигается, если и только еслиEθ [d(T ) − ϕ(T )]2 = 0∀ θ.Это возможно, если и только еслис вероятностью 1d(X) = ϕ(T )для всех Pθ распределений.3 Многомерный случай: пусть d(X), τ (θ) принимают значения в Rp , записываем их в виде столбцов, Dθ d < ∞.◦Пусть z ∈ Rp , z — произвольный дисперсионный вектор.
Рассмотрим скалярные величины:ξ = ξ(X) := z T d(X),η = η(T ) := E[ξ(X)|T ] = z T E[d(X)|T ] = z T ϕ(T ),t = t(θ) := z T τ (θ)Ясно, что Eθ ξ(X) = t(θ) = Eθ η(T ). По одномерной теореме Блеквелла – РаоDθ η(T ) 6 Dθ ξ(X).ОтсюдаDθ (z T ϕ) 6 Dθ z T d(X)⇔z T (Dθ ϕ) z 6 z T (Dθ d) zчто и требовалось доказать. Равенство будет, если⇔Dθ ϕ 6 Dθ d,Pθ [η(T ) = ξ(X)] = 1илиPθ {z T ϕ(T ) − d(X) = 0}24∀ θ ∈ Θ и ∀ z ∈ Rp .2.7.4. Полные достаточные статистикиИз теоремы Блеквелла – Рао можно сделать, по меньшей мере, два вывода:• Эта теорема дает способ улучшить несмещенную оценку, если мы такой оценкой уже располагаем;• Она говорит, что при поиске наилучшей несмещенной оценки можно ограничить себя функциями от достаточной статистики.
Если такая (зависящая от достаточной статистики) несмещенная оценка единственна,то она автоматически оказывается наилучшей.Единственность зависящей от достаточной статистики несмещенной оценки обеспечивается так называемойполнотой достаточной статистики.Определение Достаточная статистика T = T (X) называется полной, если уравнение относительно функции fдля всех θ ∈ ΘEθ f (T ) = 0имеет только тривиальное f ≡ 0 решение.Полнота очевидно является свойством семейства распределений статистики X. Поэтому часто говорят о полныхсемействах распределений (зависящих от θ, θ ∈ Θ).Теорема(Леман, Шефаре, 1955)Если T = T (X) — полная достаточная статистика и ϕ = ϕ(T ) — несмещенная оценка θ, θ ∈ Θ, тоϕ(T (X)) — наилучшая несмещенная оценка τ (θ).ДоказательствоДостаточно доказать единственность такой оценки ϕ.Предположим, что существует другая (отличная от ϕ(T )) несмещенная оценка ψ(T ), так чтодля всех θ ∈ ΘEθ ψ(T ) = Eθ ϕ(T ) = τ (θ)В этом случаеEθ [ψ(T ) − ϕ(T )] = 0для всех θ ∈ ΘПоскольку статистика T — полная, отсюда следует, чтоψ(T ) − ϕ(T ) = 0почти наверное, для всех θ ∈ Θ.Т.е.
оценка ϕ единственна (с точностью до множества меры нуль), что и требовалось доказать. Пример 1. Испытания Бернулли.Число успехов Sn (частота) в n испытаниях Бернулли является полной достаточной статистикой длявероятности успеха θ, когда эта вероятность θ рассматривается как неизвестный параметр, θ ∈ (0, 1).Как известно, распределение Sn является биномиальным:Pθ (Sn = m) = Cnm θm (1 − θ)n−mдля m = 0, n.Поэтому речь идет о полноте семейства биномиальных распределений, зависящих от параметра θ, θ ∈ (0, 1).Рассмотрим уравнение относительно f (·):∀θ ∈ (0, 1)Eθ f (S) = 0(∗)В данном случае функция f (·) должна быть определена на множестве (0, 1, 2, . .