Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 5
Текст из файла (страница 5)
Векторы мы предпочтительно будем представлять в виде векторовстолбцов (одностолбцовых матриц).Определение 3. Ковариационная матрица (она же — дисперсионная матрица) векторов X и Y естьcov(X, Y ) = E(X − EX)(Y − EY )T .Если X = (ξ1 , ξ2 , . . .)T , Y = (η1 , η2 , . .
.)T , то элемент (i, j) матрицы cov(X, Y ) есть ковариация случайныхвеличин ξi и ηj :E(ξi − Eξi )(ηj − Eηj ).Ясно, что:cov(X, Y ) = EXY T − (EX)(EY )T .Определение 4. Ковариационная матрица случайного вектора X определяется как:cov(X, X) = E(X − EX)(X − EX)T = EXX T − (EX)(EX)T .Диагональные элементы этой матрицы суть дисперсии случайных величин ξi . Обозначение cov(X, X) мыбудем заменять коротким DX.Утверждение 3.
Пусть X — случайная величина, A — неслучайная (постоянная) матрица, b — неслучайный(постоянный) вектор. Тогда:D(AX + b) = A(DX)AT ,если AX + b существует (если указанные операции осуществимы, т.е. размерности A, X и b согласованы).Частный случай: скалярное произведение. Пусть A — матрица, состоящая из одной строки.
Рассмотрим Aкак результат транспонирования некоторого вектора a (вектора-столбца): A = aT . При этом AX = aT X —есть скалярное произведение векторов a и X.Утверждение 4.D(aT X) = aT (DX)a2.5.2. Квадратичный риск в многомерном случаеВернемся к поставленной в начале этого параграфа задаче.
Пусть ϕ(·) — некоторая вектор-функция, ϕ(X) —оценка τ (θ) (это векторы-столбцы), и пусть Eθ ϕ(X) = τ (θ), где τ (θ) = (τ1 (θ), . . . , τd (θ))T , θ ∈ Θ ⊂ Rr .Как и в одномерном (однопараметрическом) случае мы готовимся указать границу снизу для квадратичногориска несмещенной оценки. Но прежде надо уточнить, что такое квадратичный риск в многомерном случае икак следует сравнивать квадратичные риски — например, двух разных оценок.Пусть ϕ(X), ψ(X) — две несмещенные оценки τ (θ). Какая из них лучше? Попробуем найти ответ, обратившись к уже изученному одномерному случаю. Выберем произвольный неслучайный вектор. Перейдем от ϕ(X),15ψ(X), τ (θ) к линейным формам (скалярным произведениям) ξ := z T ϕ(X), η := z T ψ(X), t(θ) := z T τ (θ).
Ясно,чтоEθ ξ = Eθ η = t(θ),так что ξ и η суть несмещенные (одномерные) оценки t(θ). В одномерном случае (при квадратичной функциипотерь) из двух несмещенных оценок лучше та, чья дисперсия меньше. В частности, ξ не хуже, чем η, еслиDξ 6 Dη или:z T [Dθ ϕ(X)]z 6 z T [Dθ ψ(X)]z(∗)Мы можем принять такое определение: ϕ(X) лучше, чем ψ(X), если (∗) выполняется для любого вектораz ∈ Rd (и для некоторых z это неравенство строгое).По отношению к переменному z ∈ Rd выражения z T [Dθ ϕ(X)]z и z T [Dθ ψ(X)]z представляют собой квадратичные формы (неотрицательно определенные). Неравенство (∗), если оно выполняется для всех z, линейнаяалгебра истолковывает как соотношение между матрицами квадратичных форм. В данном случае, между матрицами ковариаций Dθ ϕ(X) и Dθ ψ(X): Dθ ϕ(X) 6 Dθ ψ(X)Итак, мы пришли к заключению, что квадратичным риском статистики ϕ(X), несмещённо оценивающейτ (θ), можно назвать ее матрицу ковариаций:Dθ ϕ = Eθ [ϕ(X) − τ (θ)][ϕ(X) − τ (θ)]T .Из двух несмещенных оценок лучше та, чья матрица ковариаций меньше (в указанном выше смысле).
Заметим, что две оценки могут быть несравнимы.Теперь понятно, что многомерное обобщение неравенства Крамера – Рао должно устанавливать границу снизу для матрицы ковариаций несмещенной оценки.2.5.3. Многомерное неравенство Крамера – РаоПереходим к выводу неравенства.Введем оператор частного дифференцирования по θ, который (в виде исключения) запишем как строку:∂∂∂=,...,∂θ∂θ1∂θrОпределим матрицу информации (обобщение количества информации I(θ)):T ∂∂I(θ) = Eθln p(X, θ)ln p(X, θ)∂θ∂θЛегко видеть, что I(θ) — неотрицательно определенная матрица, что мы будем записывать в виде I(θ) > 0.Предположим, что I(θ)−1 существует для всех θ ∈ Θ.Введем матрицу ∂τразмера d × r, положив:∂θ∂τ=∂θ∂τ1∂θ1∂τ2∂θ1∂τ1∂θ2∂τ2∂θ2∂τd∂θ1∂τd∂θ2..................∂τ1∂θr∂τ2∂θr...∂τd∂θrПокажем, что при принятых в пункте 1 «условиях регулярности»:∂τ −1Eθ (ϕ(X) − τ (θ))(ϕ(X) − τ (θ)) >I∂θTДоказательство:Рассмотрим вектор-строку:λ(X, θ) =∂τ∂θT.(1)∂ln p(X, θ).∂θТак же, как и в одномерном случае, находим, чтоEθ λ(X, θ) = 0.Дифференцируем по θ тождествоZϕ(x)p(x, θ)dx = τ (θ);A16(2)получаем, что:Zϕ(x)∂∂τp(x, θ)dx =,∂θ∂θAилиZAϕ(x)∂∂τln p(x, θ) p(x, θ)dx =.∂θ∂θПоследнее равенство означает, что:∂τ.∂θТеперь рассмотрим (неотрицательно определенную) матрицу ковариаций вектораEθ ϕ(X)λ(X, θ) =ϕ(X) − τ (θ) −(3)∂τ −1I (θ)λT (X, θ).∂θ(Обратите внимание на то, что размерности перемножаемых матриц согласованы таким образом, что умножение возможно).Рассмотрим очевидное неравенство:T∂τ −1 T∂τ −1 TI λ(ϕ − τ ) −I λ>0Eθ (ϕ − τ ) −∂θ∂θЛевую часть тождественно преобразуем:TT∂τ −1 T∂τ −1 T∂τ −1 T∂τ −1 TEθ (ϕ − τ )(ϕ − τ )T − Eθ (ϕ − τ )I λ− EθI λ (ϕ − τ )T + EθI λI λ>0∂θ∂θ∂θ∂θВторое слагаемое в (4):Eθ (ϕ − τ )λI−1∂τ∂θT∂τ −1=I∂θ∂τ∂θT,(4)(5)ибо Eθ ϕλ = ∂τ∂θ (см.
(3)), Eθ λ = 0 (см. (2)).Третье слагаемое отличается от второго лишь транспонированием (третье слагаемое — это транспонированное второе). А так как (5) симметрично, то третье слагаемое тоже равно (5).Наконец, четвертое слагаемое даст: T −1 ∂τ T∂τ −1 ∂τ −1 ∂τTIEθ λ λ I=I∂θ∂θ∂θ∂θПриведя в (4) подобные члены, получим отсюда (1), что и требовалось.
Заключим тему неравенств информации и эффективных оценок определением многопараметрическихэкспоненциальных семейств. Плотность (вероятность) для них имеет вид:" r#Xp(x, θ) = expci (θ)Ti (x) + d(θ) + S(X) IA (x).i=1Наиболее важный пример — гауссовское распределение, где плотность зависит от двумерного параметра (a, σ 2 ):1(x − a)2p(x, a, σ2 ) = √exp −.2σ 22πσ 2Вопрос: Для какой (двумерной) функции τ (θ) = (τ1 (a, σ 2 ), τ2 (a, σ 2 ))T существует эффективная оценка?2.6. Достаточные статистикиНапомним, что мы рассматриваем следующую статистическую модель: наблюдение X получено случайнымвыбором из множества X ; случайный выбор управляется распределением вероятностей Pθ , где θ — некоторый(неизвестный) параметр, причем θ ∈ Θ; Θ — заданное множество возможных значений этого параметра.2.6.1. ОпределениеСтатистика T = T (X) называется достаточной для параметра θ, θ ∈ Θ, если условное распределение X приданном значении T (X) одно и то же для всех θ ∈ Θ. (Иначе говоря, если упомянутое условное распределениене меняется (не зависит от θ), когда θ пробегает множество Θ).172.6.2.
Дискретный случайКогда распределение X дискретно, понятие условного распределения X вводится элементарно:(Pθ (X=x), если T (X) = tPθ (X = x, T (X) = t)= Pθ (T (X)=t)Pθ (X = x|T (X) = t) =Pθ (T (X) = t)0,если T (X) 6= tПример: испытания Бернулли.Пусть X = (X1 , . . . , Xn ) — результаты испытаний Бернулли, в которых вероятность успеха есть θ, θ ∈ (0, 1).nPВ качестве статистики T (X) возьмем T =Xi .i=1Здесь Xi принимает значения 0 или 1 (число успехов в испытании номер i), T — общее число успехов в nиспытаниях.Элементарная выкладка показывает, что в этом примере (где x = (x1 , . .
. , xn ) — заданная последовательностьнулей и единиц):nPxi = t C1nt , еслиi=1Pθ (X = x|T (X) = t) =nPеслиxi 6= t0,i=1Как видно из формулы, T =nPi=1Xi есть достаточная статистика для θ, θ ∈ (0, 1).2.6.3. Непрерывный случайТак, для краткости, назовем статистическую модель, в которой распределение Pθ может быть задано спомощью плотности p(x, θ) относительно некоторой меры. Для простоты предположим, что X принимает значения в конечномерном пространстве и что p(x, θ) — плотность относительно лебеговской меры. В этом случаезначения статистики T выделяют множества уровня {x : T (x) = t}.Условное распределение X на множестве уровня {x : T (x) = t} в этом случае можно задать с помощьюплотности (относительно меры Лебега на множестве уровня). Эта условная плотность пропорциональна p(x, θ).Поскольку интеграл от плотности составляет 1, эта условная плотность X при данном T (X) = t, т.е.
на множестве уровня {x : T (x) = t}, равнаp(x, θ)Rp(y, θ)dy{y:T (y)=t}(Выражение в знаменателе — это интеграл по поверхности уровня).2.6.4. Достаточные разбиенияИз определения достаточной статистики следует, что, если случайная функция S = S(T ) находится во взаимно однозначном соответствии с достаточной статистикой T = T (X), то S тоже является достаточной статистикой. Поэтому правильнее было бы говорить не о достаточных статистиках, а о производимых ими разбиенияхвыборочных пространств (разбиениях на множества уровня достаточных статистик). Условные распределенияX на элементах этих разбиений одинаковы для всех распределений θ, когда θ ∈ Θ. Достаточная статистикаT = T (X) разбивает выборочное пространство X на множества уровня {x : T (x) = const}.Пример Пусть X = (X1 , . .
. , Xn ) — выборка из показательного распределения, где плотность отдельногонаблюдения Xi равна(1exp − uθдля u > 0f (u, θ) = θ0для u < 0Параметр θ — неотрицательное число, т.е. θ ∈ (0, ∞). Покажем, что T =nPXi — достаточная статистика для θi=1в этой модели. Плотность X в точке u = (u1 , . . . , un ) есть: nn 1 n exp − T где T = P u , и u > 0;Yiiθθf (u, θ) =i=1i=10в противном случае.18В следующей формуле S :=nPnPyi . Условная плотность X при фиксированном T равна (в точке u такой, чтоi=1ui = T и u1 , . . . , un > 0):i=1R1 nθ{y : S=T,y>0}exp − Tθ=1 nexp − Sθ dyθ1 nexp − TθθR1 nexp − Tθθ{y : S=T,y>0}= const .dyЗдесь оказалось, что условная плотность (на множестве уровня) не только не зависит от θ, — что доказывает,что статистика T достаточна, но не зависит и от координаты y. Это означает, что указанное условное распределение X равномерно.Выкладки, которые мы проделали в двух рассматриваемых примерах, по существу повторяются при доказательстве следующей теоремы:2.6.5.