Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 6
Текст из файла (страница 6)
Теорема факторизацииТеорема 2.2. Статистика T = T (X) достаточна для параметра θ, θ ∈ Θ, тогда и только тогда, когдасуществуют функции g(t, θ) и h(x) такие, чтоp(x, θ) = g T (X), θ h(x)(∗)при всех θ ∈ Θ.Замечание:Величина p(x, θ) обозначает либо плотность наблюдения X в точке x, если модель непрерывна, либо вероятность точки x, если модель дискретна. Доказательство проведем отдельно для дискретного случая; в непрерывном случае оно слабо отличается.1◦ Если выполнено (∗), то T = T (X) — достаточная статистика для θ. Надо показать, что P (X|T (X)) независит от θ ∈ Θ.Сначала вычислим:Pθ (T = t) =Pp(x, θ) =x:T (x)=tPg(T (x), θ)h(x) = g(t, θ)x:T (x)=tPh(x).x:T (x)=tТеперь для x такого, что T (x) = t получаем, что:Pθ (X=x,T (X)=t)θ (X=x)= PθP(TPθ (T (X)=t)(X)=t) =h(x)P−результатнезависитотh(x)Pθ (X = x|T (X) = t) =g(T (x),θ)h(x)Pg(t,θ)h(y)y:T (y)=t=T (x)=tθ ∈ Θ.Если же x таково, что T (x) 6= t, то обсуждаемая условная вероятность равна 0, вне зависимости от θ.Достаточность условия (∗) доказана.2◦ Если T — достаточная статистика, то (∗) выполнено.
Если T достаточна, то для таких x, что T (x) = t, идля всех θ ∈ ΘPθ (X = x|T (X) = t) = h(x)- результат не зависит от θ, обозначим его через h(x),илиPθ (X = x, T (X) = t)= h(x).Pθ (T (X) = t)Поскольку T (x) = t, то дробь в левой части есть:Pθ (X = x).Pθ (T (X) = t)ОтсюдаPθ (X = x) = Pθ (T (X) = t)h(x)Обозначив Pθ (T (X) = t) через g(t, θ), получим то, что и требовалось доказать. Заметим, что h(x) — это условная вероятность X при данном T (в точке x), либо h(x) пропорциональна этойусловной вероятности.
Аналогично g(x, θ) лишь постоянным множителем может отличаться от вероятностиPθ (T (X) = t).192.6.6. Пример: линейная модель(a) Линейная (гауссовская) модель — важный объект исследований и приложений. Сначала будет дана ееабстрактная формулировка, а затем одна из конкретных форм.Наблюдаемый объект — вектор X. Сейчас мы считаем его n-мерным: X = (X1 , . .
. , Xn )T — вектор-столбец. Его координаты считаем независимыми случайными величинами, распределенными по нормальномузакону, причем DXi = σ 2 , i = 1, n. Значение σ 2 неизвестно.Относительно EX предположим, что EX, будучи неизвестным, принадлежит заданному линейномуподпространству L, L ⊂ Rn .Если обозначить EX = l, E(X − EX)(X − EX)T = Dθ X = σ 2 I (I — единичная матрица), то X ∼ N (l, σ 2 I),причем l ∈ L, L — задано.(b) Покажем, что достаточной статистикой для (составного) параметра θ = (l, σ 2 ), причем l ∈ L, служит пара(projL X, | projL⊥ X|2 ).
Здесь через projM обозначен оператор проектирования (в евклидовой метрике) наподпространство M ⊂ Rn ; L⊥ обозначает ортогональное дополнение L до Rn , т.е. Rn = L ⊕ L⊥ .Для доказательства достаточно указать плотность X и затем ее преобразовать:p(X, θ) =1√σ 2πn()n1 X2exp − 2(Xi − li )=2σ i=1n112√exp − 2 |X − l| ==2σσ 2πn211 √exp − 2 (projL X − l) + projL⊥ X =2σσ 2πПо теореме Пифагора:|(projL X − l) + projL⊥ X|2 = | projL X − l|2 + | projL⊥ X|2 ,ибо (projL X − l) ⊥ projL⊥ X , т.к. l ∈ L.Поэтому плотность X равнаn11122√exp − 2 | projL X − l| exp − 2 | projL⊥ X|2σ2σσ 2πМы видим, что плотность зависит от статистик projL X и | projL⊥ X|2 , но не от X непосредственно. Этапара и составляет достаточную статистику. (Заметим, что функция h(X) здесь равна 1, точнее — постояннапо отношению к X. Это означает, что условное распределение X при фиксированном значении достаточнойстатистики — равномерное.)(c) Линейная регрессия.
Задача линейной регрессии — одна из частных форм линейной модели. В простейшем случае это задача о подборе функции одного переменного — подборе по неточным наблюдениям(измерениям).Предположим, что две переменные t и x связаны соотношением x = f (t), где f (·) — некоторая функция.При некоторых значениях переменной t (называемой часто фактором) t1 , . . . , tn были произведены измерения переменной x (называемой откликом). Они дали значения x1 , .
. . , xn . При этом xi = f (ti ) + εi , гдеε1 , . . . , εn — некоторые ошибки, сопровождающие измерения. Основное предположение состоит в том, чтомы считаем упомянутые ε1 , . . . , εn независимыми случайными величинами. Менее важные предположения: εi распределены одинаково и распределены по нормальному закону N (0, σ 2 ). Предположение Eεi = 0отражает представление о том, что систематических ошибок при измерении отклика в нашей схеме нет.Величина σ обычно считается неизвестной (необязательно).
Она численно выражает неточность (изменчивость) измерений, т.е. масштаб случайных ошибок.Последнее предположение, превращающее задачу регрессии в линейную: считаем, что f (·) можно (с достаточной аккуратностью) выразить в виде линейной комбинации заданного конечного набора функций(скажем ϕ1 , . .
. , ϕm ): существуют параметры θ1 , . . . , θm такие, чтоf (t) = θ1 ϕ1 (t) + . . . + θm ϕm (t).20В этом случае вектор X = (x1 , . . . , xn )T представляется в виде линейной комбинации векторов:TΦj = ϕj (t1 ), . . . , ϕj (tn ) , j = 1, mи вектора ε случайных ошибок: ε = (ε1 , . . . , εn )T :X=mXθj Φj + ε.j=1Линейное подпространство L, которому заведомо принадлежит вектор EX, в данном случае порожденовекторами Φ1 , . . . , Φm .(d) Нормальная выборка. Рассмотрим выборку x1 , . . . , xn из нормальной совокупности N (a, σ 2 ), где параметры a ∈ R, σ 2 ∈ (0, ∞) неизвестны.
Теорема факторизации помогает найти достаточные статистикидля (a, σ 2 ). Выпишем плотность этой модели (пользуясь независимостью гауссовских случайных величинx1 , . . . , xn ) и преобразуем ее:(" n#)n nnYX1(xi − a)21 X 212√ exp −√=exp − 2x − 2axi + na.2σ 22σ i=1 iσ 2πσ 2πi=1i=1Поскольку плотность зависит от переменных x1 , . . . , xn лишь посредством статистикnPxi иi=1nPi=1x2i , эта параи является достаточной статистикой для (a, σ 2 ). Мы уже обращали внимание на то, что главным в определении достаточной статистики T = T (X) является не ее конкретный вид, а то разбиение выборочногопространства на множества уровня вида {T (X) = const}, которое она производит.
Любая другая статистика, если она порождает то же самое разбиение, тоже является достаточной. В частности, достаточнойокажется любая статистика, находящаяся во взаимно однозначном соответствии с T (X).Для обсуждаемой нормальной выборки предпочитаемой достаточной статистикой служит:nx=n1Xxi ,n i=11 X(xi − x)2n − 1 i=1s2 =Легко видеть, что (x, s2 ) взаимно однозначно связана с (nPi=1xi ,nPi=1x2i ).О преимуществах, которые дает статистика (x, s2 ) перед другими статистиками для (a, σ 2 ), мы подробнеебудем говорить позже. Сейчас же отметим лишь то, что x и s2 несмещенно оценивают a и σ 2 :Es2 = σ 2Ex = a,Заметим, что эти соотношения справедливы для любой, не только гауссовской, выборки (если Dx2i существуют).Выборка из N (a, σ 2 ) является частным случаем линейной модели.
Рассмотрим вектор X = (x1 , . . . , xn )T .Его математическое ожидание равно (a, a, . . . , a)T , и потому принадлежит линейному подпространству L,порожденному вектором (1, . . . , 1)T . Так как координаты вектора X независимы и одинаково распределены,то DX = σ 2 I.
Таким образом, предпосылки линейной модели соблюдены.Достаточные статистики общей линейной модели в данном случае суть:projL X = x(1, 1, . . . , 1)T ,| projL⊥ X| =nXi=1(xi − x)2 = (n − 1)s2 .(e) При обсуждении гауссовской линейной модели мы отмечали, что условное распределение X при фиксированном значении достаточной статистики - равномерное. Из этого обстоятельства можно извлечь интересные следствия. В данном примере упомянутое условное распределение сосредоточено на (n − 2)-мернойсфере:nnXX{y : y ∈ Rn ,yi = x,(yi − y)2 = (n − 1)s2 }i=1i=121Рассмотрим векторY =xn − xx1 − x x2 − x√, √,..., √,s n−1 s n−1s n−1TПри фиксированном значении достаточной статистики (x, s2 ) вектор Y является линейным (и взаимнооднозначным) преобразованием вектора X.
Поэтому условное (при фиксированных x, s2 ) распределениеY тоже является равномерным. Это условное распределение сосредоточено на (n − 2)-мерной единичнойсфере()nnXXn2Sn−2 = y : y ∈ R ,yi = 0,yi = 1 .i=1i=1Теперь заметим, что сказанное условное распределение Y при данных x, s2 — одно и то же (а именноравномерное на Sn−2 ) при любых значениях x, s2 .
Значит:1. вектор Y как случайный элемент не зависит от x, s2 ;2. (безусловное) распределение Y совпадает с условным, т.е. является уже известным равномернымраспределением на Sn−2 .Из сказанного следует, что для нормальной выборки такие (часто применяемые на практике) статистики,34n n PP(xi −x)(xi −x)как выборочная асимметрияивыборочныйэксцессне зависят от (x, s2 ). А ихssi=1i=1распределения не зависят от X и могут быть вычислены (табулированы).Упомянутые статистики обычно в виде выборочного коэффициента асимметрииnβ1 =1X(xi − x)3 /s3n i=1и выборочного коэффициента эксцессаn1Xβ2 =n i=1(xi − x)s4−3могут служить для проверки нормальности имеющейся выборки, т. е.