Лекции по методам математической статистики (1162373), страница 9
Текст из файла (страница 9)
. . , µ0 ), а Π — ортогональный проектор наµ0,||µ0 ||или, что то же самое,XX(xj − µ0 )2 =(xj − x)2 + n(x − µ0 )2 ,то)−n/2−n/2 (2√n(x − µ0 )2n(x − µ0 )1√λ= 1+ P= 1+,(xj − x)2 )k(I − Π)xk/ n − 1 n − 1√n(x−µ0 )√где статистика k(I−Π)xk/при гипотезе µ = µ0 контролируется распределением Стьюдентаn−1с n−1 степенью свободы.Тем самым критерий отношения правдоподобия λ < C эквивалентен√n|x−µ0 |e и является подобным1 и несмещенным (β > α).√критерию |tn−1 | = k(I−Π)xk/>Cn−11 Тесты, в которых критическое множество не зависит от свободных параметров, называются подобными выборочному пространству, или просто подобными.34Критерий отношения правдоподобияв теории нормальной (линейной) регрессииНаиболее важное приложение принцип отношения правдоподобия при конечном объемевыборки находит в теории нормальной регрессии.
В качестве иллюстрации рассмотрим задачу проверки гипотезы о равенстве нулю некоторых коэффициентов в схеме нормальнойрегрессии. Именно, пусть требуется выбрать между двумя возможностями:H : ξ ∈ N(α1 e1 + ... + αk ek , kσ 2 δij k); eq = (eq1 , ..., eqn ),K : ξ ∈ N(α1 e1 + ... + αk ek + ... + αs es , kσ 2 δij k); i, j = 1, 2, ..., n.Так какmax L(x, ϑ) =Θn/21 2π n minαPj1P(xj − αq eqj )2 nexp − ,2qто получаем следующее выражение для отношения правдоподобия−n/2 −n/2k(Πs − Πk )xk2kx − Πk xk2= 1+.λ=kx − Πs xk2kx − Πs xk2Если верна гипотеза H, то kx − Πs xk2 ∼ σ 2 χn−s , k(Πs − Πk x)k2 ∼ σ 2 χs−k и, следовательно,в этом случаеk(Πs −Πk x)k2s−kkx−Πs xk2n−s= Fs−k,n−s .Поэтому критерий λ < C эквивалентен F -критерию: Fs−k, n−s > Cα , где Cα определяетсяиз условия P {Fs−k, n−s > Cα } = α.
Последняя вероятность может быть получена из таблицраспределения Снедекора-Фишера.Также, как принцип нахождения оценок максимального правдоподобия, критерий, основанный на отношении правдоподобия имеет "приблизительный" характер, тем не менее, онобладает хорошими асимптотическим свойствами, в частности, состоятельностью.Пусть S — критическое множество гипотезы ϑ ∈ ΘH при альтернативе ϑ ∈ ΘK .
Соответствующий критерий называется состоятельным критерием объема α, еслиlim Pϑ (S) 6 α, ϑ ∈ ΘH lim Pϑ (S) = 1, ϑ ∈ ΘK .n→∞n→∞Критерий χ2 .1. Рассмотрим полиномиальное распределение с параметрами pk и найдем матрицу ковариаций.Eξi ξj = pi pjEξi2=p2i∂2∂p2i∂2∂pi ∂pjrXEξi = npi ,i = 1, .
. . , r,!nrXpk= n(n − 1)pi pj ,pki, j = 1, . . . , r,k=1!n+ Eξi = n(n − 1)p2i + npi ,i = 1, . . . , r.k=1Отсюдаcovξi ξj = n(δij pi − pi pj ),i, j = 1, . . . , r.В дальнейшем будем рассматривать вектор ξ = (ξ1 , . . . , ξr−1 ) с r − 1 независимыми координатами и его положительно определенную ковариационную матрицу covξi ξj размера r − 1.352. Легко проверить умножением, что справедлива формула(A − xx∗ )−1 = (A)−1 +(A)−1 x((A)−1 x)∗,1 − x∗ (A)−1 xгде A = A∗ — обратимая матрица, x — вектор-столбец, * — знак сопряжения (транспонирования).3. Полагая A = ||δij pi ||, а x = (p1 , p2 , . . . , pr−1 )∗ получимee∗1δij11−1−1A += + ,||covξi ξj || =nprn pipr где e = A−1 x = (1, 1, .
. . , 1)∗ — вектор размерности (r − 1).4. Сформируем квадратичную форму (ξi − npi )∗ ||covξi ξj ||−1 (ξi − npi ), которая сходится кχ2r−1 распределению:r−1X(ξi − npi )∗ ||covξi ξj ||−1 (ξj − npj ) =i,j=1=r−1X(ξi − npi )2i=1npir+(ξr − npr )2 X (ξi − npi )2=.nprnpii=1Окончательно имеем (обычно в книгах пишут ni вместо ξi )rX(ni − npi )2i=1npi∼ χ2r−1 .Таким образом, получаем асимптотический (при n → ∞) критерий для гипотезы ϑ = pпротив альтернативы ϑ 6= p:rX(nj − npj )2> Cα ,(7.23)npjj=1гдеP (χ2r−1 > Cα ) = α.Этот критерий является примером асимптотически непараметрического критерия, т.к.предельное распределение используемых в нем статистик является «абсолютным», т.е. никакне связано с природой исходного распределения.
Отсюда виден подход к решению задачипроверки непараметрических гипотез: используется специальный прием параметризации —группировка данных.Область возможных значений наблюдаемых величин разбивается на r непересекающихсяобластей и вместо наблюдения указывается лишь тот интервал, в который это наблюдение попало. Проведенная редукция выборки x ∈ Rn к вектору ξ называется группировкой данных.Ясно, что при этом происходит частичная потеря информации, которая, впрочем, уменьшается при дроблении областей.
К другим недостаткам этого метода относится необъективныйхарактер выбора областей, зависящий от выборки и/или от исследователя.8Теория статистических решенийРассмотрим типичную ситуацию, в которой возникает задача принятия решения. Предположим, что нам известны возможные «состояния природы» ϑ ∈ Θ например, ϑ1 , . .
. , ϑk иопределены возможные «действия» d ∈ D, например, d1 , . . . , dN , которые связаны с состояниями природы таким образом, что действие di , выполненное при состоянии природы ϑjвлечет потери l(ϑi , dj ) (или другие «неприятности», оцениваемые числом l(ϑi , dj ), причем36значения риска, сопутствующие каждой комбинации ϑi , dj известны, или, иначе говоря, известен риск потерь l(ϑ, d), ϑ ∈ Θ, d ∈ D. Разумеется, на практике множества Θ и D необязательно конечны.Если состояние природы ϑ известно, то вопрос о действии d естественно решается следующим образом: в каждом состоянии природы ϑ ∈ Θ следует выполнять то или те действияd ∈ D, при котором риск l(ϑ, d) минимален. В данном случае правило действия состоитв наблюдении за состоянием природы и принятии определенного решения о действии, если минимум l(ϑ, d) как функции d ∈ D достигается на одном действии di .
Если минимумl(ϑ, d), соответствующий состоянию природы ϑ достигается на нескольких d ∈ D, скажем наdi1 , . . . , dim , то можно выполнить любое из них. Но можно также воспользоваться экспериментом с m случайными исходами α1 , α2 , . . . , αm , p(α1 )+p(α2 )+· · ·+p(αm ) = 1. В этом случаепрежде, чем принять решение о действии в состоянии природы ϑ, можно разыграть случайный эксперимент и принять решение о действии dip если исходом эксперимента окажется αp .Такое правило называется рандомизированным, в отличие от правил di1 , . .
. , dim , которые называются чистыми. В случае рандомизированного правила риск l(ϑ, d) при фиксированномϑ является случайной величиной, ноEl(ϑ, d) =mXl(ϑ, di )pt = l(ϑ, dit ) = l(ϑ),i = i1 , . . . , i m .t=1На самом деле, конечно, состояние природы в момент принятия решения обычно неизвестно. Если, однако, о состоянии природы неизвестно ничего (в том числе, неизвестно множествоΘ возможных состояний природы), то нет и задачи принятия решения: можно принять любоерешение, так как в терминах риска невозможно привести аргументы в пользу какого-нибудьодного из них. Если же известно множество Θ всевозможных состояний природы, то оптимальное правило можно определить, например, как решение d∗ ∈ D задачиc∗ = max l(ϑ, d∗ ) = min max l(ϑ, d),ϑ∈Θ(8.1)d∈D ϑ∈Θминимизирующее в (8.1) максимальный риск max l(ϑ, d) = l(ϑ(d), d), d ∈ D, отвечающийϑ∈Θнаиболее неблагоприятному состоянию природы ϑ = ϑ(d∗ ) ∈ Θ.Примечательно, что если в этой ситуации решение должно приниматься неоднократно,то правило d∗ , найденное в (8.1), может быть улучшено в среднем путем его рандомизации, согласно которой решения d1 , .
. . , dN каждый раз принимаются случайно с некоторымивероятностями p1 , . . . , pN . Точнее, рандомизированное решение (или рандомизированное действие) — это случайная величина δ со значениями в D, распределенная согласно условиюP (δ = di ) = pi , i = 1, . . . , N .Теперь, чтобы определить оптимальное рандомизированное правило действия δ ∗ , в отличиеот задачи (8.1), требуется найти распределение p∗1 , . . . , p∗N , минимизирующее максимальноезначение математического ожидания риска, или, короче — ожидаемый риск, который какфункция δ является случайной функцией λ(ϑ) = l(ϑ, δ), ϑ ∈ Θ.
Иначе говоря, оптимальноерандомизированное действие δ ∗ определяется как решение задачиmax El(ϑ, δ ∗ ) = min max El(ϑ, δ),ϑ∈ΘвкоторойEl(ϑ, δ)=δNPpi l(ϑ, di )(8.2)ϑ∈Θиmini=1δвычисляетсянамножествеP = {(p1 , . . . , pN ), pi > 0, i = 1, . . . , N, p1 + .
. . , +pN = 1} всех распределений δ.Для Θ = {ϑ1 , . . . , ϑk } определим ожидаемый (маргинальный) риск, отвечающий состояниюприроды ϑt ,lt (p) = El(ϑt , δ) =NXpi l(ϑt , di ),i=137t = 1, . . . , k,(8.3)вектор l(p) = (l1 (p), . . . , lk (p)) ∈ Rk , p ∈ P, и его значения l(i) = l(p(i) ) приp = p(i) = (0, . . . , 0, pi = 1, 0, . . . , 0), i = 1, . . . , N .В задаче (8.1) требуется найти точку l(p∗ )=(l1 (p∗ ), . . . , lk (p∗ ))=NNPP=(El(ϑ1 , δ ∗ ), .
. . , El(ϑk , δ ∗ ))≡( p∗i l(ϑ1 , di ), . . . , p∗i l(ϑk , di ))∈L=i=1i=1{l(p), p ∈ P} = co{l(1) , . . . , l(N ) }, максимальная координата которой минимальна1 ,max lt (p∗ ) = min max lt (p) = min max lt , l = (l1 , . . . , lk ). Поскольку L — ограниченное16t6kp∈P 16t6kp∈P 16t6kkвыпуклое и замкнутое множество в R , а max(l1 , . . . , lk ), l = (l1 , . . . , lk ) ∈ Rk — непрерывнаяфункция на Rk , то задача на минимум (6.10), записанная в видеc∗r = max(l1∗ , .
. . , lk∗ ) = min{max{l1 , . . . , lk }|l ∈ L} =(8.4)= min{max{l1 (p), . . . , lk (p)}|p ∈ P},всегда имеет решение.На рис. 1 представлены графические иллюстрации решений задач (8.1) и (8.2) в постановке (8.3), (8.4) в случае k = 2, N = 8. Рассмотрим теперь задачу принятия решения, вРис. 1. Множество L = co(l(1) , . . .
, l(8) ); множество {(l1 , l2 ) ∈ R2 ,max(l1 , l2 ) = c}, множество{(l1 , l2 ) = max(l1∗ , l2∗ ) = c∗ }, где l1∗ = l(ϑ1 , d∗ ), l2∗ = l(ϑ2 , d∗ ), d∗ — решение задачи (8.1); c∗r — значение минимума в задаче (8.4), определяющее распределение оптимального рандомизированного дей(1)(3)(1)(3)ствия δ ∗ , p∗2 = p∗4 = p∗5 = p∗6 = p∗7 = p∗8 = 0, p∗1 l1 + p∗3 l1 = p∗1 l2 + p∗3 l2 = c∗r , p∗1 + p∗3 = 1;max El(ϑs , δ ∗ ) = c∗r 6 max l(ϑs , d∗ ) = c∗ , т.е. ожидаемый риск c∗r , сопутствующий рандомизированному реше-s=1,2s=1,2нию δ ∗ в (8.4), меньше риска c∗ , сопутствующего решению d∗ в (8.1).которой возможны наблюдения над природой x ∈ X = {x1 , . .