Лекции по методам математической статистики (1162373), страница 7
Текст из файла (страница 7)
Тогда ЛНОМД дается формулойКак оценить σ 2 ?Заметим, что из (6.8) следует (ξ − Abα)as = 0, s = 1, 2, . . . , k, т.е.(I − A(AT A)−1 AT )ξ ⊥ L(a1 , . . . , ak ) = (I − Πa )ξ.Таким образом, Πa = A(AT A)−1 AT — отогональный проектор на L(a1 , . . . , ak ) — линейнуюоболочку векторов ai (это можно проверить непосредственно).Пусть k < n.
Обозначимs2 = ||ξ − Aα||2 = ||ν||2 ,s21 = ||ξ − Πa ξ||2 = ||ξ − Πa (Aα + ν)||2 = ||(I − Πa )ν||2 ,s22 = ||Πa ξ − Aα||2 = ||A(bα − α)||2 = ||Πa (ξ − Aα)||2 = ||Πa ν||2 .Далее, Es2 = trσ 2 I = nσ 2 , Es21 = σ 2 tr(I − Πa ) = σ 2 (n − k).11Отсюда σb2 = n−ks21 = n−k||ξ − Πa ξ||2 — несмещеная оценка σ 2 .Доверительные множества в нормальной регрессии.Доверительные множества — аналог интервалов в интервальных оценках.Пусть ν ∼ N(0, σ 2 I).
Тогда s22 = ||Πa ξ − Aα||2 = ||Πa ν||2s21 = ||ξ − Πa ξ||2 = ||(I − Πa )ν||2 = σ 2 χ2n−k и независимы, поэтому1 2sk 21s2n−k 1=1 2χk k1χ2n−k n−k=σ 2 χ2k ,= Fk,n−k .(Fk,n−k —распределение Снедекора-Фишера).Пусть P {Fk,n−k 6 ε} = γF (ε), тогда с вероятностью γF (ε)||A(α − αb)||2 = (AT A(α − αb), (α − αb)) 6 εk||(I − Πa )ξ||2 .n−k(6.9)Левая часть неравенства (6.9) представляет собой квадратичную форму относительно координат α с матрицей AT A > 0, поэтому (6.9) определяет в координатах αj эллипсоид сцентром αb (доверительный эллипсоид Хотеллинга).Если нам нужно оценить одну координату αj , то вспомним, что ее дисперсия равнаα −bα2σ (aj , aj )− , поэтому √ 2j j − ∼ N(0, 1), аσ (aj ,aj )αj − αbjq= tn−k ,1(aj , aj )− n−k||(I − Πa )ξ||21 Здесьне делается никаких предположений о ξi , i = 1, 2, . .
. , n.24и если P {|tn−k || < ε} = γt (ε), то с вероятностью γt (ε) неравенствоr(aj , aj )− ||(I − Πa )ξ||2|αj − αbj | 6 εn−kдает интервальную оценку αj .6.2Задачи редукции измерений.1◦ Постановка задачи несмещенной редукции измерений.Для схемы измерений ξ = Af + ν, Mν = 0, Mνν T = σ 2 I ставится задача несмещеннойредукции:inf{M||Rξ − f ||2 | R, RA = I} = inf{σ 2 trRRT | R, RA = I}} = h0 .Решаем уравнение RA = I: R = R0 + Y , где R0 = (AT A)−1 AT , а Y — решение уравненияY A = 0 ⇔ Y Πa = 0 ⇔ Y = Z(I − Πa ), ∀Z.Т.о., общее решение R = (AT A)−1 AT + Z(I − Πa ).В этом случае trRRT = tr(AT A)−1 +trZ(I −Πa )Z T и inf достигается на R = R0 = (AT A)−1 ATи равен h0 = σ 2 tr(AT A)−1 .
Очевидно, этот результат совпадает с результатом, полученным втеореме Гаусса-Маркова.В этом случае Rξ = f + Rν, где Rν — шум, суммарная энергия которого равна h0 .2◦ Задача редукции с ограничением на уровень шума. Часто шум, полученный при решении задачи несмещенной редукции, неприемлемо велик. Вспомним, что ошибка складываетсяиз двух:Rξ = f + (RA − I)f + Rν.Введем расстояние между матрицами1 (операторами) A и B: ρ2 (A − B) = tr(A − B)(A − B)T .6.3Синтез прибора с ограничением на уровень шумаРассмотрим задачуinf{tr(RA − I)(RA − I)T | R, M||Rν||2 6 ε}.P 2.Заметим, что M||Rν||2 = σ 2 trRRT = σ 2 rij(6.10)i,jДалее представим два случая:1.
h0 6 ε. В этом случае условие в задаче (6.10) выполняется и R0 = (AT A)−1 AT — естьрешение, так как любое R = (AT A)−1 AT + Z(I − Πa ) минимизирует ||RA − I||22 .2. Введем систему координат в пространстве матричных элементов (изобразим лишь два!):R26rRAAA'$R0 AU -r rσ 2 trRR∗ = ε=IЛинии уровня tr(RA − I)(RA − I)∗ = const-&%R1Очевидно, решение есть точка касания, где σ 2 trRRT = ε (равно!). Тогда решаем задачуметодом множителей (одного!) Лагранжа. Функция ЛагранжаL(R) = tr(RA − I)(RA − I)T + ωσ 2 trRRT .∇R L = 2(RA − I)AT + 2ωσ 2 R = 0.1 Можно также ввести скалярное произведение (AB) = trAB T и норму ||A|| = {trAAT }1/2 , которая называется нормой22Гильберта-Шмидта.25R(AAT + ωσ 2 I) = AT , R = R(ω) = AT (AAT + ωσ 2 I)−1 = (AT A + ωσ 2 I)−1 AT .Обозначим h = σ 2 trR(ω)RT (ω) = σ 2 tr(AT A + ωσ 2 I)−1 AT A(AT A + ωσ 2 I)−1 и1g(ω) = tr(RA − I)(RA − I)T = ω 2 σ 4 tr(AT A + ωσ 2 I)−2 .Пусть далее {ei } — ортонормированный базис из собственных векторов оператора AT A:TA Aei = λi ei , λ1 > λ2 > · · · > λk > 02 .
Тогдаh=σ2kXi=1Вычислимпроизводные:λi,(λi + ωσ 2 )2dhdωg=σkXi=1kP−2σ 4=4i=1ω2.(λi + ωσ 2 )2λi(λi +ωσ 2 )3<0,0<ω<∞,kP1h −→ h0 = σ 2= σ 2 tr(AT A)−1 , h −→ 0. Поэтому уравнение h(ω) = ε при ε < ε0 = h0 имеетλiω→0ω→0i=1единственное решение.ik hkPPdgλi2ω2ω 2 σ 244−=2ωσи поэтому имеет местоКроме того, dω = σ2223(λi +ωσ )(λi +ωσ )(λi +ωσ 2 )3i=1i=1дифференциальный закон сохранения:dhdg+= 0.dω dωИтак, общее решение задачи (6.10) имеет вид: R(ω) = (AT A + ωσ 2 I)−1 , 0 < ε < ε0 = h0 = σ 2 tr(AT A)−1 ,0ε − 0,R=T−1 TR0 = (A A) A ,ε > ε0 = h0 ,ω(6.11)(6.12)при этом выполняется (6.11).Зависимость g от ε носит название оперативной характеристики.
При этом характеристика, график которой лежит ниже, соответствует равномерно лучшему прибору.g6rОперативные характеристикиrrε07-εПроверка статистических гипотез7.1Постановка задачиПусть P = {Pϑ , ϑ ∈ Θ} — некоторое семейство вероятностных мер (распределений) на измеримом пространстве (X, A) и пусть с ним связана некоторая гипотеза H (непротиворечивоеутверждение относительно параметра ϑ). Альтернативу обозначим K.
Будем предполагать,что если параметр ϑ известен, то можно сказать, верна гипотеза или нет3 . Это означает, чтораспределения класса P разбиваются на два множества, которые мы будем обозначать темиже буквами: P = H ∪ K, причем, если Pϑ ∈ H, то гипотеза верна, если Pϑ ∈ K, то гипотезаневерна (верна альтернатива).используется равенство I − RA = I − (AT A + ωσ 2 I)−1 AT A = ωσ 2 (AT A + ωσ 2 I)−1 .= k 6 n.3 В данном случае речь идет о так называемых параметрических гипотезах. Существуют также и непараметрические гипотезы— относительно распределения в целом (например, относительно функции распределения).1 Здесь2 rank A26Если Θ обозначает множество значений параметра ϑ, то предыдущее разбиение индуцирует разбиение ϑ: Θ = ΘH ∪ ΘK , причем H = {Pϑ , ϑ ∈ ΘH } и K = {Pϑ , ϑ ∈ ΘK }. Далее гипотезакак утверждение и множество H отождествляются.Поскольку вывод о справедливости гипотезы предполагается делать в терминах наблюдений случайной величины ξ, которая контролируется распределением Pϑ , ϑ ∈ Θ, естественнона множестве значений ξ определить решающую функцию ϕ(·), принимающую два значения: dH , если гипотеза принимается и dK , если гипотеза не принимается.
Без ограниченияобщности можно считать, что dH = 0, а dK = 1.Тем самым выборочное пространство разбивается на два непересекающихся множества:SH = {x : ϕ(x) = 0}, SK = {x : ϕ(x) = 1}.Множество SK называется критическим. Если наблюдаемое значение ξ попадает в SK , тогипотеза отвергается. SH — множество принятия гипотезы H.Для каждого значения ξ представляется четыре возможности:1. Гипотеза принята (ϕ(x) = 0), параметр ϑ ∈ ΘH — ошибки нет.2. Гипотеза отвергнута (ϕ(x) = 1), параметр ϑ ∈ ΘK — ошибки также нет.3.
Гипотеза отвергнута (ϕ(x) = 1), параметр ϑ ∈ ΘH — ошибка 1-го рода, ее вероятностьравнаPϑ {ϕ(ξ) = 1} = Pϑ {ξ ∈ SK }, ϑ ∈ ΘH .4. Гипотеза принята (ϕ(x) = 0), параметр ϑ ∈ ΘK — ошибка 2-го рода, ее вероятностьравнаPϑ {ϕ(ξ) = 0} = Pϑ {ξ ∈ SH }, ϑ ∈ ΘK .Одновременно уменьшить обе ошибки, как правило, трудно, поэтому обычно задают границу для вероятности отклонения H, когда гипотеза на самом деле верна (т.е. ошибку первогорода):Pϑ {ϕ(ξ) = 1} = Pϑ {ξ ∈ SK } 6 α, ∀ϑ ∈ ΘH .Число α называют уровнем значимости, а числоsup Pϑ {ξ ∈ SK }ΘH(для удобства) размером критерия или критической области1 .
При этом желательно сделатьминимальной вероятность Pϑ {ξ ∈ SH }, ϑ ∈ ΘK (ошибку 2-го рода), или, что то же самое,сделать максимальной вероятностьβ = Pϑ {ξ ∈ SK } = 1 − Pϑ {ξ ∈ SH }, ϑ ∈ ΘKее отвергнуть, когда она на самом деле неверна. Рассматриваемая как функция ϑ ∈ ΘK прификсированном значении α, она называется мощностью критерия для H при альтернативеK. В общем случае β(ϑ), ϑ ∈ Θ называется функцией мощности критерия H.Если на практике мощность слишком мала, то следует увеличить уровень значимости α,сбалансировав вероятность отвергнуть H, если гипотеза верна, и отвергнуть K, если гипотезаневерна.
Если мы априори уверены в гипотезе H, то для ее отклонения нужны веские доводы. В этом случае следует выбирать низкий уровень значимости. Вероятность ошибиться,отвергнув H, при этом мала.Пусть выбран уровень значимости α, тогда задача состоит в выборе критической функцииϕ, такой, что мощность β(ϑ) для всех ϑ ∈ ΘK максимальна при условии, что Eϑ ϕ(ξ) 6 α,ϑ ∈ ΘH .При этом мы сталкиваемся с характерной трудностью, состоящей в том, что как правило,критическая функция (критерий), максимизирующая мощность при некоторой альтернативе1Сходнымпонятиемявляетсятакназываемаянадежностькритерия,равнаяслучайнойвеличинеα(ξ) = min{α|ξ ∈ Sα , PH (Sα ) = α}. Если же критерий равномерно наиболее мощный, то α(ξ) — надежность гипотезы.27ϑ ∈ ΘK , зависит от этой альтернативы.
Поэтому необходимы дополнительные соображенияо том, что следует понимать под оптимальной решающей процедурой.Может оказаться, что один и тот же критерий максимизирует мощность для всех альтернатив из K. Такие критерии называются равномерно наиболее мощными.Предварительный пример. Пусть гипотеза и альтернатива каждая содержат по одномураспределению («простая» гипотеза и «простая» альтернатива). То и другое предполагаютсядискретным.
Задача построения критического множества эквивалентна вариационной задаче:XXPK (x) ∼ max,PH (x) 6 α.x∈SKx∈SKНетрудно видеть, что в SK должны быть включены точки x1 , x2 , ..., упорядоченные по величине отношения t(x) = PK (x)/PH (x):t(x1 ) > t(x2 ) > ....В SK включается максимальное число таких точек, ограниченное условиемXPH {ξ ∈ SK } =PH (x) 6 α.t(x)>cОднако может оказаться, что включив очередную точку в SK , мы не достигаем α , а включивследующую, превосходим α. Эта трудность преодолевается переходом к рандомизированнымкритериям.
С помощью рандомизации можно «расщепить» очередную точку, взяв в SK такуюее часть, чтобы получить суммарную вероятность в точности равную α, не нарушая при этомпорядка точек.Рандомизированный критерий строится следующим образом. Пусть в точке x вероятностьотклонения гипотезы равна ϕ(x), а вероятность принятия равна 1 − ϕ(x). Если наблюдениеξ = x, то производится случайный эксперимент с двумя исходами r и r, имеющими вероятности ϕ(x) и 1 − ϕ(x). Если выпадает r, то гипотеза отвергается, если же выпадает r —принимается.Для простой гипотезы и простой альтернативы всегда существует наиболее мощный критерий.Теорема (фундаментальная лемма Неймана-Пирсона).Пусть PH и PK — распределения вероятностей, обладающие плотностями pH и pK соответственно по отношению к некоторой мере µ (например, µ = pH + pK ).
Тогда1◦ . (Существование) Для проверки H : PH при конкурирующей гипотезе K : PK найдетсякритерий ϕ и константа λ такие, чтоиEH ϕ(ξ) = α(7.1)(1, когда pK > λpH ,ϕ(x) =0, когда pK < λpH .(7.2)2◦ . (Достаточное условие для критерия наибольшей мощности) Если критерий удовлетворяет требованиям (7.1) и (7.2) при некотором λ, то он является наиболее мощным критериемуровня α для проверки распределения PH при конкурирующем PK .3◦ . (Необходимое условие для критерия наибольшей мощности) Если ϕ наиболее мощныйкритерий уровня α для проверки распределения PH при конкурирующем PK , то при некотором λ он удовлетворяет (7.2) почти всюду по мере µ. Он также удовлетворяет (7.1), кромеслучая, когда существует критерий размера < α и мощности 1.Пусть 0 < α < 1.