1612725170-875f1dc1af30a046ee4b954c4f0d36bd (828896), страница 8
Текст из файла (страница 8)
. . , yr ) и имеетi=1распределение χ2 с n − r степенями свободы.Д ОКАЗАТЕЛЬСТВО . Заметим, что расстояние между любыми двумя точками в пространстве Rn сохраняется при ортогональных преобразованиях. Значит, длины векторов X и YnnnPPPyi2 . В силу этогоyi2 − y12 − . . . − yr2 =совпадают.
Тогда Q(X) =x2i − y12 − . . . − yr2 =i=r+1i=1i=1представления для Q(X) оба утверждения следствия очевидны. Следствие 2. Пусть X – выборочный вектор из распределения N (α, σ). Тогда1)nS 2σ2∼ χ2n−1 ;2) случайные величины S 2 и x независимы.Построение доверительного интервала для дисперсии. Из второго пункта утверждения теоремы следует алгоритм построения доверительного интервала для параметра σ при2.
Тогда согласно общей теонеизвестном параметре α. Рассмотрим функционал G(σ) = nSσ2(1)(2)реме о построении доверительных интервалов, необходимо найти числа tε и tε такие, что(1)(2)P(tε < G(σ) < tε ) = 1 − ε. Обычно границы интервала ищут, исходя из следующих равенств:εε(2)P(G(σ) < t(1)ε ) = ; P(G(σ) < tε ) = 1 − .22Д ОКАЗАТЕЛЬСТВО . ПреобразуемnnS21 X1 X xi − x ± α 22=).(x−x)=(iσ2nσ 2 i=1n i=1σРассмотрим перенормированные величины xei =xi −ασ2∈ N (0, 1). Тогда Sσ2 =1nnPi=1(exi − xe)2 = Se2 .Следовательно,n √ 2 XnS 22= nex − xe n =xe2i −σ2i=1n1 X√xein i=1!2=nXxe2i − y12 .i=1Вектор ( √1n , .
. . , √1n ) можно достроить до ортонормированного базиса, а значит, можно восстановить матрицу C из леммы Фишера. В силу следствия 1 получаем, что случайная величинаnS 2распределена по закону χ2n−1 .σ2Квадратичная формаnnnnS 2 X 21 X 2 X 2Q(X) = 2 =xei − ( √xei ) =xei − y12σn i=1i=1i=1не зависит от y1 опять же в силу следствия 1. Осталось вспомнить, что любые борелевскиепреобразования независимых случайных величин будут также независимыми, и заметить, что√n1 X xiαnαy1 = √− √ =x− √ .σn i=1 σσ nσ n29Построение доверительных границ для среднего.Определение. Пусть ξ0 , ..., ξm независимы и имеют стандартное нормальное распределение. Распределение случайной величиныrξ0mP1mξi2i=1называется распределением Стьюдента с m степенями свободы и обозначается Tm .Заметим, что для независимых случайных величин ξ0 ∈ N (0, 1) и ηm ∈ χ2m имеемrξ0mP1mdξi2=qξ0∼ Tm .1ηm mi=1m1 X 2В силу УЗБЧ имеемξ −−→ 1 при m → ∞.
Используя известные теоремы непреm i=1 i п.н.рывности, получаем, что распределение Стьюдента Tm слабо сходится к стандартному нормальному распределению при m → ∞.Отметим, что распределение Стьюдента симметрично.Для построения доверительного интервала введем в рассмотрение функционал√n(x − α),G(α, X) =S0nгде S02 = n−1S 2 – несмещенная оценка для дисперсии. Докажем, что G(α, X) ∈ Tn−1 .
Действительно,√n(x − α)/σG(α, X) =.S0 /σСогласно следствию 2 леммы Фишера числитель и знаменатель последней дроби являютсянезависимыми случайными величинами. Окончательно,G(α, X) = qξ0d=qnS 2(n−1)σ 2ξ01ηn−1 n−1∈ Tn−1 .Пусть τε – квантиль уровня 1 − ε/2 (при ε ∈ (0, 1)) распределения Tn−1 . Тогда границыдоверительного интервала для неизвестного параметра α выглядят следующим образом:S0 τεαn− = x − √ ,nS0 τεαn+ = x + √ .n30Асимптотические доверительные интервалы.Если распределение выборки не является нормальным, то вышеописанная конструкциядоверительных интервалов не работает.
Однако при значительных объемах наблюдений можно использовать асимптотический подход, который по сути сводит рассматриваемую задачу кнормальным выборкам.Определение. Упорядоченная пара статистик (θn− , θn+ ) называется асимптотическимдоверительным интервалом уровня доверия 1 − ε, еслиlim P (θn− < θ < θn+ ) > 1 − ε.n→∞Построение асимптотических доверительных интервалов с помощьюАНО.+Теорема. Пусть√ +θn – произвольная асимптотически нормальная оценка для параметра θ, т. е.
n(θn − θ) ⇒ η ∈ N(0,σ) , где коэффициент рассеивания σ(θ) непрерывен.Тогда асимптотические доверительные границы определяются по формуламθn± = θn∗ ±tε σ(θn∗ )√ ,nгде tε – квантиль уровня 1 − ε/2 для стандартного нормального распределения, т. е.Φ(−tε ) = ε/2.Д ОКАЗАТЕЛЬСТВО . Поскольку любая асимптотически нормальная оценка состоятельнаи функция σ(θ) непрерывна, то√ ∗σ(θ)n(θn − θ)→ 1,−⇒ η ∈ N(0,1) .∗σ(θn ) pσ(θ)Вспомним лемму из курса теории вероятностей: если ξn ⇒ ξ, ηn −→ c, то ξn ηn ⇒ cξ. Используяpэто утверждение, мы получаем√ ∗√n(θn − θ)σ(θ) n(θn∗ − θ)=⇒ η ∈ N(0,1) .σ(θn∗ )σ(θn∗ )σ(θ)Построение асимптотических доверительных интервалов на этом заканчивается:√ ∗n(θn − θ)lim P −tε << tε = Φ(tε ) − Φ(−tε ) = 1 − 2Φ(−tε ) = 1 − εn→∞σ(θn∗ )(используя свойство Φ(x) = 1 − Φ(−x)).
√Пример. Пусть X ∈ {πλ }, θn∗ = X – асимптотически нормальная оценка, σ(λ) √= λ.tε XТогда при больших n доверительные границы вычисляются по формулам λ±.n = X ± √nУпражнение. Несимметричная монетка кидается 10000 раз. Построить асимптотическиедоверительные интервалы для параметра p бернуллиевского распределения Bp .31Задачи проверки статистических гипотез.Определение. Гипотезой Hk будем называть любое суждение о неизвестном распределении. Гипотеза называется простой, если она однозначно восстанавливает неизвестноераспределение: Hk = {Fθ = Fθ0 } или, в терминах параметров, Hk = {θ = θ0 }.В противном случае гипотеза Hk называется сложной.Пример 1. Наблюдаемое распределение имеет стандартный нормальный закон, т.
е. θ0есть вектор (0, 1) – двумерный параметр. Это простая гипотеза.Пример 2. Наблюдаемое распределение пуассоновское Hk = {F ∈ {πλ }} – сложнаягипотеза.Будем рассматривать случай, когда проверка гипотез сводится к конечному числу гипотез(наиболее часто – двух). Проверка означает выбор наиболее правдоподобной гипотезы.Определение. Статистический критерий для проверки конечного числа гипотез– измеримое отображение выборочного пространства в конечный отрезок натурального ряда:δ : Xn → {1, . .
. , m}.Если δ(X) = i, то номер i соответствует гипотезе Hi .Что же определяет качество статистического критерия? Начнем с проверки простых гипотез, т. е. будем считать H1 , . . . , Hm простыми. Символом Pi будем обозначат вероятность техили иных событий на выборочном пространстве, если выборка распределена в соответствии сi-ой гипотезой.Ошибкой i-го рода называется событие δ(X) 6= i при том, что гипотеза Hi верна.
Вероятность ошибки i-го рода есть величинаαi (δ) = Pi (δ(x) 6= i),i = 1, m.Пример. Пусть m = 2. Врач принимает пациента. Обозначим гипотезы: H1 = {здоров},H2 = {болен}. Выборкой являются анализы. Пациент может быть здоров, но анализы покажут, что он болен – ошибка первого рода. Может быть наоборот – ошибка второго рода. Обаслучая не очень хорошие, но нельзя сказать, что они симметричны.Качество критерия характеризуется величинами ошибок i-го рода (желательно, чтобы всеони были небольшими, но это не всегда реализуемо).Существование оптимального критерия в случае двух простых гипотез. Теорема Неймана - Пирсона.Рассмотрим параметрическое семейство плотностей {fθ } относительно некоторой σ-конечноймеры.
Проверяются две простые гипотезы H1 = {θ = θ1 } и H2 = {θ = θ2 }, так что параметрическое семейство состоит из двух точек.Введем в рассмотрении класс Kε = {δ | α1 (δ) 6 ε} – класс всех статических критериев, укоторых вероятность ошибки первого рода не превосходит ε.Теорема (Нейман – Пирсон) В классе Kε существует критерий δ ∗ с минимальнойвероятностью ошибки второго рода:α2 (δ ∗ ) = inf{α2 (δ) | δ ∈ Kε }.Оптимальный критерий определяется следующим образом:(ΨX (2)6 cε ,1, ΨX (1)δ ∗ (x) =2, иначе,32где Ψx (i) – функция правдоподобия i-го распределения. Критический уровень cε вычисляется из определения вероятности ошибки первого рода:ΨX (2)∗P1 (δ (X) = 2) = P1> cε = ε.ΨX (1)Предполагается, что для данного ε такое cε найдется, хотя далеко не всегда оно существует, скажем, когда рассматривается выборка из дискретного распределения.
В этом случаепроблема решается введением так называемого рандомизированного критерия.Обычно одну из гипотез называют основной, а другую – конкурирующей или альтернативной. Оптимальный критерий δ ∗ традиционно называют критерием отношения правдоподобия, поскольку он построен с помощью статистики, задаваемой отношением функцийправдоподобия.Д ОКАЗАТЕЛЬСТВО . Для любого δ ∈ Kε пусть S1 ⊂ Xn – область приема первой (основной) гипотезы, S2 = S1 – так называемая критическая область приема конкурирующейгипотезы.
Рассмотрим вероятность ошибки второго рода критерия δ:α2 (δ) = P2 (δ = 1) = P2 (X ∈ S1 ) =→[так как у вектора X есть плотность распределения Ψ−z (2), то]ZZZ→→→n −n −∗n −→→−→−= Ψ z (2)λ (d z ) = α2 (δ ) + Ψ z (2)λ (d z ) − Ψ−z (2)λ (d z ).S1S1∗S1ОбозначимZ∆=−→z )−n−Ψ→z (2)λ (dZ→n −→Ψ−z (2)λ (d z ).S1∗S1Покажем, что ∆ > 0. Для критерия δ ∗ соответствующие области приема гипотез обозначимчерез S1∗ и S2∗ . В дальнейшем для кратности будем использовать сокращенную запись интегралов. ИмеемZZZ→Ψ−z (2) =→Ψ−z (2) +S1 ∩S2∗S1→Ψ−z (2) >S1 ∩S2∗→→[S2∗ = S1∗ и на множестве S1 ∩ S2∗ выполнено Ψ−z (1) – подставляем и получаемz (2) > cε Ψ−оценку снизу]ZZ→→> cεΨ−Ψ−z (1) +z (2).S1 ∩S2∗S1 ∩S1∗Для второго интеграла в определении ∆ аналогично получаем оценку сверху:ZZZZZ→−→−→−→−→Ψ z (2) +Ψ z (2) 6 cεΨ z (1) +Ψ−Ψ z (2) =z (2).S1∗S1∗ ∩S2S1∗ ∩S1S1∗ ∩S2S1∗ ∩S1Таким образом,Z∆ > cε Z→Ψ−z (1) −S1 ∩S2∗S1∗ ∩S233→Ψ−z (1)Z= cε S1 ∩S2∗ZZZ→Ψ−z (1) ±→Ψ−z (1) −S2 ∩S2∗S1∗ ∩S2Z→Ψ−z (1) − cε→Ψ−z (1) = cεS2∗→Ψ−z (1) =S2= cε P1 (δ ∗ = 2) − cε α1 (δ).Следовательно, ∆ > cε (ε − α1 (δ)).
Так как α1 (δ) 6 ε, то ∆ > 0, что и требовалось показать. Байесовский подход для проверки конечного числа простых гипотез.Мы уже отметили, что качество статистического критерия для проверки конечного числапростых гипотез определяется малостью вероятностей i-го родаαi (δ) = Pi (δ(x) 6= i),i = 1, m.Как правило, попытки уменьшить одну или несколько из указанных вероятностей приводитк возрастанию оставшихся. Случай двух простых гипотез, описанный в теореме Неймана –Пирсона, стоит особняком.Байесовский подход предлагает определять достоинство того или иного критерия не малостью вероятностей ошибок i-го рода в отдельности, а с помощью так называемой взвешенной вероятности ошибки:mXαQ (δ) =αi (δ)qi .i=1Здесь без ограничения общности предполагается,что набор положительных весов {qi ; i =P1, ..., m} является распределением, т. е. что qi = 1. Оно называется априорным распределением гипотез.Оказывается, что при таком подходе существует оптимальный критерий, называемый байесовским, который минимизирует взвешенную вероятность ошибки при любом наперед заданном априорном распределении гипотез.Теорема (Байес).