Н.И. Чернова - Математическая статистика (1115306), страница 16
Текст из файла (страница 16)
Сформулировать критерий Фишера в случае, когда средние известны. Какой статистикой вы воспользуетесь теперь?Критерий Фишера используют в качестве первого шага в задаче проверки однородности двух независимых нормальных выборок. Особенно часто возникает необходимость проверить равенство средних двух нормальных совокупностей — например, вмедицине или биологии для выяснения наличия или отсутствия действия препарата. Этазадача решается с помощью критерия Стьюдента (с ним мы познакомимся на следующей странице), но только в случае, когда неизвестные дисперсии равны.
Для проверкиэтого предположения пользуются сначала критерием Фишера. Самое печальное, еслигипотеза равенства дисперсий отвергается критерием Фишера, либо если сразу заведомоизвестно, что неизвестные дисперсии различны. Задачу о проверке равенства среднихв этих условиях называют проблемой Беренса — Фишера. Ее решение возможно лишьв частных случаях, и больше о ней мы ничего говорить не будем.758.7. Совпадение средних двух нормальных выборок с равными дисперсиямиЕсть две независимые выборки: X = (X1 , . . .
, Xn ) из Na1 ,σ2 и Y = (Y1 , . . . , Ym )из Na2 ,σ2 , причем дисперсия σ2 одинакова для обоих распределений, но, вообще говоря,неизвестна. Проверяется сложная гипотеза H1 = {a1 = a2 }.Эта задача есть частный случай задачи об однородности. Для ее решения построимкритерий Стьюдента точного размера ε.Из леммы Фишера вытекает следующее утверждение.Теорема 12.
Случайная величина tn+m−2 , равнаяrtn+m−2 =nm(X − a1 ) − (Y − a2 )·sn+m(n − 1)S20 (X) + (m − 1)S20 (Y)n+m−2имеет распределение Стьюдента Tn+m−2 с n+m−2 степенями свободы.Доказательство теоремы 12.1. Легко видеть, убедиться, что легко! что X − a1 имеет распределение N0,σ2/n , а Y − a2имеет распределение N0,σ2/m . Тогда их разность распределена тоже нормально снулевым средним и дисперсией равнойD (X − a1 ) − (Y − a2 ) =σ2 σ2n+m+= σ2 ·.nmnmНормируем эту разность. Величина1ξ0 =σrnm(X − a1 ) − (Y − a2 )n+mимеет стандартное нормальное распределение.2. Из леммы Фишера следует, что независимые случайные величины (n−1) S20 (X)/σ2и (m−1) S20 (Y)/σ2 имеют распределения Hm−1 и Hn−1 соответственно, а их суммаS2 =1 22(n−1)S(X)+(m−1)S(Y)00σ2имеет χ2 -распределение Hn+m−2 с n+m−2 степенями свободы и не зависит от Xи от Y.ξ0как раз имеет распределение Стью3.
По определению 17, отношение qS2 /(n+m−2)дента Tn+m−2 . Осталось подставить в эту дробь ξ0 и S2 и убедиться, что σсократится и получится в точности tn+m−2 из теоремы 12.rВведем функцию ρ(X, Y) =nmX−Y.·sn+m(n − 1)S20 (X) + (m − 1)S20 (Y)n+m−2Из теоремы 12 следует свойство K1(а): если H1 верна, т. е. если a1 = a2 , товеличина ρ = tn+m−2 имеет распределение Стьюдента Tn+m−2 .76Упражнение. Доказать свойство K1(б): для любой альтернативы к основной гипотезе (т. е.
как только a1 6= a2 ) величина |ρ| неограниченно возрастает по вероятностис ростом n и m.Указание. Воспользовавшись ЗБЧ или свойствами 2–4 из 1-й лекции, доказать, чточислитель и знаменатель сходятся к постоянным:pX − Y −→ const 6= 0,(n − 1)S20 (X) + (m − 1)S20 (Y) p−→ const 6= 0,n+m−2тогда как корень перед дробью неограниченно возрастает.Поэтому остается по ε найти C = τ1−ε/2 — квантиль распределения Tn+m−2 . Длятакого C величина tn+m−2 из распределения Tn+m−2 удовлетворяет равенствуP (|tn+m−2 | > C) = 2P (tn+m−2 > C) = ε.И критерий Стьюдента выглядит как все критерии согласия:H1 , если |ρ(X, Y)| < C,δ(X, Y) =H2 , если |ρ(X, Y)| > C.Упражнение. Доказать, что этот критерий имеет точный размер ε.Упражнение.
Построить критерий для проверки гипотезы о равенстве среднихдвух независимых нормальных выборок с произвольными известными дисперсиями.8.8. Гипотеза о среднем нормальной совокупности с известной дисперсиейИмеется выборка X = (X1 , . . . , Xn ) из нормального распределения Na,σ2 с известной дисперсией σ2 . Проверяется простая гипотеза H1 = {a = a0 } против сложнойальтернативы H2 = {a 6= a0 }.Построим критерий точного размера ε с помощью функции отклонения ρ(X)ρ(X) =√ X − a0n.σОчевидно свойство K1(а): если H1 верна, то ρ(X) имеет стандартное нормальноераспределение.pУпражнение. Доказать свойство K1(б): если a 6= a0 , то |ρ(X)| −→ ∞.По ε выберем C = τ1−ε/2 — квантиль стандартного нормального распределения.Тогдаε = PH1 (|ρ(X)| > C).Критерий выглядит как все критерии согласия:H1 , если |ρ(X)| < C,δ(X) =H2 , если |ρ(X)| > C.(28)Упражнение. Доказать, что этот критерий имеет точный размер ε и являетсясостоятельным.Упражнение.
Построить критерий для различения трех гипотез: H1 = {a = a0 },H2 = {a < a0 } и H3 = {a > a0 }.778.9. Гипотеза о среднем нормальной совокупности с неизвестной дисперсиейПроверяется та же гипотеза, что и в предыдущем разделе, но в случае, когдадисперсия σ2 неизвестна. Критерий, который мы построим, тоже называют критериемСтьюдента, только одновыборочным.Введем функцию отклонения ρ(X) равнуюρ(X) =√ X − a0n q,S201 X(Xi − X)2 .n−1nгде S20 =i=1Сразу по п.
4 следствия леммы Фишера имеем K1(а): если a = a0 , то ρ имеетраспределение Стьюдента Tn−1 .Упражнение. Доказать свойство K1(б).Критерий строится в точности как в (28), но в качестве C следует брать квантильраспределения Стьюдента, а не стандартного нормального распределения. почему?Упражнение. Нарисовать критерий и доказать, что этот критерий имеет точныйразмер ε и является состоятельным.Упражнение. В самом ли деле три последних критерия состоятельны?Напоминание. А вы доказали выполнение свойства K1(б) для функций отклонения этихкритериев, чтобы говорить о состоятельности?Примечание. А что такое «состоятельность» критерия?8.10. Критерии, основанные на доверительных интервалахИмеется выборка X = (X1 , . .
. , Xn ) из семейства распределений Fθ . Проверяетсяпростая гипотеза H1 = {θ = θ0 } против сложной альтернативы H2 = {θ 6= θ0 }.Пусть имеется точный (асимптотически точный) доверительный интервал (θ− , θ+ )для параметра θ уровня доверия 1 − ε. Взяв произвольное θ 0 , для выборки из распределения Fθ 0 имеемPθ 0 (θ− < θ 0 < θ+ ) = 1 − ε (→ 1 − ε).Тогда критерийδ(X) =H1 , если θ0 ∈ (θ− , θ+ ),H2 , если θ0 6∈ (θ− , θ+ )имеет точный (асимптотический) размер ε.
Действительно,α1 (δ) = PH1 (δ=H2 ) = Pθ0 (θ0 6∈ (θ− , θ+ )) = 1 − Pθ0 (θ− < θ0 < θ+ ) = ε (→ ε).Если доверительный интервал строится с помощью «функции отклонения» G(X, θ),то эта же функция годится и в качестве «функции отклонения» ρ(X) для построениякритерия согласия.Пример 33. Посмотрим на критерий (28). Основная гипотеза H1 принимается,только если |ρ(X)| < C = τ1−ε/2 , что равносильно неравенству√ X − a 0 < τ1−ε/2 , nσ илиX−τ1−ε/2 στ1−ε/2 σ√< a0 < X + √.nnСравните то, что получилось, с точным доверительным интервалом (13) для параметра aнормального распределения с известной дисперсией.789.
Исследование статистической зависимостиЧасто требуется определить, как зависит наблюдаемая случайная величина от однойили нескольких других величин. Самый общий случай такой зависимости — зависимость статистическая: например, X = ξ + η и Z = ξ + φ зависимы, но эта зависимостьне функциональная.Для зависимых случайных величин имеет смысл рассмотреть математическое ожидание одной из них при фиксированном значении другой (других). Такое условноематематическое ожидание показывает, как влияет на среднее значение первой величиныизменение значений второй. Скажем, стоимость квартиры зависит от площади, этажа,района и других параметров, но не является функцией от них.
Зато в широких предположениях можно считать ее математическое ожидание функцией от этих величин.Разумеется, наблюдать это среднее значение мы не можем — в нашей власти лишьнаблюдать значения первой случайной величины при разных значениях остальных. Этузависимость можно воображать как вход и выход некоторой машины — «ящика с шуршавчиком». Входные данные, или «факторы», как правило, известны. На выходе мынаблюдаем результат преобразования входных данных в ящике по каким-либо правилам.9.1.
Математическая модель регрессииПусть наблюдаемая случайная величина X зависит от случайной величины илислучайного вектора Z. Значения Z мы либо задаем, либо наблюдаем. Обозначимчерез f(t) функцию, отражающую зависимость среднего значения X от значений Z:E (X | Z = t) = f(t).(29)Функция f(t) называется линией регрессии X на Z, а уравнение x = f(t) — регрессионным уравнением. После n экспериментов, в которых Z последовательно принимаетзначения Z = t1 , . . . , Z = tn , получим значения наблюдаемой величины X, равные X1 , . .
. , Xn . Обозначим через εi разницу Xi − E (X | Z = ti ) = Xi − f(ti ) междунаблюдаемой в i-м эксперименте случайной величиной и ее математическим ожиданием.Итак, Xi = f(ti ) + εi , i = 1, . . . , n, где εi — ошибки наблюдения, равные вточности разнице между реальным и усредненным значением случайной величины Xпри значении Z = ti . Про совместное распределение ε1 , . . . , εn обычно что-либоизвестно или предполагается: например, что вектор ошибок ε состоит из независимых иодинаково нормально распределенных случайных величин с нулевым средним.
Нулевоесреднее тут необходимо:E εi = E Xi − f(ti ) = E (X | Z = ti ) − E (X | Z = ti ) = 0.Требуется по значениям t1 , . . . , tn и X1 , . . . , Xn оценить как можно точнее функцию f(t). Величины ti не являются случайными, так что вся случайность сосредоточенав неизвестных ошибках εi и в наблюдаемых Xi . Но пытаться в классе всех возможных функций восстанавливать f(t) по «наилучшим оценкам» для f(ti ) довольно глупо— наиболее точными приближениями к f(ti ) оказываются Xi , и функция f(t) будетпросто ломаной, построенной по точкам (ti , Xi ). Поэтому сначала заранее определяютвид функции f(t).
Часто предполагают, что f(t) есть полином (редко больше третьейили четвертой степени) с неизвестными коэффициентами. Будем пока предполагать,что функция f(t) полностью определяется неизвестными параметрами θ1 , . . . , θk .799.2. Метод максимального правдоподобияОценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизировать функцию правдоподобия случайного вектора X1 , . . . , Xn .Будем, для простоты, предполагать, что вектор ошибок ε состоит из независимыхи одинаково распределенных случайных величин с плотностью распределения h(x) изнекоторого семейства распределений с нулевым средним и, вообще говоря, неизвестнойдисперсией.