1625915145-5b3debabab98d9e994cc3a1bc8da0f5b (843876), страница 20
Текст из файла (страница 20)
Проверяется гипотеза H1 = {X и Y независимы}.Введём k интервалов группировки ∆1 , . . . , ∆k для значений Xи m интервалов группировки ∇1 , . . . , ∇m для значений Y :m∑Y⃗ ∇1 ∇2 . . . ∇mj=1⃗X∆1ν11 ν12 . . . ν1m ν1··......∆kνk1 νk2 . . . νkm νk··k∑ν· 1 ν· 2 . . . ν· mni=1Посчитаем эмпирические частоты:νij = число пар (Xl , Yl ), попавших в ∆i ×∇j ,ν· j = число Yl , попавших в ∇j ,νi·· = число Xl , попавших в ∆i .Если гипотеза H1 верна, то теоретические вероятности попадания пары (X, Y ) в любую из областей ∆i × ∇j равны произведению вероятностей: для всех i и j()() ()pij = P (X, Y ) ∈ ∆i × ∇j = P X ∈ ∆i · P Y ∈ ∇j = p xi · pjyИменно эту гипотезу (назовём её H1′ ) мы в действительности и проверяем.
По ЗБЧ при n → ∞νi··np−→ p xi ,ν· jnПоэтому большая разница междуνijp−→ p yi ,νijnиνi··nn×ν· jnp−→ p ij .(или между νij иνi·· ν· jn)служит основанием для отклонения гипотезы независимости. Пусть⃗ Y⃗ ) = nρ(X,)2k ∑m (∑νij − (νi·· ν· j )/ni=1 j=1νi·· ν· j.Т е о р е м а 29. Если гипотеза H1 верна, то при n → ∞⃗ Y⃗ ) ⇒ H(k−1)(m−1) .ρ(X,(29)108ГЛАВА VIII. КРИТЕРИИ СОГЛАСИЯКритерий согласия асимптотического размера ε строится как обычно:по заданному ε найдём C, равное квантили уровня 1 − ε распределенияH(k−1)(m−1) .
Тогда критерий имеет вид{⃗ ⃗⃗ Y⃗ ) = H1 , если ρ(X, Y ) < C,δ(X,⃗ Y⃗ ) ⩾ C.H2 , если ρ(X,У п р а ж н е н и е . Чтобы объяснить вид функции ρ и теорему 29,убедитесь, что гипотеза H1′ есть гипотеза о принадлежности распределения выборки параметрическому семейству распределений с векторомнеизвестных параметров (p x1 , . . .
, p xk−1 ; p y1 , . . . , p ym−1 ), имеющим размерность d = k + m − 2. Подставив ОМП νi·· /n для p xi и ν· j /n для pjyв функцию∑ (νij − np xi pjy )2ρ=x yi,jnp i pjиз равенства (26), получим (29). Всего есть km интервалов. По теореме 24(с. 98) при верной H1′ предельное χ2-распределение имеет число степенейсвободы km − 1 − d = (k − 1)(m − 1).Замечания 20 и 21 по поводу числа km интервалов группировки остаются в силе.§ 5. Проверка простых гипотез о параметрахПроверка гипотезы о среднем нормального распределения с известной⃗ = (X1 , .
. . , Xn ) из нормального распредисперсией. Имеется выборка Xделения Na, σ2 с известной дисперсией σ2 . Проверяется простая гипотезаH1 = {a = a0 } против сложной альтернативы H2 = {a ̸= a0 }.Построим критерий точного размера ε с помощью функции√⃗ = n X − a0 .ρ(X)σ⃗ ⊂= N0, 1 .Очевидно свойство (K1): если H1 верна, то ρ(X)По ε выберем C = τ1−ε/2 — квантиль стандартного нормального распределения. Критерий выглядит как все критерии согласия:{⃗⃗ = H1 , если |ρ(X)| < C,δ(X)(30)⃗ ⩾ C.H2 , если |ρ(X)|p⃗ −→У п р а ж н е н и е .
Доказать (K2): если a ̸= a0 , то |ρ(X)|∞. Доказать, что критерий 30 имеет точный размер ε и является состоятельным.§ 5. Проверка простых гипотез о параметрах109Проверка гипотезы о среднем нормального распределения с неизвестной дисперсией. Проверяется та же гипотеза, что и в предыдущем разделе, но в случае, когда дисперсия σ2 неизвестна. Критерий, который мыпостроим, называют одновыборочным критерием Стьюдента.Введём функцию отклонения√⃗ = n X√− a0 ,ρ(X)2S0гдеS02n1 ∑=(Xi − X)2 .n−1i=1По п.
4 самого полезного следствия леммы Фишера (c. 76) выполненосвойство (K1): если a = a0 , то ρ имеет распределение Стьюдента Tn−1 .Критерий строится в точности как в (30), но в качестве C следуетбрать квантиль распределения Стьюдента, а не стандартного нормального распределения (почему?).У п р а ж н е н и е .
Доказать свойство (K2). Записать критерий и доказать, что он имеет точный размер ε и является состоятельным.Критерии, основанные на доверительных интервалах. Имеется выбор⃗ = (X1 , . . . , Xn ) из семейства распределений Fθ , где θ ∈ Θ. Прока Xверяется простая гипотеза H1 = {θ = θ0 } против сложной альтернативыH2 = {θ ̸= θ0 }.Пусть имеется точный доверительный интервал (θ− , θ+ ) для параметра θ уровня доверия 1 − ε. Взяв произвольное θ′ , для выборки из распределения Fθ′ имеемP(θ− < θ′ < θ+ ) = 1 − εТогда критерий{⃗ =δ(X)H1 , если θ0 ∈ (θ− , θ+ ),H2 , если θ0 ̸∈ (θ− , θ+ )имеет точный размер ε :α1 (δ) = PH1 (δ = H2 ) = PH1 (θ0 ̸∈ (θ− , θ+ )) = 1 − PH1 (θ− < θ0 < θ+ ) = ε.⃗ θ),Если доверительный интервал строится с помощью функции G(X;⃗то эта же функция годится и в качестве «функции отклонения» ρ(X)для построения критерия согласия. Критерий заданного асимптотического размера по асимптотическому доверительному интервалу строится совершенно аналогично.110ГЛАВА VIII.
КРИТЕРИИ СОГЛАСИЯ§ 6. Вопросы и упражнения1. Построить критерий для проверки равенства дисперсий двух независимых нормальных выборок с известными средними, статистика которого имеет при верной основной гипотезе распределение Фишера с n и mстепенями свободы.2. Построить критерий для проверки гипотезы о равенстве среднихдвух независимых нормальных выборок с произвольными известнымидисперсиями, статистика которого имеет при верной основной гипотезестандартное нормальное распределение.3.
Построить критерий точного размера ε для различения трёх гипотез о среднем нормального распределения с неизвестной дисперсией:H1 = {a = a0 }, H2 = {a < a0 } и H3 = {a > a0 }.4. Какие из приведённых в главе VIII критериев можно сформулировать, используя доверительные интервалы? Сделать это.5.
Проверяется простая гипотеза о параметре H1 = {θ = θ0 } противальтернативы H2 = {θ ̸= θ0 }. Какими свойствами должен обладать доверительный интервал, чтобы критерий, построенный с его помощью, былсостоятелен?6. Имеется выборка из распределения Бернулли. Построить критерийдля проверки гипотезы p = 1/2 при альтернативе p ̸= 1/2.7. Подбросить игральную кость 300 раз и проверить её правильностьс помощью подходящего критерия.8.
Подбросить симметричную монету 200 раз и проверить своё умениеправильно её подбрасывать с помощью критерия χ2 .9. Построить критерий асимптотического размера ε для проверки гипотезы однородности двух независимых выборок с разными объёмами израспределения Бернулли.10. Показать, что при k = 2 критерий для решения задачи однофакторного дисперсионного анализа совпадает с критерием Стьюдента.11. Доказать основное дисперсионное соотношение.Г Л А В А IXИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИЧасто требуется определить, как зависит наблюдаемая случайная величинаот одной или нескольких других величин.
Самый общий случай такой зависимости — зависимость статистическая: например, X = ξ + η и Z = ξ + φзависимы, но эта зависимость не функциональная. Для зависимых случайных величин имеет смысл рассмотреть математическое ожидание одной изних при фиксированном значении другой и выяснить, как влияет на среднее значение первой величины изменение значений второй. Так, стоимостьквартиры зависит от площади, этажа, района и других параметров, но неявляется функцией от них.
Зато можно считать её среднее функцией отэтих величин. Разумеется, наблюдать это среднее значение мы не можем —в нашей власти лишь наблюдать значения результирующей случайной величины при разных значениях остальных. Эту зависимость можно воображать как вход и выход некоторой машины — «ящика с шуршавчиком».Входные данные (факторы) известны. На выходе мы наблюдаем результатпреобразования входных данных в ящике по каким-либо правилам.§ 1. Математическая модель регрессииПусть наблюдаемая случайная величина X зависит от случайной величины или случайного вектора Z. Значения Z мы либо задаём, либонаблюдаем.
Обозначим через f (t) функцию, отражающую зависимостьсреднего значения X от значений Z :E(X | Z = t) = f (t).(31)Функция f (t) называется линией регрессии X на Z , а уравнение x = f (t) — уравнением регрессии. После n экспериментов, в которыхZ последовательно принимает значения Z = t1 , . . . , Z = tn , получимзначения наблюдаемой величины X, равные X1 , .
. . , Xn . Обозначим через εi разницу Xi − E(X | Z = ti ) = Xi − f (ti ) между наблюдаемой в i -мэксперименте случайной величиной и её математическим ожиданием.112ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИИтак, Xi = f (ti ) + εi , i = 1, . . . , n, где εi — ошибки наблюдения, равные в точности разнице между реальным и усредненным значением случайной величины X при значении Z = ti . Про совместное распределениеε1 , . . . , εn обычно что-либо известно или предполагается: например, чтовектор ошибок ⃗ε состоит из независимых и одинаково нормально распределённых случайных величин с нулевым средним.
Нулевое среднее тутнеобходимо:E εi = EXi − f (ti ) = E(X | Z = ti ) − E(X | Z = ti ) = 0.Требуется по значениям t1 , . . . , tn и X1 , . . . , Xn оценить как можноточнее функцию f (t). Величины ti не являются случайными, вся случайность сосредоточена в неизвестных ошибках εi и в наблюдаемых Xi .Но пытаться в классе всех возможных функций восстанавливать f (t) по«наилучшим оценкам» для f (ti ) довольно глупо: наиболее точными приближениями к f (ti ) оказываются Xi , и функция f (t) будет просто ломаной, построенной по точкам (ti , Xi ). Поэтому сначала определяют видфункции f (t).
Часто в качестве f (t) берут полином небольшой степенис неизвестными коэффициентами.Будем пока предполагать, что функция f (t) полностью определяетсянеизвестными параметрами θ1 , . . . , θk .Метод максимального правдоподобия. Оценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизироватьфункцию правдоподобия случайного вектора X1 , . .