Математическая статистика (PDF) (543620), страница 18
Текст из файла (страница 18)
4 следствия леммы Фишера имеем K1(а): если a = a0 , то ρ имеетраспределение Стьюдента Tn−1 .На стр. ... из 179Упражнение. Доказать свойство K1(б).НазадВо весь экранУйтиКритерий строится в точности как в (28), но в качестве C следует брать квантильраспределения Стьюдента, а не стандартного нормального распределения. почему?Упражнение. Нарисовать критерий и доказать, что этот критерий имеет точныйразмер ε и является состоятельным.Упражнение.
В самом ли деле три последних критерия состоятельны?Напоминание. А вы доказали выполнение свойства K1(б) для функций отклонения этихкритериев, чтобы говорить о состоятельности?Стр. 155Примечание. А что такое «состоятельность» критерия?8.10.ОглавлениеКритерии, основанные на доверительных интервалахИмеется выборка X = (X1 , . . . , Xn ) из семейства распределений Fθ . Проверяетсяпростая гипотеза H1 = {θ = θ0 } против сложной альтернативы H2 = {θ 6= θ0 }.Пусть имеется точный (асимптотически точный) доверительный интервал (θ− , θ+ )для параметра θ уровня доверия 1 − ε. Взяв произвольное θ 0 , для выборки из распределения Fθ 0 имеемPθ 0 (θ− < θ 0 < θ+ ) = 1 − εJJIIJIНа стр.
... из 179Тогда критерийδ(X) =(→ 1 − ε).H1 , если θ0 ∈ (θ− , θ+ ),H2 , если θ0 6∈ (θ− , θ+ )имеет точный (асимптотический) размер ε. Действительно,Назадα1 (δ) = PH1 (δ=H2 ) = Pθ0 (θ0 6∈ (θ− , θ+ )) = 1 − Pθ0 (θ− < θ0 < θ+ ) = ε (→ ε).Во весь экранЕсли доверительный интервал строится с помощью «функции отклонения» G(X, θ),то эта же функция годится и в качестве «функции отклонения» ρ(X) для построениякритерия согласия.УйтиПример 33. Посмотрим на критерий (28). Основная гипотеза H1 принимается,только если |ρ(X)| < C = τ1−ε/2 , что равносильно неравенству√ X − a 0 n < τ1−ε/2 ,σ Стр.
156илиX−τ1−ε/2 στ1−ε/2 σ√< a0 < X + √.nnСравните то, что получилось, с точным доверительным интервалом (13) для параметра aнормального распределения с известной дисперсией.9. Исследование статистической зависимостиОглавлениеJJIIJIНа стр. ... из 179НазадВо весь экранУйтиЧасто требуется определить, как зависит наблюдаемая случайная величина от однойили нескольких других величин. Самый общий случай такой зависимости — зависимость статистическая: например, X = ξ + η и Z = ξ + φ зависимы, но эта зависимостьне функциональная.Для зависимых случайных величин имеет смысл рассмотреть математическое ожидание одной из них при фиксированном значении другой (других).
Такое условноематематическое ожидание показывает, как влияет на среднее значение первой величиныизменение значений второй. Скажем, стоимость квартиры зависит от площади, этажа,района и других параметров, но не является функцией от них. Зато в широких предположениях можно считать ее математическое ожидание функцией от этих величин.Разумеется, наблюдать это среднее значение мы не можем — в нашей власти лишьнаблюдать значения первой случайной величины при разных значениях остальных.
Этузависимость можно воображать как вход и выход некоторой машины — «ящика с шуршавчиком». Входные данные, или «факторы», как правило, известны. На выходе мынаблюдаем результат преобразования входных данных в ящике по каким-либо правилам.9.1. Математическая модель регрессииПусть наблюдаемая случайная величина X зависит от случайной величины илислучайного вектора Z. Значения Z мы либо задаем, либо наблюдаем. Обозначимчерез f(t) функцию, отражающую зависимость среднего значения X от значений Z:Стр. 157E (X | Z = t) = f(t).(29)ОглавлениеJJIIJIФункция f(t) называется линией регрессии X на Z, а уравнение x = f(t) — регрессионным уравнением.
После n экспериментов, в которых Z последовательно принимаетзначения Z = t1 , . . . , Z = tn , получим значения наблюдаемой величины X, равные X1 , . . . , Xn . Обозначим через εi разницу Xi − E (X | Z = ti ) = Xi − f(ti ) междунаблюдаемой в i-м эксперименте случайной величиной и ее математическим ожиданием.Итак, Xi = f(ti ) + εi , i = 1, . . . , n, где εi — ошибки наблюдения, равные вточности разнице между реальным и усредненным значением случайной величины Xпри значении Z = ti . Про совместное распределение ε1 , .
. . , εn обычно что-либоизвестно или предполагается: например, что вектор ошибок ε состоит из независимых иодинаково нормально распределенных случайных величин с нулевым средним. Нулевоесреднее тут необходимо:На стр. ... из 179E εi = E Xi − f(ti ) = E (X | Z = ti ) − E (X | Z = ti ) = 0.НазадВо весь экранУйтиСтр. 158Требуется по значениям t1 , . . . , tn и X1 , . . . , Xn оценить как можно точнее функцию f(t).
Величины ti не являются случайными, так что вся случайность сосредоточенав неизвестных ошибках εi и в наблюдаемых Xi . Но пытаться в классе всех возможных функций восстанавливать f(t) по «наилучшим оценкам» для f(ti ) довольно глупо— наиболее точными приближениями к f(ti ) оказываются Xi , и функция f(t) будетпросто ломаной, построенной по точкам (ti , Xi ). Поэтому сначала заранее определяютвид функции f(t). Часто предполагают, что f(t) есть полином (редко больше третьейили четвертой степени) с неизвестными коэффициентами. Будем пока предполагать,что функция f(t) полностью определяется неизвестными параметрами θ1 , .
. . , θk .9.2. Метод максимального правдоподобияОглавлениеJJIIJIНа стр. ... из 179НазадОценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизировать функцию правдоподобия случайного вектора X1 , . . . , Xn .Будем, для простоты, предполагать, что вектор ошибок ε состоит из независимыхи одинаково распределенных случайных величин с плотностью распределения h(x) изнекоторого семейства распределений с нулевым средним и, вообще говоря, неизвестнойдисперсией. Очень часто полагают, что εi имеют симметричное распределение — нормальное N0,σ2 , Стьюдента, Лапласа, логистическое и т.п. Поскольку Xi от εi зависятлинейно, то распределение Xi окажется таким же, как у εi , но с центром уже не в нуле,а в точке f(ti ).
Поэтому Xi имеет плотность h x − f(ti ) , и функция правдоподобиявектора X1 , . . . , Xn равна, в силу независимости координат,f(X1 , . . . , Xn ; θ1 , . . . , θk ) = h X1 −f(t1 ) ·. . .·h Xn −f(tn ) = h(ε1 )·. . .·h(εn ). (30)Во весь экранУйтиСтр. 159Если величины εi имеют разные распределения, то h следует заменить на соответствующие hi . В отсутствие независимости произведение плотностей в (30) заменитсяплотностью совместного распределения координат вектора ε.Метод максимального правдоподобия предписывает находить оценки неизвестныхпараметров θi функции f(t) и оценки неизвестной дисперсии (или дисперсий) D εi ,максимизируя по этим параметрам функцию правдоподобия (30).
Рассмотрим, вочто превращается метод максимального правдоподобия в наиболее частых на практикепредположениях.9.3.ОглавлениеJJIIJIМетод наименьших квадратовПредположим, что вектор ошибок ε состоит из независимых случайных величинс нормальным распределением N0,σ2 . Функция правдоподобия (30) имеет вид(X1 −f(t1 ))21(X1 −f(tn ))21· . . . · √ exp −=f (X; θ) = √ exp −2σ22σ2σ 2πσ 2πn11 X2= nexp − 2(Xi − f(ti )) .2σσ (2π)n/2i=1σ2Очевидно, что при любом фиксированноммаксимум функции правдоподобия достиPP 2гается при наименьшем значении суммы квадратов ошибок (Xi − f(ti ))2 =εi .На стр. ...
из 179НазадВо весь экранОпределение 31. Оценкой метода наименьших квадратов (ОМНК) для неизвестныхпараметров θ1 , . . . , θk уравнения регрессии называется набор значений параметров,доставляющий минимум сумме квадратов отклоненийnX2(Xi − f(ti )) =i=1nXε2i .i=1УйтиСтр. 160^ для f(t). Обозначим черезНайдя оценки для θi , найдем тем самым оценку f(t)^ i ) значения этой функции, и через ^εi = Xi − f(t^ i ) соответствующие оценки ошибок.f(t2Оценка максимального правдоподобия для σ , она же точка максимума по σ2 функцииправдоподобия, равна вычислить!nnX1X^ i ))2 = 1σ^2 =(Xi − f(t^ε2i .(31)nni=1i=1ОглавлениеМудрый читатель понял, что основная цель рассмотренного выше примера — показать, что метод наименьших квадратов не падает с неба, а есть в точности методмаксимального правдоподобия в случае, когда вектор ошибок, а вместе с ним и векторнаблюдаемых откликов регрессии, состоит из независимых и одинаково распределенныхслучайных величин с нормальным распределением.Пример 34.
Пусть плотность независимых случайных величин εi имеет видJJIIJIНа стр. ... из 179НазадВо весь экранУйтиСтр. 161h(x) =1exp {−|x|/σ} , т. е. εi имеют распределение Лапласа.2σТогда при любом фиксированном σ2 максимум функции правдоподобия достигаетсяPпри наименьшем значении суммы|Xi − f(ti )| абсолютных отклонений. Оценкамаксимального правдоподобия (ОМП) для набора θ1 , . . . , θk уже не есть ОМНК.9.4. ПримерыНайдем ОМНК для функций f(t) в ряде частных случаев. Напомним, что ОМПсовпадает с ОМНК почти исключительно в случае нормальности вектора ошибок.Пример 35. Пусть функция f(t) = θ — постоянная, θ — неизвестный параметр.Тогда наблюдения равны Xi = θ + εi , i = 1, . .
. , n. Легко узнать задачу оцениваниянеизвестного математического ожидания θ по выборке из независимых и одинаковораспределенных случайных величин X1 , . . . , Xn . Найдем ОМНК θ^ для параметра θ:X∂ X(Xi − θ)2 = −2(Xi − θ) = 0 при θ^ = X.∂θ^θ=θnni=1i=1Трудно назвать этот ответ неожиданным. Соответственно, σ^ 2 = S2 .ОглавлениеУпражнение. Покажите, что в условиях примера 34 ОМП для θ, минимизируюPщая |Xi − θ|, есть выборочная медианаX(m) ,если n = 2m−1 (нечётно),θ^ =1 X(m) +X(m+1) , если n = 2m (чётно),2а ОМП для дисперсии равна σ^2 =h1nnP^ Вместо полусуммы можно брать|Xi − θ|.i=1iJJIIлюбую точку отрезка X(m) , X(m+1) .JIПример 36.
Линейная регрессия.Рассмотрим линейную регрессию Xi = θ1 + ti θ2 + εi , i = 1, . . . , n, где θ1 и θ2— неизвестные параметры. Здесь f(t) = θ1 + tθ2 — прямая.На стр. ... из 179НазадВо весь экранУйтиНайдем оценку метода наименьших квадратов θ^1 , θ^2 , на которой достигается миниP 2 Pмум величиныεi = (Xi − θ1 − ti θ2 )2 .
Приравняв к нулю частные производныеэтой суммы по параметрам, найдем точку экстремума.Упражнение. Убедиться, что решением системы уравненийn∂ X 2εi = 0 ,∂θ1i=1является параСтр. 162θ^2 =1nn∂ X 2εi = 0∂θ2i=1P1nti Xi − X · t,P(ti − t)2θ^1 = X − tθ^2 .Определение 32. Величина∗Оглавлениеn1nPti Xi − X · tP(ti − t)2 · n1 (Xi − X)2ρ =q P1называется выборочным коэффициентом корреляции и характеризует степень линейнойзависимости между наборами чисел X1 , . . . , Xn и t1 , . . .
, tn .JJIIJIНа стр. ... из 179Пример 37. Термин «регрессия» появился впервые в работе Francis Galton, “Regression towards mediocrity in hereditary stature” (Journal of the Anthropological InstituteV. 15, p. 246–265, 1886).НазадВо весь экранУйтиГальтон исследовал, в частности, рост детей высоких родителей и установил, чтоон «регрессирует» в среднем, т.
е. в среднем дети высоких родителей не так высоки,как их родители. Пусть X — рост сына (дочери), а Z1 и Z2 — рост отца и матери.Для линейной модели регрессии E (X | Z1 = t, Z2 = u) = f(t, u) = θ1 t + θ2 u + cГальтон нашел оценки параметров:E (роста сына | Z1 = t, Z2 = u) = 0, 27t + 0, 2u + const,а средний рост дочери еще в 1,08 раз меньше.Стр. 1639.5.ОглавлениеОбщая модель линейной регрессииВведем два вектора: Z = (Z1 , .