Н.И. Чернова - Математическая статистика (1115306), страница 17
Текст из файла (страница 17)
Очень часто полагают, что εi имеют симметричное распределение — нормальное N0,σ2 , Стьюдента, Лапласа, логистическое и т.п. Поскольку Xi от εi зависятлинейно, то распределение Xi окажется таким же, как у εi , но с центром уже не в нуле,а в точке f(ti ). Поэтому Xi имеет плотность h x − f(ti ) , и функция правдоподобиявектора X1 , .
. . , Xn равна, в силу независимости координат,f(X1 , . . . , Xn ; θ1 , . . . , θk ) = h X1 −f(t1 ) ·. . .·h Xn −f(tn ) = h(ε1 )·. . .·h(εn ). (30)Если величины εi имеют разные распределения, то h следует заменить на соответствующие hi . В отсутствие независимости произведение плотностей в (30) заменитсяплотностью совместного распределения координат вектора ε.Метод максимального правдоподобия предписывает находить оценки неизвестныхпараметров θi функции f(t) и оценки неизвестной дисперсии (или дисперсий) D εi ,максимизируя по этим параметрам функцию правдоподобия (30).
Рассмотрим, вочто превращается метод максимального правдоподобия в наиболее частых на практикепредположениях.9.3. Метод наименьших квадратовПредположим, что вектор ошибок ε состоит из независимых случайных величинс нормальным распределением N0,σ2 . Функция правдоподобия (30) имеет вид(X1 −f(t1 ))2(X1 −f(tn ))211√exp−·...·=f (X; θ) = √ exp −2σ22σ2σ 2πσ 2πn11 X(Xi − f(ti ))2 .= nexp − 22σσ (2π)n/2i=1σ2Очевидно, что при любом фиксированноммаксимум функции правдоподобия достиPPгается при наименьшем значении суммы квадратов ошибок (Xi − f(ti ))2 = ε2i .Определение 31. Оценкой метода наименьших квадратов (ОМНК) для неизвестныхпараметров θ1 , . .
. , θk уравнения регрессии называется набор значений параметров,доставляющий минимум сумме квадратов отклоненийnX(Xi − f(ti ))2 =nXε2i .i=1i=1^ для f(t). Обозначим черезНайдя оценки для θi , найдем тем самым оценку f(t)^^f(ti ) значения этой функции, и через ^εi = Xi − f(ti ) соответствующие оценки ошибок.Оценка максимального правдоподобия для σ2 , она же точка максимума по σ2 функцииправдоподобия, равна вычислить!nnX1X^ i ))2 = 1(Xi − f(t^ε2i .(31)σ^2 =nni=1i=180Мудрый читатель понял, что основная цель рассмотренного выше примера — показать, что метод наименьших квадратов не падает с неба, а есть в точности методмаксимального правдоподобия в случае, когда вектор ошибок, а вместе с ним и векторнаблюдаемых откликов регрессии, состоит из независимых и одинаково распределенныхслучайных величин с нормальным распределением.Пример 34.
Пусть плотность независимых случайных величин εi имеет видh(x) =1exp {−|x|/σ} , т. е. εi имеют распределение Лапласа.2σТогда при любом фиксированном σ2 максимум функции правдоподобия достигаетсяPпри наименьшем значении суммы|Xi − f(ti )| абсолютных отклонений. Оценкамаксимального правдоподобия (ОМП) для набора θ1 , . . . , θk уже не есть ОМНК.9.4. ПримерыНайдем ОМНК для функций f(t) в ряде частных случаев. Напомним, что ОМПсовпадает с ОМНК почти исключительно в случае нормальности вектора ошибок.Пример 35. Пусть функция f(t) = θ — постоянная, θ — неизвестный параметр.Тогда наблюдения равны Xi = θ + εi , i = 1, . .
. , n. Легко узнать задачу оцениваниянеизвестного математического ожидания θ по выборке из независимых и одинаковораспределенных случайных величин X1 , . . . , Xn . Найдем ОМНК θ^ для параметра θ:X∂ X(Xi − θ) = 0 при θ^ = X.(Xi − θ)2 = −2∂θ^θ=θnni=1i=1Трудно назвать этот ответ неожиданным. Соответственно, σ^ 2 = S2 .Упражнение. Покажите, что в условиях примера 34 ОМП для θ, минимизируюPщая |Xi − θ|, есть выборочная медианаX(m) ,если n = 2m−1 (нечётно),θ^ = 1 X(m) +X(m+1) , если n = 2m (чётно),2а ОМП для дисперсии равна σ^2 =1nnP^ Вместо полусуммы можно брать|Xi − θ|.i=1ihлюбую точку отрезка X(m) , X(m+1) .Пример 36. Линейная регрессия.Рассмотрим линейную регрессию Xi = θ1 + ti θ2 + εi , i = 1, . .
. , n, где θ1 и θ2— неизвестные параметры. Здесь f(t) = θ1 + tθ2 — прямая.Найдем оценку метода наименьших квадратов θ^1 , θ^2 , на которой достигается миниP 2 Pмум величиныεi = (Xi − θ1 − ti θ2 )2 . Приравняв к нулю частные производныеэтой суммы по параметрам, найдем точку экстремума.Упражнение. Убедиться, что решением системы уравненийn∂ X 2εi = 0 ,∂θ1i=1является параθ^2 =1nn∂ X 2εi = 0∂θ2i=1P1nti Xi − X · t,P(ti − t)2θ^1 = X − tθ^2 .81Определение 32.
Величина1nPti Xi − X · tρ =q PP1(ti − t)2 · n1 (Xi − X)2n∗называется выборочным коэффициентом корреляции и характеризует степень линейнойзависимости между наборами чисел X1 , . . . , Xn и t1 , . . . , tn .Пример 37. Термин «регрессия» появился впервые в работе Francis Galton, “Regression towards mediocrity in hereditary stature” (Journal of the Anthropological InstituteV.
15, p. 246–265, 1886).Гальтон исследовал, в частности, рост детей высоких родителей и установил, чтоон «регрессирует» в среднем, т. е. в среднем дети высоких родителей не так высоки,как их родители. Пусть X — рост сына (дочери), а Z1 и Z2 — рост отца и матери.Для линейной модели регрессии E (X | Z1 = t, Z2 = u) = f(t, u) = θ1 t + θ2 u + cГальтон нашел оценки параметров:E (роста сына | Z1 = t, Z2 = u) = 0, 27t + 0, 2u + const,а средний рост дочери еще в 1,08 раз меньше.9.5. Общая модель линейной регрессииВведем два вектора: Z = (Z1 , . . . , Zk ) — факторы регрессии и β = (β1 , .
. . , βk ) —неизвестные параметры регрессии. Каждый вектор есть вектор-столбец, а изображенпо горизонтали для удобства. Обозначать вектора мы, как и ранее, будем жирнымшрифтом.Рассматривается модель регрессии, которая в курсе «Эконометрика» называетсяпростой (линейной) регрессией:E (X | Z = t) = f(t) = β1 t1 +. . .+βk tk , или E (X | Z) = f(Z) = β1 Z1 +. . .+βk Zk .Пусть в i-м эксперименте факторы регрессии принимают заранее заданные значе(i)(i)ния Z(i) = (Z1 , . .
. , Zk ), где i = 1, . . . , n.После n > k экспериментов получен набор откликов X = (X1 , . . . , Xn ), где(1)(1)X1 = β1 Z1 + . . . + βk Zk + ε1X = β Z(2) + . . . + β Z(2) + ε21 1k k2...(n)(n)Xn = β1 Z1 + . . . + βk Zk + εn ,или, в матричной форме, X = ZT β + ε, где матрица Z(k × n) (матрица плана) равнаZ=(1)Z1...(1)Zk(n). . . Z1.. = (Z(1) . . . Z(n) ).....(n). .
. ZkВектор ε = (ε1 , . . . , εn ) состоит из случайных ошибок в данных экспериментах.82Требуется по данным матрице плана Z и вектору результатов X найти оценки дляпараметров регрессии β и параметров распределения вектора ошибок ε.9.6. Метод наименьших квадратов. Нормальное уравнениеПредположение 1. Матрица Z имеет ранг k, т. е. все k ее строк линейно независимы.Лемма 3. Предположение 1 означает, что матрица A = Z·ZT положительно определена.Напоминание 1.Матрица A(k × k) положительно определена, если tT At > 0для любого t = (t1 , . . . , tk ), причем tT At = 0, если и только если t = 0 .P 2Напоминание 2.Квадрат нормы вектора u равен kuk2 = uT u =ui > 0.Норма равна нулю, если и только если u = 0 .Доказательство леммы 3. Благодаря напоминанию 2,TtT At = tT Z·ZT t = (ZT t ) · (ZT t ) = kZT tk2 > 0,причем kZT tk = 0, если и только если ZT t = 0 .
Но «ранг Z равен k» как раз иозначает, по определению, что ZT t = 0 тогда и только тогда, когда t = 0 .Скоро нам пригодится корень из матрицы A, существование которого гарантируетЛемма 4. Положительная определенность и симметричностьматрицы√ √ A влекут суще√ствование вещественной симметричной матрицы A такой, что A A = A.Действительно, матрица A симметрична, поскольку A = ZZT и AT = A. Существованиеo√матрицы A с нужными свойствами следует из возможности привести A ортогональнымипреобразованиями A = QT DQ к диагональному виду с положительными, в силу положительной√√определенности, собственными значениями A на диагонали D. Тогда A = QT DQ.^ для вектора β, доставляющий минимум функции S(β), равнойНайдем ОМНК βS(β) =nXε2i = kεk2 = kX − ZT βk2 = (X − ZT β)T · (X − ZT β).i=1Вместо того, чтобы искать точку экстремума функции S(β) дифференцированиемпо βi , заметим следующее. Величина S(β) есть квадрат расстояния от точки X ∈ IRnдо точки ZT β — одной из точек линейного подпространства (гиперплоскости) в IRnс координатами вида ZT t, где t ∈ IRk .^ мы получим, когда вектор X − ZT β^ будет ортогоМинимальное расстояние S(β)нален всем векторам этого подпространства, т.
е. когда для любого t ∈ IRk скалярное^ обратится в ноль. Запишем это скалярноепроизведение векторов ZT t и X − ZT βпроизведение в матричном виде^ = ZT tZT t, X − βT ^ = tT · ZX − ZZT β^ = 0.X − ZT βoСм., например, А. И. Мальцев «Основы линейной алгебры», раздел «Унитарные и евклидовы пространства», параграф «Унитарные и симметрические преобразования», теорема 7.83Подставляя в качестве t базисные вектора в IRk вида (0, .