1625915145-5b3debabab98d9e994cc3a1bc8da0f5b (843876), страница 21
Текст из файла (страница 21)
. , Xn .Будем, для простоты, предполагать, что вектор ошибок ⃗ε состоит изнезависимых и одинаково распределённых случайных величин с плотностью распределения h(x) из некоторого семейства распределений с нулевым средним и, вообще говоря, неизвестной дисперсией. Обычно полагают, что εi имеют симметричное распределение — нормальное N0, σ2 ,Стьюдента, Лапласа и т. п. Поскольку Xi от εi зависят линейно, то распределение Xi окажется таким же, как у εi , но с центром уже не в нуле,а в точке f (ti ).()Поэтому Xi имеет плотность h x − f (ti ) . Функция правдоподобиявектора X1 , . .
. , Xn в силу независимости координат равнаn∏()⃗ θ1 , . . . , θk ) =f (X;h Xi − f (ti ) = h(ε1 ) · . . . · h(εn ).i=1(32)113§ 1. Математическая модель регрессииЕсли величины εi имеют разные распределения, то h следует заменить на соответствующие hi . Для зависимых εi произведение плотностейв формуле (32) заменится плотностью их совместного распределения.Метод максимального правдоподобия предписывает находить оценкинеизвестных параметров θi функции f (t) и оценки неизвестной дисперсии σ2 = D εi , максимизируя по этим параметрам функцию правдоподобия (32).
Рассмотрим, во что превращается метод максимального правдоподобия в наиболее частых на практике предположениях.Метод наименьших квадратов. Предположим, что вектор ошибок ⃗ε состоит из независимых случайных величин с нормальным распределениемN0, σ2 . Функция правдоподобия (32) имеет вид{}n() ∏2(X−f(t))1ii⃗ ⃗θ =√ exp −f X;=2i=12σσ 2π={n11 ∑exp − 2(Xi − f (ti ))2n/22σσn (2π)}.i=1Очевидно, что при любом фиксированном σ2 максимум функции правдоподобия достигается при наименьшем значении суммы квадратов ошибок∑∑(Xi − f (ti ))2 =ε2i .О п р е д е л е н и е 32. Оценкой метода наименьших квадратов(ОМНК) для неизвестных параметров θ1 , .
. . , θk уравнения регрессииназывается набор значений параметров, доставляющий минимум суммеквадратов отклоненийnn∑∑2(Xi − f (ti )) =ε2i .i=1i=1Найдя оценки для θi , найдём тем самым оценку fˆ(t) для f (t). Обозначим через fˆ(ti ) значения этой функции, и через ε̂i = Xi − fˆ(ti ) соответствующие оценки ошибок. Оценка максимального правдоподобия дляσ2 , она же точка максимума по σ2 функции правдоподобия, равнаnn1 ∑1 ∑ 222ˆσ̂ =(Xi − f (ti )) =ε̂i .(33)ni=1ni=1Мудрый читатель понял, что основная цель рассмотренного выше примера — показать, что метод наименьших квадратов не падает с неба, а есть114ГЛАВА IX.
ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИв точности метод максимального правдоподобия в том, например, случае,когда вектор ошибок, а вместе с ним и вектор наблюдаемых откликов регрессии, состоит из независимых и одинаково распределённых случайныхвеличин с нормальным распределением.П р и м е р 41.
Пусть независимые случайные величины εi имеют распределение Лапласа с плотностью распределения{}1|x|h(x) =exp −.2σσТогда при любом фиксированном σ2 максимум функцииправдоподобия∑достигается при наименьшем значении суммы|Xi − f (ti )| абсолютных отклонений. Оценка максимального правдоподобия (ОМП) для набора θ1 , . . . , θk уже не есть ОМНК.
Даже для самой простой функцииf (t) эти методы приводят к разным оценкам.У п р а ж н е н и е . Пусть функция f (t) = θ постоянна, а ошибки εiвзяты из распределения Лапласа. Покажите,∑ что оценкой максимальногоправдоподобия для θ, минимизирующей |Xi − θ|, является выборочнаямедиана{X(m) ,если n = 2m−1 (нечётно),)θ̂ = 1 (X(m) + X(m+1) , если n = 2m (чётно).2Вместо полусуммы можно брать любую точку отрезка [X(m) , X(m+1) ].1 ∑ОМП для дисперсии равна σ̂2 =|Xi − θ̂|. Покажите, что ОМНКnдля θ в той же ситуации равна X, а оценка для σ2 равна выборочнойдисперсии S 2 (см. также пример 42 ниже).Найдём ОМНК для функций f (t) в ряде частных случаев.П р и м е р 42. Пусть функция f (t) = θ — постоянная, θ — неизвестный параметр.
Тогда наблюдения равны Xi = θ + εi , i = 1, . . . , n. Легкоузнать задачу оценивания неизвестного математического ожидания θ повыборке из независимых и одинаково распределённых случайных величинX1 , . . . , Xn . Найдём ОМНК θ̂ для параметра θ :nn∑∂ ∑(Xi − θ) = 0 при θ̂ = X.(Xi − θ)2 = −2∂θi=1i=1θ=θ̂Трудно назвать этот ответ неожиданным. Соответственно, σ̂2 = S 2 .§ 2. Общая модель линейной регрессии115П р и м е р 43 (л и н е й н а я р е г р е с с и я).
Рассмотрим линейную регрессию Xi = θ1 + ti θ2 + εi , i = 1, . . . , n, где θ1 и θ2 — неизвестныепараметры. Здесь f (t) = θ1 + tθ2 — прямая.Найдём оценку метода наименьшихквадратовθ̂1 , θ̂2 , на которой до∑ 2∑стигается минимум величиныεi =(Xi − θ1 − ti θ2 )2 . Приравнявк нулю частные производные этой суммы по параметрам, найдём точкуэкстремума.У п р а ж н е н и е . Убедиться, что решением системы уравненийnn∂ ∑ 2∂ ∑ 2εi = 0 ,εi = 0∂ θ1i=1∂ θ2i=1является пара1 ∑Xi ti − X · t,θ̂2 = n ∑12(ti − t )nθ̂1 = X − t θ̂2 .О п р е д е л е н и е 33. Выборочным коэффициентом корреляции называется величина1 ∑Xi ti − X · t∗nρ = √,1 ∑1 ∑22(ti − t ) ·(Xi − X )nnкоторая характеризует степень линейной зависимости между наборамичисел X1 , .
. . , Xn и t1 , . . . , tn .П р и м е р 44. Термин «регрессия» ввёл Гальтон (Francis Galton. Regression towards mediocrity in hereditary stature // Journal of the Anthropological Institute. — 1886. — v. 15. — p. 246—265).Гальтон исследовал, в частности, рост детей высоких родителей и установил, что он «регрессирует» в среднем, т. е. в среднем дети высоких родителей не так высоки, как их родители. Пусть X — рост сына, а Z1 и Z2 —рост отца и матери. Для линейной модели регрессииE(X | Z1 = t, Z2 = u) = f (t, u) = θ1 t + θ2 u + cГальтон нашел оценки параметровE(роста сына | Z1 = t, Z2 = u) = 0, 27t + 0, 2u + const,а средний рост дочери ещё в 1,08 раз меньше.
Независимо от добавочнойпостоянной суммарный вклад высокого роста родителей в рост детей непревышает половины. Остальное — неизменная добавка.116ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ§ 2. Общая модель линейной регрессии⃗ = (Z1 , . . . , Zk ) и вектор неизВведём вектор факторов регрессии Zвестных параметров регрессии ⃗β = (β1 , .
. . , βk ). Каждый вектор есть вектор-столбец, а изображён по горизонтали для удобства. Рассматриваетсяпростая (линейная) регрессия()( )⃗ = ⃗t = f ⃗t = β1 t1 + . . . + βk tk ,E X|Zили, равносильно,⃗ ) = f (Z⃗ ) = β1 Z1 + . . . + βk Zk .E(X | ZПусть в i -м эксперименте факторы регрессии принимают заранее заданные значения)(⃗ (i) = Z (i) , .
. . , Z (i) , где i = 1, . . . , n.Z1kПосле n ⩾ k экспериментов получен набор откликов X1 , . . . , Xn :(1)(1)X=βZ+...+βZ11k1k + ε1(2)(2)X2 = β1 Z1 + . . . + βk Zk + ε2...X = β Z (n) + . . . + β Z (n) + ε ,n11kkn⃗ = Z T ⃗β +⃗ε, с матрицей плана Z(k × n)или, в матричной форме, X (1)(n)Z1 . . . Z1) ( ⃗ (1)..⃗ (n) .Z = ... . . .... Z.= Z(1)(n)Zk .
. . Zk⃗ найти оценки дляТребуется по данным матрице плана Z и вектору Xпараметров регрессии ⃗β и параметров распределения вектора ошибок ⃗ε.МНК и нормальное уравнение. Будем считать в дальнейшем выполненным следующее условие.(A1) Матрица Z имеет ранг k, т. е. все её строки линейно независимы.Л е м м а 9. Предположение (A1) означает, что симметричная матрица A = ZZ T положительно определена.Д о к а з а т е л ь с т в о. Напомним, что матрица A(k × k) называетсяположительно определённой, если неотрицательна квадратичная форма⃗t T A ⃗t ⩾ 0 для любого вектора ⃗t = (t1 , . .
. , tk ), причём равенство⃗t T A ⃗t = 0 возможно только для ⃗t = ⃗0 = (0, . . . , 0). Напомним также,§ 2. Общая модель линейной регрессиичто квадрат нормы вектора ⃗u равен∥⃗u ∥2 = ⃗u T ⃗u =∑117u2i ⩾ 0.Норма равна нулю, если и только если ⃗u = ⃗0.Матрица A симметрична, поскольку A = ZZ T и AT = A. Её неотрицательная определённость имеет место и без предположения (A1):⃗t T A ⃗t = ⃗t T Z·Z T ⃗t = (Z T ⃗t )T · (Z T ⃗t ) = ∥Z T ⃗t ∥2 ⩾ 0.Равенство же ∥Z T ⃗t ∥ = 0 возможно только если Z T ⃗t = ⃗0. Но ранг Zравен k, поэтому Z T ⃗t = ⃗0 влечёт ⃗t = ⃗0.Скоро нам пригодится корень из матрицы A, существование которогогарантирует следующее утверждение.Л е м м а 10.
Положительная определённость и симметричностьматрицывещественной симметричной мат√ A влекут существование√ √рицы A такой, что A A = A.√Существование матрицы A с нужными свойствами следует из возможности привести симметричную матрицу A ортогональными преобразованиями A = QT D Q к диагональному виду с положительными, в силуположительной определённости,собственнымизначениями A на диагона√√Tли матрицы D. Тогда A = Q D Q.Найдём ОМНК β̂, которая минимизирует функцию S(⃗β ), равнуюS(⃗β ) =n∑⃗ − Z T ⃗β ∥2 = (X⃗ − Z T ⃗β )T · (X⃗ − Z T ⃗β ).ε2i = ∥⃗ε ∥2 = ∥Xi=1Можно искать точку экстремума дифференцированием по βi .
Заметим вместо этого, что величина S(⃗β ) есть квадрат расстояния от точки⃗ ∈ Rn до точки Z T ⃗β — одной из точек линейного подпространства (гиXперплоскости) в Rn , в которой лежит любой вектор вида Z T ⃗t, где ⃗t ∈ Rk .⃗ − Z T β̂Минимальное расстояние S(β̂) мы получим, когда вектор Xбудет ортогонален всем векторам этого подпространства, т. е. когда для⃗ − Z T β̂ обралюбого ⃗t ∈ Rk скалярное произведение векторов Z T ⃗t и Xтится в нуль.
Запишем это скалярное произведение в матричном виде() ()T ()()T⃗ ⃗TT⃗TTT⃗⃗⃗Z t, X − Z β̂ = Z tX − Z β̂ = t · Z X − ZZ β̂ = 0.Подставив в это равенство в качестве ⃗t поочерёдно базисные векторы (0, . . . , 0, 1, 0, . . . , 0) из Rk , сразу же получим, что все координаты118ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ⃗ − ZZ T β̂ равны нулю. Итак, ОМНК β̂ есть любое решениевектора Z Xуравнения⃗ или Aβ̂ = Z X.⃗ZZ T β̂ = Z X(34)По лемме 9, уравнение (34) имеет единственное решение⃗β̂ = A−1 Z X(35)в том и только в том случае, когда матрица Z(k × n) имеет полный рангk, где k ⩽ n. Уравнение (34) называется нормальным уравнением.В предположении, что вектор ошибок ⃗ε состоит из независимых случайных величин с нормальным распределением N0,σ2 с одной и той жедисперсией, ОМНК совпадает с оценкой максимального правдоподобия,а ОМП для σ2 , согласно (33), равнаn1 ∑ 21 ⃗1σ̂ =ε̂i = ∥X− Z T β̂∥2 = S(β̂).nnn2(36)i=1Свойства ОМНК.