Н.И. Чернова - Математическая статистика (1119916), страница 20
Текст из файла (страница 20)
Зато можно считать её среднее функцией отэтих величин. Разумеется, наблюдать это среднее значение мы не можем —в нашей власти лишь наблюдать значения результирующей случайной величины при разных значениях остальных. Эту зависимость можно воображатькак вход и выход некоторой машины — «ящика с шуршавчиком». Входныеданные (факторы) известны. На выходе мы наблюдаем результат преобразования входных данных в ящике по каким-либо правилам.§ 1. Математическая модель регрессииПусть наблюдаемая случайная величина X зависит от случайной величины или случайного вектора Z. Значения Z мы либо задаём, либонаблюдаем.
Обозначим через f (t) функцию, отражающую зависимостьсреднего значения X от значений Z :E(X | Z = t) = f (t).(31)Функция f (t) называется линией регрессии X на Z , а уравнение x = f (t) — уравнением регрессии. После n экспериментов, в которыхZ последовательно принимает значения Z = t1 , . .
. , Z = tn , получимзначения наблюдаемой величины X, равные X1 , . . . , Xn . Обозначим через εi разницу Xi − E(X | Z = ti ) = Xi − f (ti ) между наблюдаемой в i -мэксперименте случайной величиной и её математическим ожиданием.112ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИИтак, Xi = f (ti )+εi , i = 1, . . . , n, где εi — ошибки наблюдения, равныев точности разнице между реальным и усредненным значением случайнойвеличины X при значении Z = ti . Про совместное распределение ε1 , . .
. ,εn обычно что-либо известно или предполагается: например, что векторошибок ~ε состоит из независимых и одинаково нормально распределённыхслучайных величин с нулевым средним. Нулевое среднее тут необходимо:E εi = EXi − f (ti ) = E(X | Z = ti ) − E(X | Z = ti ) = 0.Требуется по значениям t1 , . . . , tn и X1 , . .
. , Xn оценить как можноточнее функцию f (t). Величины ti не являются случайными, вся случайность сосредоточена в неизвестных ошибках εi и в наблюдаемых Xi .Но пытаться в классе всех возможных функций восстанавливать f (t) по«наилучшим оценкам» для f (ti ) довольно глупо: наиболее точными приближениями к f (ti ) оказываются Xi , и функция f (t) будет просто ломаной, построенной по точкам (ti , Xi ).
Поэтому сначала определяют видфункции f (t). Часто в качестве f (t) берут полином небольшой степенис неизвестными коэффициентами.Будем пока предполагать, что функция f (t) полностью определяетсянеизвестными параметрами θ1 , . . . , θk .Метод максимального правдоподобия. Оценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизироватьфункцию правдоподобия случайного вектора X1 , . . . , Xn .Будем для простоты предполагать, что вектор ошибок ~ε состоит изнезависимых и одинаково распределённых случайных величин с плотностью распределения h(x) из некоторого семейства распределений с нулевым средним и, вообще говоря, неизвестной дисперсией.
Обычно полагают,что εi имеют симметричное распределение — нормальное N0, σ2 , Стьюдента, Лапласа и т. п. Поскольку Xi от εi зависят линейно, то распределениеXi окажется таким же, как у εi , но с центром уже не в нуле, а в точкеf (ti ).Поэтому Xi имеет плотность h x − f (ti ) . Функция правдоподобиявектора X1 , . . . , Xn в силу независимости координат равна~ θ1 , . .
. , θk ) =f (X;nYi=1h Xi − f (ti ) = h(ε1 ) · . . . · h(εn ).(32)113§ 1. Математическая модель регрессииЕсли величины εi имеют разные распределения, то h следует заменить на соответствующие hi . Для зависимых εi произведение плотностейв формуле (32) заменится плотностью их совместного распределения.Метод максимального правдоподобия предписывает находить оценкинеизвестных параметров θi функции f (t) и оценки неизвестной дисперсии σ2 = D εi , максимизируя по этим параметрам функцию правдоподобия (32).
Рассмотрим, во что превращается метод максимального правдоподобия в наиболее частых на практике предположениях.Метод наименьших квадратов. Предположим, что вектор ошибок ~ε состоит из независимых случайных величин с нормальным распределениемN0, σ2 . Функция правдоподобия (32) имеет видn Y21(X−f(t))ii~ ~θ =√ exp −f X;=2i=12σσ 2π=1σn (2π)n/2(exp −n1 X2σ2)(Xi − f (ti ))2.i=1Очевидно, что при любом фиксированном σ2 максимум функции правдоподобия достигается при наименьшем значении суммы квадратов ошибокXX(Xi − f (ti ))2 =ε2i .О п р е д е л е н и е 32.
Оценкой метода наименьших квадратов(ОМНК) для неизвестных параметров θ1 , . . . , θk уравнения регрессииназывается набор значений параметров, доставляющий минимум суммеквадратов отклоненийnnXX2(Xi − f (ti )) =ε2i .i=1i=1Найдя оценки для θi , найдём тем самым оценку fˆ(t) для f (t). Обозначим через fˆ(ti ) значения этой функции, и через ε̂i = Xi − fˆ(ti ) соответствующие оценки ошибок. Оценка максимального правдоподобия дляσ2 , она же точка максимума по σ2 функции правдоподобия, равнаnnX1 X122(Xi − fˆ(ti )) =ε̂2i .(33)σ̂ =ni=1ni=1Мудрый читатель понял, что основная цель рассмотренного выше примера — показать, что метод наименьших квадратов не падает с неба, а есть114ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИв точности метод максимального правдоподобия в том, например, случае,когда вектор ошибок, а вместе с ним и вектор наблюдаемых откликов регрессии, состоит из независимых и одинаково распределённых случайныхвеличин с нормальным распределением.П р и м е р 41.
Пусть независимые случайные величины εi имеют распределение Лапласа с плотностью распределенияno1|x|h(x) =exp −.2σσТогда при любом фиксированном σ2 максимум функцииправдоподобияPдостигается при наименьшем значении суммы|Xi − f (ti )| абсолютных отклонений. Оценка максимального правдоподобия (ОМП) для набора θ1 , . .
. , θk уже не есть ОМНК. Даже для самой простой функции f (t)эти методы приводят к разным оценкам.У п р а ж н е н и е . Пусть функция f (t) = θ постоянна, а ошибки εiвзяты из распределения Лапласа. Покажите,P что оценкой максимальногоправдоподобия для θ, минимизирующей |Xi − θ|, является выборочнаямедиана(X(m) ,если n = 2m−1 (нечётно),θ̂ = 1X(m) + X(m+1) , если n = 2m (чётно).2Вместо полусуммы можно брать любую точку отрезка [X(m) , X(m+1) ].1 PОМП для дисперсии равна σ̂2 =|Xi − θ̂|. Покажите, что ОМНКnдля θ в той же ситуации равна X, а оценка для σ2 равна выборочнойдисперсии S 2 (см.
также пример 42 ниже).Найдём ОМНК для функций f (t) в ряде частных случаев.П р и м е р 42. Пусть функция f (t) = θ — постоянная, θ — неизвестный параметр. Тогда наблюдения равны Xi = θ + εi , i = 1, . . . , n. Легкоузнать задачу оценивания неизвестного математического ожидания θ повыборке из независимых и одинаково распределённых случайных величинX1 , . . . , Xn . Найдём ОМНК θ̂ для параметра θ :nnX∂ X2(Xi − θ) = −2(Xi − θ) = 0 при θ̂ = X.∂θi=1i=1θ=θ̂Трудно назвать этот ответ неожиданным.
Соответственно, σ̂2 = S 2 .§ 1. Математическая модель регрессии115П р и м е р 43 (л и н е й н а я р е г р е с с и я). Рассмотрим линейную регрессию Xi = θ1 + ti θ2 + εi , i = 1, . . . , n, где θ1 и θ2 — неизвестныепараметры. Здесь f (t) = θ1 + tθ2 — прямая.Найдём оценку метода наименьшихP 2 P квадратов θ̂1 , 2θ̂2 , на которой достигается минимум величиныεi =(Xi − θ1 − ti θ2 ) . Приравняв к нулючастные производные этой суммы по параметрам, найдём точку экстремума.У п р а ж н е н и е . Убедиться, что решением системы уравненийnn∂ X 2∂ X 2εi = 0 ,εi = 0∂ θ1i=1∂ θ2i=1является пара1 PXi ti − X · tθ̂2 = n P,12(ti − t )nθ̂1 = X − t θ̂2 .О п р е д е л е н и е 33. Выборочным коэффициентом корреляции называется величина1 PXi ti − X · tnρ∗ = r,1 P1 P22(ti − t ) ·(Xi − X )nnкоторая характеризует степень линейной зависимости между наборамичисел X1 , . .
. , Xn и t1 , . . . , tn .П р и м е р 44. Термин «регрессия» ввёл Гальтон3 . Он исследовал,в частности, рост детей высоких родителей и установил, что он «регрессирует» в среднем, т. е. в среднем дети высоких родителей не так высоки,как их родители. Пусть X — рост сына, а Z1 и Z2 — рост отца и матери.Для линейной модели регрессииE(X | Z1 = t, Z2 = u) = f (t, u) = θ1 t + θ2 u + cГальтон нашел оценки параметровE(роста сына | Z1 = t, Z2 = u) = 0, 27t + 0, 2u + const,а средний рост дочери ещё в 1,08 раз меньше. Независимо от добавочнойпостоянной суммарный вклад высокого роста родителей в рост детей непревышает половины. Остальное — неизменная добавка.3Francis Galton.
Regression towards mediocrity in hereditary stature // J. of the Anthropological Institute. — 1886. — Vol. 15. — P. 246—265.116ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ§ 2. Общая модель линейной регрессии~ = (Z1 , . . . , Zk ) и вектор неизВведём вектор факторов регрессии Zвестных параметров регрессии ~β = (β1 , . . . , βk ). Каждый вектор есть вектор-столбец, а изображён по горизонтали для удобства.
Рассматриваетсяпростая (линейная) регрессия~ = ~t = f ~t = β1 t1 + . . . + βk tk ,E X|Zили, равносильно,~ ) = f (Z~ ) = β1 Z1 + . . . + βk Zk .E(X | ZПусть в i -м эксперименте факторы регрессии принимают заранее заданные значения~ (i) = Z (i) , . . . , Z (i) , где i = 1, . . . , n.Z1kПосле n > k экспериментов получен набор откликов X1 , . .