1612725170-d2dcc605205feb3d5b9a0101f2221951 (828894), страница 19
Текст из файла (страница 19)
Входныеданные (факторы) известны. На выходе мы наблюдаем результат преобразования входных данных в ящике по каким-либо правилам.§ 1. Математическая модель регрессииПусть наблюдаемая случайная величина X зависит от случайной величины или случайного вектора Z. Значения Z мы либо задаём, либонаблюдаем.
Обозначим через f (t) функцию, отражающую зависимостьсреднего значения X от значений Z :E(X | Z = t) = f (t).(31)Функция f (t) называется линией регрессии X на Z , а уравнение x = f (t) — уравнением регрессии. После n экспериментов, в которыхZ последовательно принимает значения Z = t1 , . . .
, Z = tn , получимзначения наблюдаемой величины X, равные X1 , . . . , Xn . Обозначим через εi разницу Xi − E(X | Z = ti ) = Xi − f (ti ) между наблюдаемой в i -мэксперименте случайной величиной и её математическим ожиданием.112ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИИтак, Xi = f (ti )+εi , i = 1, . . . , n, где εi — ошибки наблюдения, равныев точности разнице между реальным и усредненным значением случайнойвеличины X при значении Z = ti . Про совместное распределение ε1 , . . . ,εn обычно что-либо известно или предполагается: например, что векторошибок ~ε состоит из независимых и одинаково нормально распределённыхслучайных величин с нулевым средним.
Нулевое среднее тут необходимо:E εi = EXi − f (ti ) = E(X | Z = ti ) − E(X | Z = ti ) = 0.Требуется по значениям t1 , . . . , tn и X1 , . . . , Xn оценить как можноточнее функцию f (t). Величины ti не являются случайными, вся случайность сосредоточена в неизвестных ошибках εi и в наблюдаемых Xi .Но пытаться в классе всех возможных функций восстанавливать f (t) по«наилучшим оценкам» для f (ti ) довольно глупо: наиболее точными приближениями к f (ti ) оказываются Xi , и функция f (t) будет просто ломаной, построенной по точкам (ti , Xi ). Поэтому сначала определяют видфункции f (t).
Часто в качестве f (t) берут полином небольшой степенис неизвестными коэффициентами.Будем пока предполагать, что функция f (t) полностью определяетсянеизвестными параметрами θ1 , . . . , θk .Метод максимального правдоподобия. Оценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизироватьфункцию правдоподобия случайного вектора X1 , . . . , Xn .Будем для простоты предполагать, что вектор ошибок ~ε состоит изнезависимых и одинаково распределённых случайных величин с плотностью распределения h(x) из некоторого семейства распределений с нулевым средним и, вообще говоря, неизвестной дисперсией.
Обычно полагают,что εi имеют симметричное распределение — нормальное N0, σ2 , Стьюдента, Лапласа и т. п. Поскольку Xi от εi зависят линейно, то распределениеXi окажется таким же, как у εi , но с центром уже не в нуле, а в точкеf (ti ).Поэтому Xi имеет плотность h x − f (ti ) . Функция правдоподобиявектора X1 , . . . , Xn в силу независимости координат равна~ θ1 , . . .
, θk ) =f (X;nYi=1h Xi − f (ti ) = h(ε1 ) · . . . · h(εn ).(32)113§ 1. Математическая модель регрессииЕсли величины εi имеют разные распределения, то h следует заменить на соответствующие hi . Для зависимых εi произведение плотностейв формуле (32) заменится плотностью их совместного распределения.Метод максимального правдоподобия предписывает находить оценкинеизвестных параметров θi функции f (t) и оценки неизвестной дисперсии σ2 = D εi , максимизируя по этим параметрам функцию правдоподобия (32). Рассмотрим, во что превращается метод максимального правдоподобия в наиболее частых на практике предположениях.Метод наименьших квадратов. Предположим, что вектор ошибок ~ε состоит из независимых случайных величин с нормальным распределениемN0, σ2 .
Функция правдоподобия (32) имеет видn Y21(X−f(t))ii~ ~θ =√ exp −f X;=2i=12σσ 2π=1σn (2π)n/2(exp −n1 X2σ2)(Xi − f (ti ))2.i=1Очевидно, что при любом фиксированном σ2 максимум функции правдоподобия достигается при наименьшем значении суммы квадратов ошибокXX(Xi − f (ti ))2 =ε2i .О п р е д е л е н и е 32. Оценкой метода наименьших квадратов(ОМНК) для неизвестных параметров θ1 , . .
. , θk уравнения регрессииназывается набор значений параметров, доставляющий минимум суммеквадратов отклоненийnnXX2(Xi − f (ti )) =ε2i .i=1i=1Найдя оценки для θi , найдём тем самым оценку fˆ(t) для f (t). Обозначим через fˆ(ti ) значения этой функции, и через ε̂i = Xi − fˆ(ti ) соответствующие оценки ошибок. Оценка максимального правдоподобия дляσ2 , она же точка максимума по σ2 функции правдоподобия, равнаnnX1 X122(Xi − fˆ(ti )) =ε̂2i .(33)σ̂ =ni=1ni=1Мудрый читатель понял, что основная цель рассмотренного выше примера — показать, что метод наименьших квадратов не падает с неба, а есть114ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИв точности метод максимального правдоподобия в том, например, случае,когда вектор ошибок, а вместе с ним и вектор наблюдаемых откликов регрессии, состоит из независимых и одинаково распределённых случайныхвеличин с нормальным распределением.П р и м е р 41.
Пусть независимые случайные величины εi имеют распределение Лапласа с плотностью распределенияno1|x|h(x) =exp −.2σσТогда при любом фиксированном σ2 максимум функцииправдоподобияPдостигается при наименьшем значении суммы|Xi − f (ti )| абсолютных отклонений. Оценка максимального правдоподобия (ОМП) для набора θ1 , . .
. , θk уже не есть ОМНК. Даже для самой простой функции f (t)эти методы приводят к разным оценкам.У п р а ж н е н и е . Пусть функция f (t) = θ постоянна, а ошибки εiвзяты из распределения Лапласа. Покажите,P что оценкой максимальногоправдоподобия для θ, минимизирующей |Xi − θ|, является выборочнаямедиана(X(m) ,если n = 2m−1 (нечётно),θ̂ = 1X(m) + X(m+1) , если n = 2m (чётно).2Вместо полусуммы можно брать любую точку отрезка [X(m) , X(m+1) ].1 PОМП для дисперсии равна σ̂2 =|Xi − θ̂|.
Покажите, что ОМНКnдля θ в той же ситуации равна X, а оценка для σ2 равна выборочнойдисперсии S 2 (см. также пример 42 ниже).Найдём ОМНК для функций f (t) в ряде частных случаев.П р и м е р 42. Пусть функция f (t) = θ — постоянная, θ — неизвестный параметр. Тогда наблюдения равны Xi = θ + εi , i = 1, . . . , n. Легкоузнать задачу оценивания неизвестного математического ожидания θ повыборке из независимых и одинаково распределённых случайных величинX1 , . . . , Xn .
Найдём ОМНК θ̂ для параметра θ :nnX∂ X2(Xi − θ) = −2(Xi − θ) = 0 при θ̂ = X.∂θi=1i=1θ=θ̂Трудно назвать этот ответ неожиданным. Соответственно, σ̂2 = S 2 .§ 1. Математическая модель регрессии115П р и м е р 43 (л и н е й н а я р е г р е с с и я).
Рассмотрим линейную регрессию Xi = θ1 + ti θ2 + εi , i = 1, . . . , n, где θ1 и θ2 — неизвестныепараметры. Здесь f (t) = θ1 + tθ2 — прямая.Найдём оценку метода наименьшихP 2 P квадратов θ̂1 , 2θ̂2 , на которой достигается минимум величиныεi =(Xi − θ1 − ti θ2 ) . Приравняв к нулючастные производные этой суммы по параметрам, найдём точку экстремума.У п р а ж н е н и е .
Убедиться, что решением системы уравненийnn∂ X 2∂ X 2εi = 0 ,εi = 0∂ θ1i=1∂ θ2i=1является пара1 PXi ti − X · tθ̂2 = n P,12(ti − t )nθ̂1 = X − t θ̂2 .О п р е д е л е н и е 33. Выборочным коэффициентом корреляции называется величина1 PXi ti − X · tnρ∗ = r,1 P1 P22(ti − t ) ·(Xi − X )nnкоторая характеризует степень линейной зависимости между наборамичисел X1 , . . . , Xn и t1 , . . .
, tn .П р и м е р 44. Термин «регрессия» ввёл Гальтон3 . Он исследовал,в частности, рост детей высоких родителей и установил, что он «регрессирует» в среднем, т. е. в среднем дети высоких родителей не так высоки,как их родители. Пусть X — рост сына, а Z1 и Z2 — рост отца и матери.Для линейной модели регрессииE(X | Z1 = t, Z2 = u) = f (t, u) = θ1 t + θ2 u + cГальтон нашел оценки параметровE(роста сына | Z1 = t, Z2 = u) = 0, 27t + 0, 2u + const,а средний рост дочери ещё в 1,08 раз меньше.
Независимо от добавочнойпостоянной суммарный вклад высокого роста родителей в рост детей непревышает половины. Остальное — неизменная добавка.3Francis Galton. Regression towards mediocrity in hereditary stature // J. of the Anthropological Institute. — 1886. — Vol. 15. — P. 246—265.116ГЛАВА IX. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ§ 2. Общая модель линейной регрессии~ = (Z1 , .
. . , Zk ) и вектор неизВведём вектор факторов регрессии Zвестных параметров регрессии ~β = (β1 , . . . , βk ). Каждый вектор есть вектор-столбец, а изображён по горизонтали для удобства. Рассматриваетсяпростая (линейная) регрессия~ = ~t = f ~t = β1 t1 + . . . + βk tk ,E X|Zили, равносильно,~ ) = f (Z~ ) = β1 Z1 + . . . + βk Zk .E(X | ZПусть в i -м эксперименте факторы регрессии принимают заранее заданные значения~ (i) = Z (i) , . . . , Z (i) , где i = 1, . . . , n.Z1kПосле n > k экспериментов получен набор откликов X1 , . .
. , Xn :(1)(1)X1 = β1 Z1 + . . . + βk Zk + ε1(2)(2)X2 = β1 Z1 + . . . + βk Zk + ε2...X = β Z (n) + . . . + β Z (n) + ε ,n11kkn~ = Z T ~β +~ε, с матрицей плана Z(k × n)или, в матричной форме, X (1)(n)Z. . . Z1 1....~ (1) . . . Z~ (n) .Z = . ....= Z(1)(n)Zk . . . Zk~ найти оценки дляТребуется по данным матрице плана Z и вектору Xпараметров регрессии ~β и параметров распределения вектора ошибок ~ε.МНК и нормальное уравнение. Будем считать в дальнейшем выполненным следующее условие.(A1) Матрица Z имеет ранг k, т. е. все её строки линейно независимы.Л е м м а 9. Предположение (A1) означает, что симметричная матрица A = ZZ T положительно определена.Д о к а з а т е л ь с т в о. Напомним, что матрица A(k × k) называетсяположительно определённой, если неотрицательна квадратичная форма~t T A ~t > 0 для любого вектора ~t = (t1 , . .