Н.И. Чернова - Лекции по математической статистике (1115346), страница 18
Текст из файла (страница 18)
Такое условноематематическое ожидание показывает, как влияет на среднее значение первой величиныизменение значений второй. Скажем, стоимость квартиры зависит от площади, этажа,района и других параметров, но не является функцией от них. Зато в широких предположениях можно считать ее математическое ожидание функцией от этих величин.Разумеется, наблюдать это среднее значение мы не можем — в нашей власти лишьнаблюдать значения первой случайной величины при разных значениях остальных. Этузависимость можно воображать как вход и выход некоторой машины — «ящика с шуршавчиком». Входные данные, или «факторы», как правило, известны.
На выходе мынаблюдаем результат преобразования входных данных в ящике по каким-либо правилам.9.1. Математическая модель регрессииПусть наблюдаемая случайная величина X зависит от случайной величины илислучайного вектора Z. Значения Z мы либо задаем, либо наблюдаем. Обозначимчерез f(t) функцию, отражающую зависимость среднего значения X от значений Z:Стр. 157E (X | Z = t) = f(t).(29)ОглавлениеJJIIJIФункция f(t) называется линией регрессии X на Z, а уравнение x = f(t) — регрессионным уравнением. После n экспериментов, в которых Z последовательно принимаетзначения Z = t1 , .
. . , Z = tn , получим значения наблюдаемой величины X, равные X1 , . . . , Xn . Обозначим через εi разницу Xi − E (X | Z = ti ) = Xi − f(ti ) междунаблюдаемой в i-м эксперименте случайной величиной и ее математическим ожиданием.Итак, Xi = f(ti ) + εi , i = 1, . . . , n, где εi — ошибки наблюдения, равные вточности разнице между реальным и усредненным значением случайной величины Xпри значении Z = ti . Про совместное распределение ε1 , . . .
, εn обычно что-либоизвестно или предполагается: например, что вектор ошибок ε состоит из независимых иодинаково нормально распределенных случайных величин с нулевым средним. Нулевоесреднее тут необходимо:На стр. ... из 179E εi = E Xi − f(ti ) = E (X | Z = ti ) − E (X | Z = ti ) = 0.НазадВо весь экранУйтиСтр. 158Требуется по значениям t1 , . . . , tn и X1 , .
. . , Xn оценить как можно точнее функцию f(t). Величины ti не являются случайными, так что вся случайность сосредоточенав неизвестных ошибках εi и в наблюдаемых Xi . Но пытаться в классе всех возможных функций восстанавливать f(t) по «наилучшим оценкам» для f(ti ) довольно глупо— наиболее точными приближениями к f(ti ) оказываются Xi , и функция f(t) будетпросто ломаной, построенной по точкам (ti , Xi ). Поэтому сначала заранее определяютвид функции f(t).
Часто предполагают, что f(t) есть полином (редко больше третьейили четвертой степени) с неизвестными коэффициентами. Будем пока предполагать,что функция f(t) полностью определяется неизвестными параметрами θ1 , . . . , θk .9.2. Метод максимального правдоподобияОглавлениеJJIIJIНа стр.
... из 179НазадОценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизировать функцию правдоподобия случайного вектора X1 , . . . , Xn .Будем, для простоты, предполагать, что вектор ошибок ε состоит из независимыхи одинаково распределенных случайных величин с плотностью распределения h(x) изнекоторого семейства распределений с нулевым средним и, вообще говоря, неизвестнойдисперсией.
Очень часто полагают, что εi имеют симметричное распределение — нормальное N0,σ2 , Стьюдента, Лапласа, логистическое и т.п. Поскольку Xi от εi зависятлинейно, то распределение Xi окажется таким же, как у εi , но с центром уже не в нуле,а в точке f(ti ). Поэтому Xi имеет плотность h x − f(ti ) , и функция правдоподобиявектора X1 , . . . , Xn равна, в силу независимости координат,f(X1 , . . . , Xn ; θ1 , .
. . , θk ) = h X1 −f(t1 ) ·. . .·h Xn −f(tn ) = h(ε1 )·. . .·h(εn ). (30)Во весь экранУйтиСтр. 159Если величины εi имеют разные распределения, то h следует заменить на соответствующие hi . В отсутствие независимости произведение плотностей в (30) заменитсяплотностью совместного распределения координат вектора ε.Метод максимального правдоподобия предписывает находить оценки неизвестныхпараметров θi функции f(t) и оценки неизвестной дисперсии (или дисперсий) D εi ,максимизируя по этим параметрам функцию правдоподобия (30). Рассмотрим, вочто превращается метод максимального правдоподобия в наиболее частых на практикепредположениях.9.3.ОглавлениеJJIIJIМетод наименьших квадратовПредположим, что вектор ошибок ε состоит из независимых случайных величинс нормальным распределением N0,σ2 .
Функция правдоподобия (30) имеет вид(X1 −f(t1 ))21(Xn −f(tn ))21· . . . · √ exp −=f (X; θ) = √ exp −2σ22σ2σ 2πσ 2πn11 X2= nexp − 2(Xi − f(ti )) .2σσ (2π)n/2i=1σ2Очевидно, что при любом фиксированноммаксимум функции правдоподобия достиPP 2гается при наименьшем значении суммы квадратов ошибок (Xi − f(ti ))2 =εi .На стр. ... из 179НазадВо весь экранОпределение 31. Оценкой метода наименьших квадратов (ОМНК) для неизвестныхпараметров θ1 , .
. . , θk уравнения регрессии называется набор значений параметров,доставляющий минимум сумме квадратов отклоненийnX2(Xi − f(ti )) =i=1nXε2i .i=1УйтиСтр. 160^ для f(t). Обозначим черезНайдя оценки для θi , найдем тем самым оценку f(t)^ i ) значения этой функции, и через ^εi = Xi − f(t^ i ) соответствующие оценки ошибок.f(t2Оценка максимального правдоподобия для σ , она же точка максимума по σ2 функцииправдоподобия, равна вычислить!nnX1X^ i ))2 = 1σ^2 =(Xi − f(t^ε2i .(31)nni=1i=1ОглавлениеМудрый читатель понял, что основная цель рассмотренного выше примера — показать, что метод наименьших квадратов не падает с неба, а есть в точности методмаксимального правдоподобия в случае, когда вектор ошибок, а вместе с ним и векторнаблюдаемых откликов регрессии, состоит из независимых и одинаково распределенныхслучайных величин с нормальным распределением.Пример 34.
Пусть плотность независимых случайных величин εi имеет видJJIIJIНа стр. ... из 179НазадВо весь экранУйтиСтр. 161h(x) =1exp {−|x|/σ} , т. е. εi имеют распределение Лапласа.2σТогда при любом фиксированном σ2 максимум функции правдоподобия достигаетсяPпри наименьшем значении суммы|Xi − f(ti )| абсолютных отклонений. Оценкамаксимального правдоподобия (ОМП) для набора θ1 , . . .
, θk уже не есть ОМНК.9.4. ПримерыНайдем ОМНК для функций f(t) в ряде частных случаев. Напомним, что ОМПсовпадает с ОМНК почти исключительно в случае нормальности вектора ошибок.Пример 35. Пусть функция f(t) = θ — постоянная, θ — неизвестный параметр.Тогда наблюдения равны Xi = θ + εi , i = 1, . . . , n.
Легко узнать задачу оцениваниянеизвестного математического ожидания θ по выборке из независимых и одинаковораспределенных случайных величин X1 , . . . , Xn . Найдем ОМНК θ^ для параметра θ:X∂ X(Xi − θ)2 = −2(Xi − θ) = 0 при θ^ = X.∂θ^θ=θnni=1i=1Трудно назвать этот ответ неожиданным. Соответственно, σ^ 2 = S2 .ОглавлениеУпражнение. Покажите, что в условиях примера 34 ОМП для θ, минимизируюPщая |Xi − θ|, есть выборочная медианаX(m) ,если n = 2m−1 (нечётно),θ^ =1 X(m) +X(m+1) , если n = 2m (чётно),2а ОМП для дисперсии равна σ^2 =h1nnP^ Вместо полусуммы можно брать|Xi − θ|.i=1iJJIIлюбую точку отрезка X(m) , X(m+1) .JIПример 36.
Линейная регрессия.Рассмотрим линейную регрессию Xi = θ1 + ti θ2 + εi , i = 1, . . . , n, где θ1 и θ2— неизвестные параметры. Здесь f(t) = θ1 + tθ2 — прямая.На стр. ... из 179НазадВо весь экранУйтиНайдем оценку метода наименьших квадратов θ^1 , θ^2 , на которой достигается миниP 2 Pмум величиныεi = (Xi − θ1 − ti θ2 )2 . Приравняв к нулю частные производныеэтой суммы по параметрам, найдем точку экстремума.Упражнение. Убедиться, что решением системы уравненийn∂ X 2εi = 0 ,∂θ1i=1является параСтр.
162θ^2 =1nn∂ X 2εi = 0∂θ2i=1P1nti Xi − X · t,P(ti − t)2θ^1 = X − tθ^2 .Определение 32. Величина∗Оглавлениеn1nPti Xi − X · tP(ti − t)2 · n1 (Xi − X)2ρ =q P1называется выборочным коэффициентом корреляции и характеризует степень линейнойзависимости между наборами чисел X1 , . . . , Xn и t1 , . .
. , tn .JJIIJIНа стр. ... из 179Пример 37. Термин «регрессия» появился впервые в работе Francis Galton, “Regression towards mediocrity in hereditary stature” (Journal of the Anthropological InstituteV. 15, p. 246–265, 1886).НазадВо весь экранУйтиГальтон исследовал, в частности, рост детей высоких родителей и установил, чтоон «регрессирует» в среднем, т. е. в среднем дети высоких родителей не так высоки,как их родители. Пусть X — рост сына (дочери), а Z1 и Z2 — рост отца и матери.Для линейной модели регрессии E (X | Z1 = t, Z2 = u) = f(t, u) = θ1 t + θ2 u + cГальтон нашел оценки параметров:E (роста сына | Z1 = t, Z2 = u) = 0, 27t + 0, 2u + const,а средний рост дочери еще в 1,08 раз меньше.Стр.
1639.5.ОглавлениеОбщая модель линейной регрессииВведем два вектора: Z = (Z1 , . . . , Zk ) — факторы регрессии и β = (β1 , . . . , βk ) —неизвестные параметры регрессии. Каждый вектор есть вектор-столбец, а изображенпо горизонтали для удобства. Обозначать вектора мы, как и ранее, будем жирнымшрифтом.Рассматривается модель регрессии, которая в курсе «Эконометрика» называетсяпростой (линейной) регрессией:JJIIE (X | Z = t) = f(t) = β1 t1 +. . .+βk tk , или E (X | Z) = f(Z) = β1 Z1 +. . .+βk Zk .JIПусть в i-м эксперименте факторы регрессии принимают заранее заданные значе(i)(i)ния Z(i) = (Z1 , . .