С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 24
Текст из файла (страница 24)
. . , Xk , так что для i-гонаблюдения (i = 1, . . . , N ) может представлять себе соотношениеYi = β1 Xi1 + · · · + βk Xik + εi(6.2)(представление данных), вытекающее из спецификации модели.Подчеркнем, что первый индекс из двух в нашей системе обозначений143144Глава 6всегда — номер наблюдения. Если же индекс всего один, то он обозначаетномер наблюдения у Y и ε, но номер регрессора у X.Отличие формул (6.1) и (6.2) в том, что спецификация (6.1)может обсуждаться вне всякой связи с эмпирическими данными, т.е.концептуально, при этом Y, X1 , . .
. , Xk , ε оказываются обозначениямидля типов объектов. Напротив, Yi , Xij , εi в формуле (6.2) понимаются каквеличины, отвечающие i-му наблюдению, т.е. как конкретные объекты,а не типы объектов. С точки зрения пользователя Yi и Xij можно такжетрактовать как числа — "реализовавшиеся"значения соответствующихвеличин. Для εi такого утилитарного понимания быть не может —коэффициенты модели свободны, т.е. неизвестны исследователю, апотому и ошибка ненаблюдаема.Удобно использовать также сокращенные векторно-матричныеобозначения.
При этом значения Yi объединяются в вектор-столбец Yразмерности N ; аналогично, значения Xij объединяются в матрицу X,имеющую N строк и k столбцов, а εi — в вектор-столбец ε. Столбцыматрицы X удобно обозначать X1 , . . . , Xk — они состоят из значенийсоответствующих регрессоров. В этих обозначениях формула (6.1)приобретает второй смысл — смысл соотношения между N -мернымивекторами Y, X1 , . .
. , Xk и ε. Полностью сокращенную его записьY = Xβ + ε(6.3)мы получим, если введем еще и вектор-столбец β коэффициентов.Размерность вектора β, очевидно, равна k.Заготовим сразу же еще одно соглашение об обозначениях. Среднееарифметическое компонент некоторого вектора (неважно, случайногоили нет) будет обозначаться традиционной для статистики чертойсверху, например,NN1 X1 XȲ =Yi , X̄j =Xij ,N i=1N i=1а отклонения от этого среднего значения — соответствующей малойбуквой:yi = Yi − Ȳ , xij = Xij − X̄jи т.
д. Аналогичные отклонения для вектора ошибок будут записыватьсяподробно: εi − ε̄.Линейная регрессионная модель145Используя обозначение d→ для вектора, все компоненты которогоравны d, можно записать отклонения в векторной формеy = Y − Ȳ → ,6.2xj = Xj − X̄j→ ,ε − (ε̄)→Классическая линейная модель — обсуждениепредположенийВ этом параграфе мы дополняем спецификацию (6.1) простейшимипредположениями о регрессорах и ошибках и получаем полное описаниетак называемого классического варианта линейной регрессионноймодели.Предположения о регрессорах включают два разноплановыхсвойства. Во–первых, регрессоры предполагаются неслучайными.Примерами таких регрессоров являются:1. Константа; этот регрессор обычно включается в модель под первымномером: X1 = 1→ (константу, отличную от единицы, можновключить множителем в соответствующий коэффициент β1 ).2.
"Время": Xi2 = i.3. Любая "управляющая",величина.т. е.подконтрольнаяисследователюС точки зрения экономической теории неслучайность регрессоров(особенно всех!) не очень частое явление, так что сделанноепредположение довольно ограничительно. В дальнейшем (глава 7)мы будем обсуждать обобщения классической модели, в которых этопредположение заменяется более реалистичными.Второе предположение о регрессорах имеет прозаический характер:столбцы X1 , . . .
, Xk регрессионной матрицы X предполагаются линейнонезависимыми векторами. Это свойство означает, что нельзя уменьшитьколичество регрессоров, выразив некоторые из них (хотя бы один) черезостальные.Предположение о линейной независимости столбцов регрессоровможет выполняться лишь в случае, когда число наблюдений N не меньшечисла регрессоров. Это вполне укладывается в обычные статистическиерамки — оценить много параметров по малому числу наблюдений почти146Глава 6никогда не удается осмысленным образом.
Конечно, желательно, чтобыN было значительно больше k.Перейдем теперь к предположениям об ошибках. В классическоймодели они формулируются наиболее жестким и не всегда реалистичнымобразом:• предполагается, что ошибки εi (i = 1, . . . , N ) образуюттак называемый слабый белый шум — последовательностьцентрированных (Eεi = 0) и некоррелированных (E(εi1 εi2 ) = 0 приi1 6= i2 ) случайных величин с одинаковыми дисперсиями E(ε2i ) = σ 2 .Свойство центрированности практически не является ограничением,т. к. при наличии постоянного регрессора среднее значение ошибкиможно было бы включить в соответствующий коэффициент (β1 + ε =β1 + Eε + (ε − Eε)).Обобщения классической модели, включающие автокорреляциюошибок и/или неоднородность дисперсий, будут рассмотрены дальше(глава 7).В ряде случаев сделанные предположения об ошибках будутдополняться свойством нормальности (гауссовости) — случайный векторε имеет нормальное распределение (гауссовский белый шум).
Такуюмодель мы будем называть классической моделью с нормальнораспределенными ошибками. Как хорошо известно, многомерноенормальное распределение задается своим вектором математическихожиданий (в нашем случае это нулевой вектор) и матрицей ковариаций— здесь она имеет вид σ 2 1, где 1 — единичная матрица. Есликомпоненты нормально распределенного вектора некоррелированы, ониавтоматически оказываются независимыми, так что в классическоймодели с нормально распределенными ошибками эти ошибки образуютпоследовательность независимых одинаково нормально распределенныхслучайных величин N(0, σ 2 ).Отметим еще одну тонкость, относящуюся к определениюмногомерного нормального распределения — если каждая из величинεi нормально распределена, то вектор ε, из них составленный, необязан быть нормально распределенным (даже если величины εiне коррелируют!). К сожалению, в литературе иногда встречаютсянеаккуратные формулировки, игнорирующие эту тонкость.Линейная регрессионная модель6.3147Оценивание коэффициентов регрессии — методнаименьших квадратовКлассическая модель линейной регрессии имеет своими параметрамиβ1 , .
. . , βk и σ. Подчеркнем, что все они, включая σ, входят в модельлинейно (параметр σ можно было бы явным образом выделить,записывая ошибку ε в виде σ · (ε/σ) и учитывая, что случайнаявеличина ε/σ стандартизована — имеет нулевое математическоеожидание и единичную дисперсию).
Отметим, впрочем, что из наших"слабых"предположений не следует, что величины ошибок εi одинаковораспределены — это предполагается лишь на уровне второго порядка, аинформация о моментах более высоких порядков отсутствует.В этом параграфе мы рассматриваем первый этап процедурыоценивания — построение оценок коэффициентов регрессии β1 , .
. . , βkметодом наименьших квадратов (МНК; английская аббревиатураOLS — ordinary least squares). Идею этого метода, предложенногоК.Гауссом в начале XIX века, удобнее всего излагать геометрически— на языке векторов N -мерного пространства. В ходе этогообсуждения коэффициенты β1 , . . . , βk будут трактоваться как свободноменяющиеся параметры.
"Истинные"их значения β1,true , . . . , βk,true в ходерассуждений явно появляться почти не будут.Итак, в нашем распоряжении имеются векторы значений регрессоровX1 , . . . , Xk и вектор значений объясняемой величины Y . Мы стремимсянайти такую линейную комбинацию Xβ = β1 X1 + · · · + βk Xkрегрессоров, которая "лучше всего"объясняла бы Y , т.е. "с наименьшимотклонением". Естественнее всего представляется измерять отклонениеY − Xβ длиной соответствующего вектора и подбирать коэффициентыβ так, чтобы эта длина (или, что равносильно, ее квадрат) быламинимальна.
Квадрат длины отклонения Y − Xβ равен0(Y − Xβ) (Y − Xβ) =NX(Yi − β1 Xi1 − · · · − βk Xik )2 ,(6.4)i=1так что предложение Гаусса сводится к поиску точки минимума β̂этой квадратичной функции коэффициентов и объявлению ее оценкойвектора "истинных"коэффициентов βtrue .Хотя возможны и другие меры отклонения, например, суммамодулей вместо суммы квадратов, однако они не получили широкого148Глава 6распространения. Отчасти это связано с наличием у суммы квадратовряда удобных свойств (см.
ниже), а отчасти, по-видимому, с тем, что мыпривыкли к евклидову способу измерения расстояний, и он нам кажетсясамым естественным. Определенную роль играют и установившиесятрадиции.Для нахождения точки минимума β̂ мы снова воспользуемсягеометрическими рассуждениями. Рассмотрим в N -мерном пространствеRN взаимное положение вектора Y и подпространства L(X1 , . .
. , Xk ),порожденного векторами X1 , . . . , Xk регрессоров (его размерность,очевидно, равна k). Пусть Ŷ — ортогональная проекция вектораY на подпространство L(X1 , . . . , Xk ). Тогда вектор-разность Y − Ŷперпендикулярен этому подпространству. Если Xβ = β1 X1 + · · · + βk Xk— какая-то другая точка подпространства L(X1 , . . . , Xk ), то разностьY − Xβ можно трактовать как наклонную, в то время как Y − Ŷ —перпендикуляр. Так как перпендикуляр короче наклонной, получаем00(Y − Ŷ ) (Y − Ŷ ) < (Y − Xβ) (Y − Xβ).Поэтому Ŷ доставляет минимум сумме квадратов (6.4).Поскольку векторы регрессоров X1 , .
. . , Xk линейно независимы,проекция Ŷ единственным образом разлагается в линейную комбинациюих:Ŷ = β̂1 X1 + · · · + β̂k Xk = X β̂.Вектор β̂ коэффициентов — искомый.От геометрической интерпретации точки минимума перейдем ксоответствующим формулам. Запишем условие ортогональностиY − Ŷ ⊥ L(X1 , . .
. , Xk )в виде0(Xβ) (Y − X β̂) = 0.(6.5)Здесь Xβ — произвольный вектор пространства L(X1 , . . . , Xk ).Перепишем теперь равенство (6.5) в виде00β · X (Y − X β̂) = 0и заметим, что геометрически оно может быть истолковано как еще одноусловие ортогональности0β ⊥ X (Y − X β̂)Линейная регрессионная модель149(теперь уже для векторов k-мерного пространства Rk ). Таким образом,0k-мерный вектор X (Y − X β̂) ортогонален произвольному вектору βпространства Rk . Отсюда следует (даже равносильно), что он нулевой:0X (Y − X β̂) = 0.Записывая это равенство в виде00X X β̂ = X Y,(6.6)получаем для β̂ так называемое нормальное уравнение МНК. Легкосообразить, что оно имеет единственное решение.