Хохлов Ю.С. - ПМСА для эконома (1185346), страница 6
Текст из файла (страница 6)
случайные величины RSS и ESS имеют χ2 -распределенияс одной и (N − 2) степенями свободы соответственно;3. случайная величинаF =R2RSS/(2 − 1)= (N − 2) ·ESS/(N − 2)1 − R247(3.34)имеет распределение Фишера с (1, N − 2) степенямисвободы.В следующей главе этот результат будет доказан в болееобщей ситуации множественной линейной регрессии.Далее по таблицам распределения Фишера для заданного α находим константу F (α) такую, чтоP0 (F > F (α)) = α.Если реально полученное значение Fн статистики F будет больше F (α), то гипотезу H0 следует отвергнуть и признать линейное влияние X на Y значимым. В противномслучае говорят, что не выявлено значимого влияния X наY.Замечание.
1. Можно показать, что в рассматриваемом случае (один фактор X) имеет место соотношениеF = Tβ2 , т. е. рассмотренный ранее критерий о значимости влияния отдельного фактора (t-критерий Стьюдента)и проверка адекватности модели в целом эквивалентны.2. Формула (34) показывает также, что приведённыйвыше критерий эквивалентен критерию проверки гипотезы ρ(X, Y ) = 0.3.7Итоговый примерВ данном разделе мы на некотором модельном примере показываем весь цикл статистического исследования в рамках одномерной модели регрессии.По данным годовых отчётов десяти машиностроительных предприятий провести регрессионный анализ зависимости производительности труда y (тыс. руб.
на чел.) отобъёма производства x (млн. руб.).48YjXj2.132.843.254.554.854.955.566.5712.11515.120Предполагаем, что имеет место линейная модель (наоснове визуального исследования)Yj = α + β · X j + ε j .По методу наименьших квадратов оценки θ̂ = (α̂, β̂)Tполучаются по формулеθ̂ = (X T X)−1 X T Y.В нашем случаеÃTX X=10 7575 835!.Обратная матрица равнаÃT−1(X X)=0.306422 −0.0275229−0.02752290.0036697ДалееÃTX Y =Окончательно получаемÃθ̂ =α̂β̂!61.5666.5Ã=!.!.0.5009170.753211!.Таким образом линия регрессии имеет видŷ = 0.50092 + 0.75321 · x.В нашей задаче есть ещё один параметр — дисперсияσ ошибок измерений εj . Её оценка находится по формуле2S2 =N1 X[Yj − Ŷj ]2 = 0.49809.N − 2 j=149Отсюда оценка среднеквадратического отклонения равнаS = 0.70576.Прежде, чем двигаться дальше, оценим значимость линейного влияния фактора X на исследуемый показательY.PT SS=(Yj − Ȳ )2 = RSS + ESSj=Pj(Ŷj − Ȳ )2 +Pj(Yj − Ŷj )2 ,158.485 = 154.597 + 3.888.Наблюдаемое значение FH вычисляется по формулеFH =1 · RSS154.957== 318.06.10.486ESSN −2При гипотезе H0 : β = 0 вероятность получить такоеуклонение равна 0.00000.
. . (см. таблицы). Таким образоммы приходим к выводу, что линейное влияние фактора Xследует признать значимым. Коэффициент детерминацииR2 = 0.9755,т. е. более чем на 97% поведение Y можно объяснить линейным влиянием X.Оценим значимость каждого из коэффициентов регрессии. Стандартные ошибки определения коэффициентов αи β равны соответственно 0.3859 и 0.0422.
Тогда величинастатистик Стьюдента и вероятности полученных уклонений равны 1.29797 и 17.8343; 0.23047 и 0.00000. . . . Такимобразом, коэффициент β значимо отличается от нуля, напротив, коэффициент α может равняться и 0. Доверительные интервалы уровня 0.95 для α и β имеют вид−0.389 < α < 1.391,0.656 < β < 0.851.50Обычно результаты оценки линии регрессии записывают в виде:y = 0.50092 + 0.75321 ·xSE0.38590.0422t1.29817.83α0.230.00051Глава 4Множественная линейнаярегрессияВ этой главе рассматривается ситуация, когда есть однаколичественная характеристика Y , поведение которой мыизучаем, и несколько факторов X1 , .
. . , Xm , с помощью которых мы пытаемся объяснить поведение Y .4.1Классическая линейная модель.Мы начинаем с описания классичесской линейной моделии далее даем решение основных задач, в рамках этой модели. Изложение во многом повторяет то, что мы уже знаемиз предыдущей главы, где рассматривалась та же задача,но был только один объясняющий фактор X.Пусть мы имеем одну зависимую (объясняемую в рамках нашей модели) переменную Y и m независимых объясняющих переменных X1 , . .
. , Xm , которые мы будем называть факторами или предикторами. Предположим, чтомы имеем N одновременных измерений всех этих величин52и они связаны соотношениемYj = g(Xj1 , . . . , Xjm ) + εj , j = 1, . . . , N ,(4.1)где εj описывает влияние всех остальных неучтенных факторов, интерпретируется как возмущающий член или ошибка измерений и является случайной величиной.Всюду далее при анализе модели мы предполагаем, чтовыполнены следующие основные предположения:1) модель линейна по параметрам, т.е.Yj = α + β1 Xj1 + . .
. + βm Xjm + εj ,(4.2)2) факторы измерены без ошибок, т.е. {Xjk } – неслучайные величины,3) M (εj ) = 0 для всех j, т.е. ошибки не содержат систематической составляющей,4) D(εj ) = σj2 = σ 2 для всех j (условие гомоскедастичности),5) ошибки εj и εk независимы (достаточно некоррелированности) для j 6= k,6) ошибки имеют нормальное распределение.Формулы, которые мы будем выписывать, довольно громоздки. Поэтому всюду далее мы используем следующиематричные обозначения:Y =Y1Y2...YN~k = , Xε=ε1ε2...εNX1kX2k...XN k, θ = αβ1...βm ~ , X0 = 5311...1,=θ0θ1...θm,X = (Xjk ) = X10...Xj0...XN 0X11...Xj1...XN 1...............X1k...Xjk...XN k...............X1m...Xjm...XN m.В этих обозначениях соотношение (2) можно переписать вболее компактном виде:Y =X ·θ+ε ,или(4.3)~ 0 + .
. . + θm · X~m .Y = θ0 · XИспользуя основные предположения о нашей модели, нетрудно вычислить математическое ожидание и матрицу ковариаций для вектора наблюдений Y :M (Y ) = X · θ , ΣY = Σε = σ 2 · E .(4.4)Перечислим основные задачи, которые необходимо решить, при исследовании описанной выше модели:1) оценка параметров модели,2) проверка гипотез о параметрах,3) отбор значимых факторов,4) проверка адекватности модели,5) проверка выполнения основных предположений.4.2Оценка параметров. Метод наименьших квадратовНам необходимо так подобрать параметры в уравнении(2), чтобы построенная модель в определенном смысле наилучшим образом аппроксимировала экспериментальные данные. Мы уже обсуждали эту проблему при анализе про54стой линейной регрессии и выяснили, что метод наименьших квадратов (МНК) является довольно простой в аналитическом смысле процедурой, он дает оценки параметров с хорошими статистическими свойствами, для него существует развитая теория проверки разнообразных гипотез.
В силу этого мы будем использовать его и в случаемножественной линейной регрессии.Согласно МНК для оценки параметров необходимо решить следующую экстремальную задачу:Q(θ) =NX[Yj − (θ0 + θ1 Xj1 + . . . + θm Xjm )]2j=1= (Y − Xθ)T · (Y − Xθ) = kY − Xθk2 → minθ(4.5)Q(θ) есть неотрицательная квадратическая форма по θ.Поэтому решение задачи существует и, в невырожденномслучае, является единственным. Чтобы его найти, продифференцируем Q(θ) по параметрам и приравняем эти производные к нулю.
Это приводит нас к следующей линейнойсистеме уравнений:X T Xθ = X T Y(4.6)которая называется системой нормальных уравнений.Пусть матрица X T X невырождена (эквивалентно матрица~ 0, X~ 1, . . . X~mX имеет ранг m+1). Это означает, что векторы Xлинейно независимы. Тогда решение системы (6) сущуествует и единственно и его можно записать в виде:θ̂ = (X T X)−1 X T Y = θ + (X T X)−1 ε .(4.7)Говорят, что θ̂ являются оценками по МНК для параметров θ уравнения регрессии. Используя эти оценки, мы вычисляем предсказанные значения Ŷ = X · θ̂ и остаткиe = Y − Ŷ .55Мы оценили параметры уравнения регрессии. Нам нужно оценить еще один параметр модели, а именно, дисперсию σ 2 ошибок измерений.
Если бы мы знали значения εj ,j = 1, . . . , N , ошибок измерений, то величинаN1 Xε2N j=1 jбыла бы несмещенной и, в силу закона больших чисел, состоятельной оценкой для σ 2 . К сожалению, ошибки измерений являются ненаблюдаемыми величинами и, поэтому,не могут быть использованы для построения оценок. Но,как мы неоднократно убедимся в дальнейшем, остатки ej ,j = 1, .
. . , N , во многом наследуют свойства ошибок измерений. Поэтому, в качестве оценки дисперсии σ 2 ошибокизмерений предлагается взять величинуσˆ2 = S 2 =NX1e2 .N − (m + 1) j=1 j(4.8)Изменение нормировки произведено для того, чтобы получить несмещенную оценку (сравни с оценкой дисперсиис помощью исправленной выборочной дисперсии, построенной по повторной выборке!).Заметим, что фактически мы решаем задачу о наилучшей линейной оценке Ŷ вектора Y в линейном простран~ 0, X~ 1, . . .















