Хохлов Ю.С. - ПМСА для эконома (1185346), страница 10
Текст из файла (страница 10)
Но, как показано выше, дисперсия оценки β̂1,L большедисперсии оценки β̂1,S за счет включения несущественнойпеременной.4.9Выбор моделиЕсли у нас есть несколько моделей, например, (15) и (16),то мы должны выбрать одну из них. Обычно это делают наоснове коэффициента детерминации R2 . Но R2 возрастаетс увеличием числа факторов независимо от того сколькоих в истинной модели.
Отсюда получается, что чем больше факторов, тем лучше. R2 является оценкой для множественного коэффициента корреляции, причем эта оценкасмещенная. Несмещенной оценкой будет2Radj= 1 − (1 − R2 )N −1N −m−1– исправленный коэффициент детерминации. Этот коэффициент сначала растет с ростом m, а затем убывает. Поэтому существует некоторое оптимальное значение. Но иэтот показатель не является универсальным. Кроме того,для одного и того же числа факторов m разные наборыфакторов дают разные результаты.Поэтому для выбора наилучшей модели рекомендуетсяперебрать все возможные модели и выбрать ту, для которой будет приемлемой сумма квадратов остатков.804.10Сравнение двух регрессийРазработанная выше техника проверки линейных гипотездля параметров линейной регрессии позволяет решить ещеодну полезную задачу.
Предположим, что одну и ту жерегрессионную модель мы оцениваем для двух различныхнаборов данных, т.е. они получены из разных генеральныхсовокупностей. Например, мы можем изучать зависимостьвеличины заработной платы в зависимости от различныхфакторов (возраста, стажа, уровня образования и т.п.) длямужчин и женщин. В этом случае естественным образомвозникает задача сравнения этих двух регрессий, т.е. мыхотим проверить гипотезу о том, что мы оцениваем однои то же уравнение. Формально это выглядит следующимобразом. Пусть мы имеем два независимых набора данных для одной и той же задачи, по которым мы строимрегрессионые модели с одними и теми же факторами. Дляпервого набора данных мы рассматриваем модель измерений0Yj = β10 Xj1 +β20 Xj2 +.
. .+βmXjm +ε0j , j = 1, . . . , N1 , (4.23)для второго набора данных мы имеем, аналогично, следующую модель измерений:00Yj = β100 Xj1 +β200 Xj2 +. . .+βmXjm +ε00j , j = N1 +1, . . . , N1 +N2 .(4.24)Тогда задача о равенстве этих двух регрессий сводитсяк проверке гипотезы:H0 :βk0 = βk00 , k = 1, .
. . , m, σ 0 = σ 00 ,(4.25)против альтернативы, что хотя бы один коэффициент вэтих двух регрессиях разный.Рассмотрим вспомогательную задачу, в которой мы име81ем N1 + N2 независимых измерений следующего вида000Yj = β10 X̃j,1 +. . .+βmX̃j,m +β100 X̃j,m+1 +βmX̃j,2m +ε0j , (4.26)где измерения X̃j,k новых факторов определены по правилу(Xj,k , 1 ≤ j ≤ N1 ,X̃j,k =0 , N 1 + 1 ≤ j ≤ N1 + N2для 1 ≤ k ≤ m, и(X̃j,k =0 , 1 ≤ j ≤ N1 ,Xj,k−m , N1 + 1 ≤ j ≤ N1 + N2для m + 1 ≤ k ≤ 2m. Ошибки εj , j = 1, . . . , N1 + N2 , естьнезависимые случайные величины, которые имеют нормальное распределение с нулевым средним и дисперсиейσ 2 . Тогда гипотеза (25) есть обычная линейная гипотезадля модели (26), которая задает m линейных ограничений.В силу специфики измерений факторов в модели (26)оценки параметров в ней по МНК без учета ограниченийсводятся к независимой оценке параметров в моделях (23)и (24).
Причем остаточная сумма квадратов ESSU R в модели (26) равна сумме ESS1 +ESS2 остаточных сумм квадратов в моделях (23) и (24).Если мы учитываем ограничения, то, фактически, оценивается модель вида (23) (или 24), но по всей совокупности N1 + N2 = N измерений. При этом мы получаемнекоторую остаточную сумму квадратов ESSR .Из общей теории проверки линейных гипотез мы знаем,что при верной гипотезе H0 случайные величины ESSU R /σ 2= (ESS1 + ESS2 )/σ 2 и (ESSR − ESSU R )/σ 2 независимы иимеют χ2 -распределения с N − 2m и m степенями свободы82соответственно, а случайная величинаF =(ESSR − ESSU R )/mESSU R /(N − 2m)имеет распределение Снедекора-Фишера с (m, N −2m) степенями свободы. Далее, используя статистику F , критерийдля проверки H0 строится по стандартной схеме. Полученная процедура известна как тест Чоу (Chow).
Заметим,что эта задача может быть обобщена на случай несколькихрегрессий.Пример. Для иллюстрации изучаемой темы рассмотрим следующий пример, который предлагался на семинаре"Преподавание начального курса эконометрики"(Arthur vanSoest, Tilburg University).Изучается разница в оплате мужчин и женщин в Нидерландах. На основании опроса 75 мужчин и 75 женщин,работавших на полную ставку, была получена информация о их зарплате (w), а также значения двух факторов:возраст (age) и уровень образования (edu).Оценим регрессию величины зарплаты на факторы возраста и уровня образования для мужчин.
Получаем уравнение регрессииw(1) = −3.37 + 0.479 · age + 3.943 · edu ,причем оценка свободного члена оказалась незначимой, аоценки факторов значимыми. Остаточная сумма квадратов равна ESS1 = 5672.328.Аналогичное уравнение регрессии для женщин оказалось следующим:w(2) = −0.20 + 0.414 · age + 2.305 · edu ,остаточная сумма квадратов равна ESS2 = 1788.344.83Отсюда получаем, что остаточная сумма квадратов вмодели без ограничений равна ESSU R = 7460.672.Уравнение регрессии, оцененное по всей выборке имеетвидw = −3.06 + 0.478 · age + 3.254 · edu ,остаточная сумма квадратов в модели с учетом ограничений равна ESSR = 8080.113.Наблюдаемое значение статистики F равно(ESSR − ESSU R )/m= 3.342 .ESSU R /(N − 2m)Такое значение статистики F при числе степеней свободы(3, 144) является значимым для уровня значимости теста,равного 0.05.4.11Ортогональная матрица плана экспериментаКак мы отмечали выше, при удалении и добавлении факторов оценки параметров при тех факторах, которые присутствуют в обеих моделях, будут, вообще говоря, различными.
Но в одном специальном случае коэффициенты меняться не будут. Назовем матрицей плана экспериментаматрицу X. Эта матрица называется ортогональной, если ортогональны столбцы этой матрицы. В этом случаематрица X T X будет диагональной и нормальная системауравнений при оценке параметров распадается на отдельные уравнения для каждого фактора.
Поэтому добавление или удаление такого ортогонального фактора не меняет уравнения для вычисления оценки коэффициента придругом факторе.84Ортогональная матрица плана эксперимента оказывается особенно полезной в случае, когда мы не увереныв правильной спецификации модели. В этом случае какпри потере существенной переменной, так и при включении несущественной переменной все полученные оценкидля параметров уравнения регрессии и дисперсии ошибокизмерений будут несмещенными и не будет происходит изменения точности построенных оценок.Другой важный случай, когда бывает полезной ортогональная матрица плана, это ситуация мультиколлинеарности.
В этом случае матрица (X T X) имеет определеитель,близкий к нулю, т.е. она практически вырождена. В такойситуации обычная процедура оценки параметров становится сильно неустойчивой: небольшое изменение начальных данных приводит к сильному изменению величиныполученных оценок. Как правило при этом наблюдаетсянезначимость нескольких факторов. Исправить ситуациюможно устранив один или несколько факторов.
Особеннолегко это можно делать в случае ортогональной матрицыплана, т.к. факторы можно удалять не меняя оценок коэффициентов при других факторах. Более того, по величинезначимости факторов, можно отобрать те, которые нужноудалить в первую очередь.85Глава 5Фиктивные переменныеДо сих пор мы неявно предполагали, что наши факторыX1 , . . .
, Xm меняются непрерывно. Но часто возникают ситуации, когда нужно учесть некоторые качественные факторы, которые меняются дискретно, например, разделитьстудентов по их уровню знаний на экзаменах, учесть влияние времени года на продажу товара, выяснить влияниеналичия или отсутствия некоторого признака.
Простейший подход к таким задачам состоит в том, чтобы построить несколько уравнений, соответствующих разнымзначениям качественного признака, а затем сравнить их.Но более эффективным является введение так называемых фиктивных (dummy) переменных.Пример 1. Изучается зависимость зарплаты Y от некоторого набора факторов X1 , . . . , Xm .
Обычно модель имеетвидYj = Xj1 β1 + . . . + Xjm βm + εj .Предположим, что мы решили выяснить влияет ли наличие высшего образования на величину зарплаты. Дляэтого введем еще один фактор d, который равен 1, есливысшее образование есть, и равен 0 в противном случае.86Новая модель имеет видYj = αdj + Xj1 β1 + . . . + Xjm βm + εj .Для проверки значимости влияния наличия высшего образования на величину зарплаты нужно проверить гипотезу H0 : α = 0.














