Хохлов Ю.С. - ПМСА для эконома (1185346), страница 8
Текст из файла (страница 8)
Иногда говорят, чтомы проверяем гипотезу о значимости коэффициента θk .Если какой-либо коэффициент (фактор) признан незначимым, то его удаляют из модели и заново оценивают всекоэффициенты. Это связано с тем, что при удалении илидобавлении одного или нескольких факторов оценки коэффициентов при других факторах, в общем случае, меняются.Построенный нами критерий известен в статистическойлитературе под названием T -критерия Стьюдента.4.6Проверка линейных гипотезПостроенный выше T -критерий Стьюдента позволяет установить незначимость влияния отдельно взятого фактора.Но если с его помощью мы выяснили незначимость двухи более факторов, то это вовсе не означает, что все онимогут быть удалены из модели.
Их совместное влияниеможет оказаться и значимым. Так бывает, например, когда в модель включены сильно коррелирующие факторы.В этом разделе мы рассмотрим общую процедуру, которая позволит проверить незначимость не только одного,но и группы факторов, а также решить и более сложныезадачи.4.6.1Общая линейная гипотезаПусть, как и ранее, мы имеем модель измеренийY =X ·θ+ε65(4.11)и выполнены условия 1)-6) основных ограничений. Мы хотим проверить гипотезу:H0 : Aθ = a ,(4.12)где A есть неслучайная p × (m + 1)-матрица, а a – неслучайный p-мерный вектор-столбец.
Например, при проверке значимости отдельного фактора мы проверяли гипотезуθk = 0. Соотношение (12) показывает, что на параметрыуравнения регрессии накладывается p линейных соотношений. Далее мы будем предполагать, что p ≤ m + 1 иrank(R) = p, т.е. все соотношения линейно независимы.Гипотеза (12) означает, что среди m + 1 исходных параметров можно выделить некоторые p параметров, которыеможно линейно выразить через остальные (m+1)−p. Еслиэто сделать, то в линейном пространстве LU R , порожден~ 0, .
. . , X~ m , будет выделено некоторое подном векторами Xпространство LR . Заметим, что набор используемых факторов при этом изменится.Сначала оценим модель (11) без учета ограничений (12).При этом исходный вектор наблюдений Y может быть представлен в видеY = ŶU R + eU R ,где ŶU R есть ортогональная проекция Y на подпространство LU R , eU R – вектор остатков, который ортогонален подпространству LU R .Далее оценим модель (11) с учетом ограничений (12). Вэтом случае вектор наблюдений Y имеет представлениеY = ŶR + eR ,где ŶR есть ортогональная проекция Y на подпространствоLR , eR – соответствующий вектор остатков.Так как LR ⊂ LU R , то вектор eR − eU R является ортогональным к вектору eU R (школьная теорема о трех пер66пендикулярах!). Окончательно получаем следующее представление:Y = ŶR + (eR − eU R ) + eU R ,(4.13)где все три слагаемых взаимно ортогональны.Случайный вектор Y имеет многомерное нормальноераспределение в RN со средним Xθ и матрицей ковариаций σ 2 IN .
Если верна гипотеза H0 , то Xθ ∈ LR . В этомслучае:1) случайный вектор ŶR имеет невырожденное многомерное нормальное распределение в пространстве размерности (m + 1) − p со средним Xθ и матрицей ковариацийσ 2 I(m+1)−p ,2) случайный вектор (eR − eU R ) имеет невырожденноемногомерное нормальное распределение в пространстве размерности p с нулевым средним и матрицей ковариацийσ 2 Ip ,3) случайный вектор eU R имеет невырожденное многомерное нормальное распределение в пространстве размерности m + 1 с нулевым средним и матрицей ковариацийσ 2 IN −(m+1) .В силу ортогональности случайных векторов в представлении (13) они являются некоррелированными и, следовательно, независимыми. Обозначим через ESSU R =|eU R |2 и ESSR = |eR |2 остаточные суммы квадратов в задачах оценки модели (11) без учета и с учетом ограничений(12) соответственно. Используя ортогональность, получаем ESSR − ESSU R = |eR − eU R |2 .
Из свойств 2) и 3) инезависимости eR − eU R и eU R следует, что случайные величины ESSU R /σ 2 (ESSR −ESSU R )/σ 2 независимы и имеют χ2 -распределения с N − (m + 1) и p степенями свободысоответственно. Тогда случайная величинаF =(ESSR − ESSU R )/pESSU R /(N − (m + 1))67при верной гипотезе H0 имеет распределение СнедекораФишера с (p, N − (m + 1)) степенями свободы.Далее, для заданного уровня значимости α (= 0.1, 0.05,0.01) находим по таблицам критическую константу Fα > 0:P0 (F > Fα ) = α .Если реально наблюдаемое значение статистики Fobs статистики F окажется больше Fα , то гипотеза H0 отвергается.
В противном случае говорят, что она не противоречитэкспериментальным данным.Описанный выше критерий основан на МНК и работаеттолько при выполнении основных ограничений классической линейной модели.Далее мы рассматриваем несколько важных частныхслучаев общей линейной гипотезы4.6.2Проверка значимости влияния отдельногофактораВыше мы уже рассматривали эту задачу в параграфе 4.5.Для ее решения применялся T -критерий Стьюдента. Какотмечалось ранее, формально задача сводится к проверкегипотезыH0 : θk = 0 ,против альтернативыH1 : θk 6= 0 .Это частный случай общей линейной гипотезы вида (12) ик нему можно применить описанный выше F -критерий.В случае простой линейной регрессии T -критерий и F критерий эквивалентны. Но для множественной регрессииэто, вообще говоря, два разных критерия, т.к.
F -критерийучитывает чистое влияние фактора Xk .684.6.3Проверка значимости совместного влияниягруппы факторовКак легко понять из заголовка данного раздела, мы рассматриваем задачу проверку наличия или отсутствия значимого влияния группы факторов Xi1 , . . .
, Xip , 1 ≤ i1 <. . . < ip ≤ m. Формально это приводит нас к задаче проверки гипотезыH0 : θi1 = . . . = θip = 0против альтернативы H1 , что хотя бы один из этих параметров отличен от нуля. Фактически мы имеем p линейных ограничений на параметры и вновь можно применитьописанный выше F -критерий.Если гипотеза H0 не противоречит экспериментальнымданным, то мы можем исключить из нашей модели всефакторы Xi1 , . . . , Xip , так как они не оказывают существенного влияния на поведение изучаемой величины Y .4.6.4Проверка адекватности моделиПонятие адекватности модели зависит от того, что именномы от нее хотим. В данном разделе мы проверяем то, насколько хорошо можно объяснить поведение (изменение)величины Y с помощью совокупного линейного влиянияфакторов X1 , X2 , .
. . , Xm .В качестве нулевой гипотезы выбирается предположениеH0 : θ1 = . . . = θm = 0 ,т.е., выбранные факторы не оказывают влияния на переменную Y . Тогда альтернативаH1 : θk 6= 0 k69означает, что совокупное влияние факторов является существенным (значимым).Отметим, что в этом случае мы рассматриваем толькоте факторы, которые действительно меняются, и оставляем в стороне фактор X0 .
В этом случае удобнее перейти к центрированным наблюдениям. Спроектируем век~ 0 . В результатетор исходных наблюдений Y на вектор X(0)~ 0 . Рассмотрим вектор Y~0получаем Ȳ · X= Y − Ȳ · Xцентрированных наблюдений, компоненты которого рав(0)ны Yj = Yj − Ȳ , j = 1, . . . , N .Далее, используя МНК, оценим, как обычно, линейнуюмодель (11). Пусть Ŷ есть вектор предсказанных значений.~ 0 и Y − Ŷ ортогональны,По построению векторы Ŷ − Ȳ · Xт.е. мы имеем следующее ортогональное разложение:~0 .Y (0) = Y − Ŷ + Ŷ − Ȳ · XОтсюда мы получаем соотношение (теорема Пифагора!):T SS =NX(Yj −Ȳ )2 =j=1NX(Yj −Ŷj )2 +j=1NX(Ŷj −Ȳ )2 = ESS+RSS ,j=1гдеT SS – полная сумма квадратов,ESS – остаточная сумма квадратов,RSS – объясненная (регрессионная) сумма квадратов.Величина T SS оценивает степень общей изменчивостипоказателя Y как за счет тех факторов, что включеныв модель, так и за счет неучтенных факторов.
ВеличинаRSS оценивает степень изменчивости показателя Y , вызванной влиянием (изменением) факторов, включенных вмодель. Величина ESS оценивает степень изменчивостиY , вызванной влиянием неучтенных факторов.Аналогично тому, как это было сделано при рассмотрении общей линейной гипотезы, может быть доказана следующая70Теорема 3 .
Пусть верна гипотеза H0 . Тогда1) случайные величины ESS и RSS независимы,2) случайные величины ESS/σ 2 и RSS/σ 2 имеют χ2 распределения с N − m − 1 и m степенями свободы,3) случайная величинаF =RSS/mESS/(N − (m + 1))имеет распределение Снедекора-Фишера с m и N − (m + 1)степенями свободы.Далее проверка гипотезы проводится по стандартнойсхеме: если реально полученное значение статистики F будет больше критической константы, найденной из таблиц,то совокупное линейное влияние факторов признается значимым; в противном случае влияние факторов признаетсянезначимым. В последнем случае необходимо выбрать новый набор факторов и построить новую модель.Важной интегральной оценкой качества подгонки модели к имеющимся экспериментальным данным являетсяследующая характеристика.Определение 5 .
ВеличинаRSSESS=1−.T SST SSназывается коэффициентом детерминации.R2 =Коэффициент детерминации показывает качество подгонки регрессионной модели к реально наблюдаемым значениям величины Y . Нетрудно показать, чтоN −m−1R2·,m1 − R2т.е. коэффициент детерминации напрямую связан со статистикой F -критерия для проверки адекватности модели.F =714.6.5Оценка вклада факторовОбычно при построении модели мы включаем в нее достаточно большое число факторов, часть из которых, возможно, и не оказывает влияния на изучаемый величинуY , либо дублирует другие факторы в силу сильной корреляции с ними.
В подобных случаях коэффициент θk передсоответствующим фактором Xk должен равняться нулю.Но так как мы имеем только оценку β̂k этого коэффициента, то скорее всего мы получим нечто близкое к нулю, новсе-таки отличное от него. Таким образом мы сталкиваемся с проблемой проверки предположения о том, что некоторый фактор не оказывает влияния или, эквивалентно,что соответствующий коэффициент равен нулю.Выше мы уже рассматривали эту задачу.














