В.П. Носко - Эконометрика для начинающих (1160539), страница 16
Текст из файла (страница 16)
N 0, σ 2 ), то тогда F-статистикаF=( RSSH0)()− RSS q,RSS ( n − p)рассматриваемая как случайная величина, имеет пригипотезе H0 (т. е. когда действительно θ p = θ p-1 = …= θ pq+1= 0) F-распределение Фишера F (q, n-p) с q и (n-p)степенями свободы.В рассмотренном ранее случае проверки значимостирегрессии в целом мы имели q = 1, и при этом там имелоравенство RSS H 0 − RSS = ESS , которое не выполняется вобщем случае.ПустьESS = TSS − RSS — сумма квадратов, объясняемая полноймоделью Μ p ,ESS H 0 = TSS − RSS H 0 — сумма квадратов, объясняемаяредуцированной моделью Μ p − q .ТогдаESS − ESS H 0 = RSS H 0 − RSS ,так что F -статистику можно записать в видеESS − ESS H 0 qF=,RSS (n − p)()из которого следует,что F-статистика измеряет, всоответствующем масштабе, возрастание объясненнойсуммы квадратов вследствие включения в модельдополнительного количества объясняющих переменных.33Естественно считать, что включение дополнительныхпеременных существенно, если указанное возрастаниеобъясненной суммы квадратов достаточно велико.
Этоприводит нас к критерию проверки гипотезыH 0 : θ p = θ p −1 =K = θ p − q +1 = 0 ,основанному на F-статистикеF=( RSSH0)− RSS qRSS ( n − p)=( ESS − ESS ) qH0RSS ( n − p)и отвергающему гипотезу H 0 , когда наблюдаемоезначение F этой статистики удовлетворяет неравенствуF > F1−α ( p − 1, n − p) ,где α — выбранный уровень значимости критерия(вероятность ошибки 1-го рода).Пример.
В следующей таблице приведены данные поСША о следующих макроэкономических показателях:DPI — годовой совокупный располагаемый личныйдоход;C — годовые совокупные потребительские расходы;A — финансовые активы населения на началокалендарного года(все показатели указаны в млрд. долларов, в ценах 1982 г.).obs19661967196819691970C821300.51339.41405.91458.31491.8DPI821433.01494.91551.11601.71668.1A821641.61675.21772.61854.71862.21971197219731974197519761540.31622.31687.91672.41710.81804.01730.11797.91914.91894.91930.42001.01902.82011.42190.62301.82279.62308.4Рассмотрим модель наблюденийΜ 1 : Ct = θ 1 + θ 2 DPI t + θ 3 At + θ 4 DPI t −1 + ε t , t = 1,K ,11 ,34где индексу t соответствует (1965 + t ) год.
Это модель с4 объясняющими переменными:X 1 ≡ 1, X 2 = DPI , X 3 = A, X 4 = DPI ( −1);символ DPI ( −1) обозначает переменную, значениякоторой запаздывают на одну единицу времени относительнозначений переменной, DPI 0 = 1367,4 . Оценивание этоймодели дает следующие результаты:θ$ 2 = 0.904 ,P - value = 0.0028 ;θ$ = −0.029 ,P - value = 0.8387 ;3θ$4= −0.024 ,P - value = 0.9337 ;RSS = 2095.3, TSS = 268835, R 2 = 1 − ( RSS TSS ) = 0.9922 ;F — статистика критерия проверки значимости регрессиив целомF = 297.04, P - value = 0.0000.Регрессия имеет очень высокую статистическуюзначимость. Вместе с тем, каждый из коэффициентов при двухпоследних переменных статистически незначим, так что, вчастности, не следует придавать особого значенияотрицательности оценок этих коэффициентов.Используя t — критерий, мы могли бы попробоватьудалить из модели какую-нибудь одну из двух последнихпеременных, и если оставшиеся переменные окажутсязначимыми, то остановиться на модели с 3 объясняющимипеременными; если же и в новой модели окажутсястатистически незначимые переменные, то произвести ещеодну редукцию модели.Рассмотрим, в этой связи, модельΜ 2 : Ct = θ 1 + θ 2 DPI t + θ 3 At + ε t , t = 1,K ,11 ,с удаленной переменной DPI ( −1) .
Для нее получаем:35θ$ 2 = 0.893 ,θ$ 3 = −0.039 ,P - value = 0.0001 ;P - value = 0.6486 ;RSS = 2098.31, R 2 = 0.9922 ;F-статистика критерия проверки значимости регрессии вэтой моделиF = 508.47, P - value = 0.0000.Поскольку эдесь остается статистически незначимымкоэффициент при переменной A , можно произвестидальнейшую редукцию, переходя к моделиΜ 3 : Ct = θ 1 + θ 2 DPI t + ε t , t = 1,K ,11 .Для этой моделиθ$ 2 = 0.843 ,P - value = 0.0000 ;RSS = 2143.57, R 2 = 0.9920 ;F -статистика критерия проверки значимости регрессии вэтой моделиF = 1119.7, P - value = 0.0000,и эту модель в данном контексте можно принять заокончательную.С другой стороны, обнаружив при анализе модели Μ 1(посредством применения t-критериев) статистическуюнезначимостькоэффициентовпридвухпоследнихпеременных, мы можем попробовать выяснить возможностьодновременного исключения из этой модели указанныхобъясняющих переменных, опираясь на использованиесоответствующего F-критерия.Исключение двух последних переменных из модели Μ 1соответствует гипотезеH0 : θ 3 = θ 4 = 0 ,36при которой модель Μ 1 редуцируется сразу к модели Μ 3 .Критерий проверки гипотезы H 0 основывается на статистикеF=( RSSH0)− RSS q,RSS ( n − p)где RSS — остаточная сумма квадратов в модели Μ 1 ,RSS H0 — остаточная сумма квадратов в модели Μ 3 , q = 2 —количество зануляемых параметров, n − p = 11 − 4 = 7 .Для наших данных получаем значение(2143.57 − 2095.3) 2F== 0.08 ,2095.3 7которое следует сравнить с критическим значениемF0.95 ( 2,7) = 4.74.
Поскольку F < F0.95 ( 2,7) , мы не отвергаемгипотезу H 0 :θ 3 = θ 4 = 0 и можем сразу перейти от модели Μ 1к модели Μ 3 .Замечание. В рассмотренном примере мы действовалидвумя способами:Дважды использовали t -критерии, сначала приняв (неотвергнув) гипотезу H 0 : θ 4 = 0 в рамках модели Μ 1 , а затемприняв гипотезу H 0 : θ 3 = 0 в рамках модели Μ 2 .Однократно использовали F-критерий, приняв гипотезуH 0 :θ 3 = θ 4 = 0 в рамках модели Μ 1 .Выводы при этих двух альтернативных подходахоказались одинаковыми. Однако, из выбора модели Μ 3 вподобной последовательной процедуре, вообще говоря, неследует что такой же выбор будет обязательно сделан и припримененииF -критерия, сравнивающего первую ипоследнюю модели.372.9. ПРОВЕРКА ЗНАЧИМОСТИ И ПОДБОР МОДЕЛИ СИСПОЛЬЗОВАНИЕМ КОЭФФИЦИЕНТОВДЕТЕРМИНАЦИИ.
ИНФОРМАЦИОННЫЕ КРИТЕРИИРанее мы неоднократно задавались вопросом о том, какследуетинтерпретироватьзначениякоэффициента2детерминации R с точки зрения их близости к нулю или,напротив, их близости к единице.Естественным было бы построение статистическойпроцедуры проверки значимости линейной связи междупеременными, основанной на значениях коэффициентадетерминации R 2 — ведь R 2 является статистикой,поскольку значения этой случайной величины вычисляются поданным наблюдений. Теперь мы в состоянии построить такуюстатистическую процедуру.Представим F - статистику критерия проверки значимостирегрессии в целом в видеESS ( p − 1) ESS TSS n − pR2 n − pF==⋅=⋅.RSS ( n − p) RSS TSS p − 1 1 − R 2 p − 1Отсюда находим:( p − 1) F ⋅ 1 − R 2 = (n − p) R 2 , ( p − 1) F = ( ( p − 1) F + (n − p)) R 2 ,(R2 =)( p − 1) F1=( p − 1) F + (n − p) 1 + (n − p)( p − 1) F.Большим значениям статистики F соответствуют ибольшие значения статистики R 2 , так что гипотезаH 0 : θ 2 = θ 3 =K = θ p = 0 ,отвергаемаяприF > Fcrit = F1−α ( p − 1, n − p) ,должнавыполнении неравенства R > R2382crit, гдеотвергатьсяпри2Rcrit=1+1( n − p).( p − 1) FcritПри этом, вероятность ошибочного отклонения гипотезыH 0 по-прежнему равна α .2Интересно вычислить критические значения Rcritприα = 0.05 для различного количества наблюдений.Ограничимся здесь простой линейной регрессией ( p = 2) ,так что12Rcrit=, Fcrit = F0.95 (1, n − 2) .n − 2)(1+FcritВ зависимости от количества наблюдений n , получаем2следующие критические значения Rcrit:n341020304060120R2crit 0.910 0.720 0.383 0.200 0.130 0.097 0.065 0.0325000.008Иначе говоря, при большом количестве наблюдений дажевесьма малые отклонения наблюдаемого значения R 2 от нуляоказываются достаточными для того, чтобы признатьзначимость регрессии, т.
е. статистическую значимостькоэффициента при содержательной объясняющей переменной.Поскольку же значение R 2 равно при p = 2 квадратувыборочного коэффициента корреляции между объясняемой и(нетривиальной) объясняющей переменными, то аналогичныйвывод справедлив и в отношении величины этогокоэффициента корреляции, только получаемые результаты ещеболее впечатляющи:39n|rxy|crit3410203040601200.953 0.848 0.618 0.447 0.360 0.311 0.254 0.1795000.089Если сравнивать модели по величине коэффициентадетерминации R2, то с этой точки зрения полная модель всегдалучше (точнее, не хуже) редуцированной — значение R2 вполной модели всегда не меньше, чем в редуцированной,просто потому, что в полной модели остаточная суммаквадратов не может быть больше, чем в редуцированной.Действительно, в полной модели с p объясняющимипеременными минимизируется сумма∑(yni− θ 1 xi 1 −K−θ p xi pi =1)2по всем возможным значениям коэффициентов θ 1 ,K , θ p .Если мы рассмотрим редуцированную модель, например, безp -ой объясняющей переменной, то в этом случаеминимизируется сумма∑(yni− θ 1 xi 1 −K−θi =1xp −1 i , p −1)2по всем возможным значениям коэффициентов θ 1 ,K ,θ p −1 ,что равносильно минимизации первой суммы по всемвозможным значениям θ 1 ,K ,θ p −1 при фиксированномзначении θp= 0 .
Но получаемый при этом минимум не можетбыть больше чем минимум, получаемый при минимизациипервой суммы по всем возможным значениям θ 1 ,K , θ p ,включая и все возможные значения θ p . Последнее означает,что RSS в полной модели не может быть меньше, чем вредуцированной модели. Поскольку же полная суммаквадратов в обеих моделях одна и та же, отсюда и вытекаетзаявленное выше свойство коэффициента R 2 .40Чтобысделатьпроцедурувыборамоделисиспользованием R 2 более приемлемой, было предложеноиспользовать вместо R 2 его скорректированный (adjusted)вариантRSS ( n − p)2Radj= 1−,TSS ( n − 1)в который по-существу вводится штраф за увеличениеколичества объясняющих переменных. При этом,RSS n − 1 RSS RSS RSS n − 1 2Radj= 1−− + = 1 −TSS n − p TSS TSS TSS n − p = R2 −( p − 1) RSSRSS n − 1 − 1 = R 2 −,TSS n − p (n − p) TSSтак что2Radj< R2при n > p и p > 1.2При использовании коэффициента Radjдля выбора междуконкурирующими моделями, лучшей признается та, длякоторой этот коэффициент принимает максимальноезначение.Замечание.
Если при сравнении полной и редуцированныхмоделей оценивание каждой из альтернативных моделейпроизводится с использованием одного и того же количестванаблюдений, то тогда, как следует из формулы, определяющей22Radj, сравнение моделей по величине Radjравносильносравнению этих моделей по величине S 2 = RSS / ( n − p) илипо величине S = RSS ( n − p) . Только в последних двух41случаях выбирается модель с миниимальным значением S 2(или S ).Пример. Продолжая последний пример, находим значения2коэффициента Radjпри подборе моделей Μ 1 , Μ 2 , Μ 3 :2для Μ 1 — Radj= 0.9889,2для Μ 2 — Radj= 0.9902,2для Μ 3 — Radj= 0.9911.2Таким образом, выбирая модель по максимуму Radj, мывыберем из этих трех моделей именно модель Μ 3 , к котороймы уже пришли до этого, пользуясь t - и F -критериями.В этом конкретном случае сравнение всех трех моделей по2величине Radjне равносильно сравнению их по величине S 2(или S ), если модели Μ 2 , Μ 3 оцениваются по всем11 наблюдениям, представленным в таблице данных, тогда какмодель Μ 1 оценивается только по 10 наблюдениям (однонаблюдениетеряетсяиз-заотсутствиявтаблицезапаздывающего значения DPI 0 , соответствующего 1965году).Нарядусоскорректированнымкоэффициентомдетерминации,длявыборамеждунесколькимиальтернативными моделями часто используют так называемыеинформационные критерии: критерий Акаике и критерийШварца, также «штрафующие» за увеличение количестваобъясняющих переменных в модели, но несколько отличнымиспособами.Критерий Акаике (Akaike’s information criterion — AIC).При использовании этого критерия, линейной модели с p42объясняющими переменными, оцененной по n наблюдениям,сопоставляется значение RSS p 2 pAIC = ln+ 1 + ln 2π+n n где RSS p - остаточная сумма квадратов, полученная приоценивании коэффициентов модели методом наименьшихквадратов.