В.П. Носко - Эконометрика для начинающих (1160539), страница 15
Текст из файла (страница 15)
При исследовании зависимости спроса накуриные яйца от цены (данные были приведены ранее)получаем в распечатке R 2 = 0.513548 и следующую таблицу:Переменная1CENAКоэф-т21.100–18.559Ст. ошибка2.3045.010t-статист.9.158-3.705P-знач.0.00000.0026Здесь коэффициент при объясняющей переменной CENAстатистически значим даже при выборе α = 0.01 , так что ценаявляется существенной объясняющей переменной.Пример.
Регрессионный анализ потребления свинины надушу населения США в зависимости от оптовых цен насвинину (данные были приведены ранее) дает значенияR 2 = 0.054483 иПеременная1ЦенаКоэф-т77.484-24.775Ст. ошибка13.92129.794t-статист.5.566-0.832P-знач.0.00010.4219В этом примере коэффициент при переменной Ценаоказывается статистически незначимым при любом разумномвыборе уровня значимости α (α = 0.01, α = 0.05, α = 010. ).Замечание. Мы уже отмечали ранее возможность ложнойкорреляции между двумя переменными и, соответственно,возможность ложного использования одной из переменных вкачестве объясняющей для описания изменчивости другойпеременной. Проиллюстрируем такую ситуацию на основерассмотренных нами методов регрессионного анализа.Пример.
В числе прочих подобных примеров мыполучили модель линейной связи между мировым рекордом попрыжкам в высоту с шестом среди мужчин ( H , в см) исуммарным производством электроэнергии в США ( E , вмлрд. квт-час). Мы уже указывали на высокое значениекоэффициента детерминации для этой модели: R 2 = 0.900 .26Теперь мы можем привести результаты регрессионногоанализа:Переменная1HКоэф-т-2625.4977.131Ст. ошибка420.8400.841t-статист.-6.2348.483P-знач.0.00000.0000Формально, переменная H признается существенной дляобъяснения изменчивости переменной E , так что здесь мысталкиваемся с ложной (паразитной) регрессией переменнойE на переменную H , обусловленной наличием выраженного(линейного) тренда обеих переменных во времени.2.8.
ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВЛИНЕЙНОЙ РЕГРЕССИИ И ПОДБОР МОДЕЛИ СИСПОЛЬЗОВАНИЕМ F-КРИТЕРИЕВПриводимая ниже таблица содержит ежегодные данные оследующих показателях экономики Франции за период с1949 по 1960 годы (млрд. франков, в ценах 1959 г.):Y — объем импорта товаров и услуг во Францию;X2 — валовой национальный продукт;X3 — потребление семей;obs194919501951195219531954Y15.916.419.019.118.820.4X2149.3161.2171.5175.5180.8190.7X34.24.13.13.11.12.2X4108.1114.8123.2126.9132.1137.7obs195519561957195819591960Y22.726.528.127.626.331.1X2202.1212.4226.1231.9239258X32.15.65.05.10.75.6X4146.0154.1162.3164.3167.6176.8Выберем модель наблюдений в видеy i = θ 1 x i 1 + θ 2 x i 2 + θ 3 x i 3 + ε i , i = 1,K ,12 ,где xi j — значение показателя X j в i-м наблюдении (i-мунаблюдению соответствует (1948 + i ) год, и xi 1 ≡ 1 (значения27«переменной» X 1 , тождественно равной единице).
Будем, какобычно, предполагать что ε 1 ,K , ε12(∼ i. i. d. N 0, σ 2)и чтозначение σ 2 нам не известно. Регрессионный анализ даетследующие результаты: R 2 = 0.9560 иПеременнаяX1X2X3Коэф-т–8.5700.0290.177Ст. ошибка2.8690.1100.166t-статист.-2.9880.2671.067P-знач.0.01530.79530.3136Обращают на себя внимание выделенные P - значения. Всоответствии с ними, проверка каждой отдельной гипотезыH 0 : θ 2 = 0 , H 0 : θ 3 = 0 (даже при уровне значимости 0.10 )приводит к решению о ее неотклонении.
Соответственно, приреализации каждой из этих двух процедур проверкисоответствующий параметр ( θ 2 или θ 3 ) признаетсястатистически незначимым. И это выглядит противоречащимвесьма высокому значению коэффициента детерминации.По-существу, вопрос стоит таким образом: необходимопостроить статистическую процедуру для проверки гипотезыH0 : θ 2 = θ 3 = 0 ,конкретизирующей значения не какого-то одного, а сразудвух коэффициентов.И вообще, как проверить гипотезуH 0 : θ 2 = θ 3 =K = θ p = 0(гипотеза значимости регрессии) в рамках нормальнойлинейной модели множественной регрессииyi = θ 1 xi 1 +K+θ p xi p + ε i , i = 1,K , n ,c xi 1 ≡ 1 ?Соответствующий статистический критерий основываетсяна так называемой F-статистике28F=( RSSH0− RSS) ( p − 1) .RSS ( n − p)Здесь RSS — остаточная сумма квадратов, получаемая приоцениванииполноймодели(сpобъясняющимипеременными, включая тождественную единицу), а RSS H0 —остаточная сумма квадратов, получаемая при оцениваниимодели с наложенными гипотезой H 0 ограничениями напараметры.
Но последняя (редуцированная) модель имеет видyi = θ 1 + ε i , i = 1,K , n ,и применение к ней метода наименьших квадратовприводит к оценкеθ$ 1 = y ,так чтоnnRSS H0 = ∑ ( yi − y$ i ) = ∑ ( yi − yi ) = TSS .i =122i =1Следовательно,(TSS − RSS ) ( p − 1) ESS ( p − 1)F==.RSS ( n − p)RSS ( n − p)В некоторых пакетах статистического анализа (например,в EXCEL) в распечатках результатов приводятся значениячислителя и знаменателя этой статистики (в графе Средниеквадраты — Mean Squares).Если ε 1 , K , ε n ∼ i.
i. d. N 0, σ 2 , то указанная F -()статистика, рассматриваемая как случайная величина, имеетпри гипотезе H0 (т. е. когда действительно θ 2 = …= θ p= 0)стандартное распределение F ( p − 1, n − p) , называемое Fраспределением Фишера с (p-1) и (n-p) степенями свободы.29Чем больше отношение ESS RSS , тем больше естьоснований говорить о том, что совокупность переменныхX 2 ,K , X pдействительнопомогаетвобъясненииизменчивости объясняемой переменной Y .В соответствии с этим, гипотезаH 0 : θ 2 = θ 3 =K = θ p = 0отвергается при «слишком больших» значениях F,скорее указывающих на невыполнение этой гипотезы.Соответствующее пороговое значение определяется какквантиль уровня (1 − α ) распределения F ( p − 1, n − p) ,обозначаемая символом F1−α ( p − 1, n − p) .Итак, гипотеза Н0 отвергается, еслинеравенствоESS ( p − 1)F=> F1−α ( p − 1, n − p).RSS ( n − p)выполняетсяПри этом, вероятность ошибочного отвержения гипотезыH 0 равна α .Статистические пакеты, выполняющие регрессионныйанализ, приводят среди прочих результатов такого анализатакжезначениеFуказаннойF -статистикиисоответствующее ему P-значение (P-value), т.
е. вероятностьP { F ( p − 1, n − p) > F } .В частности, в рассмотренном выше примере с импортомтоваров и услуг во Францию вычисленное (наблюдаемое)значение F -статистики равно F = 97.75 , в то время каккритическое значениеF0.95 ( 2 , 9) = 4.26 .30Соответственно, P -значение крайне мало — в распечаткерезультатов приведено значение 0.000000 . Значит, здесь нетпрактически никаких оснований принимать составнуюгипотезу H 0 :θ 2 = θ 3 = 0 , хотя каждая из частных гипотезH 02 : θ 2 = 0 и H 03 : θ 3 = 0 ,рассматриваемая сама по себе, в отрыве от второй, неотвергается.Подобное положение встречается не так уж и редко исвязано с проблемой мультиколлинеарности данных. Далеемы уделим этой проблеме определенное внимание.Что касается рассмотренных до этого примеров, то для нихрезультаты использования F -статистики таковы.Пример. Анализ данных об уровнях безработицы средибелого и цветного населения США приводит к следующимрезультатам:R 2 = 0.212 , F = 4.0446 , P -значение = 0.0626 , так что привыборе α = 0.05 гипотеза H 0 не отвергается, а при выбореα = 0.10 отвергается.Пример.
Анализ зависимости спроса на куриные яйца отцены приводит к значениямR 2 = 0.513 , F = 13.7241 , P -значение = 0.0026 , так чтогипотезаH0отвергается, а регрессия признаетсястатистически значимой.Пример. Зависимость производства электроэнергии вСША от мирового рекорда по прыжкам в высоту с шестом:R 2 = 0.900 , F = 71.96 , P -значение = 0.0000 , регрессияпризнается статистически значимой.Пример. Потребление свинины в США в зависимости отоптовых цен:31R 2 = 0.054 , F = 0.6915 , P -значение = 0.4219 , так чтогипотеза H 0 не отвергается даже при выборе α = 0.10 .Отметим, наконец, еще одно обстоятельство.
Во всехчетырех рассмотренных примерах регрессионного анализамодели простой (парной) линейной регрессии (p=2)вычисленные P -значения F -статистик совпадают с P значениями t -статистик, используемых для проверкигипотезы θ 2 = 0 . Факт такого совпадения отнюдь не случаен иможет быть доказан с использованием преобразований,приведенных, например, в книге Доугерти (параграф 3.11).Применение критериев, основанных на статистиках,имеющих при нулевой гипотезе F -распределение Фишера (Fкритерии), отнюдь не ограничивается только чторассмотренныманализомстатистическойзначимостирегрессии. Такие критерии широко применяются в процессеподбора модели.Пусть мы находимся в рамках множественной линейноймодели регрессииΜ p : yi = θ 1 xi 1 +K+θ p − q xi , p − q +K+θ p xi p + ε i , i = 1,K , n ,c p объясняющими переменными, и гипотеза H 0 состоитв том, что в модели Μ p последние q коэффициентов равнынулю, т.
е.H0 : θp=θp −1=K = θp − q +1=0.Тогда при гипотезе H 0 (т. е. в случае, когда она верна) мыимеем редуцированную модельΜ p − q : yi = θ 1 xi 1 +K+θ p − q xi , p − q + ε i , i = 1,K , n ,уже с p − q объясняющими переменными.Пусть RSS - остаточная сумма квадратов в полной моделиΜ p , а RSS H0— остаточная сумма квадратов в32редуцированной модели Μ p − q . Если гипотеза H 0 верна ивыполнены стандартные предположения о модели (вчастности, ε 1 ,K , ε n ∼ i. i. d.