Болч К._ Хуань К.Дж. - Многомерные статистические методы для экономики (1185342), страница 24
Текст из файла (страница 24)
ЧЛЕН =- — 104.0190 МНОЖ- й — КВАДР. = .4756 СТАНД. ОШИБКА ОЦЕНКИ =27-5393 Г =10.8848 В закл1очение приведем внд бланка подготовки данпых для рассматривавшейся в этой главе задачи с тремя переменнымн„касающейся производительности при установке заклепок, а также результаты вцчислениь для этой задачи. Гд а на 5 ф КОРРЕЛЯЦИЯ, ДИСПЕРСИОННЫЙ И КОВАРИАЦИОННЫИ АНАЛИЗ Б предыдущей главе мы рассмотрели основные элементы линейной регрессионной модели. В этой главе мы продолжим обсуждение этой модели: рассмотрим более детально предмет диснерсионного анализа и обсудим некоторые соотношения между дисперсионным и корреляционным анализом. 5.1. ПРОСТАЯ, МНОЖЕСТВЕННАЯ И ЧАСТНАЯ КОРРЕЛЯЦИЯ Простая корреляция.
Коэффициент простой корреляции между выборочными величинами Х и г определяется в виде ~см. 2.33Р г= — х=Х вЂ” Х у="-'~ (.) ~' хм~ 3Г~~~~ Возводя коэффициент корреляции в квадрат, мы получим Хху Хху г Хх' Ху' Поскольку наклон линни регрессии между У и Х равен р, = Хху/Хх', то (5.2) Из нашего предшествующего обсуждения дисперсионного анализа мы знаем, что Ху' будет общей вариацией зависимой переменной $', и„кроме того, ~,Хху есть вариация„объясняемая линейной регрессией г' по Х ~см.
~4.54)1. Поэтому мы можем сформулировать словесно: объясненная вариация г'— общая вариация необъясненная вариация г общая вариация Коэффициент гР часто называют коэффицигнтам детерлшиаа,ии; он представляет ту долю общей вариации зависимой переменной, которую объясняет регрессия, Коэффициент 1 — г~ часто называют ' Определанную здесь корреляци:о иногда аазыва~от жоррели~ией амежаииаго мОЯВйшй Ели кбяиыя~й~'Й Пирсййй. ПОСКОЛЬКУ Р вЂ” — Р (С Одиай СТЕПЕНЬЮ СВОбОдЫ В ЧИСЛИТЕЛЕ ОтиащЕ с: ния Р), мы видим, что выражения (5.3) и (5.4) идентичны.
Коэффициент корреляции генеральной совокупности р будет равен:- нулв тогда н толька тогда, когда угловой коэффициент совок~ пности -. ~~ РВВЕН НУЛЮ. ТаКИМ ОбРВЗОМт ПРОВЕРКа ГНПОТЕЗЫ О ТОМ, Чта Каэффнциент регрессии генеральной совокупности равен нулю, эквивалентна проверке гипотезы о том, чга коэффициент корреляции совокупности равен нулю, и наоборот. Поэтому нам не нужна проверять обе гипотезы.
В том случае, когда более удобно проверять гипотезу о коэффициенте корреляции, можно воспользоваться либо отношением Р из (5.3» с одной и и — 2 степенями своболы, либо статистикой л — в 1=-г (5.4а) $ .й равной квадратному корню из (5.4), в сочетании с 1-распределением с п — 2 степенями свободы. ПРОИЛЛЮСтРИРУЕМ Эта ПРИМЕРОМ ИЗ ПОСЛЕДИЕй ГЛаВЫт КаеаЮЩИМСЯ производительности при установке заклепок. Как уже говорилась в приложении к гл.
4, матрица простой корреляции равна; гоа га1 га, 1,0000 0,6482 0,5966 к~о г1~ г1а = 0,6482 1,0000 0,6417 га„г„г„0,5966 0,6417 1,0000 Индекс нуль указывает зависимую переменную У. Чтобы проверить, является ли зависимая перемепная существенно коррелированной, например„ с первой независимой переменной, сформулируем гипотезу: Чо: Ро1=0т Н,: Ра1 "> О.
Альтернативная гипотеза не должна быть обязательно односторон- НЕЙ, На, КаК УЖЕ ОТМЕЧВЛОСЬ раНЕЕ, КаК Правпло, ОНа ТаКОй ЯВЛЯЕТСЯ, поскОльку В экономических исследованиях мы обычно имеем некоторое априорное представление о знаке коэффициента регрессии и, следовательно„а знаке коэффициента корреляции. Статистика 1 из (5.4а) в нашем примере будет ранна: с=-0,648л =4,3. 1 — 1о,наев»е По ~-распределению при а =-. 0,05 и 25 степенях свободы мы находим, что критическое значение 1 равно: 1,аа1«., — — 1,708. Поскольку вычисленное значение 1 превышает критическое, мы отвергаем эту нулеВу~о гипотезу и тем самым мы отвергаем на уровне а = О,О5 нулевую гипотезу, состоящую в там, что угловой коэффициент регрессии, свяаывасошей вти лве величины, равен пунше.
В случае ксноисествепвой ре- я П некоторых случаях скота а екоиоыиееских исслелоееииих достаточно аекко) требуется проверить гипотезу о том, что коэффициент корреляции геиераль ной совокупности есть некоторая постоянная, отличная от нуля. В таком случ слепнет воспольэоваться крутим методом„например г-преоораэованиеы Фише (см. 1291К либо обратиться к таблицам иа ~ЗО1. грессин хотят, как правило, выбрать множество независимых переменных таким образом, чтобы они были сильно коррелированы с .
"ааисимой переменной, но нс коррелнроваиы между собой. Другими словами, мы хотели бы получить корреляционную матрицу с близкими к -1- 1,О значениями элементов в первой с~роке (и столбце) и близкими к нулю значениями элементов вне главной диагонали4. В случае двух независимых переменных эффект сильной корреляции между ними легко представить графически. С увеличением корреляции между двумя величинами эллипс совместной доверительной области, подобный эллипсу, показанному на рис. 4.5, удлиняется, т. е. на данном доверительном уровне большая ось эллипса увеличивается относительно его малой оси.
Таким образом, оценки стандартных ошибок коэффициентов растут. Этот вывод соответствует здравому смыслу — по мере увеличения корреляции между двумя переменными все труднее разделить независимые вклады этих переменных. Поэтому становится труднее отвергнуть одномерную гипотезу о равенстве нулю коэффициента регрессии генеральной совокупности. Некоторые признаки свидетельствуют о том, что эта задача присутствует и в примере с установкой заклепок. Из корреляционной матрицы, приведенной ранее, мы видим, что независимая переменная Х, сильнее коррелирована с независимой переменной Х„чем с зависимой переменной. Более того, угловой коэффициент р, в уравнении множественнсй регрессии при переменной Х, ае может свидетельствоватьо наличии связи между У' и Х„так как удвоенная стандартная ошибка этой оценки покрывает ее значение . Существует ряд методов преодоления сильной корреляции между независимыми переменными.
Самый очевидный способ заключается просто в том, чтобы исключить из уравнения одну или несколько переменных. В примере с установкой заклепок мы, вероятно, отбросили бы величину Х, н воспользовались простой регрессией У на Х,. Другой подход заключается в таком преобразовании независимых переменных, которое привело бы к нулевой корреляции между ними. Такое преобразование может быть выполнено при помощи анализа главных компонент, который б) дет рассмотрен в гл.
7. Кроме гого, иногда применяются и другие способы преобразования, которые умепьшают корреляцию между независимыми переменными, хотя и пе устраняют ее полностью. Так, перед проведением регрессионного анализа экономических временнйх рядов из них часто удаляют тренд', 4 Наличие связи между независимыми переменными, будь то теоретическое или истинное, часто называют проблемой мдльжаколлииеарноети. Этот термин несколько неудачен, так как придает задаче больше математической точности, чем зто оправдано. Теоретическую мультиколлинеарность (случай Фриша) мы не рассматриваем (см.
Ь71)- ' Приведенное здесь авторамн обоснование вывода о статистически иезначимом влиянии переменной Х, на У' не представляет~я убедительным (см. примечание редактора на с, 121 — 122). Каши сомнения подкреплены как раз относительно высокой корреляцией между Хт и Ха (г1, = О,6417, см. корреляционную матрицу К на с. 150). — Примеч. ред. а Вообще говоря„временнйе ряды часто фильтрукчп е целью снятая тренда и сезонности.
Множественная корреляция. Множественный коэффициент корреляции гв~ ро является непосредственным обобщением понятия простой корреляции. Он представляет собой максимальную корреляцию между зависимой переменной, имеющей номер О, и всеми независимыми переменными 1, 2, ..., К. Для регрессии с произвольным числом независимых переменных объясненная варнацня ф)' я' у ~'о~~ а...к~ = общая вариация у' у Для регрессии в примере с установкой заклепок пз предыдущей главы 36 506,07 $ г302) =-.— '=0,4756.
34 708,07 Таким образом, множественная регрессия объясняет около 48% вариации завпсимай переменной. Заметим, что если опустить в уравнении перемепную Х, и воспользоваться только Х„ то согласно матрице простой корреляции г3~ —— «0,6482)' =0,4202. Здесь мы пользуемся обозначением го~~ вместо ф~ >„так как имеется только одна независимая переменная. Налицо лишь незначительное увеличение доли вариации 3'„объясняемой при использовании переменных Х, и Х„по сравнению с выбором только переменной Х,. Это еще раз подкрепляет наше утверждение о том„что Х, следует исключить из уравнения регрессии.