Болч К._ Хуань К.Дж. - Многомерные статистические методы для экономики (1185342), страница 25
Текст из файла (страница 25)
Важное значение имеет проверка гипотезы о существенности множественного коэффициента корреляции. Чтобы проверить гипотезу о том, что множественный коэффициент корреляции генеральной совокупности равен нулю, относительно двусторонней альтернативной гипотезы, обратимся непосредственно к выражению (5.3) и воспользуемся отношением р О (! 2...К~~ г~ ~К (5.6) (! — ~ц~~ ~ к~)Дй-К вЂ” Ц с К и и — К вЂ” 1 степенями свободы.
Это то же отношение Г, что и заданное в «4.55), и если мы отвергнем нулевую гипотезу о равенстве нулю множественного коэффициента корреляции генеральной совокупности, то мы также отвергнем нулевую гипотезу о равенстве нулю всех угловых коэффициентов совокупности. В ряде случаев в нашем распоряжении имеется только матрица простой корреляции, а мы хотим найти множественный коэффициент корре.- ляции. Между множественным коэффициентом корреляции и простым коэффициентом корреляции существует следующее соотношение: 1й1 ~о<~ я., к) =1 — — . «5,7) 1 й'1 Числитель этого отношения представляет собой определитель полной матрицы корреляции, а знаменатель — определитель подматрицы этой матрицы, содержащей все элементы полной матрицы, за иаиючгнием элементов первой строки и первого столбца.
162 Несмотря на та чта выборочные множественные (и простые) коэффипиенты корреляции представляют собой оценки наибольшего правдоподобия соответствующих коэффициентов генеральной совокупности, они являются смещенными (но состоятельными) оценками этих параметров. Чтобы устранить смещение, эти оценки часта ~исправляют» с учетом числа степеней свободы. Запишем ~исправленный» коэффициент неапределенностп: (5.3) Заметим, чта е'е и у'у делятся каждый на соответствующее число степеней свободы.
С учетом (5.8) исправленный коэффициент детерминации равен: 2 2 л — 1 го1 ~:~... к1 = 1 — 11 — ~ ц1 ~ ... к1 1 (5.8а) л — К вЂ” 1 При прочих равных условиях с ув..личением числа независимых переменных этот коэффициент начинает убывать. Исправленный коэффициент может стать и отрицательным„вэтом случае ан должен считаться равным нулю. Частная корреляция. Частной корреляцией г1;.~ называется корреляция между величинами г и 1 при зафиксированном» влиянии величины Й, формально частный коэффициент корреляции генеральной совокупности р1;.1, представляет собой коэффициент корреляции, связанный с условной ковариационпой матрицей, т. е.
ксвариациснной матрицей, соответствующей условной плотности ~ (Х;, Х~~Х~). Именно в этом смысле влияние величины Х~ считается фиксированным. Частный коэффициент корреляции можно рассматривать и с другой точки зрения. Угловому коэффициенту в любом уравнении регрессии всегда соответствует некоторый коэффициент корреляции. В случае простой регрессии угловому коэффпциенту линии регрессии саатве.гствует простой коэффициент корреляции, Если мы имеем уравнение У = р, + ~3,Х, + р,Х„то коэффициент р1 есть частная производная дПдХ„т. е. р1 представляет собой угловой коэффициент гиперплоскости, отражающей связь $' с Х, анри условии, чта Х, постоянна».
Таким образом, коэффициент корреляции го1.есаатветствует р„ а коэффициент корреляции г„.1 соответствует р». Мы ставим точку в индексе, чтобы отделить активные переменные от пассивна переменных, или переменных, фиксированных в постоянном значении. Таким образом, го1.» характеризует вариацию У, катару~а объясняет Х, при условии, что Х, статистически постоянна.
Частные коэффициенты корреляции можно вычислить па основании простых коэффициентов корреляции. Для коэффициентов первого порядка (коэффициентов с одной пассивной переменной) используются простые коэффициенты (т. е. нулевого порядка): ~'И ~ь|ь ОА 4~ ~~ — г— 1.~1 — г'„, 1; 1 — ф Таким образом, для примера с установкой заклепок УЪ1 — г02 ги О.6482 — (О,5966) (О,6417) 0 431.
''1l~ — ~ ~ ~1 — ~ 1 — (О,5966) $~~ — (0,64~7~~ ген — ге1 — г~~ О.5966 — (0,6462) (О,6417) гоа-1 — 0,310. У( — Ь У1 — 3 У1 — (0,6432)' 71 — (О,6417Р Вновь обратим внимание на малую корреляцию между зависимой псременнс й и Х, если принять во внимание Х,. Это еще раз подтверждает полезность исключения Х, из уравнения регрессии. Коэффициенты второго порядка можно вычислить по коэффициентам первого порядка: 1 г гц.д (5.9) 1~1 — »~». Ъ" — 'Р». и так далее для коэффициентов более высокого порядка.
В общем случае если имеется р+1 переменная и мы хотим зафиксировать значения р — 1 переменных, то, например, — Со1 01"23 ... 1Р (С С )]/~ где С~ —, это алгебраическое дополнение элемента г;~ корреляционной матрицы К для р+ 1 переменных. Если в нашем примере мы хотим найти коэффициент г,, то из корреляционной матрицы имеем: 11 г14 оо-- гя г22 г„г,, г2О г~2 г, г„ гюо га2 После разложения каждого из этих алгебраических дополнений (на- пример, С„= 1 — гЬ, так как г„= г„= 1) легко увидеть, что — ~о1, г1и — гвю г1~ г0 1/2 (Сао Си)'~ (1 — г~~~) (1— (5.10) г» у.д»7,». В нашем примере если мы хотим вычислить г,1.~, то мы находим 1~ =— = 1,4985~0,64 == 2,3414, откуда 2,3414 г 1.
— " —— 0,431, 1 Д,341»)~+24 что совпадает с ранее полученным нами результатом, 154 эта совпадает с ранее приведенной формулой. Эти коэффициенты можно определить также исходя нз соответствующих им угловых коэффициентов регрессии и оценок стандартных ошибок. Обозначим через ~~ отношение соответствующего углового коэффициента к его стандартной ошибке (т. е.
1~ — -- ~3; г~ ), тогда Лля проверки гипотезы о том, 1то частный коэффицпю~т коррелящи генсральной совокупности равен нулино, зададим величину (5.11) где Р обозначает число пассивных переменных. Это отношение подчиняется 1-распределению с п — Р— 2 степенями свободы. В случае простой корреляции Р = — О и выражение (5.11) сводится к (5.4а). Что касается простой корреляции, то проверка может быть односторонней или двусторонней, и отбрасывание пулевой гипотезы влечет за собой огбрасывание нулевой гипотезы о том, что соответствующий угловой коэффициент раве11 нулю, Множественно-частная корреляция. Предположим, что у нас есть регрессия с К независимыми переменными. Необъясненная вариация в этом случае согласно (5.5) равна: (е' е)~ — — у' у (1 — го'<1 р.
„.. ~Д. Пусть теперь мы имеем регрессию с Р независимыми переменными, где Р:. К, и эти К переменных являются их подмножеством. Тогда после регрессии У по Р независимым переменным необъясненная варпацпя будет равна: (е'е)р=у'у(1 — ф12 ... р1 ). Уменьшение необъясненной вариации„вызванное использованием дополнительных переменных, составляет: (е е)~ — (е е)~ --У'У(~311~...~> — го11~...к1), относительное же уменьшение необъясненной вариации будет равно: * Р'О П а ...
Х > — 'О 1~ ~ ... К1 го <к+1 к+~ ... Ри~ ° .. к1 — -, "' ° (5.12) еО112...К1 Этот коэффициент называется множестееяко-частным коэффициентом деиермииа~~ии. Он характеризует корреляци1о между зависимой переменной и переменными К + 1, К + 2, ..., Р при фиксировании (или учете влияния) переменных 1, 2, ..., К. Существенность множественно-частного коэффициента корреляции можно проверить, пользуясь отношением ((е' е1~~ — (е' е) р)/~Р— К) Г=- (а' е)рфп — Р— 1) которое подчиняется Г-распределению с Р— К и и — Р— 1 степенями 1 свободыв. Это отношение сравнивает дополнительную вариацию, объясняему1о использованием переменных К + 1„К + 2, ..., Р, с вариацией, необъяспиемой всеми Р переменными.
' См. 1361, и танрне 1271. 5.2 ДИСПЕРС ИОН Н Ый АНАЛ ИЗ вЂ” КЛАССИФИКАЦИЯ ПО ОДНОМУ ПРИЗНАКУ В разделе 3.3. мы проверяли гипотезу о равенстве двух средних. В зтом разделе мы обобщим зту проверку на случай, когда проверяется равенство одновременно нескольких средних. Соответствующий критерий тесно связан с крптерисм проверки гипотезы отпосительпо совместного равенства нескольких коэффициентов регрессии, который обсуждался в разделе 4.6. Обозначения. Типичная форма представления данных для дисперсионного анализа с классификацией по одному признаку показана в табл. 5,1.
Каждый столбец содержит один набор выборочных значений из данной классификации. Для каждого наблюдения У,» индекс ~ указывает номер зтого наблюдения (или строки), а индекс у — номер класса (или столбца). В табл. 5.1 во всех столбцах имеется одно и то же число наблюдений. Равное число наблюдений в подобного рода задачах встречается не всегда, позтому мы будем вести рассмотрение в более общем виде, допуская неравное число наблюдений, как зто уже делалось в разделе З.З при рассмотрении двух средних. Для зкономии обозначений примем и» У.»= '3 ~'и, ~=-1.2,.", К, (5.14) 1 в$ т. е. сумма значений в любом столбце ~ равна У.», где и» вЂ” число на- блюдений в столбце.
Индекс.1 показывает, что суммирование ведется по ~всем строкам ~-го столбца». Кроме того, обозначим сумму всех на- блюдений через К и» У' = '~~ '~~ К,». 7мв$ 1~=1 (5.15) Здесь индекс ° ° указывае~, что суммирование ведется по вовсем строкам и всем столбцам». Суммам столбцов соответствуют средние значекия ио г»пол б~1а.и: (5.17) где Ф = и, + и, + ... + и~, или, если число наблюдений во всех столбцах одинаково, У = иК, где п — число наблюдений в каждом столбце„а 1~ — число столбцов.
Для любого наблюдения, очевидно, имеет место следующее равенс во: (5.1 (5.16) П» Аналогично сумме всех наблюдений будет соответствовать 0бд~ее среднее К.. Таким образом, Проилл1острпруем скаЗапиОе, польэуясь данными табл. 5.2. В этОЙ таблице приведены пятилетние нормы 11рибыли для ряда фирм в трех отраслях промышленности. Всего имеется 32 наблюдения. Таблица 5.2 Пятилетняя норма прибыли на обыкновенную акцию для фирм в трех отраслях промышленности 17,2273 13,1000 Срсднее 8,3667 Общее среднее И с т о ч н и к.