XVII Математическая статистика (1081432), страница 32
Текст из файла (страница 32)
По матрице исходных данных Хоч Хм, Хз;, 1= 1,37, были подсчитаны выборочные коэффициенты корреляции рб по формуле (6.12): ро1 — — 0,105; роз — — 0,024; рп = 0,966. Значения ро1 и роз дали основание предполагать, что случайные величины Хо,.Х;, 1= 1,2, некоррелированные. Гипотезы о равенстве нулю рщ и роз были приняты на уровне значимости а = 0,1. Это свидетельствует об отсутствии стохастической связи между Хо (качество ткани) и Хм Хз, но ве согласуется с профессиональными представлениями технологов.
Однако расчет значений частных коэффициентов корреляции по формуле (6.29) дает ро11з1 = 0,907 и роз00 = -0,906, что 'Смз Андерсон Т. 264 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА вполне соответствует представлениям специалистов о характере связей между рассмотренными .показателями. Построение доверительных интервалов для истинных значений Роця) н Роз11), согласно фоРмУлам (6.16), с Учетом того, что объем выборки и = 37 должен быть уменьшен на 1 (ибо число „мешающих" переменных в данном случае равно )) = 1), дает следующие результаты (на уровне доверия 7 = 0,9): 0,821 < гоми) < 0,950; -0,950 < гола) < -0,819. роцэВ = 0»69 розр) = 0 097~ рьэ(о) = 0 436.
Как видим, если исключить одновременное влияние количества осадков Х1 иа Хо (с ростом Х1 урожайность повышается) и на Хз (с ростом Х~ температура Хэ понижается), то мы уже не обнаружим отрицательной корреляции между температурой Хз и урожайностью Хо, ибо роэО) = 0,097, что не является значимой степенью стохастической связи. Множественный коэффициент корреляции. Для того чтобы результаты, изложенные в 6.4, были частным случаем рассматриваемой обшей ситуации, сохраним обозначение и для Пример 6.9. С целью исследования влияния погодных условий (Х~ — весеннее количество осадков, см; Хэ — накопленная за весну сумма температур, ' С) на урожайность (в ц/га) кормовых трав Хо в районе с одинаковыми метеорологическими условиями были получены выборочные значения вектора (Хо, Хм Хэ) на и = 20 участках.
По этим экспериментольным данным (Хо;, Х1;,Хьч), ~ = 1, 20, были вычислены значения коэффициентов корреляции ро1 —— 0,80; роз = — 0,40; р1э — — -0>66. Значение роз = — 0,40 вызывает вопрос: действительно ли высокая температура Хэ отрицательно влияет на урожайность, или здесь сказывается влияние „мешающего" фактора — количества осадков? Вычисление значений частных коэффициентов корреляции по формуле (6.29) дает следующие значения: 265 б.5. Аыавюз множественных сяюей „выходной" переменной Хо и обозначение С для „входной" переменной, но теперь с будет вектором размерности р, т.е. С = ф, Сз, ..., ~р).
Возможные значения переменной ~7 будем обозначать д, а возможные значения ч — з = (яз, ..., яр). При решении практических задач, связанных с анализом стохастических связей между многими случайными переменными, чаще других рассматривают ситуацию, в которой поведение какой-то одной (выходной) переменной и стараются обьяснить поведением совокупности других (входных) переменных~=(6 ".
6) Прежде всего убедимся, что наилучшим прогнозом (аппроксимацией) для неизвестного значения 6 (в смысле средней квадратичной ошибки) является условное математическое ожидание 6 при условии С = К, те. величина М(ц(С) = я) =ДУ), где я= (яы ..., я„). Действительно, пусть у (х) — любая функция. Тогда М(ц- У®)'= М((.— У(~))+ Уф- У®))'= =М(з~-ДЦ) +МЯЛ~-ДД)) +2М((У(~)-~(Д)(ц-ДД)). Поскольку последнее слагаемое равно нулю (доказательство зтого аналогично тому, которое приведено в 6.2), то ппп М(т)- ~(~)) = М(~ — ~(Д)), если Щ) = Щ).
Следовательно, при каждом данном значении С = У и любой функции Дх) ~ ~(я) имеет место неравенство М(ц- 7(я)) > М(ц- У(я))~. Таким образом, мы снова (как и в 6.1) пришли к фуюсяии регрессии ~(я) = М(6(~~ = Ы), но уже функции от р переменных яы ..., яр, которал наиболее точно (в смысле сред- 266 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА ней квадратичной ошибки) воспроизводит значения исследуемого результирующего переменного и по заданным величинам х = (хы ..., хр) входных переменных ~«= ф, ..., ~р). Теперь вернемся к соотношению (6.4), которое связывает дисперсию оз случайной величины т1 с величинами ~т~з — Рд~) и <го ~= МП(ц~~).
Соотношение (6.4) остается справедливым и в случае вектора входных переменных С = ф, ..., Ср). Следовательно, так же как и в случае парной зависимости, случайный разброс (вариация) выходного переменного и складывается из контролируемой нами (посредством х = = (хы ..., хр)) вариации функции регрессии т(х) и из неподдающегося нашему контролю случайного разброса значений и (при фиксированном «) относительно функции регрессии. Именно этот неконтролируемый разброс определяет меру зависимости переменной т1 от переменной С, которал характеризуется величиной ~то„.
Чем меньше значение оз, тем точнее прогноз. ПРи <вяз = 0 слУчайные величины т1 и С свЯзаны фУнкЦиональной зависимостью. Эти соображения подводят нас к определению мноксестпеенноео коэффициентпа корреляции йю под которым понимают величину (6.31) Заметим, что квадрат В~ показателя В„ принято называть коэффициентом детперминации. Покажем, что В„есть коэффициент корреляции между и н ДД) (тем самым оправдаем его название). Имеем с<л (т1,ДД) ™((ц™0)(ДД ™9)) = =М(У(д — М0)'+(1-Уа)(УК)-М 1)) = = М(У(с) — Мту)'+ М((з1 — У(Д) (У(с) — М0)) = оу, б.б.
Аналвз множественных связей 267 поскольку Далее, ое о оч его оУ сот(О ~(~)) йеее 1- —,= ~се„о~ Отметим свойства показателя В„, которые непосредственно вытекают из соотношения (6.31), справедливого и в многомерном случае. 1'.О<В <1. 2'. й„= О соответствует пуз — Р ~(С) = О. В частности, функция регрессии 7 не зависит от значений ее аргументов х: ~(У) =сопве.
3'. Вч = 1 соответствует ~~ = О и означает наличие чисто функциональной связи между О и с = (чы " Ср): Ч = =Им". Ь)- Определение показателя й„в виде (6.31) и отмеченные свойства 1' — 3' справедливы при любом законе распределения вектора (и сы ". 4р). Если же предположить, что исходные статистические данные (ям, яг;,, яр,.), у;, е = 1,и, могут интерпретироваться как выборка объема и из (р+ 1)-мерной зенеральноб соеокупносгпи, распределенной по нормальному закону с вектором средних значений 17= (рв,~ыы ..., пр), где ро —— Мп, и,. =Мб;, 1 = 1,р, и ковариационной матрицей Е, то можно отметить дополнительные свойства показателя Ле и правила его вычисления.
Прежде всего укажем на то, что в рассматриваемой ситуации (ср. с примером 6.4) условное математическое ожидание и при фиксированных значениях С1 = яы „~р — — яр (т.е. функция регрессии Дх)) является линейной функцией переменных 268 в. основы коррвляционного лнллизл я1, ..., яр, а условная дисперсия П(т~ф = я) не зависит от У= (хы...,яр) н имеет вид (6.32) где бес Р— определитель матрицы Р, а Род — алгебраическое дополнение элемента Рее = 1. 5'. Показатель В„можно вычислить, используя частные коэффициенты корреляции следующим образом: в К~ 1 (1 Род П(1 РаН1з..д-д)).
(6.33) 6'. Множественный коэффициент корреляции мажорирует любой парный коэффициент корреляции, характеризующий стохастическую связь результирующего показателя ц с остальными, т.е. !Роз) ~ ~ть» !РоН1 ~~ 'Нв1 у = 6 Р где ре.н — произвольный частный коэффициент корреляции, содержащий нуль среди первичных индексов. 'Доказательство см.: Кендалл Ж., Совоавш А. Последнее выражение — полная аналогия формулы (6.2), только роль коэффициента корреляции р играет множественный коэффициент корреляции Й„.
Приведем без доказательства' следующие дополнительные свойства показателя Рт„в случае совместного нормального закона распределения переменных ц и С = (С1, ..., ~р). 4'. С помощью корреляционной матрицы Р (6.27) показатель Й„можно вычислить по формуле б.б. Анализ множественных саввой 7'. Присоединение каждого нового предсказывающего (входного) переменного не может уменьшить величины В„(независимо от порядка присоединения). Статистический анализ множественного коэффициента корреляции. Вычисление значений точечной оценки Вз показателя В„проводится по тем же формулам (6.31) — (6.33) путем подстановки в них вместо значений глеореозаческих харакзпериспзик соответствующих значений выборочных харакзнерисгпик. Например, при использовании формулы (6.32) матрицу Р нужно заменить матрицей Р, в которой нсе элементы р;. заменены на рб, з, у = О, р, а при использовании формулы (6.33) коэффициент корреляции ро1 и все частные коэффициенты корРелЯции Рор1 нУжно заменить значенилми Р;.Р1.
Для проверки гипотезы Нд. В„= О будем предполагать, что случайный вектор (С, О) имеет (р+1)-мерный нормальный закон распределения, и воспользуемся тем', что стапзиспзима 2 В„п-р — 1 1 — В~ ~Р имеет распределение Фишера с р и и — р — 1 степенями свободы, если истинное значение В„ = О. Гипотеза об отсутствии множественной корреляционной связи между и и С = (хз1, ..., (р) отвергается иа уровне значимости о, если Вэ 1 — Вэ р > Р1 (р, н — р — 1).
(6.34) В предположении, что и при условии Ч = х имеет нормальный закон с постоянной дисперсией для любого х, можно показать", что значения приближенных доверительных границ В 'Смз Кендолл М., Схлюооеа А. "Смл Аявозлн С.А., Енюхов К.С., Мешолнин Ядн 1985. 270 б.
ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА и В„для показателя В„, отвечающие доверительной вероятности у = 1 — а и выборке объема и, имеют вид (справедливый при условии р > 8): (6.35) (6.36) где ( +„оч)г р+2„Дт ' Пример 6.10. Вернемся к примерам 6.8 и 6.9. В примере 6.8 найдем значения оценок множественного коэффициента корреляции йч между показателем качества и пряжи и совокупностью двух факторов: количеством ~г профилактических наладок и числом сг обрывов нити.
Используя формулу (6.33), в которой вместо истинных значений показателей корреляции использованы значения их выборочных оценок (см. пример 6.3), получаем (1 Рог И1 Рог01) = = 1 — (1 — 0,105~)(1 — 0,906 ) = 0,823, откуда В = ~/67Б = 0,907. В примере 6.9 найдем значения оценок показателя Нч множественной корреляции между урожайностью 9 кормовых трав и природными факторами: весенним количеством ~1 осадков и накопленной суммой Сг температур.
Используя найденные в примере 6.4 оденки Рог — — 0,8 и рогВ)= 0,097, по той же формуле (6.33) находим (с заменой 271 6.Б. Решение типовых примеров истинных значений показателей корреляции значениями их оценок) "'=1 — (1-Ре Н1-Р~ОО) = = 1 — (1 — 0,80 )(1 — 0,097 ) = 0,644, откуда В = /0,644 = 0,802. Заметим, что формулами (6.35), (6.36) для вычисления границ доверительного интервала воспользоваться нельзя, так как не выполнено условие р > 8 (у нас р = 3). 6.6.