XVII Математическая статистика (1081432), страница 30
Текст из файла (страница 30)
Тем самым мы приходим к понятию общей характеристики степени тесноты связ — рр и — мо ел.виновному опгногмемню переменного ц по переменному ~: 247 а.г. Л Р Я Непосредственно из (6.5) следует, что всегда выполняется неравенство О<с',(1, (6.6) причем равенство гг~ —— 0 означает, что с изменением ~ вариация функции регрессии У(х) полностью отсутствует. Другими словами, случайные величины ~ и и являются независимыми.
В этом случае линия регрессии есть горизонтальная прямая. 2 Равенство г~г„— — 1 будет иметь место, если сп ~= М(Π— /(4)) =О, т.е. если и и ~ связаны функциональной зависимостью О= УЫ). Аналогично определяется корреляционное отношение г1„ переменной ~ по и. Замечание 6.1. Между г„~ и гяч нет какой-либо простой зависимости.
Возможны ситуации, в которых один из этих показателей принимает нулевое значение, в то время как другой равен единице. Пусть, например, и = ~э, а ~ принимает следующие значения: -1, О, 1 с вероятностями 1/3 каждое. В этом случае г = 1, г~„= 0 (в силу симметричности параболы относительно оси значений и н симметричности распределения С). 41 Итак, решение задачи выбора показателя стохастической связы между двумя случайными величинами 4 и и для самой обшей ситуации, когда закон распределения вектора (~,О) является произвольным, найдено — таким показателем являются корреляционные отношения г„~ и г~„.
Выясним, какую роль играет такой показатель связи между случайными величинами ~ н о, как коэффициент корреляции р: Мф-М~)(О-МО)) Р= (6.7) п1аг где о~ = ~/)~, пг = ~/Вп, М((с — Мс)(п — Мд)) — второй смешанный момент случайного вектора (с, О). Напомним, что случайные величины ~ и и называют некоррелированными, если р = О, н коррелированными прн р ~ О. 248 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА 'М гЬ Р 2 2 2 Действительно, из (6.2) получаем, что условная дисперсия ц не зависит от значений случайной величины С, и, следовательно, с„(1 — р ) = В(ц(~) = М~(ц — М (ц(~)) ~~) = Наконец, учитывал (6.5) и полученный результат, приходим к равенству гз = рз.
Аналогично можно доказать равенство М ф, =Р2. Таким образом, корреляционные отношения совпадают между собой и с абсолютной величиной коэффициента корреляции р. При этом раненство ~р(= 1 означает линейную функциональную зависимость между ~ и ц, а равенство Р=О свидетельствует об их линейной независимости. Понятно, что рассмотренными свойствами двумерного нормального закона не могут обладать все двумерные законы распределения или хотя бы их большая часть.
Поэтому в общем случае не имеет смысла использование коэффициента корреляции р как меры взаимосвязи случайных величин ~ и и. В общем случае показатели гз и рз связаны неравенства- М ми (ХЧЦ ( р ( г2~ ( (6.8) Известно (ХЧ1], что иэ независимости случайных велвчнн ~ н о следует их некоррелированность, однако обратное утверждение в общем случае неверно. Если случайный вектор (~,ц) имеет нормальный закон распределения, то линия регрессии и по ~ (и ~ по Л) является прямой (см. пример 6.4), т.е.
коэффициент корреляции р может служить мерон связи между ~ и и. Для нормального закона распределения на основании (6.2) и (6.5) имеем 249 6.3. Анализ парных связей При этом возможны следующие варианты: а) рз = О, если 4 и и независимы, но обратное (в общем случае) неверно; б) Рз = гчз~ —— 1 тогДа н только тогДа, когДа имеетсл стРогаЯ линейная функциональная зависимость 9 от ~; в) рз < гз = 1 тогда и только тогда, когда имеется строгая нелинейная функциональная зависимость и от ~; г) Рз = гчз < 1 тогДа и только тогда, когда РегРесснл д по ~ строго линейна, но нет функциональной зависимости; д) р < гз4 < 1 указывает на то, что не существует функциональной зависимости, а некоторая нелинейная кривая регрессии „подходит" лучше, чем „наилучшая" прямая линия.
Итак, в качестве показателя стохастнческой связи между двумя случайными количественными переменными ~ и и следует выбрать корреляционное отношение г„~ (или г4„), если закон распределения вектора (~, и) вызывает сомнение. Если же можно с большой степенью уверенности считать закон распределения вектора (фд) нормальным, то вместо корреляционного отношения следует использовать коэффициент корреляции р.
Оценка показателя связи по выборочным данным. После выбора показателя стохастической связи задача корреляционного анализа,как уже отмечалось в 6.1, состоит в нахождении его оценки (пючечиой н интервальной), а также в проверке сташисшической гиаошезы о значимом отличии его от нуля на основе экспериментальных данных. Пусть в результате эксперимента получены и выборочных значений случайного вектора (~, 9), которые будем записывать в виде (хб Р1)~ ~ 1з и (6.9) При изучении корреляционной зависимости двух случайных величин (Я, и) по выборке (хб у;), 1 = 1, п, общую картину их взаимной иэменчивостн можно получить, изобразив на координатной плоскости все точки. Это изображение называют иорреллциокмььм полезь 250 в.
ОСНОВЫ КОРРЕляциОННОГО АНАЛИЗА Уже по виду корреляционного поля можно иногда сделать выпад о наличии и характере связи между случайными величинами 4 и 0. Так, на рис. 6.3, а выборочные точки (х;, д;) лежат внутри некоторого эллипса (эллипса рассеяния) с осями, параллельными координатным. Следовательно, с изменением, например, с величина и не будет менять своего условного распределения, т.е.
~ и и, по-видимому, некоррелированы. Напротив, на рис. 6.3, б видно, что условное математическое ожидание М(ц~4= х) =Дх) имеет линейный характер изменения, и, значит, следует ожидать, что коэффициент корреляции р близок к единице. На рис. 6.3, в расположение точек (х,, у,) говорит о наличии нелинейного характера изменения Дх), и, следовательно, коэффициент корреляции может оказаться близким к нулю, а корреляционное отношение г„~ — близким к единице. Рис. 6.3 Следует отметить, что в том случае, когда среди х, есть повторяющиеся с частотой и; значения, выборочные значения представляют в виде (х;, рЗ), у=1,и,, 1=1,т, ~~) и;=и.
(6.10) Если выборочные значения сгруппированы по каждой из переменных, т.е. значения х, разделены на т групп, а значения у; — на 1 групп, то выборочные значения представляют в виде (6 11) 251 аЗ. Аиилиэ коэФфициента коррелации илн в виде коррекционной твоблицьэ, в каждой клетке которой указывают число цу попавших в нее выборочных значений, причем сумма всех этих значений равна и (табл. 6.1). 6.3. Анализ коэффициента корреляции Точечная оценка показателя р. Пусть зксоеримеипииьиые данные представлены в форме (6.9). Тогда р — значение пючечиоб оценки коэффициента корреляции р — вычисляют по формуле е (х; — х) (у< — у) А| (6.12) Пример 6.5.
Вычислим значение р для пары случайных величин Я, 9), где С вЂ” рост (в см), а о — масса тела (в кг) наугад выбранного студента-первокурсника. Выборка объема в= 15 представлена в табл. 6.2. Чтобы оценить показатель р связи двух случайных величин, сначала найдем выборочные средние этих величии: 1 ~ 2620 х = — 'Гх; = — = 173,3; 1 ~ 945 у= — э у; = — =63,1. 252 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Таблица 6.9 Рост, см Масса тела, кг Номер наблюдения х; — х х; 2600 945 Затем определяем суммы ~~) (9; — У) = 1171,4; в=1 (х; — х) = 747,33; аж1 1$ ~~ (х*-*)(у' — р) = 293,3. ° еа Таким образом, р= ' =0,313.
393,3 /747",33. П7Ч Замечание 6.2. Если зкспериментальные данные представлены в виде (6.10) или (6.11), т.е. сгруппированы по одному нли по обоим переменным, то расчетная формула (6.12) для р изменяется соответствующим образом. Например, если выборка представлена в виде (6.10), то значения оценок ры, а1 и оз 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 165 171 182 165 183 180 183 166 173 172 174 170 164 168 184 -8,3 -2,3 8,7 — 8,3 9,7 6,7 9,7 — 7,3 — 0,3 — 1,3 0,7 -3,3 -9,3 — 5,3 10,7 72,9 48,4 66,3 64,1 62,7 76,0 73,8 50,6 52,3 56,5 66,8 61,6 72,8 52,6 68,6 9,8 -14,7 3,2 1,0 -0,4 12,9 10,7 -12,5 -10,8 -6,6 3,7 — 1,5 9,7 -10,5 5,5 253 вль Анааиэ коэ4эрвпиэнтэ коррвээциы вычисляют по формулам Я Уа Л~~ У01 пч 1-1 уээ — ',1 у;, 1=1 1 рц1 = — ~(х; — х)(у, — у), Ы1 1 О2 —,~ (уз у) 1 — ~~ (х,-х)з, т.
э=1 рз и1-е/2 ,/й ' 2 +и1- уз (6.13) (6.14) Однако пользоваться оценками (6.13) и (6.14) можно только при больших объемах выборки (не менее 500). 'Смэ Кендалл М., Свиэарт А. Интервальная оценка и проверка значимости. При построении доверишвльного интервала для коэффициента корреляции и проверки его значимости будем предполагать, что генгральнал совокуоносгаь имеет двумерный нормальный закон распределения. В этом случае оценка коэффициента корреляции р(Х„,У„) имеет асимптотически нормальный закон распределения с математическим ожиданием Мр(Х„,У„) р— — — (р(1 — рз)) и дисперсией Ор(Х„,У„) — (1 — рз)з. Заметим, что если распределение генеральной совокупности не является нормальным, то приближенное выражение для Вр(Х„,У„) содержит вторые и четвертые моменты генеральной совокупности. Используя общий метод построения доверительного интервала при рз в.