Ковариация и корреляция как меры зависимости переменных
1.8. Ковариация и корреляция как меры зависимости переменных
Мерой линейной зависимости случайных переменных, например таких как роста у1 и веса у2, является их ковариация. Также как дисперсии этих переменных представляют собой математические ожидания возведённых в квадрат разностей значений их наблюдений от соответствующих средних
D(у1)=E(у1–y1)2=s12 и D(у2)=E(у2–y2)2=s22, (1.8.1)
так и ковариация этих переменных является математическим ожиданием произведения разностей у1–y1 и у2–y2, то есть,
C(у1, у2) =Е[(у1–y1)(у2–y2)]
=. (1.8.2)
Здесь также специальный символ C(у1, у2) используется для обозначения ковариации. И если переменные у1 и у2 статистически независимы, то их ковариация C(у1, у2) равна нулю, но обратное неверно.
На практике, призывники с ростом, отклоняющимся в сторону увеличения (уменьшения) от их среднего роста, имели бы и вес, стремящийся отклоняться в сторону увеличения (уменьшения) от их среднего веса. Таким образом, положительные (отрицательные) разности у1–y1 имели бы тенденцию сопровождаться положительными (отрицательными) разностями у2–y2 и ковариация между ростом и весом была бы положительная. Однако ковариация между скоростью реакции водителя и количеством потреблённого им алкоголя является отрицательной, так как уменьшение скорости реакции связано с увеличением потреблённого алкоголя, и наоборот.
Ковариация зависит от выбора единиц измерения. Например, если рост измеряется в метрах, а не в сантиметрах, то ковариация тоже изменяется. Безразмерная ковариация, называемая коэффициентом корреляции, обозначается символом r(у1, у2) или просто r (греческая буква ро) и получается как математическое ожидание произведения делённой на s1 разности у1–y1 на делённую на s2 разность у2–y2. Следовательно, коэффициент корреляции между случайными переменными у1 и у2 находится по формуле
Рекомендуемые материалы
r12=r(у1, у2) =Е==. (1.8.3)
На основании этого можно также записать C(у1, у2)=r12s1s2.
Аналогично по данным выборок выборочный коэффициент корреляции между у1 и у2 определяется так:
r12=. (1.8.4)
Числитель в этом выражении называется выборочной ковариацией между у1 и у2, а в знаменателе s1 и s2 являются выборочными стандартными отклонениями для у1 и у2.
Когда данные получаются последовательно, то обычно, для сделанных один за другим во времени наблюдений существует тенденция быть более сходными, чем те, которые сделаны более обособленно и через большие интервалы времени. Это происходит из-за того, что по ходу времени продолжают действовать возмущающие воздействия.
Если имеется достаточно данных, то корреляцию последовательности наблюдений можно увидеть построением значений каждого наблюдения в зависимости от значения предшествующего ему наблюдения, то есть, уt от уt–1. Подобные построения могут быть сделаны для данных, отстоящих друг от друга на один интервал (уt от уt–1), два интервала (уt от уt–2), три интервала и так далее. При этом коэффициенты корреляции называют коэффициентами автокорреляции. Расстояние между наблюдениями, которые таким образом коррелированы, называется отставанием. Коэффициент автокорреляции выборки с отставанием k определяется выражением:
rk=. (1.8.5)
Зависимость rk от k называется выборочной функцией автокорреляции.
Упражнение 1.8.1. Вычислите выборочный коэффициент корреляции для следующих данных:
у1 (рост в см) | 165 | 173 | 170 | 178 | 191 |
у2 (вес в кг) | 68 | 59 | Бесплатная лекция: "2. Цели государственной политики в сфере регулирования транспорта" также доступна. 77 | 82 | 100 |
Ответ: 0,83
Упражнение 1.8.1. Вычислите коэффициент автокорреляции выборки с отставанием k=1 для данных: 3, 6, 9, 8, 7, 5, 4.
Ответ: 0,22