Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 57
Текст из файла (страница 57)
Сопоставляя календарные даты двух событий, можно сказать, скольколет, дней, часов и т.д. прошло между ними, т.е. насколько одно событиепроизошло позже (раньше) другого. Чтобы задать интервальную шкалу, надовыбрать начальную точку отсчета и единицу измерения. В температурной шкалеЦельсия начало отсчета — нуль градусов — температура замерзания воды; засто единиц принят интервал температур от замерзания до кипения воды (принормальном давлении). Однако отношения измерений не всегда имеют смысл,так, мы не можем сказать, что температура в десять градусов Цельсия «в двараза больше» температуры в пять градусов.Если же нулевая точка шкалы выбрана не условно, а имеет естественный«физический» смысл, то по результатам измерения можно сказать, во сколькораз один объект превосходит другой по степени выраженности измеряемого при"знака.
Таковы большинство шкал, применяемых в физике и технике: измерениемассы, длины и т.п. Эти шкалы называются шкалами отношений.Независимость признаков. Обсудим, как выразить числом сте"пень взаимной зависимости или установить взаимную независимостьдвух признаков, измеренных в количественных шкалах. Предположим,что есть некая генеральная совокупность, каждый элемент которойобладает двумя количественными признаками, скажем A и B.
Станемнаудачу извлекать объекты из этой совокупности. Обозначим через α иβ значения, которые при этом принимают признаки A и B. Ясно, чтоα и β — это случайные величины.Определение. Признаки, измеренные в количественной шкале,называются независимыми, если независимы (статистически) случайные величины α и β.Как говорилось в гл. 1, случайные величины α и β статистическинезависимы (для краткости — просто независимы), если независимылюбые события U и V , которые выражаются с помощью α и β, соответ"ственно.
Для независимости α и β достаточно (и необходимо), чтобы бы"ли независимы все события вида U = (a1 < α < a2 ), V = (b1 < β < b2 ),где a1 < a2 , b1 < b2 — произвольные числа. Напомним, что неза"283висимыми считаются такие события U , V , что P (U V ) = P (U ) P (V ).Следовательно, условие независимости α и β выглядит так:P (a1 < α < a2 , b1 < β < b2 ) = P (a1 < α < a2 ) P (b1 < β < b2 ). (9.14)В основу статистических проверок независимости признаков можноположить проверку того или другого следствия из соотношения (9.14).Коэффициент корреляции.
Из главы 1 мы знаем, что для незави"симых случайных величин α, β их ковариацияcov(α, β) = M α β − M α M βравна нулю, а для зависимых случайных величин она может (хотя и необязательно) отличаться от нуля. Поэтому ненулевое значение кова"риации означает зависимость случайных величин. Однако обращениев нуль ковариации не гарантирует независимости: бывают зависимыеслучайные величины, ковариация которых равна 0 (упражнение: приду"майте пример).
Кроме того, ковариация вообще может не существовать(так же как и математические ожидания). Так что обращение в нульковариации признаков не является достаточным для их независимости,а только необходимым (и то лишь если ковариация существует).Однако использование ковариации в качестве меры связи признаковне совсем удобно, так как при переходе к другим единицам измерения(например, от метров к сантиметрам) ковариация тоже изменяется. По"этому в качестве меры связи признаков обычно используют не cov(α, β),а безразмерную величину — коэффициент корреляции ρ (α, β):cov(α, β).ρ= √ √Dα Dβ(9.15)Свойства коэффициента корреляции мы уже описывали в главе 1.Напомним, что коэффициент корреляции может принимать значения от−1 до 1, при этом он может быть равен −1 или 1, лишь если случайныевеличины α и β линейно связаны, т.е.
существуют такие числа t, k, чтоP (β = tα + k) = 1. Для независимых случайных величин коэффициенткорреляции (если он существует) равен нулю.Выборочный коэффициент корреляции. Чтобы вычислить ρ поформуле (9.15), надо знать ковариацию и дисперсию признаков. Напрактике они обычно неизвестны. Информация о признаках α, β обычнопредставлена выборкой (α1 , β1 ), . . . , (αn , βn ), которую получают, нау"дачу отбирая n объектов и измеряя значения их признаков.По выборке можно найти выборочный аналог теоретического коэф"фициента корреляции — коэффициент корреляции выборки, или выборочный коэффициент корреляции.
Как мы говорили в главе 1, его284вычисляют, заменяя усреднения по генеральной совокупности (матема"тические ожидания) усреднениями по выборке. Выборочные аналогидля дисперсий, согласно п. 1.8, суть:1=(αi − α)2 ,n i=1ns2α−∞1=(βi − β)2 .n i=1ns2βНапомним определение независимости случайных величин α и β:для любых чисел a < b, c < dКак обычно, черта сверху означает усреднениепо выборке. Выбо"рочным аналогом для M αβ служит αβ = n1 ni=1 αi βi . Это позволяетзаписать выборочный коэффициент корреляции в видеr=Аналогично, плотность распределения β равна ∞p2 (y) =p (x, y) dx.αβ − α β.sα sβМожно r выразить и по"другому, например:ni=1 (αi − α)(βi − β).r = nn22i=1 (αi − α)i=1 (βi − β)P (a < α < b, c < β < d) = P (a < α < b) P (c < β < d).Если записать вероятности этих событий через соответствующиеплотности, мы получим следующее условие независимости α и β:b d(9.16)bp(x, y)dx dy =a(9.17)В силу закона больших чисел r → ρ при неограниченном ростеобъема выборки, т.е.
при n → ∞. Более того, центральная√ предельнаятеорема позволяет заключить, что случайная величина n (r − ρ) рас"пределена приблизительно нормально, причем асимптотическое среднееэтого нормального закона равно 0. Можно указать и асимптотическуюдисперсию, но выражение ее довольно сложное.
Практически им непользуются. К вопросу о предельном распределении r мы еще вернемся.9.5.2. !… Коэффициент корреляции не всегда выполняет свою роль измерите"ля связи между признаками, так как случай ρ = 0 еще не означает ста"тистической независимости α и β. Но если совместное распределениепары случайных величин (α, β) оказывается нормальным, то равенствоρ = 0 влечет за собой статистическую независимость α и β.Общее условие независимости признаков. Укажем, как выра"жается независимость случайных величин в терминах их совместнойи частных плотностей. Пусть совместная плотность пары случайныхвеличин (α, β) есть p(x, y).
Тогда плотность распределения случайнойвеличины α (частная плотность) есть ∞p1 (x) =p (x, y) dy.−∞285cdp1 (x)dxap2 (y)dy.cОтсюда можно заключить, если привлечь более глубокие сведенияиз интегрального исчисления, что необходимым и достаточным усло"вием независимости служит условие равенства совместной плотностипроизведению частных плотностей:p(x, y) = p1 (x) p2 (y)Условие независимости нормальных признаков.
Обратимся квиду общей плотности двумерного нормального распределения, как онадана в п. 2.5, либо к двумерной плотности в стандартизованных коор"динатах, и сравним ее с произведением частных (одномерных) плотно"стей, которые тоже нормальны (см. п. 2.5). Сопоставляя их, мы можемубедиться, что двумерная нормальная плотность представляется в видепроизведения частных плотностей тогда и только тогда, когда ρ = 0.Итак, для пары признаков, имеющих совместно двумерное нормаль"ное распределение, условие ρ = 0 (некоррелированность признаков)эквивалентно их независимости. Поэтому проверка гипотезы о не"зависимости признаков, совместное распределение которых являетсядвумерным нормальным, сводится к проверке гипотезы H0 : ρ = 0.Проверка независимости.
В гауссовском случае, когда коэффици"ент корреляции ρ = 0, распределение выборочного коэффициента r из"вестно достаточно хорошо. Это распределение симметрично и сконцен"трировано около нуля (тем сильнее, чем больше n). Поэтому гипотезуH0 следует отвергнуть, если выборочное значение r (которое отличаетсяот гипотетического ρ = 0 только за счет действия случайности) слишкомдалеко (неправдоподобно далеко) отклоняется от нуля, т.е. | r | превос"ходит критическое значение (для выбранного уровня значимости).286Расчет квантилей для r основан на том, что случайная величина t,получаемая из r монотонным преобразованием по формуле√rt= √n − 2,21−rпри гипотезе H0 подчиняется распределению Стьюдента с m = n−2 сте"пенями свободы.
Поэтому квантиль уровня q распределения r (скажем,rm, q ) получится преобразованием квантили уровня q распределенияСтьюдента с m степенями свободы (скажем, tm, q ) по формулеtm, qrm, q = .m + t2m, qТаблицы процентных точек (критических значений) для r приведеныво многих сборниках таблиц по математической статистике, в частно"сти, в [19]. Однако эти процентные точки можно рассчитать и самостоя"тельно, имея в распоряжении таблицу квантилей или процентных точексоответствующего распределения Стьюдента.Доверительные интервалы для ρ.
Для двумерного нормальногораспределения коэффициент корреляции не только решает вопрос о том,зависимы признаки или нет, но и измеряет степень их связи. Поэтому внормальном случае нужно не только уметь проверять гипотезу H : ρ = 0,но и указывать доверительные пределы для истинного ρ (особенно есливыборка показывает, что истинное ρ = 0, т.е. признаки связаны).