Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 56
Текст из файла (страница 56)
. , Xn суть значения призна"ка A для объектов O(1), . . . , O(n), а Y1 , . . . , Yn — значения признака Bдля тех же объектов. Каждый объект O(i), i = 1, . . . , n, теперь харак"теризуется парой чисел (Xi , Yi ) — своими значениями признаков A иB. От чисел Y1 , . . . , Yn (так же как ранее для признака A) переходимк их рангам s1 , . . . , sn . (Здесь si — ранг Yi среди Y1 , . . . , Yn ). Будемсчитать, что среди чисел X1 , . .
. , Xn (и среди чисел Y1 , . . . , Yn ) нетповторяющихся, так что переход к рангам вопросов не вызывает. Дляизмерений в непрерывных шкалах эта ситуация типична.Замечание. Ранговые последовательности могут возникать и иначе, не"посредственно. Ч.Спирмен, например, обсуждал связь между способностями кмузыке и математике.
Группу детей мы можем упорядочить дважды — сначалапо успехам в музыке, затем — в математике. (В школьном классе мы можемпопросить учителей составить два таких списка). Места, которые займет ученикN в обоих списках, и будут его рангами r, s.Распределение набора рангов для независимых признаков.Теперь каждому объекту O(i) приписана пара натуральных чисел(ri , si ). Если признаки A и B взаимосвязаны, то порядок, в кото"ром следуют числа x1 , .
. . , xn , в определенной степени влияет на по"рядок, в котором следуют числа y1 , . . . , yn . Иными словами, после"довательность рангов r1 , . . . , rn в какой"то мере влияет на ранговуюпоследовательность s1 , . . . , sn . Чем более тесно связаны эти признаки,тем в большей степени последовательность r1 , . . . , rn предопределяетпоследовательность s1 , . . . , sn .Если же признаки такой связи не проявляют, то порядок среди игре"ков случаен по отношению к порядку среди иксов. В этом случае всеn! перестановок чисел 1, 2, .
. . , n, которые могут выступать как рангиs1 , . . . , sn , оказываются равновозможными, т.е. равновероятными прилюбом порядке чисел r1 , . . . , rn . Это центральный момент обсуждения:при гипотезе H0 и любом наборе r1 , . . . , rn все возможные последо"вательности s1 , .
. . , sn равновозможны (т.е. вероятность распределенамежду ними равномерно).Вторым важным моментом является выбор меры сходства для двухнаборов рангов. Здесь много математических возможностей. Наиболее279популярны две меры сходства, которые приводят к коэффициентам ран"говой корреляции Спирмена и Кендэла, соответственно. С этими ранго"выми коэффициентами мы уже встречались в параграфе 8.4.
Начнем стой меры, которую предложил Ч.Спирмен.Коэффициент Спирмена. Близость двух рядов чисел r1 , . . . , rn иs1 , . . . , sn отражает величинаS=n(ri − si )2 .i=1Она принимает наименьшее возможное значение S = 0 тогда и толькотогда, когда последовательности полностью совпадают. Наибольшеевозможное значение S = 13 (n3 − n) величина S принимает, когда этипоследовательности полностью противоположны.
(Это значит, что дляri = 1 значение si = n; для ri = 2 соответствующие si = n − 1и т.д.). Кроме степени сходства последовательностей (r1 , . . . , rn ) и(s1 , . . . , sn ), на S оказывает влияние также и численность группы n.Чтобы ослабить влияние переменной n, переходят к коэффициентуранговой корреляции Спирмена:6S.−nКоэффициент ρ по абсолютной величине ограничен единицей: | ρ | 1. Свои крайние значения ρ = ±1 он принимает в указанных вышеслучаях полной предсказуемости одной ранговой последовательностипо другой.Заметим, что значение S не зависит от первоначальной нумерацииобъектов. В качестве таковой часто удобно выбрать упорядочение по од"ному из признаков.
Тогда последовательность рангов по этому признакупревратится в последовательность 1, 2, . . . , n. Вторую последователь"ность обозначим, скажем, z1 , . . . , zn . При этомρ=1−S=n3nn(ri − si )2 =(k − zk )2 .i=1k=1Коэффициент Кендэла. Другой коэффициент ранговой корреля"ции получил популярность после работ М.Кендэла, в особенности послевыхода его книги [53]. Этот коэффициент в качестве меры сходствамежду двумя ранжировками использует минимальное число перестано"вок соседних объектов, которые надо сделать, чтобы одно упорядочениеобъектов превратить в другое.Для определения коэффициента ранговой корреляции по Кендэлусначала введем статистику Кендэла K.
Выберем в качестве первона"280чальной нумерации упорядочение объектов по признаку A и подсчитаемK, сопоставляя (1, 2, . . . , n) и (z1 , z2 , . . . , zn ). Оказывается, что Kравно числу инверсий в ряду (z1 , . . . , zn ). Пусть, например, n = 4 и(z1 , . . . , z4 ) = (4, 3, 1, 2). Инверсии (нарушения порядка) суть: (4 прежде3) — одна инверсия, (4 прежде 1) — еще одна и (4 прежде 2). Итого,первый элемент последовательности дает три инверсии. Далее подс"читаем число инверсий, которые образует второй элемент последова"тельности: (3 прежде 1), (3 прежде 2) — итого две инверсии.
Единица,как полагается, стоит прежде 2 и потому пара (1, 2) инверсии не обра"зует. Всего инверсий в данном случае 3 + 2 = 5. Таким образом K = 5.Наименьшее возможное значение K = 0, наибольшее K = n(n − 1)/2.Как и для S, эти значения получаются при полном совпадении и полнойпротивоположности ранговых последовательностей. Чтобы ослабитьвлияние n на величину K, от K переходят к коэффициенту ранговойкорреляции τ (по Кендэлу):τ =1−4K.n(n − 1)Как и ρ, τ может изменяться от −1 до +1; свои крайние значенияτ принимает в указанных выше случаях.Распределение коэффициентов корреляции ρ и τ . Мы ужеотмечали, что в случае независимых признаков вероятность между все"ми n! возможными значениями (z1 , . . .
, zn ) распределяется равномерно.Это дает возможность (по крайней мере принципиальную) рассчитатьзакон распределения вероятностей между возможными значениями ρили τ в условиях H0 . Для малых значений n это несложная задача, но сростом n число комбинаций n!, которые надо учесть, быстро увеличива"ется.
(Например, 10! = 3628800). Тем не менее, составлены достаточныедля практических нужд таблицы распределений случайных величин ρи τ в случае H0 . Для небольших n эти таблицы точные, для другихзначений — приближенные (о чем ниже). Правильнее сказать, что всборниках статистических таблиц приводят обычно распределения несамих ρ и τ , а определяющих их статистик S и K (либо их вариантов).Проверка независимости признаков. Теперь обсудим, как с по"мощью коэффициентов ранговой корреляции можно проверить гипотезуH0 о независимости признаков. Для этого надо знать характер рас"пределения вероятностей для этих коэффициентов ρ и τ при H0 и приотступлении от H0 .Вероятность распределяется на отрезке [−1, 1]. При H0 распреде"ление этих величин симметрично и концентрируется около нуля (темсильнее, чем больше n).
Если признаки зависимы, распределение веро"281ятностей может быть иным. Поведение коэффициентов ранговой кор"реляции в этом случае легко проследить лишь для наиболее простоговида связи — монотонной (положительной или отрицательной). Длямонотонной положительной связи значение одного признака тем боль"ше, чем больше значение другого (при отрицательной — наоборот).Такая альтернатива независимости легко обнаруживается с помощьюкоэффициентов ранговой корреляции, абсолютное значение которогов этом случае должно быть близко к единице. Если же зависимостьмежду признаками более сложная, ее влияние на ранжировки можетбыть не столь простым. Поэтому с помощью коэффициентов ранговойкорреляции далеко не всякую зависимость можно отличить от незави"симости.
Все же мы можем сказать, что появление в экспериментебольших (по модулю) наблюдаемых значений коэффициентов ранговойкорреляции свидетельствует против гипотезы независимости в пользусвязи между признаками (положительной либо отрицательной, смотряпо знаку коэффициента).Для проверки H0 надо вычислить выборочное значение коэффици"ента ранговой корреляции и сравнить его с критическим значениемдля данного уровня значимости, которое следует извлечь из таблиц.Гипотезу H0 надо отвергнуть (на выбранном уровне значимости), еслиполученное в опыте значение коэффициента ранговой корреляции пре"восходит критическое (по модулю).При больших n критические значения не табулированы, их при"ходится вычислять по приближенным формулам.
Как правило, в та"блицах критических значений такие формулы приводятся. Они√ осно"ванынатом,чтоприHибольшихnслучайныевеличиныn − 1ρ09n (n+1)и2 (2n+5) τ распределены (приближенно) по стандартному нормаль"ному закону N (0, 1).Дополнительную информацию по изложенным в этом пункте вопро"сам можно найти в [32], [106], [113], [115].9.5. ƒ ƒ… …… ;9.5.1. <<… Количественные шкалы. Количественными шкалами мы будемназывать шкалы отношений и интервальные:•282интервальной шкалой называют такую шкалу с непрерывныммножеством значений, в которой о двух сопоставляемых объек"•тах можно сказать не только, одинаковы они или различны (какв номинальных шкалах), не только в каком из них признак болеевыражен (как в порядковых шкалах), но и насколько более этотпризнак выражен;шкалой отношений называют такую шкалу с непрерывным мно"жеством значений, в которой о двух сопоставляемых объектахможно сказать не только, одинаковы они или различны, не толь"ко в каком из них признак более выражен, но и во сколько разболее этот признак выражен.Примером интервальной шкалы является измерение времени или темпера"туры.