Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 72
Текст из файла (страница 72)
Если такое предположение не выполняется, то В всегда можно истолковать как сценку для «истинного коэффициента ранговсй корреляции» Я, который определяется так. Пусть У(х) и С(у) — непрерывные функции распределения случайных величин х и у. Положим' е = В(х), т) =- С(у). Тогда случайные величины 6 и «) будут распределены равномерно между нулем и единицей, поэтому их дисперсии равны 2 2 1 о.г — а» = 12 См. К ем и а11 М, О., л«ипй еогге1а1юп иге«по«1а 97; 10 6. Величины а и Ч Кендалл нааыиает „рангами". ,8 70.
Коэффициент рангоеоа корреляции Л. но Слирмену 393 Истинный коэффициент ранговой корреляции Яопределяется как истинный коэффициент корреляции случайных величин сит): Я = )2 Гр(ь — ~.1(ч) — у) . (35) Если совместное распределение х н у является нормальным, то между о и Я существует соотношение, аналогичное (34), 0 = 2 в!и 6 гн'. (36) Это соотношение было найдено Карлом Пирсоном (см. 1)гарег'в Сотрацу ВевеагсЬ Мешо)гв, В)отце(г!о Яег!ев 1)7, СашЬг(г)йе !907, 13). Пример 50 (Рсогвоп Квг1, Вюшосг!)гз, 13, 304).
Па экзаменах, которым подвергались 27 кандидатов на должность в службе связи, была принята следующая система оценок: по арифметике — от 1 до 300 баллов, по остальным четырем предметам (орфографня, чистописание, география и сочинение на английском языке) — от 1 до 200 баллов. Оденки, полу гснныс каждым кандидатом, складывались и всем кандидатам приписывались порядковые номера в соответствии с убыванием сумм оценок. о слсдук1щей таблице на первом месте указаны порядковые номера н общие суммы оценок по всем предметам, а нз нтором месте — оценки по арифметике н соответствующие им порядковые номера.
Пирсон нашел, что в данном случае коэффициент ранговой корреляции имеет значение 77 = 0,8834. Вге предметы Аркфчеткка Все предметн ~ Лркфметкка номер ~ оценка номер ~ оценка номер ~ оценка оценка номер 15 580 16 561 17 ~ 560 1 ' 907 2 ! 764 3 748 4 746 5 724 6 718 7 , 710 8 ! 703 9 677 10 ~ 665 11 ~ 645 12 , '643 13 , 634 14 ~ 628 1 2 10 14 3 !! 20 12 230 158 228 154 162 182 129 164 187 186 151 167 103 146 18 19 20 21 22 23 24 25 26 27 532 529 526 515 484 463 444 386 369 88 13 !3! 15 , !28 18 116 22 82 !6 125 17 122 19 ~ !!4 21 , 93 25 6! 26 ' 38 27 37 23 ~ 63 24 , 62 394 Гл.
Х!Е1. Корреляция Отсюда, в силу формулы (341, получается оден ка для ис~инного коэффиниента коррслянии, а именно »' = — 2 вио лг = 0,893. 6 Выборочный коэффициент коррсля~ии г, вычисленный непосредственно по одея нам, равен »' = О,авб. !1нрсон снраведлино замечает: »Согласие между г и М в этом случае являешься превосходным». 9 71. Коэффициент ранговой корреляции Х, по Кендаллу В родственной связи с Л находгыся коэффициент ранговой корреляции т, который для наших целей предпочтительнее обозначить буквой У. Этот коэффициент был введен Грейнером и Эсчером и заново открыт Кендаллом.
Обстоятельное исследование свойств Т можно найти в уже неоднократно цитированной книге: Кепг(а(( М. С., ВавЫ Согге1а61оп Ме!Ьог)в. В этом параграфе мы затронем лишь некоторые основные вопросы. А. ОПРЕДЕЛЕНИЕ Т Пусть снова имеется я индивидуумов, упорядоченных по двум качественным признакам, Для каждой пары индивидуумов (э, й) мы определим функцию, принимающую значения: +1, если порядковые номера одного индивидуума превосходят соответствующие порядковые номера другого индивидуума, и — 1 в противном случае. В обозначениях 3 70 Д эта функция для пары индивидуумов (э, й) равна произведению егнугн. Сумма 8 таких произведений для всех пар, 8 = Л егнУгн (1) по абсолютной величине не превосходит Следовательно, если положить у= " (2) то значения 7 будут принадлежать отрезку, расположенному между — 1 и +1.
При этом У = -1-1 тогда и только тогда, когда обе последовательности порядковых номеров совпадают (разность порядковых номеров каждо~о индивидуума равна нулю), и У = — 1 тогда и только тогда, когда обе последовательности противо- 6 71. Коэффициент рангоеоа корреляции Т, по Кендалла 395 положны друг другу (сумма порядковых номеров каждого индивидуума равна п -1- 1), Если номера первой последовательности расположить в возрастающем порядке от ! до п и под каждым из них написать помер из второй последовательности йэ -- 1 йе — - .. ь Ьл т)1 ° т) т?л то 8 можно будет вычислить следующим образом: подсчитаем КОЛИЧЕСТВО тЕХ т)еи КОтОрЫЕ СтОят ПраВЕЕ т)1 И ВЕЛИЧПНа КОтОрЫХ превосходит т)„затем подсчитаем, сколько имеется номеров т)„, больших т)е и расположенных правее т)„н т.
д. Пусть Р— сумма всех этих количеств, тогда 8 представляет собой сумму Р величин, 1и! равных +1, и ~ ~ — Р величин, равных — 1, т, е. (2 ) 8 == 2Р— — п(м — 1), (4) в. РАс1!Радвланиа г Если случайные величины х и у независимы, то математиче.ское ожидание У, очевидно, равно нулю. Если же х и у зависимы и распределены нормально с коэффициентом корреляции о, то математическое ожидание 8 принимает значение .. С (и — 1) ° (н 8 = 8 х хенйк = — 2 с' хееуее. т. с., согласно (29) 5 70, п(п — 1) 2 Я8= агс ашо 2 и Таким образом, 2 Г 7 = . - ВГС 61П О. Поэтому если совместное распределение х и у является нормальным, то величину т" =аш ит 2 (6) можно использовать в качестве оценки для р.
Вернемся к случаю независимых х и у и с помощью (1) вычислим дисперсию 8: ее'. = (', 86 = (и( Ч" х, у, )е, Гн. ХШ. Корреляция 396 Вычисления полностью приводятся в $ 5.6 книги Кендалла. 1!оэтому мы укажем лишь результат: п(п — 1) (2п+ Б) ге = 18 (7) Отсюда, в силу (2), следует, что ъ 2(2п+ 6) а (8) Если таким же образом вычислить и высшие моменты Я Т', Я Те,... (моменты нечетного порядка равны нулю, так как значения Т и — Т всегда имеют равные вероятности), то окажется, что они при и — асимптотически равны соответствующим моментам нормального распределения с дисперсией гггя: (9) (10) Уровень значимости такого одностороннего критерия прибли- женно равен д, а уровень двустороннего критерия приближенно равен 2)8.
Отсюда следует, что случайная величина Т распределена асимптотически нормально с нулевым средним значением и дисперсией (8). Лсимптотическая нормальность остается справедливой даже и. в том случае, когда х н у являются зависимыми величинами с произвольной функцией распределения, если только абсолютная величина математического ожидания Я, Т не слишком близка к единице. Доказательство см. в книге: Квпда11 М. О., Вап)г оогге1а$)оп ше1Ьодз 5.21.
В случае зависимых случайных величин теорема об асимптотической нормальности практически це очень полезна, так как при умеренно больших значениях и распределение Т может обладать значительной асимметрией и, кроме того, дисперсия Т неизвестна Однако, в случае независимых х и у, дисперсия Т известна (она задается формулой (8)), и уже при и = 8 нормальное приближение оказывается очень хорошим.
Следователыю, Т можно с успехом' использовать в качестве статистики критерия для проверки независимости признаков. Точное распределение Т известно для и ~ 10 (Кепс1а11 М. О., Аррепд)х ТаЫе 1); при и ~ 1О можно воспользоваться нормальным приближением, т. е. гипотезу независимости следует отвергнуть тогда, когда Т (или, в случае двустороннего критерия, (Т)) превосходит границу а 21. Коэффициент ранговой корреляции т, ло Кеноаллу 397 В. СРАвненив те и т Если мы предположим, что х и у распределены нормально, и разложим математические ожидания Л и л' в степенные ряды по о, то получим 3( и, 1 и+6 Л = — ~ у —, з у — ~е ! йз !. ) (12) Отсюда следует, что при больших и и малых р математические ожидания относятся приблизительно как 3:2. С другой стороны, если при о = О сравнить квадратичные отклонения, а именно ая —— ==, )(и:1 ' (13) 3 -=Г- =- 1+— 2(2и+ 3) 2 2и 9и(и — 1) 3 и — 1 (14) то при больших и снова найдем то же отношение 3:2.
Отсюда можно, предш>ложителыю, сделать вывод, что случайные величины Л и лв относятся друг к другу приблизительно как 3:2, если только . их абсолютные величины не слишком близки к единице. Этот вывод был подтвержден результатами Дэниелса, согласно которым коэффициент корреляции случайных величин Л и У при я-+ стрсмится к единице, причем он близок к единице уже при не слишком больших значениях я (см. Кепе)а)1 М. О., Кап)с согге]ас(оп ше1ЬосЬ 5.! 4). Какая статистика является наилучшей для построения критерия независимости признаков, Л или У? Однссторонний критерий Л отвергает гипотезу независимости, если Л) Лр, в случае критерия У тот же вывсд делается при У) Ур. Нам нужно исследовать, какой из этих двух критериев имеет наибольшую мощность (в смысле 3 59). 1!ед мсщнсстью критерия в данном случае мы понимаем вероятнссть отвергнуть гипотезу независимости, когда случайные величины х и у действителыю являются зависимыми.
Для ответа на этот вопрсс мы должны будем сначала сделать некоторое предположение о распределении х и у. Л именно, мы предположим, что совместное распределение х и у является нормальным. Тогда, в силу 3 69, плотнос|ь этого распределения можно задать формулой 1 1(х, у) =,— ((! — ое е (15) Гл. ХШ. Корреляция 398 (16) (17) Разумеется, значения о.л и егт в формулах (16) н (17) вычислены при 9 = О. Если д отлично от нуля, то значения ол н отизменятся, однако это изменение является лишь величиной порядка ое и поэтому нм сначала можно пренебречь.
Таким образом, н первом приближении вычисление функций мощности для критериев 77 н Т мы будем производить с гюмощью 1юрмальных распределений, математические ожидания которых задаются формуламп (! !) н (12), а квадратичные отклонения — формулами (13) и (14). Тогда мощность критерия Л, илн вероятность события 77) Ва, будет равна (18) н точно так же мощность критерия У будет равна (19) Если р велико сравнительно с 11!(п — 1, то В будет значительно больше еел, а Т вЂ” значительно больше егт. Таким образом, в этом случае выражения (18) и (19) окажутся практически равными единице. Поэтому можно предположить, что йя является величиной порядка 1/а.