Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 70
Текст из файла (страница 70)
Величины (19) можно легко выразить через величины (20): Гл. ХШ. яорреликил 380 При этом, согласно (5), т„' = 1/д = ! /(1 — де) и с,' = 1. С помощью плотности (22) и формул (23) можно сначала найти плотность распределения случайных величин в„„, в„, и в„ ЗачЕМ С ПОМОЩЬЮ фОрМуЛ (21) ВЫЧИСЛИТЬ ПЛОтиоетЬ дпя В„л В„Н в и, 11аконец, воспользовавшись формулами (19), найти плот41ссзь совместного распределения в„, в и т. В результате Окажется, что плотнисепь совместного распределения трех случайных величин в„в и т ил4еет вид 1(в„, в„, т) = (24) и — 1 и — 11 и — 4 1 — — —,.
(41 — елее*ее+41> (1 — с) з е 1 е в„" еви 1(1 — т") иГ(п — 2) у Этот результат принадлежит Фишеру (Р(а11ег В. А., В1оше1гйа, 10 (1915), 5071. Г. ВСНОМОГАТЕЛЬНОЕ ПРЕОБРАЗОВАНИЕ ФИШЕРЛ Интегрированием (24) по в„н в получаем плотность вероятности для т: и — 1 и — 4 1 — йи 4 атившит 1(т) =.1,(„2)- (1 — д') - "(1 — 1') ' д(ит).-4 У-,— —,=-„-, (25) 2= —,)п- 1 1+у 2 1 — т (26) Распределение случайной величины 2 очень хорошо аппроксимируется нормальным распределением с не зависящей от д дисперсией о, (27) и средним значением 1+е а ~, 2 =- —.1О +, (28) Поправочный член в правой части (28) всегда мал сравнительно с квадра тичным отклонением ет, и поэтому таким сла- О вычислении этой плотности см.
Кепс)а!1 М. 6., Ас1тапеее) ТЬеоту ор 81а(1Е11ев, 1, 14.14, или только что цитированную работу Фишера, опубликованную в журнале Вуоше(хйа, 10. Фишер указал очень практичное преобразование случайной величины т, с помощью которого распределение с плочностью (25) приближенно преобразуется в нормальное распределение. Это преобразование задается формулой 8 69. Распределение ааборочноео коэффициента ксрреляции 38! гаемым можно пренебречь. Оио оказывается существенным лишь тогда, когда вычисляется много выборочных коэффициентов корреляции и из соответствующих зпа геинй г образуется среднее.
Насколько сильио улучшает нормальное приближение переход от г к з, можно видеть па рис. 3? и 38„заимствованных из книги: Р!зЬег 1ь. ллх., МаСЬеша1!са1 ЫетЬог1в Еог 11екеагсЬ 'тггогйегз (!1СЬ ес1., 1'!я, 8, р. 200Ь -70 -00 -06 -0а — 0~ 0 0Я 04 06 00 00 Р н с. 3?. Плотности распределення и прн Е = 0 н Е = 0,8. С псмощью преобразования г можно решать следующие задачи. !. Проверить, согласуется ли выборочный коэффициент кср- реляции т с предполагаемым значением теоретического коэффициента корреляции оэ 2. Найти доверительные границы для о по наблюденному значению г.
3, Проверить, соответствуют два выборочных коэффициента корреляции г, и г, одинаковым значениям о или нет". 4, Предполагается, что нескольким выборочным коэффициентам корреляции г„гз,... соответствуют одинаковые значения о. Требуется найти наилучшую оценку для о. Лрилгер лз.
По выборке, состоящей нз 25 пар наблюдений, было найдено, что выборочный коэффициент корреляции равняется 0,60. В каких довернтельных границах находится истинный коэффициент корреляции е, если предполагается, что наблюденные пары незавнснны н распределены одинаково нормально? 382 Гл. ХТТХ. Корреляция По формуле (26) находнлл з = 0,693. Согласно (27), квадратичное отклонение з равно 1 ое = — =: 0,2132. )122 Следовательно, доверительными гранипами для з с уровнем значимости 0,05 будут х = 0,693 — 1,96 ол = 0,275, сз = 0,693 + 1,96 лг, = ХО О ЛΠ— 55 -/О -л75 О !75 10 75 ЛО 85 5О !л и с. 38.
Плотности распределения " прн о = 0 и й . — О,В. Решая уравнение (26), находим т как функцию от а: елл е" )-1 Таким образом, лояерптсльныс гранины лля й с уровнем значимости 0,05 равны л; =.—. 0.,268 и тл = 0,804. Пример 49. По выборке, состоящей из 20 пар наблюдений, было найдено, что т, - - 0,6. В другой выборке, состоящей нз 25 нар наблюдений, выборочный коэффициент корреляции оказался равным гл = 0,8. Значимо ли различие г, и т;7 !1ахолии а, = 0,693, з, = 1,099, Н = кл — а, = 0,406. Лнспсрснн а,." и И равны г 1 л 1 з л л и, — =- 0,0588, ел = — = 0,0455, ох = ел + ал = 0,1043.
17 22 Зная г) н оа, найдем нх отношение: Ы 0406 — = — = 1,26. о.и 0,323 Так как 5ел-ная гранина для )л((ох! равна !.96, то различие т, н та следует счплать нсзначнмым Э та. Коеффициент рангоеой корреляции В, ло Слирмену 383 3 70. Коэффициент ранговой корреляции ее, по Спирмену л. Определенна и Отдельные индивидуумы могут обладать таким признаком, который хотя и не поддаегся точной количественной оценке, однако позволяет сравнивать индивидуумы друг с другом.
В результате всю совокушюсть индивидуумов удается упорядочить, приписав каждому из них порядковый номер. Такие признаки мы будем называть качественноыеп признаками. Примерами качественных признаков являются успеваемость школьников по определенному предмету, музыкальность, цвет волос. Если хотят проверить зависимость двух таких качественных признаков, то рассматривают выборку нз п независимых индивидуумов и каждому индивидууму приписывают два порядковых номера, соответствующие двум данным признакам.
Из этих порядковых номеров можно построить козгр4пциент ранговой корреляцпгн Как обычно, мы будем приписывать порядковые номера в соответствии с убыванием качества: первый номер припвсывается наилучшему индивидууму в данном классе и т. д. Пусть и индивидуумам по двум сравниваемым признакам приписаны порядковые номера 1, 2,, п, Сначала, для того чтобы арифметическое среднее равнялось нулю, мы из этих номеров вычтем (п +!)/2, а затем все результаты удвоим н обозначим их ее (для первого качественного признака) и т) (для второго качественного признака); ле и т) выражаются целыми числами. Такой порядковый номер индивидуума (с или т)) равен й — 1, если по данному признаку этот индивидуум превосходит 1других индивидуумов н при этом его самого превосходят й индивидуумов (й + 1 = и — 1).
Сумма квадратов порядковых номеров ~ или е) равна Д =-. ~'~е = ~" т)е = (и — 1)е + (и — 3)е+... -1- ( — и -1- 1)е = л(л — 1)(л -1- 1) 3 Коэффициент ранговой корреляции Л, по Спирмсну, определяется формулой Д ~Ч (1) Спирмен применял его для психологических исследований'.
Обычно этот коэффициент обозначается буквой о, однако у нас эта буква имеет другое значение. ' Я р еагго е п С., Тье ргооГ апг! пиоашеглепт от аллое(аь(оп Ьеьееееп мео ЛЫпяе, Агаег. е. Геуьо1., 1о (1904), 88. Гл. Хл11. Крррелякия Крайними значениями Л снова являются + 1 и — 1, причем значение + 1 достигается тогда, когда оба ряда порядковых номеров полностью совпадают (г — т! = 0), а значение — ! достигается тогда, когда оба ряда полностью противоположны друг другу (~ + т< = 0). Для вычисления Л удобен следующий способ.
Применим обычную нумерацию от ! до и и для каждого индивидуума вычислим разность <1 порядковых номеров по обоим признакам. Тогда ~~Р 6 ~~'. е<е и! — !)( +» (2) Два качественных признака называются независимыми, если при любом и порядковые номера Ае и т; являются независимыми случайными величинами. Таким образом, в случае независимости признаков среднее значение каждого слагаемого в числителе (1) равно нулю, а поэтому Я Л = О. Следователы<о, если Х значительно отличается от нуля, то можно сделать вывод, что признаки явля<отся зависимыми. Для того чтобы уточнить смысл слов «значительно отлнчае<ся», мы должны будем исследовать, сколь велико может оказаться чисто случайное отклонение Л от нуля„когда оба признака независимы.
Иными словами, мы должны исследовать функцию распределения Л в случае двух независимых качественных признаков. В. РАСЦРЕДЕ;<ЕНИЕ и В СЛУЧАЕ НЕЗАВИСИМЫХ ПРИЗНАКОВ Если два качественных признака являются независимыми, то последовательность порядковых номеров т< не зависит от последовательности ~. Последовательности я) представляют собой перестановки всех ~, и для заданной последовательности е все такие перестановки равновероятны.
Каждой перестановке соответствует определенное значение Л. Таким образом, независимо от распределения случайных величин ~ и т) искомая функция распределения представляет собой вполне определенную ступенчатую функцию, которую при малых п можно легко вычислить, если только иметь необходимое терпение. Например, в случае я = 5 нужно будет вычислить значения Л для всех 120 перестановок т). В дсйствигелы<ости, такие расчеты проводилнсь до и = 8; результаты изложены в книге: Кепс(а)) М, О., Вапк Согге1а$!Оп Ме!)<О<)з (Попс)оп, !948), Лррепд!х Та)<)е 2, Прп п ) 8 расчеты становятся Очень утомительными. В случае независимости признаков среднее значение Л равно нулю.
Вь<числнл«еперь дисперсию <ее. Из формулы (!) следует, что а 70. Ковффициена ранговоа корреляции )а, по Сиирмену Заа Фебе = (ХМе) (~йнн)н) = 2' ~Ынт)Р)н (~а<та яб 5 Ле ~' '~~ я но но . я (3) В силу равенства .~ С, = О, имеем О = Я(с, ~"„~,) = Я Я + (и — 1) Я, ~,~„ следовательно, 1 б боабоа = „160 (4) и точно так же 1 б т)ат)а = — 1 бе бп. а (5) Далее, (6) Если от обеих частей (6) вычислить средние значения, то получим пЯД = Я. То же самое, конечно, справедливо и для 7)а. Таким образом, 6Я=Я Я=„-, (7) и далее, согласно (4) и (5), п(п — 1) (8) Если (7) и (8) подставить в (3), то получим Яаоа ~ + и п(п — 1) и — 1 * нли, после сокращения яв, ееа 1 и — 1' ха Б.
л. аан лер вардан ° 10ба Эта сумма содержит и слагаемых с индексами б = )е, и так как все индексы равноправны, то все зти слагаемые имеют одинаковые значения. Точно так же оказываются равными друг другу и остальные слагаемые с индексами в ф 7г; таких слагаемых имеется п(п — 1).
Поэтому "г ег и соь1 ~-' т!1 + и (и 1) ао баба бл 7)1Ча Гя. ХХХХ. Корреляция 386 Тем жс самым методом можно вычислить и четвертый момент Л, т. е. Математическое ожидание Л4. Находим с 4 3 26п' — 38п' — Ззп+ 72 (10) Я Л4 — —,, В. СРАВНЕНИЕ С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ Если в (10) последние два члена — 35н+ 72 заменить на — 25п + 38 (от этого правая часть (10) изменится лишь очень незначительно), то можно будет числитель и знаменатель сократить на по — 1.