Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 71
Текст из файла (страница 71)
В результате получим (11) Сравнение правой части (11) с четвертым моментом нормального распределения, обладающего нулевым средним значением и дисперсией 1/(и — 1), 14 з 4 ( 11 (12) показывает, что выражения (!0) и (12) аснмптотнческн равны и что (1О) несколько меньше, чем (12). Так как распределение больших отклонений Л в значительной мере определяется средним значением Л4, то отс~ода следует, что значения Л, сильно отклоняющиеся от нуля.
Возникают с несколько меньшей вероятностью, чем это было бы при нормальном распределении с той жс дисперсией. Если вычислить высшие моменты Я Ле", то окажется, что все они, после умножения па (я — 1)', при п — стремятся к соответствующим моментам нормального распределения* с нулевым средним значением н единичной дисперсией, а именно, к (241! 2А 14 согласно 4второй предельной тсорсмсо (8 24 е), отсюда следует, что функция распределения Л '1и — 1 при п стремится к функции нормального распределения с нулевым средним значением и единичной дисперсией, т.
с. случайная величина Л распределена асимптотически нормально с нулевым средним значением и дисперсией огз = 11'(п — 1). Если при проверке независимости действовать так, как если бы Л была нормально распределенной случайной величиной, то надежность выводов лишь увеличится. Действительно, как мы только что видели, большим отклонениям Лот нуля соответствует, ' См. Н е и 41 а 11 М. О., 14пп14 Сотте1а41оп Меснос1я, р. 61. Э те. Коеффициент ронгоыое корреляции Л, но Спирмену 387 чц1 Р) (14) то гипотезу независилюсти качегтвенньгх признаков следует отвергнуть. Истинный уровень значимости одностороннего критерия < д, двустороннего критерия.
( 2р'. г. сРАВнение с РАспРеделением стьюдьнтА Кендалл заметил, что распределение с плотносчью вероят- ности и У(л) = (! — Ле)е ~1 и (15) аппраксимирует распределение случайной величины Я несколько лучше, чем нормальное распределение. Функция Е(р, д) представляет собой бета-функцию, определенную в 3 12 Д. Второй и четвертый моменты распределения с плоч пастью (15) задаются формулами 1 гее =„ 3 )е! не Следовательно, ра в точности равен дисперсии коэффициента ранговой корреляции. Четвертый момент ре можно записать так: (16) Если (16) сравнить с (11), то окажется, что р.', несколько меньше (11).
Таким образом, это приблимсение пе увеличивает, а уменьшает надежность критерия. Если вместо случайной величины Л, подчиняющейся распределению с плотностью (15), ввести новую случайную величину (17) 2вм на самом деле, несколько меньшая вероятность, чем при нормальном распределении.
Отсюда получаем следующий простой критерий зависимости: Если значение козффициенти ринговой корреляции Е (или, в случае двустороннего критерия, значение ! Л () окажется больше, чем Гл. Х?11. Корреляция 388 Урокам значимости 22= О,О! 2Ф = 0,02 2Р = 0,00 ' 0,86 (0,007) 0,97 (0,0004) 0,82 (0,0! 5) 0,88 (0,00?) 0,72 (0,046) 0,74 (0,036) 0,71 (0,058) Точные границы ...... Нормальное прнблнжсн не Стьюдентовское пркблнжсн не 0,83 (0,011) ! 0,79 (0,022) Соответствующие этим границам истинные уровни значимости указаны в скобках. Из таблицы видно, что истинные уровни значимости границ, пол)чснных с псмоц(ью стьюдентовского приближения, оказываются систематически слишком большими.
С другой стороны, эти же уровни для границ, полученных с помощью нормального приближения, слишком малы. Можно бы было, например, в качестве границы выбрать арифметическое среднее, составленное из нормального и стьюдентовского приближений; вероятно, в этом случае надежность критерия должна всегда повышаться'. При очень больших п безразлично, каким приближением пользоваться — нормальным или стьюдентовским.
з С помощью небольшого усложнения формуяы (14) можно нормальное приближение существенно улучшить. А именно, нужно воспользоваться уточненной асимптотической формулой !Р(1 — и) ( 0,19 Нр = г(! — — ' [У*(! — Ф) — 3)~. )' я — 1 ЗначениЯ ?гш вычнсленные по этой фоРмУле пРЯ Я = 8 н 2Р = 0,01; 0,02! 0,05, равны соответственно 0,87; 0,82 н 0,72. Таким образом, указанное приближение значительно лучгпе нормального н стьюдентонского. Вычяслення с ббльшнм колнчеством знаков показывают, что приближенные границы больше точных, т. е. улучшенное приближение лишь увеличивает надежность крнтерня.
— ?!раль перев. то точным распределением ! будет являться распределение Стьюдента с и — 2 степенями свобсды. Практически это означает, что по найденному значению коэффициента ранговой корреляции Л можно вычислить ! гго формуле (!7) и затем применить критерий алтьюденпга.
Правда, при этом истинный уровень значимости будет несколько больше, чем р' или 2р. Более простым и надежным является применение границы ((4), основанной на нормальном приближении. Выводы, полученные нами с помощью исследования вторых и четвертых моментов, можно непосредственно проверить в случае и = 8. Для границ получаем следующие значения: У 70. Коаффициенггг рингоаоа корреляции В, но Соирмену 333 д.
случли злвисимых понзнлков Мы хотим теперь исследовать, каково соотношение между истинным коэффициентом корреляции р и коэффициентолг ранговой корреляции Л в случае зависимых признаков? Предположим, что в основе двух качественных признаков лежат две нормальные случайные величины х и у, плотность распределения которых задается формулой 1 1 . — "т — тг гк' — ееки +оп 7(х, у) = — 2 (г 1 — бге е Для и независимых пар (хе, уе) плотность совместного распределения равна н 1 л 1(хг, у,)... 7(хкн у„) = — „(1 — оа)е е е ' (19) (18) Согласно (1) д71 '» о. (20) где сг — разность между количеством тех х»н которые больше х,, и количеством тех х„, которые меньше хе Пусть х,„и у,„— случайные величины, которые при всех а и й определяются равенствами ~ +1, если х, ( хи, ~ 1-1, если у, (У», хи, — ) О, если х,=х„.
Ум =~ О, если у,=у»о [ — 1, еслн х, > х»о — 1, если у, > у„. Тогда ч т тг уу» Если эти суммы подставим в (20), то получим Вычислим теперь математические ожидания от обеих частей равенства (21): (21) »„г!Г = ~ ~ Усе(хтуц) (22) л Все слагаемые этой суммы, у которых 1 = У нли 1 —. 1, равны нулю, поэтому сумма (22) ссдержит и (и — !) (и — 2) равных друг другу слагаемых с )г р: 1 и и (и — 1) одинаковых слагаемых с и = 1. Таким образом, Д)Г = и (и — 1) (и — 2) К(х,ау,з) + и(и — 1) б(хгеум).
лн, пносле деления на»г =-. и (и — 1) (и .+ 1)!3, и — 2о 3 ~1= 3 — 1Ях Уге) +„—,6(х У ). (23) Нам нужно теперь вычислить средние значения произведений х„у„и х„Уви СлУчайнаа величина х„У„пРинимает значение 1, Гл. ХШ. Ка(з(зеяяция 290 )т, =- — з(1 — дз) Х 1 (2х)'"' И Х е - ' ' е - ' ' ззхзе(узз1хзз(уз х,хх, е =и. Этот интеграл имеет то'шо такой же внд, как и интеграл, вычисленный в общем виде в $ 14 В: г г 1 = (2зг) '" !(д )... ) е - 'ззхз...
з)хз, (ззх!. з (зхЗ О где я=4, 0 = ~" дззх'х" = х"; - — 2ох,у, + у' -1- гсз1 — 2дхзу, -! уз (25) И д = (1 — аз)з. Для того чтобы перейти к обозначениям из 2 14 В, нужно положить хз=-у,, х'=хеи из = О. из = + 1, и,= — 1, и.=О, хз = уз, и,=-О, и =-,'!. х' = х, 1 и,= — 1, и,=О, Квадратичной формой, контрагредиентной форме зз, является т а из+ 22изиз+ из из + 22изиз + из (2б) .~ д"и.и я= аз 1 — Ез Отсюда получаем значения инвариантов: 1 1 2 е 22 1 1 2 (и") = ° даиЗ"З = ° + 1 з = з.
Поэтому интеграл з('з = У равен Игз хх — агс сов = — агс сов( — - о). (27) 1 — (их) 1 2зз )((, ) «з („„) 2зз если х„< хз и у, < уз или если х, > х, и у, > х,; в противном случае, когда х, < х, и у, > уз или когда х,> х, и у, < уз, она принимает значение — 1. Вероятность одновременного осушсптвления двух событий, х, < х, и у, < у„равна интегралу от слотности 7(х„уз) ((хз, уз) по области, заданной неравенствами х,<х,, у,<у.,: $70. Коэффициенан ранеовоа норрелнцни В, оо Снириенд 391 Точно такое жс значение имеет и вероятность И', одновременного осуществления событий х,> х, и дз> уз Вероятность Игз одновременного осуществления событий х, > х, и уз ( уз получается умножением юе на ( — 1): И'з =, — агс сов о.
1 з 2-, (28) Такое же значение имеет н вероятность И'з одновременного осуществления событий хз < х, и дз > уз. Поэтому среднее значение хззузз равно Я хззузз = (И', -( И'з) ' 1 г- (Игз а Игз) ( — 1) = 2Игз 2Игз— 1 1 = — агс сов ( — о) — — агс сов о = и и 1 аи -, агс вш о( — — ~ - — агс вш о( = — агс вш о. (29) н.=и'т,е — ээ'ЩЩ -''а,азанананаз, где 0 = (хг — 2охзУз -(- игз) + (х, '— 2охзУз + Угз) + + (хг 2охзУз '( Уг). 3 з з з з из+ 22и,из + из из+ 2ои,иа + иа .
из + 2оизиз + из Е 1 Р 1' аз ' " 1 Ез' Инварианты нмскзт значения 2 (ии) = -- — „ 1 — е- (ии) =,, (ии) = Следовательно, 1 — (ие) 1 — е Игз = — агс сов,= = — = = =, -агс сов — . 2зз )а(ии) )/(оо) 2аз 2 (30) То'що такое же значение имеет вероятнссть И'з одновременного осуществления ссбытий х, > х, и уз > уз. Вероятности Иаз и И'в сстальных двух всзможных случаен равны Игз = И', =,— агс сов,— 1 2н 2 Лпалогично вычисляется среднее значение случайной величины хззузз.
Она принимает значение 1„если х, ( х, и уз (згз или если х, > х, и у„> у,. Вероятность одновременного осуществления первых двух событий равна Гл. Х111. Корреляция 392 Поэтому Со(хг ~га) ()гг» + !»г«) ! + ())г«+ И~а) ( — - 1) = — аго 81п 2- . (31) Если (29) и (3!) подставить в (23), то получим 6 и — 2 . Е, 6 В = -- агсзш -)- — — агс 61п о. (32) При больших и нз (32) следует, что 6 е В --агс з1п Л 2 (33) При не очень больших и значение В несколько меньше, чем правая часть (33), так как, в силу неравенств 2 агс зш —, < агсз!и о < Загс 61п;= е о 2 2 имеем 6 и . е " 6 .
е — агсзш,— <В < .агсзш Различие между и/(и + !) и 1 совсем незначительно, поэтому приближение (33) можно применять и для умеренно больших значений и, Если (33) разрешить относительно о, то получим 2 аш — В, 6 (34) Это означает, что при больших и выражение 2 61п (пВ/6) можно использовать в качестве оценки для истинного коэффициента корреляции о. Все это справедливо лишь в предположении, что совместное распределение х н д является нормальным.