Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 66
Текст из файла (страница 66)
(3) Коэффициент корреляции тесно связан с коэффицаентом регрессии у, который онрсделяе1ся следующим образом. Положим у = ух + 3 (4) и определим у 1ак, чтобы дисперсия з была наименьшей. Дисперсию разности з = у — у х можно вычислить но формуле (3), заменив Л на — у: '" = 'укг ~7Р'коу + г. (5) Правая часть (5) иредставлнет собой многочлен от1н;сительно у, дос1игающий минимума в точке (6) Формула (6) связывает коэффициент регрессии у с коэффициентом корреляции о. 359 В ВВ. Ковирииция и коэффициент корреэяции Б, ВЫВОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если в результате наблюдений получены и пар значений (х„у,),..., (х„, у„) и если предполагается, что пары (хр у,) являются независимыми двумерными случайными величинами с одинаковым двумерным распределением, то в качестве оценки для дисперсии ггэ Р можно применить выборочную дисперсию 2 2 1 в~ ч-ы = „:1 ~ (дх + у — ) х — у)' = ),2 ~ (х — *)', 9~.'У,"(* х) (П вЂ” Р) ".",(П вЂ” П)' и — 1 и — 1 и — 1 (1О) Значение минимума многочлена (5) равно (г2 — 2о-2 9 2т2 ( сэй — (1 2)т2 (7) Из (7) непосредственно следует, что 1 — Еэ ~ О.
Таким образом, значение коэффициента корреляции заключено в пределах — ! и +1. Если о принимает одно из крайних значений, равных +1, то, согласно (7), с, = О. В силу последней теоремы из 9 3, это возможно лишь тогда, когда з с вероятностью единица является постоянной величиной, т. е. когда у с вероятностью единица представляет собой линейную функцию от х: у= ух+а. (8) Коэффициент корреляции о является мерой зависимости (мерой линейной зависимости) между х и у. В случае независимости этих величин о = О. Если же х и у связаны точной линейной зависимостью (8), то (э = ~-1; при этом знак о, в силу (6), всегда равен знаку коэффициента регрессии у.
Смысл коэффициента корреляции можно выяснить с помощью анализа дисперсии величины у. Из формулы (4) видно, что у является суммой двух случайных величин ух и в, из которых первая (ух) пропорциональна х, а вторая (а) с х некоррелирована, так как ковариация х и а равна нулю. Таким образом, дисперсия у представляет собой сумму дисперсий ух и з: о 2 = уэ т2 + о.2. (9) Если в эту формулу вместо у и ~г,' подставить (6) и (7), то первое слагаемое правой части (9) будет равно оэ 2, а вторым слагаемым будет (1 — О2) г2. Как и следовало ожидать, сумма этих слагаемых равна с 2.
Таким образом, оэ показывает, какая часть дисперсии случайной величины у приходится на долю слагаемого ух в формуле (4). Гл. ХХ11. Корреляция 360 Поэтому в качестве оценки для ковариации Я(х — х) (у — у) естественно воспользоваться выборочной коеариацией — .у,'(х — х) (у — у), (11) где, как всегда, х и у являются выборочными средними: х = — ~ч'х, у = — ~у.
(12) Так как (10) представляет собой несмещенную оценку, то оценка (11) также является несмещенной. Для того чтобы получить оценку для о, разделим (11) на е„в„. Такая оценка называется выборочным коэффициентом корреляции г= л (~ *1-у у) =: 1 у у)= (13) (и — 1)еяеу . "(Х х)е 2'(у — у)е Можно показать, что т обладает теми же свойствами, какими обладает указанный выше истинный коэффициент корреляции о.
Положим 1 = — с и выберем с таким образом, чтобы значение многочлена (10) стало наименьшим. Точка минимума и минимальное значение многочлена задаются формулами ея ~ (х — х) 01 — и) (14) — г ву У' (х х)е ля . = (1 — г')е' (15) Так как выражение (15) всегда неотрицательно, то значение г всегда заключено между — 1 и +1. Если г = ~1, то, в силу (15), все у,, — сх, принимают одинаковое значение а, т. е. все наблюденные точки с координатами (хн у,) лежат на прямой с уравнением у=ох+а. Если же эти точки не лежат на одной прямой, то через точку с координатами (х, у) можно провести прямую, угловой коэффициент которой задается равенством (14). Эта прямая представляет собой эмпирическую линию регрессии, о которой гонорилось выше, в $33, (! 6) у — у = с(х — х).
у 66. 7(оеариация и коэффициент корреляции 361 В 2 ЗЗ зта линия определялась таким образом, чтобы сумма квадратов отклонений точек (х„у,) от прямой была наименьшей (отклонения измеряются по направлению Оу). Угловой коэффициент с этой прямой называется выборочным коэффициентом регрессии. Связь между выборочным коэффициентом регрессии и выборочным коэффициентом корреляции выражается формулой (14).
Числитель (13) можно вычислять различными способами, контролирующими друг друга: ,л, (х — х)(у — у) = ~ (х — х)у = л, х(у — у) = =.л,' ху — из~) = = р,(х — а)(у — Ь) — п(х — а)(у — Ь). Как уже отмечалось ранее, то же самое справедливо и для знаменателя. Пример 66.
Теннисе исследовал различные виды цветочной пыльцы и нашел связь между величиной пылинки и количеством пор для выхода пыльцевых трубок. В качестве примера мы рассмотрим результаты исследований пыльцы шаровидной фуксии (л'ио)ьма сЛоьоеа). Эта пыльца может иметь от О до 4 пор, расположенных в экваториальной плоскости пылинки. Лля измерения диаметров пылинок были выделены 5 групп (по 10 пылинок в каждой группе) с количеством пор О, 1, 2, 3 н 4. Результаты измерений округлялись до числа, кратного 5 микронам.
Количества пылинок указаны в корреляционной таблице, Количество оор Диаметр в=о! ~ ) з ( з 3 7 ~ 3 р = 10 15 20 25 30 35 40 45 50 55 60 3 ~ 3 3 т Т а ш ш е в Р. М. В, Оп сье ог)йш ог пшпьег апс) ытапцешепз от Ске Р!асса ог ех)С оп С)те впхгасе ог роден-агапы. Т)жз., Сгопшйеп, 1930. Гл. ХШ. корреляция 362 Очень красивый и редко встречающийся случай линейной регрессии! Находим х = 2, т(х — х)* = 100, и= ЗЗ2, ~'(р — и) = !2666, 2,"(х — х) (и — Н) = !09О.
Выборочный коэффициент регрессии равен 1090 с = — = 10,9. 100 Уравнение эмпирической линии регрессив имеет вид у — у=. с(х — х) нл н р = 10,9х+ 11,4. Собственно говоря, выборочный коэффициент корреляции имеет смысл вычислять лишь тогда, когда пары (х, у) являются независимыми, т. е. получаются часто случайно. Поэтому общее коли ~ество пылинок для каждого фиксированного х должно быть случайной величиной с частотой приближенно равной вероятности данного значения х.
В нашем же случае длн всех х выбирается по 10 пылинок. Гели, несмотря на это, все-таки вычислить г по формуле (13), то корреляция окажется очень высокой: 1090 =. ОВП ь 88 2 67. Коэффициент корреляции как признак зависимости Так как т является оценкой для о и так как о = О, для независимых х и у, то в том случае, ко~да т значительно отличается от нуля, можно сделать вывод, что о=Ь О н поэтому случайные величины х н у зависимы', Для того чтобы знать, при каких т можно уверенно делать указанный вывод, мы должны уметь отвечать на следующий вопрос: насколько может отклоняться от нуля выборочный коэффициент корреляции т, если, в действнтелы!ости, случайные величины х н р независимы и поэтому о = О? » Практически использование коэффш!пента корреляции н качестве ыеры зависимости оправдано лишь тогда, когда предполагается, что случайные величины х н к распределены нормально.
В общем случае коэффициент е как мера зависимости может оказаться неудовлетворительным. Например, если х принимает значения 1!я, 1 и и с вероятностями 2я/(я — 1)», 1 — 4п<<п — 1)' и 2п/<и — 1)' соответственно н если у = 1<х, то Е„Г ---- — 4П)(и — 1)*. ТаКНМ ОбразОМ, Прн я — ~ ч КОЭффацнЕНт КОррЕЛяцИИ стремится к нулю, хотя х и н связаны функциональной зависимостью.
Одругнх мерах зависимости, лишенных недостатков коэффициента корреляпии, сч. Лунин-Барковскнй И. В. и Смирнов!(В.,Теориявероятностей н математическая ста1нстика в технике (общая часть), ГИТТЛ, М., 1955, гл. УТ — Лри.». лерев. а 67. Козффициент корреляции кик признак зависимости 363 Так как отдельные пары (х„у,), ..., (х„, у„) предполагаются независимыми друг от друга, то совместная плотность вероятности всей системы (х„у,,..., хео У,) Равна пРоизведению ((х<, У,)...
((хп, Уп) = 3 (2) Спрашивается, какова функция распределения гр Мы исследуем сейчас несколько более общий вопрос, а именно каково совместное распределение пяти случайных величин: х, У, тт з,', и е, т. е. какова веРоатность того, что все эти величины будут лежать в заданных границах? Прежде всего с помощью <>ртогоналыюго преобразования можно легко выделить распределение х и у. Для этого случайные величины х„..., х, ортогонально преобразуем в и,,..., и„таким образсм, чтобы и, была пропорциональна выборочному среднему х; ие =- аз<х, + а.зхе +... + аепхп )<, У„..., У„применим ортогональное преобразование с теми жс самыми коэффициентами: З1 Ув Дп 1< )и )и (4) Ов = аз<У< -з- аз<Уз +...
+ а<„2<„, Т<,гда ч х,- '= ~'из и ~ у,' = ~' оз. И так как суммы х< + у< подвергаются эт< му же преобразованию, например 2'< + и~ = аз< < х< У<) + азв (х, + У,) -( ... + а. (х„+ У„), то отсюда следует, что (х< + У<)2 = ~ (и, + 6)з„ Предположим, что х и у независимы и распределены нормально.
Заменой х на а (х — х) и У на Ь(у — У) можно добиться, чтобы обе величины имели нулевое среднее значение и единичную дисперсию. Следовательно, мы можем считать, что совместная плотность распределения случайных величин х и у задается формулой Ге Х1П. Корреляция 364 Если из обеих частей последнего равенства вычесть ~хе = = ~~и-', ~;у' = ~с' и результат разделить на 2, то получим ~'ху = ~", ие. (5) Таким образом, г (,у ху — пли)е ( ' ил исг)е (~ х' — и хе] ( г Ие — и и') (~ и' — це) (~~'„ле — ле) (ииле + .
+ илел) (ие+... + ил) (се+ ... + сл) (6) (п — 1) в~ = 'У хв — пхе = я ие — ие = и' + ... -1- ие, (7) (п !) е У пуе '), ,е ) ,а 1 ! г (8) 1" 1 Й' =, „—;')... ) в в - "Ыие Ысе... ди„Ыс„, (10) а где область интегрирования ея определяется неравенствами (9).