Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 69
Текст из файла (страница 69)
Отношение и',> ( <>" ( равно котангенсу угла <р (рис. 35), следовательно, и с089 е ]о"1 вь><о Д Этот результат объясняет, почему случайная величина [ = —;.=" —. '](п — 2 ) 1 — е) подчиняется распределению Стьюдепта с и — 2 степенями свободы. Если к векторам и и и добавить еще вектор ц> (рис.
Зб), то для вычисления выборочного частного коэффициента корреляции г, ], нужно будет сначала ц ип заменить векторами ц" == ц — ац> н и" = и — <пц. перпендикулярными ш. Выберем новую систему у Ед. Распределение виборонного коэффициента корреляции 375 координат таким образом, чтобы одна нз новых осей была направлена вдоль вектора пд, а две друю(с осн были перпендикулярнып(.
Компоненты векторов и н и, перпендикулярные и(, определяются векторами и" и и", косинус угла между и" н и" равен выборочному частному коэффициенту корреляции г (,. Так как этн векторы расположены в плоскости, перпендикулярной пд, то нк размерность равна не п — 1, а и — 2; кроме того, и" и и" псдчння(отса нормальному распределению. Отсюда ясно, что г ы имеет ту же самую функпню распределения, что и обычпый выборочный коэффициент корреляции, но только с заменой п на и — 1. 2 69.
Распределение выборочного коэффициента корреляции зависимых случайных величин А. ДВРМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕШ(Е )( дь — — (дх' + ь ч — е 2 слсдователыю, «лотпость совместного распределении пары (х, у) равна )'ул — „.' (д Эд;у — 1 Р( Дх,у) =: -е 2х ) дь — — [(д е!Ц'(х' — 21дхд Лун 1 е 2 2:1 (2) Эту же плотность можно записать так: 1 — - (ох' — 2дху + Иу'> 1(х,У)х СЕ Средние значения х и у выбраны равными нулю только для удобства. Если желатель(ю рассматривать общий случай, то нужно х и у заменить разностями х — х и у — у. До сих пор мы всегда предполагали, что, в действительности, х и у являются независимыми случайными величинами и что г лишь случайно отличается от нуля.
Для зависимых х и у все становится значительно сложнее. Для того чтобы о распределении г можно было сказать что-то определенное, нужно сделать некоторые предположения о распределении х и у. Наиболее простым является предположение, согласно которому величина х распределена нормально, а у равна е( х + а, где г также распределена нормально и не зависит от х, Если дисперсия случайной величины х равна 1/д, а дисперсия з равна 1/1(, то плотность совместного распределения пары (х, г) задается фор- мулой Гл Х1И. Корреляция — — ' — еь 1(х,у) = —,Р— Ь'е ' (4) которая в дальнейшем для нас будет являться основной.
Дисперсия х была равна 1 1 2 д 1 — Ь' (5) Дисперсия у, конечно, имеет то же самое значение 1 о.„= и 1 — Ь' (6) Коварнация х и у вычисляется так: ~. »у Д т(Х» 1 а) Р,~ хе+ с ха— = Ь(эхе+О= Поэтому истинный коэффициент корреляции равен "=ь. Я~ "хиу (8) Таким образом, положив в (4) Ь = д, мы могли бы написать — — (я' — еллу + уч 1 1(х, у) = —, 11 — да е ая (9) Функцию вида (3) с отрицательной квадратичной формой в показателе степени называют плотностью двумерного нормального распределения.
Такие распределения очень часто приближенно осуществляются в биологии, а именно, тогда, когда на основе неселектированного материала изучается наследственность определенных размеров тела. Каждую плотность вида (3) можно представить выражением (2), т. е. у можно представить как сумму двух случайных величин, из которых первая (Лх) пропорциональна х, а вторая (а) от х не зависит. Так как х н у совершенно равноправны, то можно, конечно, наоборот, представить х в виде суммы линейного члена (»у и случайной величины а', не зависящей от у, Выбор одного из этих представлений зависит от той конкретной задачи, которую нужно решить. Изменением масштабов на осях Ох и Оу всегда можно добиться, чтобы выполнялись равенства а= Ь= 1. Тогда а = Ь н у = 1 — Ь' В этом случае плотность распределения (3) задается простой формулой э вэ.
Риеиределение выборочного ко24фициенпио корреляции 377 Б. Асимптотическое Рлспределепие е ИРи БОльших и о 1 1, При этик предположенилх и при и — венборочный коэффициент карре.тции т распределен асимптотически нормально Среди значение г исимптотически равно о, а его квадратичное отклоненги асимптотически равно 1 — е' о == 1 11 — 1 (11) Доказательство будет очень простым. Сначала мы так же, как в ~ 67, с помощью ортогонального преобразования заменим х„и у» новыми переменными ик и о таким образом, чтобы имели место равенства и,= хг(п и о, = у)/п.
Тогда г будет задаваться формулой и,о,+...+или„ (12) Плотность распределения и„и о„имеет тот же вид, что и плотность (10): 1 Г<и1 2,„. о> Средние значения иг, ог и мк о„равны Д и2,,2 1 2 Я о2 ее2 1 2 У о 1О, и„ок = 91г„о. в Следовательно, мы можем положить цг 1+рк +„! о+ ек икон== —. в (14) Пусть (х„у,), (х„у,),..., (х„, у„) — независимые двумерные случаиные величины, каждая нз когорых подчиняется распределению с плотностью (9). Тогда совместная плотность распределения всей системы (х„у,,..., х„, у,) задается формулой Гл. ХП1. Корреляция зтз Если (14) подставить в (12), то получим те+ / у ~ тп+ ~ рь ° ) т+ д» (15) где т = и — 1 и ~" р„, ~ дго ~ т представляют собой суммы т случайных величин, каждая из которых имеет среднее значение, равное нулю, и квадратичное отклонение порядка единицы, Таким образом, с вероятностью, сколь угодно близкой к единице, эти суммы при т- являются величинами порядка 1(т, т.
с. все они меньше т. Поэтому (15) можно разложить в ряд по степеням '~'р 1т, ~" г7„7т и 5'герат: гм а+в т г==— Ри 1 ~ ее У У -'. ть 1 . р» 1 де = р+ — — д= — -,-о — +.... т 2 т 2 т В результате получаем асимптотическую формулу 1 1 гц — ере — —, еец 2 2" — Е-ч и — 1 (! 6) Однако эта оценка является надежной лишь тогда, когда п очень велико и е' не близко к единице. Если значение и является лишь умеренно большим н если йэ близко к единице (признаком этого является близость к единице значения г'), то а может значительно отличаться от т. Кроме того, математическое ожидание г отклоняется от о, т.
е. оценка г имеет смещение. В этом можно Правая часть представляет собсй сумму больиюго числа независимых случайных величин, дисперсии которых ограничены. Согласно центральной предельной теореме (2 24 Г), зта сумма распределена асимптотнчески нормально. Среднее значение правой части (!6) равно нулю, а дисперсия равна сумме дисперсий отдельных слагаемых, Вычислив этн дисперсии, найдем, что квадратичное отклонение выражается формулой (11).
Прн практическом применении этих результатов возникают различные трудности, Так как значение о заранее не известно, то нельзя вычислить о-, Часто в правой части (11) о заменяют на г и, таким образом, получают следующую оценку для т: 8=-,—. (17) 1'и — 1 г гг. Распределение ео1дорочного коэффициенп1а корреляции 379 очень легко убедиться, вычислив несколько следующих членов приближения (16). В результате найдем, что е т — еэ Ят=й- — — + 2 еэ — 1 (!8) Ко всему тому нужно еще добавить, что для умеренных значений и точное распределение т может значительно отклоняться от нормального распределения, особенно тогда, когда значение оэ близко к единице.
Таким образом, при вычислении доверительных границ для 9 по заданному т нельзя непосредственно применять нормальное распределение, а нужно воспользоваться точной функцией распределения г или по меньшей мере улучшенным приближением для этой функции. В. ТОЧНОЕ РЛСПРЕДЕЛЕНИЕ Бх, Бу И Е Плотность совместного распределения трех случайных величин 4, г' и г можно вычислить следующим образом.
Введем сначала для оценок дисперсий и ковариации обозначения: гхх 4 Буу = гу гху ' гчгу Пусть снова гу = Хх+ з = йх+ а, где з — случайная величина, не зависящая от х. Построим сценки дисперсии и ковариации, аналогичные (19): г = Б„', г„э = Г г г, г, = г,', (20) (19) гхх гху огхх + гхе (21) г„= йэгхх -г 2йг„, + г,. Вместо трех величин (20) можно ввести независимые случайные величины Х, ео, Ь, указанные в $ 6?.
Согласно (22) $ 67, плотность совместного распределения Х, ео и 1, задается формулой 1, 1„1 — х — — ~ил и — х и — 3 7о(Х ю ь) =' (22) где о — постоянный нормирующий множитель. Случайные величины (20) выражаются через Х, и, ~ следующим образом: (и — 1) г„х = осе Х', (и 1) Бхе = а х ссх Х' (22) где г' — выборочный коэффициент корреляции между х и а.