Дж. Тейлор - Введение в теорию ошибок (1108329), страница 38
Текст из файла (страница 38)
Если после конечного числа измерений коэффициент корреляции г = о,н/п,он мал, это будет подтверждением гипотезы о том, что х и у не коррелированы. В качестве иллюстрации можно рассмотреть пример с отметками за экзамен и домашнее задание, показанный на рис. 9.1. Эти отметки приведены также в табл, 9.!.
Простой расчет (задача 9.4) дает, что коэффициент корреляции для этих десяти пар отметок равен г = 0,8. Профессор делает вывод, что это значение «разумно близко» к 1, и поэтому может объявить студентам в следующем году, что поскольку имеется хорошая корреляция между отметками за домашнее задание и за экзамен, то очень важно выполнять домашнее задание. Если бы профессор получил, что коэффициент корреляции г близок к нулю, то он оказался бы в затруднительном положении, поскольку оп обнаружил бы, что отметки за домашнее задание никак не связаны с отметками за экзамен.
Если бы получилось, что величина г близка к — 1, то ему пришлось бы сделать еще более смущающее открытие, что Таблица у,!. Отметкн студентов Студент, ! 1 2 3 4 5 6 7 8 9 1О Домашнее задание, к! 90 60 45 !00 15 23 52 30 7! 88 Экзамен, у! 90 71 65 !00 45 60 75 85 100 80 1аэ Смешанный второй момент я корреляция отметки за домашнее задание и за экзамен подчинены отри.цательной корреляции, т.
е. что студенты, которые хорошо выполняют домашнее задание, плохо сдают экзамены. 9.4. Количественный критерий значимости г Из рассмотренного примера должно быть ясно, что у нас все еше нет полного ответа на первоначальный вопрос о том, насколько хорошо экспериментальные точки подтверждают линейную связь между х и у. Наш профессор получил коэффициент корреляции г = 0,8, и сделал вывод о том, что это значение «разумно близко» к 1. Но как можно объективно решить, что значит «разумно близко к 1»Р Будет ли г = 0,8 разумно близкоз Или 0,4з Мы можем ответить на эти вопросы следующим образом.
Предположим, что две переменные х и у в действительности некоррелированны, т. е. в пределе бесконечно большого числа измерений коэффициент корреляции был бы равен нулю. После конечного числа измерений очень маловероятно, чтобы г был точно равен нулю '). Оказывается, можно вычислить вероятность того, что г будет не меньше, чем любое заданное значение. Обозначим через Рн(! г1> го) вероятность того, что У измерений двух некоррелированных переменных х и у приведут к значению коэффициента г, не меньшему'), чем любое частное значение г,.
Например, мь1 могли бы рассчитать вероятность Рн (! г ~ )~ 0,8) того, что после У измерений некоррелированных переменных х и у коэффициент корреляции будет по крайней мере не меньше, чем полученное профессором значение 0,8, Расчет таких вероятностей довольно сложен, и мы его здесь не будем приводить. Однако результаты таких вычислений для небольшого числа значений параметров представлены в табл.
9.2, а более полные таблицы приведены в приложении В. Хотя мы ие показали, как вычисляются вероятности, приведенные в табл. 9.2, можно понять в общих чертах их поведение и научиться их использовать. Левый столбец показывает число экспериментальных точек л1.
(В нашем примере ') В случае кояечяого числа язмереяяй в литературе яа русском языке употребляется термин «выборочяый коэффициент корреляции>.— Прил. зарев. з) Так как корреляция означает, что г близко к +1, илм — 1, то мы Рассмзтряваем вероятность получеяяя абсолютного зноченил (г( ) г,. !90 Глава 9 Таблица 9.2. Вероятяость Рн ((г1 ) г ) того, что ДГ измереяиа двух иекорреляроваяяых перемеяяых х я у дадут коэффяциеит корреляция 1г1 ) г . Зяачеяия вероятностей приведеяы в процеитак! прочерками отмечеяы значения, меяьыие 0,0бс/э го а 0,1 0,2 о,з 0,4 а,а О,ь 0,7 а,а 0,9 3 87 8! 74 67 59 51 70 56 43 31 21 12 68 40 25 14 7 2 40 20 8 2 0,5 0,1 16 3 0,4 100 94 100 85 100 78 100 67 !00 49 41 29 0 6 1 0 0,5 — 0 0 0 3 6 Ю 20 50 ') Хотя невозможно получить 1г1 ) 1, яо 1г1 = 1 в принципе возможно. Однако г — непрерывная персмеивая, и вероятность пол1чеяия значения 1г1, точно равного единице, раааа аулка Таким образом, гл((г1 ~ !1 =' О, профессор собрал отметки десяти студентов, так что 1т' = 1О.)' Числа в наждом последующем столбце — вероятности того, что /т' измерений двух некоррелированных переменных дадут коэффициент г, который по крайней мере не меньше, чем самое верхнее число в столбце.
Например, как мы видим, веоятность того, что десять некоррелированных точек дадут г!) 0,8, невелика, составляет только 0,5%. Следовательно, наш профессор может сказать, что весьма невероятно, чтобы некоррелированные отметки дали для коэффициента корреляции значение 1г~, большее или равное величине 0,8, которую он получил.
Другими словами, очень вероятно, что отметки за домашнее задание и за экзамен действительно коррелированы. Несколько особенностей табл, 9,2 нуждаются в комментариях. Все значения в первом столбце равны 100'/а, потому что (г~ всегда больше или равно нулю, так что вероятность получения !г(=» 0 всегда равна 100о/е. Аналогично все значения в последнем столбце равны нулю, так как вероятность получения 1г() 1 равна нулю '). Числа в промежуточных столбцах изменяются с числом экспериментальных точек А/, Это также легко понять. Если мы сделаем только три измерения, то вероятность получить коэффициент корреляции, скажем (г~ ) 0,5, очевидно, довольно велика (фактически 67%). Но если мы сделаем 20 измерений и если две переменные действительно не коррелированы, то вероятность получить )г() 0,5, очевидно, очень мала (фактически 2%).
Получив значения вероятности из табл. 9.2 (или из более полных таблиц приложения В), мы теперь можем дать наи- Смешанный второй ыоыент к каррелкняк 191 более полный возможный оавет на вопрос о том, насколько хорошо Ж пар значений (хь у;) подтверждают линейную связь между х и у. По измеренным точкам можно сначала вычислить значение коэффициента корреляции г,. Затем, используя одну из этих таблиц, мы можем найти вероятность Рл(~г!)(г,!) того, что М некоррелированных точек дадут для коэффициента значение не меньшее, чем полученный коэффициент г,. Если эта вероятность «достаточно мала», то мы можем заключить, что очень невероятно, чтобы х и у были не коррелированы, и, следовательно, очень вероятно, что они в действительности коррелированы, Мы еще должны выбрать значение вероятности, которое будем рассматривать как «достаточно малое».
Один довольно распространенный выбор состоит в том, чтобы рассматривать наблюденную корреляцию г, как «значимую», если вероятность получения коэффициента г, такого, что 1г~ )1г,), для некоррелированных переменных меньше бто. Корреляцию иногда называют «высокозначимой», если соответствующая вероятность меньше ('$. Какой бы выбор мы ни сделали, мы не получим точно определенного ответа, какие данные коррелированы, а какие нет; вместо этого у нас есть количественная мера, показывающая, насколько невероятно предположение о том, что они не коррелированы. 9.5. Примеры Предположим, что мы измеряем три пары значений (хь у;) н находим, что коэффициент корреляции равен 0,7 (нли — 0,7). Подтверждает ли это значение гипотезу, что х и у связаны линейно? Обращаясь к табл.
9.2, мы видим, что даже если переменные х и у совсем не коррелированы, то вероятность получения )г!= 0,7 при У=3 составляет 5! »1». Другими словами, вполне возможно, что х и у не коррелированы; таким образом, у нас нет надежного доказательства корреляции. Действительно, в случае только трех измерений было бы очень трудно получить убедительное подтверждение корреляции. Даже наблюденное значение коэффициента 0,9 недостаточно для утверждения корреляции, поскольку вероятность получения ~г~ ~ 0,9 в случае трех измерений некоррелированных переменных равна 29»/„.
Если бы мы нашли значение коэффициента 0,7 по шести измерениям, то ситуация была бы несколько лучше, но все же еще недостаточно хорошей. С У = 6 вероятность получения 1г!) 0,7 для некоррелированных переменных равна (2«7». Эта цифра не так мала, чтобы исключить возможность того, что х и у не коррелированы. 192 Глава 9 С другой стороны, если бы мы получили г = 0,7 после 20 измерений, то у нас было бы сильное подтверждение корреляции, так как при Ф = 20 вероятность получения )г~ ) 0,7 для двух некоррелированных переменных равна только 0,1о!о.
По любым критериям это очень неправдоподобно, и мы могли бы уверенно утверждать, что корреляция обнаружена. В частности, эта корреляция могла быть названа «высокозначимой», так как соответствуюшая вероятность меньше 1о)с. Задачи Напоминание: звездочка у номера задачи означает, что задача реша. ется или ее ответ приводится в разделе «Ответы» в конце книги. *9А (разд. 9.2).
Локажите, что смешанный второй момент а,„, определенный в (9.8), удовлетворяет неравенству Шварца (9.11) (9.!7) (ахи( ~ ахар. Указание: введите произвольное число ! н рассмотрите функцию А (!) — ~ 1(х! — х) + Г (уг — уВ« ~ О. ! )у Л (9.18) (х — х) (у — у) Ч~~~~ х у — Ихя, б. Следовательно, поиажите, что выражение для коэффициента корреляции г (9.15) можно переписать как х!у! — л(ху Х ' (9.19) Так как А(!) — положительная величина независимо от значения й то вы можете найти минимальное значсние А .„приравнивая производную г(А/д! нулю, и это минимальное значение будет все же больше или равно нулю.
Покажите, что А „„а„— (а,игал), и получите (9.!7). 9.2 (равд. 9.2). а Представьте себе серию М измерений двух фиксированных длин х и у, выполненных с пелью вычислить значение некоторой функции а(х, у). Предположите, что использовалось нескольио различных типов рулсток, но при этом каждая пара точек (хь у~) измерялась одной и той же рулеткой, т.е. пара (хь у,) измерялась олной рулеткой, (х«, у«) — другой рулеткой и т. д.
Предполагая, что главным источником ошибок является некоторая укороченность одних и некоторая удлиненность других рулеток, четко покажите, что смешанный второй момент п„должен быть положительным. б. Покажите далее, что при тех же предположениях а«» а,а„, т.е. что значение о,„ настолько велвко, насколько это позволяет нера. зенство Шварца (9.17).