Стентон Гланц - Медико-биологическая статистика (1034784), страница 37
Текст из файла (страница 37)
8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрамирегрессионного анализа существует тесная связь, которую мысейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.Таблица 8.4. Примеры корреляцийПримерКоэффициент Объемкорреляции r выборки пРост и вес марсиан (рис. 8.7)0,925Сила сжатия кисти и мышечная масса у 0,938здоровых (рис.
8.9А)Сила сжатия кисти и мышечная масса, 0,581объединенная группа (рис. 8.9Б)102550ГЛАВА 8256Обозначим эту минимальную сумму квадратов Sост (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим Sобщ. Тогда:r2 =1−Sост.SобщВеличина r2 называется коэффициентом детерминации —это просто квадрат коэффициента корреляции.
Коэффициент детерминации показывает силу связи, но не ее направленность.Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то Sост = 0, и темсамым r = +1 или r = –1, то есть существует линейная связьзависимой и независимой переменной. По любому значениюнезависимой переменной можно совершенно точно предсказатьзначение зависимой переменной. Напротив, если переменныевообще не связаны между собой, то Sост = Sобщ.
Тогда r = 0.Видно также, что коэффициент детерминации равен той долеобщей дисперсии Sобщ, которая обусловлена или, как говорят,объясняется линейной регрессией*.Остаточная сумма квадратов Sост связана с остаточной дисперсией s y2| x соотношением Sост = (п – 2) s 2y| x , а общая сумма квадратов Sобщ с дисперсией s 2y соотношением Sобщ = (п – 1) s 2y . Втаком случае2n − 2 s y| xr =1−.n − 1 s y22Эта формула позволяет судить о зависимости коэффициентакорреляции от доли остаточной дисперсии в полной дисперсииs 2y | x s 2y .
Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот.Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на*Следует помнить, что в статистике слова «обусловлена» и «объясняется»не обязательно означают причинную связь.АНАЛИЗ ЗАВИСИМОСТЕЙ257коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (r = 0,92), однако ширина доверительнойобласти значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений.И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b:r =bsX,sYгде b — коэффициент наклона прямой регрессии, sX и sY — стандартные отклонения переменных.Если не брать во внимание случай sX = 0, то коэффициенткорреляции равен нулю тогда и только тогда, когда b = 0.
Этимфактом мы сейчас и воспользуемся для оценки статистическойзначимости корреляции.Статистическая значимость корреляцииПоскольку из b = 0 следует r = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой дляоценки статистической значимости отличия b от нуля:b.sbЗдесь число степеней свободы ν = n – 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоватьсяформулой:t=t=r.1− r2n−2Число степеней свободы здесь также ν = п – 2.ГЛАВА 8258При внешнем несходстве двух формул для t, они тождественны.
Действительно, из того, что2n − 2 s y| xr =1−,n − 1 s y22следуетn−21 − r 2 sY2 .n −1Подставив значение s y| x в формулу для стандартной ошибки(s 2y| x =s y| x1sb =)n − 1 sx,получимsY 1 − r 2.sX n − 2С другой стороны, посколькуsb =r =bsX,sYимеемsY.sXТеперь подставим выражения для sb и b в формулуt = b sb .Получим:b=rrt=sYsX2sY 1 − r.sX n − 2=r1− r2n−2.АНАЛИЗ ЗАВИСИМОСТЕЙ259Животный жир и рак молочной железыВ опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К.Кэррол* собрал данные о потреблении животных жиров исмертности от рака молочной железы по 39 странам. Результатпредставлен на рис.
8.12А. Коэффициент корреляции междупотреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.t=0,90= 12,56.1 − 0,90239 − 2Критическое значение t0,001 при числе степеней свободы ν =39 – 2 = 37 равно 3,574, то есть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать,что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.Теперь проверим, связана ли смертность с потреблением растительных жиров? Соответствующие данные приведены на рис.8.12Б.
Коэффициент корреляции равен 0,15. Тогдаt=0,151 − 0,15239 − 2= 0,92.Даже при уровне значимости 0,10 вычисленное значение tменьше критического. Корреляция статистически не значима.Таким образом, риск рака молочной железы статистическизначимо связан с потреблением животных, но не растительныхжиров. Значит ли это, что животный жир способствует развитиюрака молочной железы? Пока нет.
Ведь обе рассматриваемые переменные могут зависеть от какой-то третьей. В обсервацион*К. К. Carroll. Experimental evidence of dietary factors and hormone-dependentcancers. Cancer Res., 35:3375—3383,1975.260ГЛАВА 8Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населения в разных странах. А. Потребление животных жиров.
Б. Потребление растительныхжиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чегоне скажешь о связи с потреблением растительных жиров.АНАЛИЗ ЗАВИСИМОСТЕЙ261ном исследовании, каковым является работа Кэррола, такуювозможность отвергнуть нельзя*. Однако экспериментальныеданные, о которых мы упомянули выше, — сильный аргумент впользу именно причинно-следственной связи.Вообще истолкование результатов регрессионного и корреляционного анализа зависит от того, в каком исследовании былиполучены данные — обсервационном или экспериментальном.Если мы обнаружили связь переменных в обсервационном исследовании, то это не значит, что одна из них влияет на другую.Возможно, их согласованные изменения — результат действиякакого-то неизвестного нам фактора.
В экспериментальном исследовании, произвольно меняя одну из переменных, мы можем быть уверены, что связь, если она будет выявлена, являетсяпричинной. Впрочем, осторожность не помешает и в этом случае. В самом деле, трудно менять только одну переменную. Увеличивая содержание жира в рационе, мы либо увеличиваем общую калорийность, либо снижаем содержание белков и углеводов. Кто поручится, что канцерогенное действие оказывает именно жир, а не дисбаланс питательных веществ?КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНАРасчет коэффициента корреляции возможен при тех же условиях, что и регрессионный анализ. Это прежде всего линейностьсвязи переменных и нормальность распределения. Эти условиявыполняются далеко не всегда.
Кроме того, в клинических исследованиях мы часто имеем дело с порядковыми признаками,а к ним ни регрессионный анализ, ни расчет коэффициента кор*Например, исследования показывают, что заболеваемость раком молочнойжелезы связана с уровнем доходов, числом автомобилей и телевизоров всемье. (В. S. Drasar, D. Irving. Environmental factors and cancer of the colonand breast. Br.
J. Cancer, 27:167—172, 1973.) Ho значит ли это, что, покупая новый автомобиль, домашняя хозяйка увеличивает риск заболеть раком молочной железы? На основании таких данных мы вправе только предположить, что какой-то фактор, связанный с уровнем жизни, влияет нариск рака молочной железы, но не можем точно указать этот фактор.ГЛАВА 8262реляци, разумеется, неприменим.
В подобных случаях следуетвоспользоваться коэффициентом ранговой корреляции Спирмена*. Это непараметрический метод — он не требует нормальности распределения; не требует он и линейной зависимости, егоможно применять как к количественным, так и к порядковымпризнакам**.Идея коэффициента ранговой корреляции Спирмена (его обозначают rs,) проста.
Нужно упорядочить данные по возрастанию и заменить реальные значения их рангами. Рангом значения называется его номер в упорядоченном ряду. Например, вряду 1,4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самихзначений их ранги, рассчитывают обычный коэффициент корреляции Пирсона. Это и будет коэффициент ранговой корреляции Спирмена. Его можно рассчитать и проще:rs = 1 −6∑ d 2,n3 − nгде d — разность рангов для каждого члена выборки.Как быть, если в ряду встретятся одинаковые значения? Скажем, в приведенном примере это две восьмерки. Им следует*Упомянем также коэффициент ранговой корреляции Кендалла, обозначаемый τ. В отличие от коэффициента ранговой корреляции Спирмена он может быть обобщен для случая нескольких независимыхпеременных.
Заключения, основанные на использовании обоих коэффициентов, одинаковы, хотя числовые значения коэффициентовне совпадают. О коэффициенте ранговой корреляции Кендалла можнопрочесть в книге: S. Siegel, N. J. Castellan Non-parametric statisticsfor the behavioral sciences (2d ed.). McGraw-Hill, New York, 1988.** Если параметрические методы, требующие нормального распределения, применить к данным с иным типом рапределения, это приведет к ошибочному заключению.
Напротив, непараметрические методы можно смело применять и в случае нормального распределения. Однако тогда чувствительность их будет несколько ниже чувствительности параметрических методов. Что касается коэффициентаранговой корреляции Спирмена, то он и в этом случае проигрываеткоэффициенту корреляции Пирсона весьма незначительно.АНАЛИЗ ЗАВИСИМОСТЕЙ263Таблица 8.5. Вычисление коэффициента ранговой корреляцииСпирменаРостВесЗначение, смРанг Значение, г РангРазность рангов3117,72–13228,33–13337,6123449,140355,59,650,5355,59,96–0,540711,87041812,28042914,890461015,0100присвоить один и тот же ранг, равный среднему занимаемыхими мест: (3 + 4)/2 = 3,5. Рангом стоящего за ними числа 12будет 5.Посмотрим, как вычислить rs для знакомой нам выборки из10 марсиан (табл.