Стентон Гланц - Медико-биологическая статистика (1034784), страница 36
Текст из файла (страница 36)
Б. Объединим группы и найдем линию регрессии для получившейся группы. Если разброс точек относительно этой линии значительно превышает разброс относительно двух отдельных линий, то различиялиний следует считать значимыми.АНАЛИЗ ЗАВИСИМОСТЕЙ249Таблица 8.2. Зависимость силы сжатия кисти от мышечной массыОбъединенная1-я группа 2-я группа группаЧисленность группы252550Коэффициенты регрессиисдвиг а(sa)3,3(22,4)–7,3(25,3) –23,1(50,5)наклон b(sb)2,41(0,702) 10,19(0,789) 6,39(1,579)Остаточное стандартноеотклонение sx|y40,545,7129,1сии.
Параметры уравнений регрессии и остаточные стандартные отклонения указаны в табл. 8.2. Вычислим объединеннуюоценку остаточной дисперсииs y2| xобщ =( n1 − 2 ) s y2|x + ( n2 − 2 ) s y2| x12n1 + n2 − 4,2где n1 и n2 — численность 1-й и 2-й групп, s 2y | x и s y| x2 — соответствующие остаточные дисперсии. Тогда1s y2| xобщ =( 25 − 2 ) 40,52 + ( 25 − 2 ) 45,7 2= 1864.25 + 25 − 4Теперь объединим группы и найдем уравнение регрессии дляполучившейся группы.
Опустим вычисления, результат приведен в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Остаточная дисперсия единой регрессии s y2| xедин = 129,12 = 16667. Выигрыш от использования раздельных регрессий:s2y | xв==( n1 + n2 − 2 ) s y2|x− ( n1 + n2 − 4 ) s y2| xобщ=2(25 + 25 − 2 )16667 − ( 25 + 25 − 4 )1864един2Значение F:F=s y2| xвs2y| xобщ=357136= 191,596.1864= 357136.ГЛАВА 8250Критическое значение F при уровне значимости α = 0,011 ичисле степеней свободы νмеж = 2 и νвну = 25 + 25 – 4 равно 5,10, тоесть гораздо меньше полученного нами. Таким образом, у здоро вых людей сила сжатия зависит от размера предплечья иначечем у больных артритом.В чем заключается отличие? Сравним коэффициенты регрессий. Начнем с коэффициента сдвига а.sa1 −a2 = sa21 + sa22 = 22, 42 + 25,32 = 33,8.Тогдаt=a1 − a2 3,3 − ( −7,3)== 0,314.33,8sa1 − a2При уровне значимости α = 0,05 при числе степеней свободы ν = n1 + п2 – 4 = 46 критическое значение t равно 2,013.Поскольку полученное нами значение t меньше критического,заключаем, что между а1 и а2 нет значимого различия.При сравнении коэффициентов наклона получим t = 7,367,что больше критического.
Итак, линии регрессии различаютсянаклоном, который круче в группе здоровых.КОРРЕЛЯЦИЯРегрессионный анализ позволяет оценить, как одна переменнаязависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки исоответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точностьэтого предсказания. Результаты регрессионного анализа можнопредставить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказаниезначения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.Эта характеристика называется коэффициентом корреляции,обычно ее обозначают буквой r. Коэффициент корреляции МО-АНАЛИЗ ЗАВИСИМОСТЕЙ251РИС.
8.10. Чем теснее связь между переменными, тем ближе абсолютная величина коэффициента корреляции к 1.жет принимать значения от –1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), аабсолютная величина — тесноту связи. Коэффициент, равный–1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.На рис. 8.10 приведены примеры зависимостей и соответствующие им значения r. Мы рассмотрим два коэффициента корреляции.Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регресси-252ГЛАВА 8онный анализ, он требует нормальности распределения.
Когдаговорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы ибудем поступать.Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна — и не только для количественных, нои для порядковых признаков. Это непараметрический метод, он нетребует какого-либо определенного типа распределения.О количественных, качественных и порядковых признакахмы уже говорили в гл. 5. Количественные признаки — это обычные числовые данные, такие, как рост, вес, температура. Значения количественного признака можно сравнить между собойи сказать, какое из них больше, на сколько и во сколько раз.
Например, если один марсианин весит 15 г, а другой 10, то первыйтяжелее второго и в полтора раза и на 5 г. Значения порядковогопризнака тоже можно сравнить, сказав, какое из них больше, нонельзя сказать, ни на сколько, ни во сколько раз. В медицинепорядковые признаки встречаются довольно часто. Например,результаты исследования влагалищного мазка по Папаниколауоценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3)умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить попорядку — на этом общем свойстве основана большая группанепараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена.
С другими непараметрическими критериями мы познакомимся в гл. 10.Коэффициент корреляции ПирсонаИ все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связиможно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимуюпеременные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным.
Взглянемна рис. 8.11. По известной нам выборке из 10 марсиан построеныдве линии регрессии. В одном случае вес — зависимая переменная, во втором — независимая. Линии регрессии заметно разли-АНАЛИЗ ЗАВИСИМОСТЕЙ253Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэффициент корреляции останется прежним.ГЛАВА 8254чаются. Получается, что связь роста с весом одна, а веса с ростом — другая.
Асимметричность регрессионного анализа — вотчто мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. Приводим формулу.r=∑ ( X − X )(Y − Y )∑ ( X − X ) ∑ (Y − Y )22,где X и Y — средние значения переменных X и Y. Выражениедля r «симметрично» —поменяв местами X и Y, мы получим туже величину. Коэффициент корреляции принимает значения от–1 до +1. Чем теснее связь, тем больше абсолютная величинакоэффициента корреляции.
Знак показывает направление связи. При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r < 0 — об обратной (с увеличением одной переменной другая уменьшается). Вернемся к рис. 8.10. На рис. 8.10А изображена максимально сильная прямая корреляция: r = +1. На рис. 8.10Б — максимальносильная обратная корреляция: r = –1.
На рис. 8.10В корреляцияпрямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Гкакая-либо связь между признаками отсутствует: r = 0.Возьмем пример с 10 марсианами, который мы уже рассматривали с точки зрения регрессионного анализа. Вычислим коэффициент корреляции. Исходные данные и промежуточные результаты вычислений приведены в табл. 8.3. Объем выборки n = 10, средний ростX = ∑ X n = 369 10 = 36,9 и вес Y = ∑ Y n = 103,8 10 = 10,38.Находим Σ(X– X )(Y– Y ) = 99,9, Σ(X– X )2 = 224,8, Σ(Y – Y )2 = 51,9.Подставим полученные значения в формулу для коэффициента корреляции:99,9= 0,925.224,8 × 51,9Величина r близка к 1, что говорит о тесной связи роста ивеса.
Чтобы лучше представить себе, какой коэффициент корреляции следует считать большим, а какой незначительным, взгляниr=АНАЛИЗ ЗАВИСИМОСТЕЙ255Таблица 8.3. Вычисление коэффициента корреляцииXY Х – X Y – Y (X – X )(Y – Y ) (Х – X )2 (Y – Y )2317,8328,3337,6349,1359,6359,840 11,841 12,142 14,746 13,0369 103,8–5,9–4,9–3,9–2,9–1,9–1,93,14,15,19,10,0–2,6–2,1–2,8–1,3–0,8–0,61,41,74,32,60,215,310,310,93,81,51,14,37,022,023,799,934,824,015,28,43,63,69,616,826,082,8224,86,84,47,81,70,60,42,02,918,56,851,9те на табл. 8.4 — в ней приведены коэффициенты корреляциидля примеров, которые мы разбирали ранее.Связь регрессии и корреляцииВсе примеры коэффициентов корреляции (табл.