Стентон Гланц - Медико-биологическая статистика (1034784), страница 35
Текст из файла (страница 35)
Вывод, полученный вышепри использовании критерия Стьюдента, как и следовало ожидать, совпадает с полученным с помощью доверительного интервала. Заметим, что истинное значение β = 0,5 попадает вдоверительный интервал.Можно вычислить доверительный интервал и для коэффициента α. Например, 95% доверительный интервал имеет вид:a − t0,05 sa < α < a + t0,05 sa ,то есть−6,0 − 2,306 × 2,53 < α < −6,0 + 2,306 × 2,53,−11,8 < α < −0,17.Интервал покрывает истинное значение α = –8 г.АНАЛИЗ ЗАВИСИМОСТЕЙ241Следующим этапом будет построение доверительной областидля линии регрессии и значений зависимой переменной.Доверительная область для линии регрессииОбычно мы не знаем истинных величин коэффициентов регрессии α и β.
Нам известны только их оценки а и b. Иначе говоря,истинная прямая регрессии может пройти выше или ниже, бытьболее крутой или пологой, чем построенная по выборочнымданным. Мы вычислили доверительные интервалы для коэффициентов регрессии. Можно вычислить доверительную областьи для самой линии регрессии. На рис. 8.7А показана 95% доверительная область для выборки с рис.
8.3. Как видим, это довольно узкая полоса, которая несколько расширяется при крайнихзначениях х.Мы знаем, что при любом значении независимой переменной х соответствующие значения зависимой переменной у распределены нормально. Средним является значение уравнениярегрессии ŷ . Неопределенность его оценки характеризуетсястандартной ошибкой регрессии:1 (x − X ).+n ( n − 1) s X22s yˆ = s y| xВ отличие от стандартных ошибок, с которыми мы имелидело до сих пор, s ŷ при разных х принимает разные значения:чем дальше х от выборочного среднего X , тем она больше.Теперь можно вычислить 100(1 – α)-процентный доверительный интервал для значения уравнения регрессии в точке х:yˆ − tα s yˆ < y < yˆ + tα s yˆ ,где tα — критическое значение с ν = n – 2 степенями свободы, аŷ — значение уравнения регрессии в точке х:yˆ = a + bx.Итак, мы получили уравнение для кривых, ограничивающихдоверительную область линии регрессии (см.
рис. 8.3). С заданной вероятностью, обычно 95%, можно утверждать, что истин-242ГЛАВА 8Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3).ная линия находится где-то внутри этой области. Обратите внимание, что три точки из десяти оказались вне доверительнойобласти. Это совершенно естественно, поскольку речь идет одоверительной области линии регресии, а не самих значений(доверительная область для значений гораздо шире).Авторы медицинских публикаций нередко приводят доверительную область линии регрессии и говорят о ней так, как будтоэто — доверительная область значений. Это примерно то же самое, что выдавать стандартную ошибку среднего за характеристикуразброса значений, путая ее со стандартным отклонением. Например, из рис.
8.7А видно, что средний вес марсиан ростом 40 смс вероятностью 95% окажется между 11,0 и 12,5 г — из этогоАНАЛИЗ ЗАВИСИМОСТЕЙ243Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить весмарсианина по его росту, нам следует воспользоваться именно этой доверительнойобластью.вовсе не следует, что в этих пределах окажется вес 95% марсиан такого роста.Теперь займемся доверительной областью для значений зависимой переменной.Доверительная область для значенийРазброс значений складывается из разброса значений вокруглинии регресии и неопределенности положения самой этой линии.
Характеристикой разброса значений вокруг линии регрессииявляется остаточное стандартное отклонение sy|x, а неопределен-ГЛАВА 8244ности положения линии регрессии — стандартная ошибка регрессии s ŷ . Дисперсия суммы двух величин равна сумме дисперсий, поэтомуsY = s y2| x + s y2ˆ .Подставив в эту формулу выражение для s ŷ из предыдущегораздела, получим:1 (x − X )1+ +.n ( n − 1) s X22sY = s y| xТогда 100(1 – α)-процентный доверительный интервал длязависимой переменнойyˆ − tα sY < y < yˆ + tα sY .Заметьте, что входящие в это неравенство величины ŷ и sYзависят от х.На рис.
8.7Б изображена полученная по этой формуле 95%доверительная область для значений зависимой переменной. Вэту область попадет 95% всех возможных значений веса марсиан любого роста. Например, с вероятностью 95% можно утверждать, что любой 40-сантиметровый марсианин весит от 9,5 до14,0г.СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИЧасто требуется сравнить линии регрессии, рассчитанные подвум выборкам.
Это можно сделать тремя способами.• Сравнить коэффициенты наклона b,• Сравнить коэффициенты сдвига a.• Сравнить линии в целом.В первых двух случаях следует воспользоваться критериемСтьюдента. Если нужно проверить, значимо ли различие в наклоне двух прямых регрессии, критерий Стьюдента t вычисляется по формуле:АНАЛИЗ ЗАВИСИМОСТЕЙt=245b1 − b2,sb1 − b2где b1 – b2 — разность коэффициентов наклона, a sb1 − b2 — ее стандартная ошибка. Затем вычисленное t сравним, как обычно, с критическим значением tα, имеющим (n – 2) + (n – 2) = n1 + n2 – 4степени свободы.Если обе регрессии оценены по одинаковому числу наблюдений, то стандартная ошибка разностиsb1 − b2 = sb21 + sb22 .Если же объемы выборок различны, следует воспользоваться объединенной оценкой остаточной дисперсии (она аналогичнаобъединенной оценке дисперсии, приведенной в гл.
4):s y2| xобщ =( n1 − 2 ) s y2|x + ( n2 − 2 ) s y2|x12n1 + n2 − 4.Тогда формула для sb1 − b2 принимает видsb1 − b2 =s 2y| xобщ+s 2y| xобщ( n1 − 1) sx2 ( n2 − 1) sx21.2Можно сравнить и коэффициенты сдвига a1 и а2. В этомслучаеt=a1 − a2.sa1 − a2Здесьsa1 − a2 = sa21 + sa22 ,когда обе регрессии вычислены по одинаковому числу точек.При неодинаковом числе точек следует воспользоваться объединенной оценкой дисперсии так же, как это было сделано выше.Перейдем к сравнению двух линий регресии в целом.
Сравнить две линии регрессии — значит оценить вероятность нуле-ГЛАВА 8246вой гипотезы о совпадении линий*. Напомним, что коэффициенты регрессии вычисляются так, чтобы разброс точек вокруглинии регрессии был минимален. Разброс этот характеризуетсяостаточной дисперсией s y2| x : чем меньше остаточная дисперсия,тем лучше прямая регрессии соответствует имеющимся точкам.Воспользуемся этим показателем для оценки результатов такого мысленного эксперимента. Объединим обе выборки в одну ипостроим для нее линию регрессии.
Если линии регрессии длядвух выборок близки, остаточная дисперсия при этом существенно не изменится. И наоборот, если они различаются, то совпадение точек и линии ухудшится и остаточная дисперсия возрастет. Порядок действий таков.• Построить прямую регресии для каждой из выборок.• По остаточным дисперсиям s y2| x1 и s y2| x2 каждой из регрессийвычислить объединенную оценку остаточной дисперсии s y2|xобщ .• Объединить обе выборки. Построить прямую регрессии дляполучившейся выборки и вычислить остаточную дисперсиюs y2| xедин .• Вычислить «выигрыш» от использования двух раздельныхрегрессий.
Мерой выигрыша служит величина:s y2| xв =( n1 + n2 − 2 ) s y2|xедин− ( n1 + n2 − 4 ) s y2| xобщ2.• По s 2y| xв и s y2| xобщ вычислить критерий F:F=s 2y| xвs 2y| xобщ.• Сравнить вычисленное значение с критическим значениемF для числа степеней свободы νмеж = 2 и νвну = n1 + n2 – 4. Еслиполученное значение больше критического, то гипотеза осовпадении линий регрессии должна быть отклонена.*Методы, предназначенные для сравнения более чем двух линий регрессии,описаны в книге: J. H. Zar. Biostatistical analysis. 2nd ed.
Prentice-Hall.Englewood Cliffs. N. J.. 1984.АНАЛИЗ ЗАВИСИМОСТЕЙ247Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены кружками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость убольных и здоровых?Мышечная сила при ревматоидном артритеПричины ограниченной подвижности при ревматоидном артритеразнообразны: болезненность суставов, их тугоподвижность,атрофия мышц. Каков вклад каждого из этих факторов? Пытаясь ответить на этот вопрос, П.
С. Хелливелл и С. Джексон*исследовали, в частности, связь между мышечной массой и силой. В исследовании приняли участие 25 больных ревматоидным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчитывали площадь поперечного сечения предплечья и ручнымдинамометром определяли силу сжатия кисти. Результат показан на рис. 8.8.
Кружки — результаты здоровых, квадратики —больных ревматоидным артритом.На рис. 8.9А представлены те же наблюдения, что и на рис.8.8, и кроме того, две построенные по ним линии регрессии.Проверим, есть ли значимое различие между линиями регрес*P. S. Helliwell, S. Jackson. Relationship between weakness and muscle wastingin rheumatoid arthritis. Ann. Rheum. Dis., 53:726—728, 1994.248ГЛАВА 8Рис. 8.9. А. Построим линии регрессии для каждой из групп и оценим разбросточек относительно этих линий.