Стентон Гланц - Медико-биологическая статистика (1034784), страница 32
Текст из файла (страница 32)
Затем нужно провести из нее перпендикуляр и посмотреть, где его пересекает пара кривых, помеченных числом, равным объему выборки. Вертикальные координаты точек пересечения — это и есть границы 95% доверительного интервала. В нашем примере p̂ = 0 и п = 30. Нижняяграница доверительного интервала — 0, верхняя — около 0,1.Тем самым с вероятностью 95% мы можем утверждать, что рискпобочного действия не превысит 10%.Предположим, что в одном случае из 30 препарат все-такиоказал побочное действие.
Тогда p̂ = 1/30 = 0,033 иs pˆ ==0,033 (1 − 0,033)= 0,033.30Используя нормальное приближение, мы получили бы0,033 – 1,96 × 0,033 < р < 0,033 + 1,96 × 0,033,то естьГЛАВА 7216–0,032 < р < 0,098.Понятно, что ни в каком случае доля не может быть отрицательной величиной, хотя величина интервала, как окажется, определена правильно.Какой интервал даст биномиальное распределение? По рис. 7.4находим, что это интервал от 0 до примерно 0,13. Обратите внимание, что он не сильно отличается от интервала, найденного дляp̂ = 0.
Так и должно быть, ведь различие между отсутствием осложнений и одним осложнением весьма незначительно.Заметьте, что чем меньше объем выборки, тем сильнее онвлияет на величину доверительного интервала. Предположим,мы бы дали препарат не 30, а 10 добровольцам. Тогда нижнийпредел 95% доверительного интервала, конечно, остался бы нулем, но верхний был бы уже не 13, а 33%.ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ЗНАЧЕНИЙ*До сих пор нас интересовали доверительные интервалы для техили иных параметров распределения, например среднего µ илидоли р. Нередко, однако, нужен доверительный интервал длясамих значений измеряемого признака. Например, мы хотим оценить диапазон, в который будет попадать 95% всех значений.Особенно часто подобные задачи возникают при определенииграниц нормы какого-нибудь лабораторного показателя. Обычно доверительный интервал значений определяют как выборочное среднее плюс-минус два стандартных отклонения.
Если мыимеем дело с нормальным распределением и объем выборкидостаточно велик (больше 100 человек), то правило двух стандартных отклонений дает верный результат. Как быть, если внашем распоряжении не 100, а менее двух десятков человек,что довольно типично для клинических исследований? Разумеется, об определении границ нормы по столь малой выборке нечегои думать. Тем не менее оценку доверительного интервала можнополучить и тут. Однако от правила двух стандартных отклонений*Описанные ниже методы применимы только к данным, приближенно подчиняющимся нормальному распределению.ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ217Рис. 7.5. 95% доверительные интервалы для роста марсиан, вычисленные потрем выборкам с рис.
2.6. А. В качестве доверительного интервала использовали среднюю величину плюс-минус два стандартных отклонения. Результатоставляет желать лучшего: два интервала из трех не покрывают истинного интервала, заключающего 95% значений. Б. Доверительные интервалы определили как среднее плюс-минус произведение К 0,05 на стандартное отклонение.Ситуация улучшилась — теперь истинный интервал покрывают два интервала.придется отказаться: при малых выборках интервал получаетсяслишком узким.Рассмотрим пример.
На рис. 2.6 представлены распределение по росту всех 200 ныне живущих марсиан, а также три случайные выборки по 10 марсиан в каждой. Рост 95% всех марсиан лежит в пределах от 31 до 49 см. Средний рост марсианина— 40 см, стандартное отклонение — 5 см. Три выборки, изображенные в нижней части рисунка, дают следующие оценкисреднего роста: 41,5, 36 и 40 см. Выборочные стандартные отклонения — соответственно 3,8, 5 и 5 см. Применим к этим выборочным оценкам правило двух стандартных отклонений.
Полученные доверительные интервалы изображены на рис. 7.5А.Как видим, в двух из трех случаев интервалы не покрывают 95%всех членов совокупности.Причина, в общем, понятна. Выборочное среднее и выбо-ГЛАВА 7218рочное стандартное отклонение — не более чем оценки истинного среднего и стандартного отклонения. Точность этих оценокпри малом объеме выборок невелика. Ошибка в оценке одногопараметра накладывается на ошибку в оценке другого — в результате шансы получить правильный результат и вовсе низки.Рассмотрим выборку на рис. 2.6В.
Нам повезло — оценка стандартного отклонения совпала с истинным его значением 5 см.Однако оценка среднего оказалась заниженной — 36 см вместо40 см. Поэтому интервал смещен относительно истинного среднего и накрывает менее 95% всех значений.Учитывая приблизительность оценок по выборкам небольшогообъема, нужно брать интервал, более широкий, чем плюс-минусдва стандартных отклонения (при выборках большого объема такая страховка не нужна). Этот интервал вычисляют по формулеX − K α s < X < X + K α s,где X — выборочное среднее, s — выборочное стандартное отклонение, а Кα — коэффициент, который зависит от доли f членов совокупности, которые должны попасть в доверительныйинтервал, от вероятности того, что они действительно туда попали 1 – α и от объема выборки п. Этот коэффициент играет примерно ту же роль, что tα или zα.
Для вычисления 95% доверительного интервала нужно определить К0,05; зависимость К0,05 отобъема выборки для различных значений f показана на рис. 7.6.Заметим, что Кα больше, чем tα (как tα больше, чем zα), поскольку учитывает не только значение среднего, но и неопределенность оценок среднего и стандартного отклонения*.При объеме выборки от 5 до 25, типичном для медицинскихисследований, Кα должен быть существенно больше двух. Еслибы в рассматриваемом случае мы взяли интервал в плюс-минусдва стандартных отклонения от среднего, то он покрыл бы заметно менее 95% совокупности. На рис. 7.5Б изображены 95%доверительные интервалы для роста 95% членов совокупности*Вывод формулы для Кα, показывающий его связь с доверительными интервалами для среднего и стандартного отклонения, можно найти, например, в работе: А.
Е. Lewis, Biostatistics, Reinhold, New York, 1966,Chap. 12. Tolerance limits and indices of discrimination.ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ219Рис. 7.6. Коэффициент К0,05 зависит от объема выборки и от доли членов совокупностиf, которые должны попадать в 95% доверительный интервал.марсиан, построенные по трем выборкам с рис. 2.6. Теперь всетри интервала покрывают не менее 95% членов совокупности.Применение правила двух стандартных отклонений к выборкам небольшого объема приводит к зауживанию доверительного интервала значений. Упомянем еще об одной распространенной ошибке. Как говорилось в гл.
2, многие путают стандартную ошибку среднего со стандартным отклонением. Найдя интервал «выборочное среднее плюс-минус две стандартные ошибки среднего», они уверены, что в него попадет 95% совокупности (тогда как на самом деле 95% составляет вероятность, что винтервал попадет среднее по совокупности). В результате интервал допустимых значений оказывается еще более зауженным.ЗАДАЧИ7.1. По данным из задачи 2.6 найдите 90 и 95% доверительные интервалы для среднего числа авторов статей, опубликованных в медицинских журналах за 1946, 1956, 1966 и 1976 гг.7.2. Ранее (задача 3.1) мы познакомились с исследованием220ГЛАВА 7Ч.
О’Херлихи и Г. Мак-Дональда (С. O’Herlihy, H. MacDonald.Influence of preinduction prostaglandin E2 vaginal gel on cervicalripening and labor. Obstet. Gynecol., 54:708—710, 1979). Каквыяснилось, гель с простагландином Е2 сокращает продолжительность родов. Позволяет ли он избежать кесарева сечения?В группе, получавшей гель с простагландином Е2, кесарево сечение потребовалось 15% женщин, в контрольной группе —23,9%. В обеих группах было по 21 женщине. Найдите 95 %доверительные интервалы для доли рожениц, которым требуется кесарево сечение в обеих группах. Найдите 95% доверительный интервал для разности долей. Можно ли утверждать,что простагландин снижает вероятность кесарева сечения?7.3.
По данным задачи 3.1 найдите 95% доверительный интервал для разности средней продолжительности родов у получавших гель с простагландином Е2 и получавших плацебо. Позволяет ли вычисленный доверительный интервал утверждать,что различия статистически значимы?7.4. По данным задачи 5.1 найдите 95% доверительные интервалы для долей больных, которые не чувствовали боли при включенном и выключенном приборе.
Можно ли по этим интерваламоценить статистическую значимость различий?7.5. Поданным задачи 3.2 найдите 95% доверительные интервалы для каждой из групп. В чем заключаются различия междугруппами?7.6. По данным задачи 5.6 найдите 95% доверительные интервалы для доли работ, где данные были получены до планирования исследования.7.7. По данным задачи 2.2 найдите 95% доверительные интервалы для 90 и 95% значений. Результаты представьте на одномрисунке с исходными данными.Глава 8Анализ зависимостейСамый первый из рассмотренных нами примеров (рис.
1.2) былпосвящен вопросу об эффективности диуретика. Пяти людямдали разные дозы препарата, измерили диурез и увидели, чточем больше доза, тем больше диурез. В дальнейшем оказалось,что этот результат не отражает реальной картины и что никакойсвязи между дозой и диурезом на самом деле нет. Тогда мы ещене знали о методах анализа зависимостей. Им посвящена этаглава. Мы узнаем, как с помощью уравнения регрессии выразить связь между дозой диуретика и диурезом (так называемыйрегрессионный анализ) и как с помощью коэффициента корреляции измерить силу этой связи.Подобно тому как мы поступали в предыдущих главах, рассмотрим сначала уравнение регрессии для совокупности, а затемвыясним, как оценивать его параметры по выборке. В гл.