Стентон Гланц - Медико-биологическая статистика (1034784), страница 24
Текст из файла (страница 24)
В диагностике ишемической болезни сердца используютнагрузочную пробу, с помощью физической нагрузки вызываютишемию миокарда, которую выявляют на ЭКГ. Существует другой метод, ишемию вызывают внутривенным введением дипиридамола, а выявляют с помощью эхокардиографии. Ф. Латтанци исоавт. (F. Lattanzi et al. Inhibition of dipyndamole-induced ishemia byantianginal therapy in humans: correlation with exerciseelectrocardiography.
Circulation, 83:1256—1262, 1991) сравнили результаты двух методов у больных, получавших и не получавшихантиангинальную терапию. Результаты приведены в таблице.Без антиангинальной терапииДипиридамол + эхокардиография+–Нагрузка + ЭКГ +382–143На фоне антиангинальной терапииДипиридамол + эхокардиография+–Нагрузка + ЭКГ +216–1614Оцените различия между результатами двух методов.АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ1595.9. Д. Сакетт и М. Гент (D. Sackett, M. Gent. Controversy incounting and attributing events in clinical trials.
N. Engl. J. Med.,301:1410—1412, 1979) сделали важное замечание относительно методики сбора данных в исследовании результатов медикаментозного и хирургического лечения окклюзии сонной артерии (задача 5.7). Так как изучался «долгосрочный прогноз»,в исследование включали только тех больных, которые не умерли и у которых не было повторного инсульта во время госпитализации. В результате из рассмотрения были исключены 15оперированных (5 из них умерли, а у 10 инсульт произошелвскоре после операции) и только 1 больной, лечившийся медикаментозно.
Если учесть и этих 16 больных, то данные примут такой вид:Повторный инсульт или смертьЛечениеДаНетХирургическое5836Медикаментозное5419Что теперь можно сказать о предпочтительности одного извидов лечения? Какое сравнение более верно — с учетом этих16 больных или без их учета (как в задаче 5.7)? Почему?5.10. Распространенность болезни X равна 10%. Болезнью Yстрадает 1000 человек, болезнью Z — также 1000 человек.
Болезнь X с равной вероятностью поражает страдающих болезнями Y и Z. Вероятность госпитализации при этих болезнях разная: для болезни X она составляет 40%, Y — 50%, Z — 20%.Посмотрим, сколько больных с разными сочетаниями болезнейокажется в больнице.Из 1000 человек, страдающих болезнью Y, болезнь X имеют10%, то есть 100 человек. Из них 50% (50 человек) будут госпитализированы в связи с болезнью Y, из оставшихся 50 человек всвязи с болезнью X госпитализируют 40%, то есть 20 человек.Таким образом, в больнице окажется 70 больных с сочетаниемболезней Y и X.Из 900 человек, страдающих болезнью Y, но не X, будут госпитализированы 50%, то есть 450 человек.Такой же расчет для болезни Z показывает, что в больницу160ГЛАВА 5попадет 52 человека с сочетанием болезней Z и X, а с болезньюZ, но не Х, — 180 человек.Исследователь, работающий в больнице в которую попаливсе госпитализированные, обнаружил следующую связь.Болезнь YБолезнь ZС болезнью X7052Без болезни X450180Оцените статистическую значимость различий частоты болезни X среди страдающих болезнями Y и Z.
Можно ли по этимданным судить о связи болезней Y и Z с болезнью X? (Приведенный пример заимствован из работы: D. Mainland. The risk offallacious conclusions from autopsy data on the incidence of diseaseswith applications to heart disease. Am. Heart J., 45:644—654, 1953).Глава 6Что значит «незначимо»:чувствительность критерияДо сих пор мы занимались оценкой вероятности нулевой гипотезы, то есть предположения об отсутствии эффекта экспериментального воздействия. Вероятность нулевой гипотезы (P) мыоценивали с помощью различных критериев значимости — F, t,q, q′, z и χ2. Если значение критерия превышало критическое,нулевую гипотезу отклоняли. При этом мы совершенно справедливо утверждали, что нашли статистически значимые различия.
Если значение критерия оказывалось меньше критического, говорили об отсутствии статистически значимых различий. И это тоже справедливо. К сожалению, обычно этим неограничиваются. Не обнаружив различий, исследователь считает это доказательством их отсутствия. А это уже совершенноневерно. Прежде чем сделать вывод об отсутствии различийследует выяснить, была ли чувствительность критерия достаточной, чтобы их обнаружить.Чувствительностью* называется способность критерия обнаружить различия. Чувствительность зависит от величины раз*С этим понятием мы уже встречались в гл.
3 и 4; другое название чувствительности — мощность.ГЛАВА 6162личий, от разброса данных и от объема выборки. Наиболее важен объем выборок: чем он больше, тем чувствительнее критерий. При достаточно больших выборках малейшее различиеоказывается статистически значимым. И наоборот если выборки малы, даже большие различия статистически незначимы. Знаяэти закономерности, можно заранее определить численностьвыборок, необходимую для выявления эффекта.ЭФФЕКТИВНЫЙ ДИУРЕТИКРазбирая критерий Стьюдента, мы использовали пример, в котором препарат, предположительно обладавший диуретическимдействием, в действительности не увеличивал диурез.
Сейчасрассмотрим обратный пример. Исследуемый препарат на самомделе диуретик. Он увеличивает суточный диурез в среднем с1200 до 1400 мл. На рис. 6.1А показано распределение суточного диуреза для всех 200 членов совокупности при приеме плацебо, а на рис. 6.1Б при приеме этого препарата.Теперь представим себе исследователя, который, разумеется, не может наблюдать всю совокупность. Случайным образомон выбирает две группы, по 10 человек в каждой, дает 1-й группе плацебо, а 2-й — препарат (диуретик) после чего измеряетсуточный диурез в обеих группах. На рис. 6.1В представленырезультаты этих измерений.
В 1-й группе средний суточный диурез составил 1180 мл (стандартное отклонение 144 мл), а во 2й группе — 1400 мл (стандартное отклонение 245 мл). Оценимразличия по критерию Стьюдента.Объединенная оценка дисперсии равна1 21s1 + s22 = 1442 + 2452 = 40381 = 2012.22Значение t равноs2 =t=()X 2 − X122ss+n2 n1=(1400 − 11802012 2012+1010)= 2,447,ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ163Рис. 6.1. Исследование диуретического эффекта нового препарата. А. Суточный диурезв совокупности из 200 человек после приема плацебо.
Десять человек, попавшие в выборку, помечены черным. Б. Суточный диурез в той же совокупности после приемапрепарата. Суточный диурез увеличился на 200 мл. Десять человек, попавшие в выборку, помечены штриховкой. В. Такими видит данные исследователь; t = 2,447. Это больше критического значения t для 18 степеней свободы (2,101) и 5% уровня значимости,поэтому можно заключить, что различия статистически значимы, то есть препарат обладает диуретическим действием.164ГЛАВА 6Рис. 6.2. А и Б.
Та же совокупность, что и на рис. 6.1, но в выборку попали другие люди.В. Изменился и результат, который наблюдает исследователь. Теперь t = 1,71, что меньше критического значения. В данном случае исследователю не повезло — ему придетсяпризнать, что значимых различий не выявлено, то есть диуретическое действие препарата не доказано, — тогда как в действительности оно есть.ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ165Рис. 6.3.
А. Такое распределение мы получим, извлекая пары случайных выборок по 10человек в каждой из одной и той же совокупности и каждый раз вычисляя t (см. рис.4.5А). Только 5% значений по абсолютной величине превышают 2,1 (помечены черным). Таким образом, 2,1 — критическое значение для 5% уровня значимости. Б. Теперь будем извлекать пары выборок из разных совокупностей, средний диурез в которых различается на 200 мл (рис.
6.1А и Б). Распределение значений t сместилось вправо. Критическое значение превышено в 111 случаях из 200. Следовательно, вероятностьполучить правильное заключение об эффективности препарата составляет 55%.что превышает 2,101 — критическое значение при уровне значимости 0,05 и числе степеней свободы 2(n – 1) = 18. Поэтомунулевая гипотеза будет отклонена, а препарат будет назван эффективным диуретиком.
Как это и есть на самом деле.Конечно, исследователь мог бы набрать и другие две группы, например представленные на рис. 6.2. На этот раз среднийсуточный диурез — 1216 мл в контрольной группе и 1368 мл вгруппе получавшей препарат.
Стандартное отклонение составляет соответственно 97 и 263 мл, а объединенная оценка дисперсии 1/2(972 + 2632) = 1982. Теперь значение t:t=1368 − 12161982 1982+1010= 1, 71,что меньше 2,101. Нулевую гипотезу отклонить нельзя, хотя мыто знаем, что она неверна! Какова вероятность такой ситуации?166ГЛАВА 6Для ответа на этот вопрос повторим мысленные эксперименты, подобные тем, что мы проделали в гл. 4 (см. рис. 4.5). Тогдамы строили распределение величины для случая, когда сравниваемые группы представляли собой случайные выборки из одной и той же совокупности.
Это распределение показано на рис.6.ЗА. Теперь построим распределение t для случая, когда выборки извлекаются из разных совокупностей. Из двух совокупностей, показанных на рис. 6.2, можно извлечь более 1027 выборок объемом в 10 человек; ограничимся пока двумястами. Результат показан на рис. 6.3Б. В 111 случаях из 200 значение tоказалось не меньше критического значения 2,101. Итак, в этомслучае (то есть при этих величине эффекта, дисперсии и численности групп) вероятность отклонить нулевую гипотезу (тоесть найти различие) составляет 111/200 = 0,55.
Можно оценитьи вероятность не отклонить нулевую гипотезу (то есть не найти существующих различий). Это 1 — 0,55 = 0,45, то есть 45%.Как видим, шансы обнаружить и не обнаружить диуретическийэффект были примерно равны.ДВА РОДА ОШИБОКВ медицине для характеристики диагностических проб частоиспользуют два показателя: чувствительность и специфичность.Чувствительность — это вероятность положительного результата у больного; она характеризует способность пробы выявлять болезнь.
Специфичность — это вероятность отрицательного результата у здорового; можно сказать, что она характеризует способность пробы выявлять отсутствие болезни.Диагностические пробы и критерии значимости во многом схожи. Диагностические пробы выявляют болезни, критерии значимости выявляют различия. Можно сказать, что с третьей главыпо пятую мы занимались специфичностью критериев значимости. В этой главе мы рассматриваем чувствительность, то есть способность критерия выявлять различия. Иногда свойства критериев значимости описывают в несколько иных терминах: не вероятностью правильного результата, а вероятностью ошибки.Если мы ошибочно отклоняем нулевую гипотезу, то есть, на-ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ167Таблица 6.1. Ошибки критериев значимостиВ действительностиПо результатам при- Различияменения критерияестьРазличияИстинноположительвыявленыный результат, 1 – βРазличий невыявленоРазличийнетЛожноположительный результат(ошибка I рода), αЛожноотрицательный Истииноотрицательрезультат (ошибканый результат, 1 – αII рода), βходим различия там, где их нет, то это называется ошибкой I рода.Максимальная приемлемая вероятность ошибки I рода называетсяуровнем значимости и обозначается α.