Стентон Гланц - Медико-биологическая статистика (1034784), страница 58
Текст из файла (страница 58)
Некачественная рандомизация привела к почтиполуторному завышению числа эффективных методов!Этична ли рандомизация?Итак, только рандомизация позволяет надежно оценить эффективность нового метода лечения. Но этична ли она, когда речьидет о жизни и здоровье людей? В гл. 3 мы уже говорили о психологических трудностях, связанных с рандомизацией.
Рандомизация лишает права выбора и врача-экспериментатора, и самого больного. Простое решение состоит том, что если достоверно не известно, какой метод лучше, то лечить можно любым.*К. F. Schuiz, I. Chalmers, R. J. Hayes, D. G. Altman. Empirical evidenceof bias: dimensions of methodological quality associated with estimatesof treatment effects in controlled trials. JAMA, 273:408–412, 1995.КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ411К сожалению, на деле все не так просто. У любого методанайдутся сторонники и противники (иначе кто бы взялся запроверку.) Не будем говорить о мнении авторов метода.
Но своивоззрения есть и у привлеченного к эксперименту врача, человека обычно просвещенного и не чуждого гуманизма. Почему,нередко спрашивает врач, я должен, подобно язычнику, слепоследовать воле неких случайных чисел, требующих лишить больного лучшего лечения? Этично ли в глазах поборников перевязки грудных артерий было использование Коббом рандомизированной контрольной группы? Однако, как мы видели, неэтичной оказалась скорее не рандомизация, а операция. Слыша мнения о нецелесообразности рандомизированных испытаний, задайте вопрос: на чем, кроме веры и интуиции, основано убеждение в достоинствах одного и недостатках другого метода?Ведь сравнительная проверка еще только предстоит.Мы привели примеры неэффективных методов, которые успели стать достоянием практической медицины, но все же непревратились в общепринятые.
К сожалению, опровергнуть укоренившийся метод почти так же невозможно, как невозможноопровергнуть традицию. Самое тщательное доказательство неэффективности давно прижившегося метода в лучшем случаеускорит его естественное отмирание. Так невозможно доказатьотсутствие лечебного действия пиявок, этих священных коровпрактической медицины.Мы уже говорили о том, что не следует путать достоверностьи статистическую значимость.
Именно в совершенно недостоверных работах уровень значимости, как правило, не оставляетжелать лучшего. Нередко приходится слышать о «высоко достоверных результатах, Р < 0,01», тогда как речь идет о нерандомизированном исследовании, применительно к которому, как мы показали, вообще бессмысленно говорить о значении Р. И наоборот, если в результате правильно проведенного исследования мыполучили значение Р < 0,1, то это значит, что вероятность ошибочно признать существование различий не превышает 10% — иэто утверждение истинно. Какой практический вывод сделать изэтого истинного утверждения, каждый может решить сам.
Считать ли вероятность ошибки 10% слишком большой — это вообще не вопрос статистики. Многое тут зависит от того, чем мыГЛАВА 12412рискуем, признав или отвергнув предлагаемый метод лечения.Меньше всего следует фетишизировать уровень значимости ипридавать ему смысл критерия истинности. В конце концов,различие между 5 и 10% чисто количественное. Гораздо важнеетщательно продумывать, какую совокупность должна представлять ваша выборка, как обеспечить случайность формированиягрупп и уберечься от невольного самообмана при оценке результатов.Всегда ли нужна рандомизация?Следует признать, что великие открытия, изменившие обликмедицины в середине XX века, такие, как открытие пенициллина, не подвергались проверке в рандомизированных исследованиях.Порой сами обстоятельства способны натолкнуть на переоценку общепринятых методов лечения.
Так, французский военный хирург Амбруаз Парэ в полном соответствии с предписаниями лечил огнестрельные раны кипящим маслом. Однажды,в одну из битв 1536 г., масла на всех раненых не хватило. Частисолдат Парэ сделал перевязку, не обработав рану этим целительным средством. Утром он с удивлением обнаружил, что солдаты, чьи раны перед перевязкой были обработаны по всем правилам, корчатся от боли, тогда как просто перевязанные «прекрасно отдохнули и не испытывали болей»*. История умалчивает, подал ли Парэ рапорт о необходимости проведениярандомизированных клинических испытаний эффективностикипящего масла как средства лечения пулевых ранений. Но намне кажется, что, соверши он свое открытие в наши дни, ему потребовалось бы детальная проверка.Наконец, рандомизация не всегда возможна.
Так, в гл. 11 мырассмотрели выживаемость после трансплантации костного мозга при остром лимфобластном лейкозе взрослых. Одним больным пересаживался костный мозг близких родственников, дру*Пример заимствован из книги Н. R. Wullf. Rational Diagnosis and Treatment,Blackwell, Oxford, 1976. В этой небольшой по объему и блистательно написанной книге вы найдете многое идей, перекликающихся с нашим обсуждением.КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ413гим — их собственный. Случайно распределить больных по двумэтим группам невозможно, поскольку не у каждого найдетсяродственник-донор. К счастью для экспериментаторов, само посебе наличие или отсутствие близких родственников не влияетна течение заболевания.
Ситуация, когда разделить больныхслучайным образом невозможно, в медицинских исследованиях возникает довольно часто. В таких случаях надо стремитьсясделать группы максимально схожими по всем известнымпрогностическим факторам.ДОСТАТОЧНО ЛИ РАНДОМИЗАЦИИ?Контролируемые рандомизированные клинические испытаниясегодня стали эталоном медицинского исследования.
Но всегдали они приводят к верным заключениям? Нет, не всегда. Нередко в исследовании скрыто присутствует множественное сравнение. Исследователь не учитывает эту множественность и в результате, сам того не подозревая, многократно занижает вероятность ошибочно выявить мнимый эффект. Рассмотрим три типичных случая.Проверкой нового метода лечения независимо друг от другазанимаются несколько исследователей.
Получив положительныйрезультат, исследователь опубликует его. А получив отрицательный? Вероятно, воздержится от публикации, но, кроме того,еще и предпримет повторную проверку. В конце концов в однойиз многих проверок будет обнаружен желанный «эффект». В гл.4 мы описали эту ситуацию и привели оценки истиннойвероятности ошибиться, многократно превышающей вероятность ошибки в единичном испытании.В медицине приняты широкомасштабные исследования различных методов лечения, используемых прежде всего при хронических болезнях, таких, например, как ишемическая болезньсердца и сахарный диабет.
Результатом исследования являетсяописание огромного числа разнообразных признаков. Данныеподвергаются различным группировкам с целью выяснения наиболее информативных признаков, в наибольшей степени влияющих на конечный показатель — выживаемость. Понятно, что414ГЛАВА 12при значительном числе возможных группировок не составиттруда выделить группы, на которых тот или иной метод лечения будет наиболее эффективен. Эту плодотворную деятельностьмог бы омрачить учет множественности сравнений, напримерприменение поправки Бонферрони.
Приведем пример. Администрация по делам ветеранов провела рандомизированное исследование коронарного шунтирования*. Среди наблюдавшихся больных в целом не было выявлено статистически значимых различийв выживаемости между оперированными и неоперированнымибольными. Однако стоило разделить наблюдения на подгруппы,как оказалось, что хирургическое вмешательство обеспечиваетболее высокую выживаемость среди «больных с поражением ствола левой коронарной артерии».
Интерпретация подобных находок требует крайней осторожности.Сходная картина наблюдается, когда в данных, полученныхдля анализа одних факторов, обнаруживается связь между другими. Возможно, это реально существующая связь, но, возможно, и злая шутка эффекта множественных сравнений, когда, попарно сравнивая все со всем, исследователь непременно найдеткакую-нибудь статистическую зависимость. Поэтому для проверки такой попутно обнаруженной связи нужно выполнить отдельное исследование.К чему может привести вольная группировка данных, полученных в безупречно выполненном рандомизированном исследовании, было убедительно показано Ли и соавт.** Они воспроизвели достаточно типичное исследование.
Взяв истории болезни 1073 больных ишемической болезнью сердца, они случайным образом разделили их на две группы. Одну группу назваликонтрольной, а другую экспериментальной (представим себе,что попавшие в нее получали волшебный препарат «рандоми-*М. Murphy, H. Hultgren, К. Detre, J. Thomsen, Т. Takaro. Treatment ofchronic stable angina: a preliminary report of survival data of the Randomized Veterans Administration Cooperative Study.
N. Engl. J. Med.,297:621–627, 1977.** K. Lee, F. McNeer, F. Starmer, P. Harris, R. Rosati. Clinical judgementand statistics: lessons from a simulated randomized trial in coronary arterydisease. Circulation, 61:508–515, 1980.КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ415зин»). Между группами не было обнаружено значимых различий по таким признакам, как возраст, пол, число пораженныхкоронарных артерий и т. д. По одному признаку — сократимости левого желудочка — статистически значимое различиенаблюдалось.