Стентон Гланц - Медико-биологическая статистика (1034784), страница 27
Текст из файла (страница 27)
Нельзя ли хоть немного сократить их численность? Попробуем n = 75. Тогдаϕ=1 75= 1,772 2×3и νвну = 3(75 – 1) = 222 . Рис. 6.10 показывает, что теперь чувствительность равна 0,80.Таким образом, для того чтобы при уровне значимостиα = 0,05 с вероятностью 80% обнаружить в трех группах различие в одну менструацию в год, когда стандартное отклонение предположительно составляет 2 менструации в год, нужно набратьгруппы по 75 человек.ЧУВСТВИТЕЛЬНОСТЬ ТАБЛИЦ СОПРЯЖЕННОСТИ*Графиками с рис.
6.10 (и из приложения Б) можно воспользоватьсядля нахождения чувствительности и объема выборки при работе стаблицами сопряженности**. Сначала нужно решить, какое минимальное различие вы хотели бы обнаружить. В случае таблицсопряженности это означает, что вам нужно заполнить клетки не* Во вводном курсе этот раздел можно опустить.** Таблицу сопряженности 2×2 можно рассматривать как задачу сравнениядвух долей.
Как в этом случае вычислить чувствительность и объем выборки, вы поймете, решив задачу 6.6. Более подробно этот вопрос изложен в работе: A. F Feinstem. Clinical biostatistics. Mosby, St. Louis, 1977.ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ185Таблица 6.2. Обозначения, используемые при вычислении чувствительности критерия χ2p11p12R1p21p22R2p31p32R3C1С21,00которыми долями. В таблице 6.2 приведены обозначения, используемые при вычислении чувствительности таблицы сопряженности, для примера взята таблица 3×2. Здесь рij — доля в i-йстроке j-го столбца, например р11 — доля всех наблюдений влевой верхней клетке, p12 — доля наблюдений в правой верхнейклетке, и так далее.
Сумма всех долей составляет 1. Суммы построкам обозначаются Ri, по столбцам — Сj. Параметр нецентральности задается формулой( pij − RiC j ) ,Nϕ=∑Ri C j( r − 1)(c − 1) + 12где r — число строк, с — число столбцов и N — общее числонаблюдений. Зная значение ϕ и число степеней свободы νвну = ∞и νмеж = (r – 1)(с – 1), чувствительность можно определить покривым с рис.
6.10.Для нахождения объема выборки, при котором достигается требуемая чувствительность, воспользуемся обратной процедурой. Именно, сначала по рис. 6.10 найдем значение параметра нецентральности ϕ для заданной чувствительности и числа степенейсвободы νмеж = (r – 1)(с – 1) и νвну = ∞. А теперь найдем объем выборки, разрешив приведенную выше формулу относительно N:N=ϕ ( r − 1)(c − 1) + 1∑(pij− Ri C j )2.Ri C jБег и менструацииДейл и соавт. изучали не только то, как занятия бегом влияют начастоту менструаций, но и то, какая доля женщин обращалась кГЛАВА 6186врачу. (Этот пример мы подробно рассмотрели в гл. 5, см. табл.5.5.) Допустим, мы хотим выявить различия не меньшие, чем втабл. 6.3.
Уровень значимости α = 0,05, общее число обследованных N = 165. Расссчитаем сначала сумму∑(p− Ri C j )2ijRi C j(0,025 − 0, 250 × 0,350 )2=0,250 × 0,350(0,225 − 0, 250 × 0,650 )2+0,250 × 0,650(0,200 − 0,300 × 0,650 )0,300 × 0,650(0,225 − 0, 450 × 0,650 )(0,100 − 0,300 × 0,350 )2+2+++0,300 × 0,350(0,225 − 0, 450 × 0,350 )2+0, 450 × 0,350+2+0,450 × 0,650= 0,114.Тогдаϕ=1650,114 = 2,50.(3 − 1)( 2 − 1) + 1По рис 6.10 находим, что для ϕ = 2,50 при νмеж = (r – 1)(с – 1) == (3 – 1)(2 – 1) = 2 и νвну = ∞ степенях свободы и уровне значимости α = 0,05 чувствительность равна 0,98.ПРАКТИЧЕСКИЕ ТРУДНОСТИНетрудно рассчитать чувствительность критерия задним числом, когда и стандартное отклонение, и величина эффекта ужеизвестны.
К сожалению, мы не знаем эти параметры, когда планируем исследование. Стандартное отклонение можно примерно оценить по литературным данным или проведя предварительное исследование. Величину эффекта узнать заранее невозможно (обычно ее оценка и является целью исследования). Поэтому при расчете чувствительности нужно указать минимальную величину эффекта, которую мы хотим выявить. Немногиерешаются поведать миру о том, какова же эта величина, поэто-ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ187Таблица 6.3. Предполагаемые доли женщин, обращавшихся кврачу по поводу нерегулярности менструациОбращались к врачуГруппаДаНетВсегоКонтроль0,0250,2250,250Физкультурницы0,1000,2000.300Спортсменки0,2250,2250,450Всего0,3500,6501,00му чувствительность очень редко рассчитывают заранее.
Между тем делать это совершенно необходимо: иначе мы рискуемпроводить исследования, заведомо обреченные на неуспех.Если после проведения исследования эффект обнаружен, точувствительность уже неважна. В противном случае — если эффекта не выявлено — она приобретает первостепенное значение. В самом деле, если мы не обнаружили статистически значимых различий при чувствительности 80%, то с высокой вероятностью можно утверждать, что различий действительно нет.Иными словами, мы получили отрицательный результат. Еслиже чувствительность составляла 25%, то мы просто не получили никакого результата.
Обычно данные, необходимые для определения чувствительности, содержатся в статье, поэтому читатель может сам провести расчет.ЗАЧЕМ ВЫЧИСЛЯТЬ ЧУВСТВИТЕЛЬНОСТЬ?Ранее, в 4 гл., мы разобрали распространенную ошибку, состоящую в многократном применении критерия Стьюдента. В терминах этой главы можно сказать, что многократное применениекритерия Стьюдента увеличивает ошибку I рода. На практике жеэто означает, что нам сообщают о «статистически значимых различиях» там, где их в действительности нет. Теперь, познакомившись с методами определения чувствительности критерия иубедившись, насколько малой она нередко оказывается, мы можем судить о причинах этого явления. Многие исследования неимели бы никаких шансов на успех, если бы завершались однимединственным сравнением.
Конечно, проще сравнить группы поцелому ряду лабораторных показателей, чем сделать числен-188ГЛАВА 6ность групп достаточной для выявления разницы в летальности. С другой стороны, пренебрежение оценкой чувствительности приводит к тому, что во вполне корректно (в остальном) проведенном исследовании клинически значимый эффект остаетсяневыявленным из-за слишком малой численности групп.Теперь мы получили достаточное представление о чувствительности, чтобы избежать этих ловушек. Мы узнали о том, какможно оценить чувствительность критерия по данным, приведенным в публикации, и как самому вычислить нужный объемвыборок, чтобы обнаружить эффект заданной величины. Результаты таких вычислений часто разочаровывают, поскольку оказывается, что численность групп должна быть огромной (особенно в сравнении с тем обычно небольшим числом больных,которые участвуют в клинических исследованиях)*. Как бы тони было, мы должны отдавать себе отчет в ограниченности наших возможностей.
Однако заведомо несостоятельные исследования все же проводятся. Вряд ли авторы сознательно замалчивают недостаток чувствительности, рассчитывая, что благодаря эффекту множественных сравнений «что-нибудь найдется». На самом деле большинство из них просто никогда ничегоне слышали о чувствительности критериев.Фрейман и соавт.** изучили 71 публикацию*** по результатамконтролируемых испытаний, проведенных в 1960—1977 гг., в которых исследуемый метод лечения не дал статистически значимого (Р < 0,05) улучшения исхода.
Лишь в 20% работ численностьгрупп была достаточной, чтобы обнаружить снижение частотынеблагоприятных исходов (смерть, осложнение и т. п.) на 25% с*По данным Р. А. и С. У. Флетчеров (R. A. Fletcher, S. W. Fletcher. Clinicalresearch in general medical journals: a 30-year perspective. N. Engl. J. Med.,301:180—183, 1979), изучавших работы, опубликованные в Journal of theAmerican Medical Association, Lancet и New England Journal of Medicine,в период с 1946 по 1976 г. медиана численности группы составляла от 16до 36 человек.** J.
A. Freiman, Т. С. Chalmers, H. Smith Jr., R. R. Kuebler. The importance ofbeta, the type II error and sample size in the design and interpretation of therandomized controlled trial. N. Engl. J. Med., 299:690—694, 1978.*** В журналах Lancet, New England Journal of Medicine, Journal of theAmerican Medical Association.ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ189вероятностью 50%. Только в одной статье говорилось, что уровень значимости и чувствительность были определены до начала исследования, 14 статей содержали указания на желательность большей численности групп.Пятнадцать лет спустя аналогичное исследование провелиМоэр и соавт., рассмотрев публикации по результатам контролируемых испытаний в тех же журналах за 1990 г.
Число публикаций по этой теме по сравнению с 1975 г. возросло вдвое, однако доля отрицательных результатов осталась прежней — около27%. Доля исследований, обеспечивающих достаточную чувствительность, оказалась примерно той же, что и в работе Фреймана и соавт., однако расчет численности групп обнаружен ужев трети статей. Итак, некоторый прогресс налицо, хотя ситуация все же оставляет желать лучшего. Как и во всем, что касается применения статистических методов, полностью полагатьсяна авторов пока нельзя. Прежде чем принять вывод о неэффективности того или иного метода лечения, читателю следует самостоятельно оценить чувствительность примененного критерия.Что же все-таки делать с работами, не обнаружившими эффекта из-за недостаточной численности групп*? Нужно ли мах*Необходимость заранее определять численность групп ставит исследователей перед нелегким выбором: мириться с высоким рискомне получить результат или проводить дорогостоящее широкомасштабное исследование.