Стентон Гланц - Медико-биологическая статистика (1034784), страница 25
Текст из файла (страница 25)
С этой величиной мы ужемного раз встречались; обычно α принимают равной 0,05 (то есть5%), однако можно взять и какой-нибудь другой уровень значимости, например 0,1 или 0,01.Если мы не отклоняем нулевую гипотезу, когда она не верна, тоесть не находим различий там, где они есть, то это — ошибка IIрода.
Ее вероятность обозначается β. Ясно, что вероятность обнаружить различия, то есть чувствительность критерия, равна 1 – β.В нашем примере с диуретиком β = 0,45 и 1 – β = 0,55, то естьчувствительность критерия при данных условиях составляет 55%.Все, что мы узнали об ошибках критериев значимости, кратко представлено в таблице 6.1.ЧЕМ ОПРЕДЕЛЯЕТСЯ ЧУВСТВИТЕЛЬНОСТЬ?Естественно, мы заинтересованы в том, чтобы по возможностиуменьшить вероятность ошибки II рода, то есть повысить чувствительность критерия.
Для этого нужно знать, от чего она зависит. В принципе, эта задача похожа на ту, что решалась применительно к ошибкам I рода, но за одним важным исключением. Чтобы оценить чувствительность критерия, нужно задатьвеличину различий, которую он должен выявлять. Эта величина определяется задачами исследования. В примере с диуретиком чувствительность была невелика — 55%.
Но, может быть, исследова-168ГЛАВА 6тель просто не считал нужным выявлять прирост диуреза с 1200до 1400 мл/сут, то есть всего на 17%?С увеличением разброса данных повышается вероятностьошибок обоих типов. Как мы вскоре увидим, величину различий и разброс данных удобнее учитывать совместно, рассчитавотношение величины различий к стандартному отклонению.Чувствительность диагностической пробы можно повысить,снизив ее специфичность — аналогичное соотношение существует между уровнем значимости и чувствительностью критерия. Чем выше уровень значимости (то есть чем меньше α), темниже чувствительность.Как мы уже говорили, важнейший фактор, который влияетна вероятность ошибок как I, так и II рода, — это объем выборок. С ростом объема выборок вероятность ошибок уменьшается. Практически это очень важно, поскольку прямо связано спланированием эксперимента.Прежде чем перейти к подробному рассмотрению факторов,влияющих на чувствительность критерия, перечислим их ещераз.• Уровень значимости α.
Чем меньше α, тем ниже чувствительность.• Отношение величины различий к стандартному отклонению.Чем больше это отношение, тем чувствительнее критерий.• Объем выборок. Чем больше объем, тем выше чувствительность критерия.Уровень значимостиЧтобы получить наглядное представление о связи чувствительности критерия с уровнем значимости, вернемся к рис. 6.3.
Выбирая уровень значимости α, мы тем самым задаем критическое значение t. Это значение мы выбираем так, чтобы доля превосходящих его значений — при условии, что препарат не оказывает эффекта, — была равна α (рис. 6.3А). Чувствительностькритерия есть доля тех значений критерия, которые превосходят критическое при условии, что лечение дает эффект (рис.6.3Б). Как видно из рисунка, если изменить критическое значение, изменится и эта доля.ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ169Рис.
6.4. Выбирая уровень значимости α, мы тем самым определяем критическийуровень t. Чем меньше α, тем выше критический уровень и тем ниже чувствительность. А. Уровень значимости α = 0,05, критическое значение t = 2,101, чувствительность 55%. Б. Теперь уровень значимости α = 0,01, критическое значение t выросло до 2,878 и чувствительность снизилась до 45%.170ГЛАВА 6Рассмотрим подробнее, как это происходит. На рис.
6.4А изобизображено распределение значений критерия Стьюдента.Отличие от рис. 6.3 состоит в том, что теперь это распределение, полученное для всех 1027 возможных пар выборок. Верхний график — это распределение значений t для случая, когдапрепарат не обладает диуретическим действием. Предположим,мы выбрали уровень значимости 0,05, то есть приняли α = 0,05.В этом случае критическое значение равно 2,101, то есть мыотвергаем нулевую гипотезу и признаем различия статистически значимыми при t > +2,101 или t < –2,101. Соответствующиеобласти на графике заштрихованы, а критическое значение изображено вертикальной пунктирной линией, спускающейся к нижнему графику, на котором изображено распределение t для случая, когда препарат обладает диуретическим действием, а именно увеличивает суточный диурез на 200 мл. По форме, нижнийграфик такой же, как верхний, но сдвинут на 200 мл вправо.Доля значений t, превышающих критическое значение 2,101(заштрихованная область), составляет 0,55.
Итак, чувствительность критерия в данном случае 55%; а вероятность ошибкивторого рода β = 1 – 0,55 = 0,45, то есть 45%.А теперь взглянем на рис. 6.4Б. На нем изображены те жесамые распределения значений t. Отличие в выбранном уровне значимости — α = 0,01. Критическое значение t повысилось до 2,878, пунктирная линия сместилась вправо и отсекает от нижнего графика только 45%. Таким образом, при переходе от 5% к 1% уровню значимости чувствительность снизилась с 55 до 45%.
Соответственно, вероятность ошибки II родаповысилась до 1 – 0,45 = 0,55.Итак, снижая α, мы снижаем риск отвергнуть верную нулевую гипотезу, то есть найти различия (эффект) там, где их нет.Но тем самым мы снижаем и чувствительность — вероятностьвыявить имеющиеся на самом деле различия.Величина различийРассматривая влияние уровня значимости, мы принимали величину различий постоянной: наш препарат увеличивал суточный диурез с 1200 до 1400 мл, то есть на 200 мл. Теперь примемЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ171Рис. 6.5. Чем больше величина различий, тем сильнее распределение t сдвигается вправо и тем выше чувствительность.постоянным уровень значимости α = 0,05 и посмотрим, как чувствительность критерия зависит от величины различий.
Понятно, что большие различия выявить легче, чем маленькие. Рассмотрим следующие примеры. На рис. 6.5А изображено распределение значений t для случая, когда исследуемый препаратне обладает диуретическим действием. Заштрихованы 5% наибольших по абсолютной величине значений t, расположенных левее –2,101 или правее +2,101. На рис. 6.5Б изображено распределениезначений t для случая, когда препарат увеличивает суточныйГЛАВА 61721,0Чувствительность0,80,60,40,20100200300Увеличение суточного диуреза, млРис. 6.6.
Чувствительность критерия Стьюдента как функция от величины различийпри объеме выборок 10 человек и уровне значимости α = 0,05. Пунктирная линия показывает, как пользоваться графиком. Для величины различий 200 мл чувствительностьсоставляет 0,55.ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ173диурез в среднем на 200 мл (эту ситуацию мы уже рассматривали). Выше правого критического значения лежит 55% возможных значений t: чувствительность равна 0,55. Далее, на рис. 6.5Впредставлено распределение значений t для случая, когда препарат увеличивает диурез в среднем на 100 мл.
Теперь только17% значений t превышает 2,101. Тем самым, чувствительностькритерия равна лишь 0,17. Иными словами, эффект будет обнаружен менее чем в одном из каждых пяти сравнений контрольнойи экспериментальной групп. Наконец, рис. 6.5Г представляетслучай увеличения диуреза на 400 мл. В критическую областьпопало 99% значений t. Чувствительность критерия равна 0,99:различия будут выявлены почти наверняка.Повторяя этот мысленный эксперимент, можно определитьчувствительность критерия для всех возможных значений эффекта, от нулевого до «бесконечного». Нанеся результаты награфик, мы получим рис.
6.6, где чувствительность критерияпоказана как функция от величины различий. По этому графику можно определить, какой будет чувствительность при тойили иной величине эффекта. Пользоваться графиком пока чтоне очень удобно, ведь он годится только для этих численностигрупп, стандартного отклонения и уровня значимости. Вскоремы построим другой график, более подходящий для планирования исследования, но сначала нужно подробнее разобраться сролью разброса значений и численности групп.Разброс значенийЧувствительность критерия возрастает с ростом наблюдаемыхразличий; с ростом разброса значений чувствительность, напротив, снижается.Напомним, что критерий Стьюдента t определяется следующим образом:t=X1 − X 2s2 s2+n1 n2,где X 1 и X 2 — средние, s — объединенная оценка стандартногоГЛАВА 6174отклонения σ, n1 и n2 — объемы выборок.
Заметьте, что X 1 иX 2 — это оценки двух (различных) средних — µ1 и µ2. Для простоты допустим, что объемы обеих выборок равны, то естьn1 = n2. Тогда вычисленное значение t есть оценка величиныµ1 − µ2µ1 − µ2.2σσσ+nnnОбозначим δ (греческая буква «дельта») величину эффекта,то есть разность средних: δ = µ1 – µ2, тогдаt′ =2δt′ =2=δσ=n.22nТаким образом, t′ зависит от отношения величины эффекта кстандартному отклонению.Рассмотрим несколько примеров. Стандартное отклонение висследуемой нами совокупности составляет 200 мл (см. рис.
6.1).В таком случае увеличение суточного диуреза на 200 или 400 млравно соответственно одному или двум стандартным отклонениям. Это очень заметные изменения. Если бы стандартное отклонение равнялось 50 мл, то те же самые изменения диуреза былибы еще более значительными, составляя соответственно 4 и 8стандартных отклонений. Наоборот, если бы стандартное отклонение равнялось, например, 500 мл, то изменение диуреза в 200мл составило бы 0,4 стандартного отклонения. Обнаружить такой эффект было бы непросто да и вряд ли вообще стоило бы.Итак, на чувствительность критерия влияет не абсолютнаявеличина эффекта, а ее отношение к стандартному отклонению.Обозначим его ϕ (греческая «фи»); это отношение ϕ = δ/σ называется параметром нецентральности.σОбъем выборкиМы узнали о двух факторах, которые влияют на чувствительность критерия: уровень значимости α и параметр нецентральности ϕ.
Чем больше α и чем больше ϕ, тем больше чувстви-ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ175тельность. К сожалению, влиять на ϕ мы не можем вовсе, а чтокасается α, то его увеличение повышает риск отвергнуть верную нулевую гипотезу, то есть найти различия там, где их нет.Однако есть еще один фактор, который мы можем, в определенных пределах, менять по своему усмотрению, не жертвуя уровнем значимости. Речь идет об объеме выборок (численностигрупп). С увеличением объема выборки чувствительность критерия увеличивается.Существуют две причины, в силу которых увеличение объема выборки увеличивает чувствительность критерия.