Стентон Гланц - Медико-биологическая статистика (1034784), страница 19
Текст из файла (страница 19)
Заметим, что pроз есть еще и вероятность того, что случайновыбранный марсианин окажется розовым. Покажем, что доля рв некотором смысле аналогична среднему µ по совокупности.Введем числовой признак X, который принимает только два значения 1 для розового и 0 для зеленого. Среднее значение признака X равно∑X1+1+… +1+ 0 + 0 +… + 0=N20050 × 1 + 150 × 0 50=== 0,25.200200µ==Как видим, полученное значение совпадает с долей розовыхмарсиан.Повторим это рассуждение для общего случая. Пусть имеется совокупность из N членов. При этом М членов обладаюткаким-то качественным признаком, которого нет у остальныхАНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ125N – M членов.
Введем числовой признак X: у членов совокупности, обладающих качественным признаком, он будет равен1, а у членов, не обладающих этим признаком, он будет равен0. Тогда среднее значение X равно∑XM ×1 + ( N − M ) × 0M= p,NNNто есть доле членов совокупности, обладающих качественнымпризнаком.Используя такой подход, легко рассчитать и показатель разброса — стандартное отклонение.
Не совсем ясно, однако, чтопонимать под разбросом, если значений признака всего два — 0и 1. На рис. 5.2 мы изобразили три совокупности по 200 членовв каждой. В первой из них (5.2А) все члены принадлежат к одному классу. Разброс равен нулю. На рис. 5.2Б разброс уже имеется, но он невелик. На рис. 5.2В совокупность делится на дваравные класса. В этом случае разброс максимален.Итак, найдем стандартное отклонение.
По определению оноравноµ===∑( X − µ )2σ=,Nгде для М членов совокупности значение X = 1, а для остальныхN – М членов X = 0. Величина µ = р. Таким образом,(1 − p )2σ=+ … + (1 − p ) + ( 0 − p ) + … + ( 0 − p )22NM (1 − p ) + ( N − M ) p 22=N=2=MM2(1 − p ) + 1 − p 2 .NNНо так как M N = p , тоσ = p (1 − p ) + (1 − p ) p 2 = p (1 − p ) + p 2 (1 − p ),или, после преобразования,2σ = p (1 − p ).126ГЛАВА 5Рис. 5.2.
Что такое разброс данных, если значений признака всего два? Возможно, этостанет яснее, если вспомнить, что разброс — это отсутствие единства. Рассмотрим трисовокупности из 200 марсиан. А. Все марсиане зеленые. Царит полное единство, разброс отсутствует, σ = 0. Б. Среди стройных рядов зеленых марсиан появилось 10 розовых. Единство немного нарушено, появился некоторый разброс, σ = 0,2. В. От единствамарсиан не осталось и следа: они разделились поровну на зеленых и розовых. Разбросмаксимален, σ = 0,5.АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ127Рис. 5.3.
Стандартное отклонение доли σ полностью определяется самой этой долей р.Когда доля равна 0 или 1, разброс отсутствует и σ = 0. Когда р = 0,5, разброс максимален, σ = 0,5Найденное стандартное отклонение σ полностью определяется величиной р. Этим оно принципиально отличается от стандартного отклонения для нормального распределения котороене зависит от µ. На рис. 5.3 показана зависимость σ от р.
Онавполне согласуется с теми впечатлениями которые возникаютпри рассмотрении рис. 5.2: стандартное отклонение достигаетмаксимума при р = 0,5 и равно 0 когда р равно 0 или 1.Зная стандартное отклонение σ можно найти стандартнуюошибку для выборочной оценки р. Посмотрим, как это делается.ТОЧНОСТЬ ОЦЕНКИ ДОЛЕЙЕсли бы в наших руках были данные по всем членам совокупности, то не было бы никаких проблем связанных с точностьюоценок. Однако нам всегда приходится довольствоваться ограниченной выборкой. Поэтому возникает вопрос, насколько точно доли в выборке соответствуют долям в совокупности. Проделаем мысленный эксперимент наподобие того, который мыпровели в гл.
2, когда рассматривали насколько хорошей оценкой среднего по совокупности является выборочное среднее.128ГЛАВА 5Рис. 5.4. А. Из совокупности марсиан, среди которых 150 зеленых и 50 розовых, извлекли случайную выборку из 10 особей. В выборку попало 5 зеленых и 5 розовыхмарсиан, на рисунке они помечены черным.
Б. В таком виде данные предстанут передисследователем, который не может наблюдать всю совокупность и вынужден судить оней по выборке. Оценка доли розовых марсиан p = 5/10 = 0,5.Предположим, что из всех 200 марсиан случайным образомвыбрали 10. Распределение розовых и зеленых марсиан во всейсовокупности неизвестное исследователям изображено в верхней части рис. 5.4. Закрашенные кружки соответствуют марсианам, попавшим в выборку. В нижней части рис. 5.4 показанаинформация, которой располагал бы исследователь, получивший такую выборку. Как видим в выборке розовые, и зеленыемарсиане поделились поровну.
Основываясь на этих данных, мырешили бы, что розовых марсиан столько же, сколько и зеленых, то есть их доля составляет 50%.Исследователь мог бы извлечь другую выборку, напримеродну из представленных на рис. 5.5. Здесь выборочные долирозовых марсиан равны 30, 30, 10, и 20%. Как любая выборочнаяоценка, оценка доли (обозначим ее p̂) отражает долю р в совокупности, но отклоняется от нее в силу случайности. Рассмот-АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ129Рис. 5.5.
Еще 4 случайные выборки из той же совокупности марсиан. Оценки доли розовых марсиан: 30, 30, 10 и 20%.рим теперь не совокупность марсиан, а совокупность всех значений p , вычисленных по выборкам объемом 10 каждая. (Из совокупности в 200 членов можно получить более 106 таких выборок). На рис. 5.6 приведены пять значений p , вычисленных попяти выборкам с рис. 5.4 и 5.5 и еще 20 значений полученных надругих случайных выборках того же объема. Среднее этих 25значений составляет 30%. Это близко к истинной доле розовыхмарсиан — 25%.
По аналогии со стандартной ошибкой среднегонайдем стандартную ошибку доли. Для этого нужно охарактеризовать разброс выборочных оценок доли, то есть рассчитать130ГЛАВА 5Рис. 5.6. Нанесем на график оценки доли розовых марсиан, полученные по выборке срис. 5.4 и четырем выборкам с рис. 5.5. Добавим к ним еще 20 выборочных оценок.Получилось распределение выборочных оценок p . Стандартное отклонение совокупности средних — это стандартная ошибка доли.стандартное отклонение совокупности p . В данном случае оноравно примерно 14%, в общем случаеσ,nгде σ p̂ — стандартная ошибка доли, σ — стандартное отклонеσ pˆ =ние, n — объем выборки.
Поскольку σ =σ pˆ =p (1 − p ), тоp (1 − p ).nЗаменив в приведенной формуле истинное значение доли ееоценкой p , получим оценку стандартной ошибки доли:s pˆ =pˆ (1 − pˆ ).nИз центральной предельной теоремы (см. гл. 2) вытекает, чтопри достаточно большом объеме выборки выборочная оценка pприближенно подчиняется нормальному распределению, имеющему среднее р и стандартное отклонение σ p̂ . Однако при значениях р, близких к 0 или 1, и при малом объеме выборки это нетак. При какой численности выборки можно пользоваться приведенным способом оценки? Математическая статистика утверждает, что нормальное распределение служит хорошим при-АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ131ближением, если и npˆ и n (1 − pˆ ) превосходят 5*. Напомним, чтопримерно 95% всех членов нормально распределенной совокупности находятся в пределах двух стандартных отклонений отсреднего.
Поэтому если перечисленные условия соблюдены, тос вероятностью 95% можно утверждать, что истинное значениер лежит в пределах 2 s pˆ от p .Вернемся на минуту к сравнению операционной летальностипри галотановой и морфиновой анестезии. Напомним, что прииспользовании галотана летальность составила 13,1% (численность группы — 61 больной), а при использовании морфина —14,9% (численность группы — 67 больных).Стандартная ошибка доли для группы галотанаs pˆ гал =0,131(1 − 0,131)61для группы морфинаs pˆ мор == 0,043 = 4,3%,0,149 (1 − 0,149 )= 0,044 = 4, 4%.67Если учесть, что различие в летальности составило лишь 2%,то маловероятно, чтобы оно было обусловлено чем-нибудь, кроме случайного характера выборки.Прежде чем двигаться дальше, перечислим те предпосылки,на которых основан излагаемый подход.
Мы изучаем то, что встатистике принято называть независимыми испытаниями Бернулли. Эти испытания обладают следующими свойствами.• Каждое отдельное испытание имеет ровно два возможныхвзаимно исключающих исхода.• Вероятность данного исхода одна и та же в любом испытании.• Все испытания независимы друг от друга.В терминах совокупности и выборок эти свойства формулируются так.*Если объем выборки недостаточен для использования нормального распределения, можно прибегнуть к помощи биномиального распределения.О биномиальном распределении см.
J. H. Zar. Biostatistical analysis, 2nded. Prentice-Hall, Englewood Cliffs, N. J., 1984.132ГЛАВА 5• Каждый член совокупности принадлежит одному из двухклассов.• Доля членов совокупности принадлежащих одному классунеизменна.• Каждый член выборки извлекается из совокупности независимо от остальных.СРАВНЕНИЕ ДОЛЕЙВ предыдущей главе мы рассмотрели критерий Стьюдента t.
Онвычисляется на основе выборочных средних и стандартнойошибки:t=Разность выборочных средних.Стандартная ошибка разности выборочных среднихВыборочная доля p аналогична выборочному среднему. Выражение для стандартной ошибки мы уже вывели. Теперь мыможем перейти к задаче сравнения долей, то есть к проверкенулевой гипотезы о равенстве долей. Для этого используетсякритерий z, аналогичный критерию Стьюдента t:z=Разность выборочных долей.Стандартная ошибка разности выборочных долейПусть p1 и p2 — выборочные доли. Поскольку стандартнаяошибка — это стандартное отклонение всех возможных значений p , полученных по выборкам заданного объема, и поскольку дисперсия разности равна сумме дисперсии стандартнаяошибка разности долей равнаs pˆ1 − pˆ 2 = s 2pˆ1 + s 2pˆ 2 .Следовательно,z=pˆ1 − pˆ 2pˆ − pˆ 2= 1.s pˆ1 − pˆ 2s 2pˆ1 + s 2pˆ 2Если n1 и n2 — объемы двух выборок, тоАНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВpˆ1 (1 − pˆ1 )s pˆ1 =n1и s pˆ 2 =pˆ 2 (1 − pˆ 2 )n2133.Таким образом,z=pˆ1 − pˆ 2pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )+n1n2.Итак, мы вывели формулу для критерия z.
Вообще этой буквой обозначаются величины со стандартным нормальным распределением (то есть нормальным распределением со среднимµ = 0 и стандартным отклонением σ = 1 см. табл. 6.4). С величиной z мы встретимся еще неоднократно. В данном случае нормальное распределение имеет место только при достаточно больших объемах выборок*.Если при оценке дисперсии объединить наблюдения из обеих выборок, чувствительность критерия Стьюдента увеличится. Таким же способом можно повысить чувствительность критерия z.
Действительно если справедлива нулевая гипотеза тообе выборочные доли p1 = m1/n1 и p2 = m2/n2 — это две оценкиодной и той же доли p, которую мы, следовательно, можем оценить какm1 + m2.n1 + n2Тогдаpˆ =s pˆ =pˆ (1 − pˆ ).Отсюда имеемs pˆ1 − pˆ 2 =*s 2pˆn1+s 2pˆn2=1 1pˆ (1 − pˆ ) + . n1 n2 Точнее говоря, когда значения n p и n(1 – p ) больше 5. Если хотя бы дляодной выборки это условие не выполняется, то критерий z неприменим, инужно воспользоваться точным критерием Фишера.