Лекция 6-7_ (1032389)
Текст из файла
Лекция 6-7.
5. АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ.
Статистические процедуры, с которыми мы познакомились в предыдущих разделах, предназначены для анализа количественных признаков. Над значениями количественных признаков можно производить арифметические действия. Кроме того, их можно располагать в порядке возрастания или убывания.
Однако очень многие признаки невозможно измерить числом. Например, можно быть либо мужчиной, либо женщиной, либо мертвым, либо живым. Можно быть бледным, румяным, покрасневшим и т.д.. Здесь мы имеем дело с качественными признаками. Эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение.
Существует еще один вид признаков. Это порядковые признаки. Их можно упорядочить, но производить над ними арифметические действия нельзя. Пример порядкового признака – состояние больного: тяжелое, средней тяжести, удовлетворительное. С такими признаками мы познакомимся в дальнейшем.
При решении задач мы уже установили, что галотан и морфин по-разному влияли на артериальное давление и что это различие статистически значимо. Однако для врача-клинициста прежде всего необходимо знать, наблюдалось ли различие в операционной летальности? Из 61 больного, оперированного под галотановой анестезией, умерли 8, то есть 13,1%. При использовании морфина умерли 10 из 67, то есть 14,9%. (Ранее мы для простоты считали размеры обеих групп одинаковыми, теперь используем реальные данные.) Летальность при использовании галотана оказалась примерно на 2% ниже, чем при использовании морфина. Можно ли считать, что морфин опаснее галотана, или такой результат мог быть результатом случайности?
Чтобы ответить на этот вопрос, нам сначала нужно найти способ оценить точность, с которой доли, вычисленные по выборкам, соответствуют долям во всей совокупности. Однако прежде нам нужно понять, каким должно быть описание самой совокупности.
5.1. Описание качественных медико-биологических данных
Пусть у нас имеется некоторая генеральная совокупность больных (N=200 чел.). У 50 из них был здоровый цвет лица, а у остальных 150 – лицо было бледным.
Как описать совокупность больных по этому признаку? Ясно, что нужно указать долю, которую составляют больные каждой из групп во всей совокупности. В нашем случае доля больных со здоровым цветом лица рз = 50/200 =0,25 и бледных рб = 150/200 =0,75.
Предположим, что цвет лица бывает только здоровым или бледным. Тогда справедливо тождество рз + рб = 1. Или, что то же самое, рб = 1 - рз. То есть, зная рз, мы легко определим и рб. Таким образом, для характеристики совокупности, которая состоит из двух классов, достаточно указать численность одного из них: если доля одного класса во всей совокупности равна р, то доля другого равна 1 - р. Заметим, что рз есть еще и вероятность того, что у случайно у выбранного больного окажется здоровый цвет лица.
Покажем, что доля р в некотором смысле аналогична среднему μ по совокупности. Введем числовой признак х, который принимает только два значения: 1 для здорового цвета лица и 0 для бледного. Среднее значение признака х равно
Как видим, полученное значение совпадает с долей больных со здоровым цветом лица.
Повторим это рассуждение для общего случая. Пусть имеется совокупность из N членов. При этом М членов обладают каким-то качественным признаком, которого нет у остальных N-M членов. Введем числовой признак х: у членов совокупности, обладающих качественным признаком, он будет равен 1, а у членов, не обладающих этим признаком, он будет равен 0. Тогда среднее значение х равно
то есть доле членов совокупности, обладающих качественным признаком.
Используя такой подход, легко рассчитать и показатель разброса — стандартное отклонение. Не совсем ясно, однако, что понимать под разбросом, если значений признака всего два – 0 и 1. Если все члены совокупности принадлежат к одному классу, то разброс равен нулю. Если совокупность делится на два равные класса, то разброс максимален.
Найдем стандартное отклонение. По определению оно равно
где для М членов совокупности значение х = 1, а для остальных N -М членов х == 0. Величина μ = р. Таким образом,
Но так как M/N = р, то
или, после преобразования,
Найденное стандартное отклонение σ полностью определяется величиной р. Этим оно принципиально отличается от стандартного отклонения для нормального распределения, которое не зависит от μ.
Зная стандартное отклонение σ, можно найти стандартную ошибку для выборочной оценки р.
5.2. Точность оценки долей
Если бы в наших руках были данные по всем членам совокупности, то не было бы никаких проблем, связанных с точностью оценок. Однако нам всегда приходится довольствоваться ограниченной выборкой. Поэтому возникает вопрос, насколько точно доли в выборке соответствуют долям в совокупности.
Предположим, что из всех 200 больных случайным образом выбрали 10. Как любая выборочная оценка, оценка доли (обозначим ее ) отражает долю р в совокупности, но отклоняется от нее в силу случайности. По аналогии со стандартной ошибкой среднего найдем стандартную ошибку доли. Для этого нужно охарактеризовать разброс выборочных оценок доли, то есть рассчитать стандартное отклонение совокупности
. В общем случае
где - стандартная ошибка доли, σ – стандартное отклонение, n – объем выборки. Так как
, то
Заменив в приведенной формуле истинное значение доли ее оценкой , получим оценку стандартной ошибки доли:
Из центральной предельной теоремы вытекает, что при достаточно большом объеме выборки выборочная оценка приближенно подчиняется нормальному распределению, имеющему среднее р и стандартное отклонение
. Однако при значениях р, близких к 0 или 1, и при малом объеме выборки это не так. При какой же численности выборки можно пользоваться приведенным способом оценки? Математическая статистика утверждает, что нормальное распределение служит хорошим приближением если n
и n(1-
) превосходят 5. Как известно, примерно 95% всех членов нормально распределенной совокупности находятся в пределах двух стандартных отклонений от среднего. Поэтому если перечисленные условия соблюдены, то с вероятностью 95% можно утверждать, что истинное значение p лежит в пределах 2
от
.
Воспользовавшись изложенными выше соображениями, сравним теперь операционную летальность при галотановой и морфиновой анестезии. Напомним, что при использовании галотана летальность составила 13,1% (численность группы — 61 больной), а при использовании морфина — 14,9% (численность группы — 67 больных).
Стандартная ошибка доли для группы галотана
для группы морфина
Если учесть, что различие в летальности составило лишь 2%, то маловероятно, чтобы оно было обусловлено чем-нибудь, кроме случайного характера выборки.
Прежде чем двигаться дальше, перечислим те предпосылки, на которых основан излагаемый подход. Мы изучаем то, что в статистике принято называть независимыми испытаниями Бернулли. Эти испытания обладают следующими свойствами.
• Каждое отдельное испытание имеет ровно два возможных взаимно исключающих исхода.
• Вероятность данного исхода одна и та же в любом испытании.
• Все испытания независимы друг от друга. В терминах совокупности и выборок эти свойства формулируются так.
• Каждый член совокупности принадлежит одному из двух классов.
• Доля членов совокупности, принадлежащих одному классу, неизменна.
• Каждый член выборки извлекается из совокупности независимо от остальных.
5.3. Сравнение долей
Выборочная доля аналогична выборочному среднему. Выражение для стандартной ошибки мы уже вывели. Теперь мы можем перейти к задаче сравнения долей, то есть к проверке нулевой гипотезы о равенстве долей. Для этого используется критерий z, аналогичный критерию Стьюдента t:
Пусть , и
- выборочные доли. Поскольку стандартная ошибка – это стандартное отклонение всех возможных значений
, полученных по выборкам заданного объема, и поскольку дисперсия разности равна сумме дисперсий, стандартная ошибка разности долей равна
Следовательно,
Если n1 и n2 – объемы двух выборок, то
Таким образом,
Итак, мы вывели формулу для критерия z. В данном случае нормальное распределение имеет место только при достаточно больших объемах выборок. Точнее говоря, когда значения пр и п(1 -р) больше 5. Если хотя бы для одной выборки это условие не выполняется, то критерий z неприменим и нужно воспользоваться точным критерием Фишера. Этот критерий мы рассмотрим позже.
Если при оценке дисперсии объединить наблюдения из обеих выборок, чувствительность критерия Стьюдента увеличится. Таким же способом можно повысить чувствительность критерия z. Действительно, если справедлива нулевая гипотеза, то обе выборочные доли =m1/n1 и
=m2/n2 это две оценки одной и той же доли р, которую мы, следовательно, можем оценить как
Тогда
Откуда имеем
Подставляя полученную объединенную оценку в формулу для критерия z, имеем:
О статистически значимом различии долей можно говорить, если значение z окажется «большим». С такой же ситуацией мы имели дело, рассматривая критерий Стьюдента. Отличие состоит в том, что t подчиняется распределению Стьюдента, а z — стандартному нормальному распределению. Соответственно, для нахождения «больших» значений z нужно воспользоваться стандартным нормальным распределением. Однако, поскольку при увеличении числа степеней свободы распределение Стьюдента стремится к нормальному, критические значения z можно найти в последней строке табл. распределения Стьюдента.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.