Стентон Гланц - Медико-биологическая статистика (1034784), страница 5
Текст из файла (страница 5)
Здесь мы не только измеряем всех доодного юпитериан, но также подсчитываем среднее и стандартное отклонение роста для всей их совокупности. Оказываетсясредний рост юпитериан — 37,6 см, а его стандартное отклонение — 4,5 см. Можно заключить, что юпитериане очень похожина марсиан, ведь близки оба параметра определяющие нормальное распределение — среднее и стандартное отклонение.Однако если взглянуть на исходные данные по юпитерианам(рис. 2.ЗА), то обнаружится совершенно иная картина.
На самом деле типичный юпитерианин довольно приземист — около 35 см, то есть на добрых 5 см ниже марсианина. И тольконебольшая группа долговязых смещает значения стандартногоотклонения и среднего вводя ученых в заблуждение.Итак, рост произвольно выбранного юпитерианина вовсе неравновероятно может оказаться выше или ниже среднего, то естьраспределение юпитериан по росту асимметрично. В такой ситуации полагаться на среднее и стандартное отклонение нельзя.На рис. 2.ЗБ изображено нормальное распределение для совокупности с теми же самыми значениями среднего и стандартногоотклонения, что и на рис.
2.ЗА. Оно ничуть не похоже на распределение юпитериан. Таким образом, доверившись среднему истандартному отклонению, мы получим превратное представ-КАК ОПИСАТЬ ДАННЫЕ33Рис. 2.3. Если распределение асимметрично полагаться на среднее и стандартное отклонение нельзя. А. Распределение юпитериан по росту. Б. Нормальное распределениес теми же средним и стандартным отклонением, не смотря на тождественность параметров, оно ничуть не похоже на реальное распределение юпитериан.ление о совокупности, не подчиняющейся нормальному распределению.Для описания таких данных лучше подходит не среднее, амедиана. Медиана — это значение, которое делит распределение пополам половина значений больше медианы половина —меньше (точнее не больше). Из рис. 2.4А видно, что ровно половина юпитериан выше 36 см. Стало быть 36 см — это медиана роста юпитериан.Для характеристики разброса роста юпитериан найдем значения, не выше которых оказались 25 и 75% результатов измере-34ГЛАВА 2АМедиана (50-й процентиль)Б25-й процентиль303575-й процентиль404550Рост, смРис.
2.4. Для описания асимметричного распределения следует использовать медиануи процентили. Медиана — это значение, которое делит распределение пополам. А. Медиана роста юпитериан — 36 см. Б. 25-й и 75-й процентили отсекают четверть самыхнизких и четверть самых высоких юпитериан 25-й процентиль ближе к медиане, чем75-й — это говорит об асимметричности распределения.КАК ОПИСАТЬ ДАННЫЕ35ния. Эти величины называются 25-м и 75-м процентилями. Еслимедиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати,можно считать 50-м процентилем). Для юпитериан, как видноиз рис.
2.4Б, 25-й и 75-й процентили равны соответственно 34см и 40 см. Конечно, медиана и процентили, в отличие от среднего и стандартного отклонения, не дают полного описания распределения. Однако между 25 м и 75-м процентилями находится половина значений, – значит, мы можем судить, каков ростомсредний юпитерианин.
По положению медианы относительно25-го и 75-го процентилей можно судить о том, насколько асимметрично распределение. И наконец, теперь мы примерно знаем, кто на Юпитере считается высоким (выше 75-го процентиля), а кто ростом не вышел (ниже 25-го процентиля).Для описания распределения чаще всего применяют 25-й и75-й процентили. Однако можно рассчитывать любые другиепроцентили.
Например, в качестве границ нормы лабораторныхпоказателей часто используют 5-й и 95-й процентили.Вычисление процентилей — хороший способ разобраться втом, насколько распределение близко к нормальному. Напомним, что для нормального распределения 95% значений заключено в пределах двух стандартных отклонений от среднего и68% — в пределах одного стандартного отклонения, медианасовпадает со средним. Соответствие между процентилями ичислом стандартных отклонений от среднего таково (см.
такжерис. 2.5):Процентили2,516508497,5Отклонения от среднегоµ – 2σµ–σµµ+σµ + 2σЕсли соответствие между процентилями и отклонениями отсреднего не слишком отличается от приведенного, то распределение близко к нормальному и его можно описать при помощисреднего и стандартного отклонения.36ГЛАВА 2Рис. 2.5. Нормальное распределение, соответствие между числом стандартных отклонений от среднего и процентилями.Есть еще одна, и очень важная, причина, по которой нужнознать, близко ли распределение к нормальному.
Дело в том, чтомногие методы проверки гипотез, в частности рассматриваемыев гл. 2, 4 и 9, основаны на предположении что распределениеблизко к нормальному. Только в этом случае эти методы будутнадежны. (Методы, не требующие нормальности распределения, изложены в гл. 10)ВЫБОРОЧНЫЕ ОЦЕНКИДо сих пор нам удавалось получить данные обо всех объектахсовокупности, поэтому мы могли точно рассчитать значения среднего, дисперсии и стандартного отклонения. На самом деле обследовать все объекты совокупности удается редко: обычно довольствуются изучением выборки, полагая, что эта выборка отражает свойства совокупности. Выборку, отражающую свойствасовокупности, называют представительной.
Имея дело с выборкой, мы, конечно, не узнаем точных значений среднего и стан-КАК ОПИСАТЬ ДАННЫЕ37дартного отклонения, но можем оценить их. Опенка среднего,вычисленная по выборке называется выборочным средним. Выборочное среднее обозначают X и вычисляют по формуле:X=∑X .nгде n – объем выборки.Оценка стандартного отклонения называется выборочным стандартным отклонением (s) и определяется следующим образом:∑( X − X )2.n −1Эта формула отличается от формулы для стандартного отклонения по совокупности. Во-первых, среднее µ заменяетсяего выборочной оценкой — X . Во-вторых, в знаменателе изчисла членов выборки вычитается единица. Строгое обоснование последнего требует основательной математической подготовки, поэтому ограничимся следующим объяснением.
Разбросзначений в пределах выборки никогда не бывает столь большим,как во всей совокупности, и деление не на n, а на n – 1 компенсирует возникающее занижение оценки стандартного отклонения.Подытожим. Если известно, что выборка скорее всего принадлежит к совокупности с нормальным распределением, лучше всего использовать выборочное среднее и выборочное стандартное отклонение. Если есть основания полагать, что распределение в совокупности отличается от нормального, следует использовать медиану, 25-й и 75-й процентили.s=НАСКОЛЬКО ТОЧНЫ ВЫБОРОЧНЫЕ ОЦЕНКИВыборочное среднее и выборочное стандартное отклонение естьоценки среднего и стандартного отклонения для совокупности,вычисленные по случайной выборке.
Понятно, что разные выборки дадут разные оценки. Для характеристики точности выборочных оценок используют стандартную ошибку. Стандартную ошибку можно подсчитать для любого показателя, но сейчас мыостановимся на стандартной ошибке среднего, — она позволяет38ГЛАВА 2Рис. 2.6. Три случайные выборки из одной совокупности дают три разных оценки среднего и стандартного отклонения.оценить точность, с которой выборочное среднее характеризует значение среднего по всей совокупности.На рис.
2.6А представлено уже знакомое нам распределениемарсиан по росту. Мы уже знаем рост каждого марсианина. Посмотрим, что получится, если оценивать средний рост по выборке объемом, скажем, 10 марсиан.Из 200 обитателей Марса наугад выберем 10 и пометим ихчерными кружками (рис. 2.6А). На рис. 2.6Б эта выборка изображена в виде, принятом в журнальных публикациях. Точка и дваКАК ОПИСАТЬ ДАННЫЕ393035404550Рис. 2.7.
Такое распределение мы получим, выбрав 25 раз по 10 марсиан из совокупности представленной на рис 2 6А, и рассчитав среднее для каждой выборки (средние длятрех выборок с рис. 2.6 показаны заполненными кружками). Если построить распpeделение средних для всех возможных выборок, оно окажется нормальным. Среднее этогораспределения будет равно среднему той совокупности, из которой извлекаются выборки. Стандартное отклонение этого распределения называется стандартной ошибкойсреднего.отрезка по бокам от нее изображают выборочное среднее ( X =41,5 см) и выборочное стандартное отклонение (s = 3,8 см).
Этизначения близки, но не равны среднему по совокупности(µ = 40 см) и стандартному отклонению (σ = 5 см).Извлечем еще одну случайную выборку того же объема. Результат показан на рис. 2.6В. На рис. 2.6А попавшие в эту выборку марсиане изображены заштрихованными кружками. Выборочное среднее (36 см) по-прежнему близко к среднему посовокупности, хотя и отличается от него; что касается выборочного стандартного отклонения (5 см), то на этот раз оно совпалосо стандартным отклонением по совокупности.На рис. 2.6Г представлена третья выборка.
Попавшие в неемарсиане на рис. 2.6А изображены кружками с точками. Среднее и стандартное отклонение для этой выборки составляют соответственно 40 и 5 см.Теперь пора поставить добычу случайных выборок на промышленную основу. Рассмотрим совокупность средних для каждой из возможных выборок по 10 марсиан. Общее число такихвыборок превышает 1016. Три из них мы уже обследовали.
Средние по этим выборкам представлены на рис. 2.7 в виде заполненных кружков. Пустые кружки — это средние еще для 22 выборок.Итак, теперь каждому выборочному среднему соответствует кружок,40ГЛАВА 2точно так же, как до сих пор кружки соответствовали отдельному объекту.Посмотрим на рис. 2.7. Набор из 25 выборочных среднихимеет колоколообразное распределение похожее на нормальное.Это не случайно. Можно доказать, что если переменная представляет собой сумму большого числа независимых переменных, то ее распределение стремится к нормальному, какими быни были распределения переменных, образующих сумму.