Лекция 1 (1032384), страница 2
Текст из файла (страница 2)
Блок Д: Анализ реализаций нестационарных и переходных процессов.
Для анализа НСП используются специальные методы. Однако в ряде случаев можно использовать тот же подход, что и в стационарном случае.
Блок Е: Анализ реализации периодического или почти периодического процесса.
-
можно разделить случайную и периодическую составляющие путем фильтрации и рассматривать их отдельно. Потом учесть при интерпретации результатов.
-
можно рассматривать вместе записав гармоническую составляющую как -функцию с конечным средним квадратом.
Блок Ж : Специальные методы анализа,
- определение плотности распределения экстремальных значений
- определение числа пересечений нулевого уровня или превышение какого-либо значения.
Полученные в результате анализа сведения позволяют по известной структуре СП использовать полученные с определенной достоверностью оценки реализации в качестве составляющих векторов-признаков или в качестве симптомов в диагностических процедурах вычислительной диагностики.
2.ОПИСАНИЕ МЕДИКО-БИОЛОГИЧЕСКИХ ДАННЫХ
В рамках курса мы встретимся с двумя типами задач. Первый тип задач — как сжато описать данные. Этими задачами занимается так называемая описательная статистика. Задачи второго типа связаны с оценкой статистической значимости различий и вообще с проверкой гипотез. На этой лекции мы рассмотрим задачи первого типа — как наилучшим образом описать данные.
2.1. Среднее значение и стандартное отклонение. Медиана и процентили.
Если значения интересующего нас признака у большинства объектов близки к их среднему и с равной вероятностью отклоняются от него в большую или меньшую сторону, лучшими характеристиками совокупности будут само среднее значение и стандартное отклонение. Напротив, когда значения признака распределены несимметрично относительно среднего, совокупность лучше описать с помощью медианы и процентилей.
Если имеются данные обо всех объектах совокупности, то можно точно рассчитать среднее значение, дисперсию и, следовательно, стандартное отклонение (1-2)
где хi – значение признака, N – число членов совокупности.
Если распределение асимметрично, то для описания таких данных лучше подходит не среднее, а медиана – значение, которое делит распределение пополам, половина значений больше медианы, половина меньше(а точнее не больше). Для характеристики разброса в этом случае используются значения, не выше которых оказались 25 и 75% результатов измерений. Эти величины называются 25 и 75 процентилями (медиана – 50 процентиль). Медиана и процентили не дают полного описания разпределения. Но по положению медианы относительно 25 и 75 процентилей можно судить насколько асимметрично распределение.
2.2. Выборочные оценки
На самом деле обследовать все объекты совокупности удается редко: обычно довольствуются изучением выборки, полагая, что эта выборка отражает свойства совокупности. Выборку, отражающую свойства совокупности называют представительной. Имея дело с выборкой, мы не узнаем точных значений среднего и стандартного отклонения, но можем оценить их с помощью вычисления выборочного среднего и выборочного стандартного отклонения (3-4):
где n – объем выборки.
Пусть теперь из имеющейся совокупности будем извлекать случайные выборки одинакового объема. Вычислим среднее по каждой выборке, а также среднее и стандартное отклонение
по совокупности выборок. Величина
служит мерой точности, с которой выборочное среднее
является оценкой среднего по совокупности . Поэтому
носит название стандартной ошибки среднего.
Чем больше выборка, тем точнее оценка среднего и тем меньше его стандартная ошибка. Чем больше изменчивость исходной совокупности, тем больше изменчивость выборочных средних; поэтому стандартная ошибка среднего возрастает с увеличением стандартного отклонения совокупности.
Истинная стандартная ошибка среднего по выборкам объемом n, извлеченным из совокупности, имеющей стандартное отклонение , равна:
Собственно стандартная ошибка — это наилучшая оценка величины по одной выборке:
где s — выборочное стандартное отклонение.
В силу ЦПТ возможные значения выборочного среднего стремятся к нормальному распределению, поэтому истинное среднее по совокупности примерно в 95% случаев лежит в пределах 2 стандартных ошибок выборочного среднего.
ЗАДАЧИ
2.1. Найдите среднее, стандартное отклонение, медиану, 25-й и 75-й процентили для следующей выборки клинических оценок тяжести серповидноклеточной анемии: 0; 0; 0; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 3; 3; 3; 3; 4; 4; 5; 5; 5; 5; 6; 7; 9; 10; 11. Можноли считать, что выборка извлечена из совокупности с нормальным распределением? Обоснуйте свой ответ.
2.2. Найдите среднее, стандартное отклонение, медиану, 25-й и 75-й процентили для следующих данных продолжительности (в секундах) физической нагрузки до развития приступа стенокардии у 12 человек с ишемической болезнью сердца: 289; 203; 359; 243; 232; 210; 251; 246; 224; 239; 220; 211. Можно ли считать, что выборка извлечена из совокупности с нормальным распределением? Обоснуйте свой ответ.
2.3. Найдите среднее, стандартное отклонение, медиану, 25-й и 75-й процентили для следующих данных оценки проницаемости сосудов сетчатки: 1,2; 1,4; 1,6; 1,7; 1,7; 1,8; 2,2; 2,3; 2,4; 6,4; 19,0; 23,6. Можно ли считать, что это — выборка из совокупности с нормальным распределением? Обоснуйте свой ответ.
2.4. Были проанализированы библиографические характеристики 612 случайно выбранных статей, опубликованных в журналах Journal of American Medical Association, New England Journal of Medicine и Lancet с 1946 г. Одним из показателей было число авторов статьи. Было установлено следующее:
Год | Число обследованных статей | Среднее число авторов | Стандартное отклонение |
1946 | 151 | 2,0 | 1,4 |
1956 | 149 | 2,3 | 1,6 |
1966 | 157 | 2,8 | 1,2 |
1976 | 155 | 4,9 | 7,3 |
Нарисуйте график среднего числа авторов по годам. Может ли распределение статей по числу авторов быть нормальным? Почему?
РЕШЕНИЯ ЗАДАЧ
2.1. Среднее — 3,09; стандартное отклонение — 2,89; медиана — 2; 25-й процентиль — 1; 75-й процентиль — 5. Вряд ли данные извлечены из совокупности с нормальным распределением:
среднее довольно сильно отличается от медианы, медиана гораздо ближе к 25-му процентилю, чем к 75-му, а значит, распределение асимметрично. Поскольку среднее почти равно стандартному отклонению, в случае нормального распределения примерно 15% значений было бы меньше нуля. Поэтому отсутствие отрицательных значений также говорит против нормальности распределения.
2.2. Среднее — 244; стандартное отклонение — 43; медиана — 235,5; 25-й процентиль — 211; 75-й процентиль — 246. Выборка вполне может быть извлечена из совокупности с нормальным распределением: медиана близка к среднему и находится примерно посредине между 25-м и 75-м процентилями. Сравните с предыдущей задачей.
2.3. Среднее — 5,4; стандартное отклонение — 7,6; медиана —2,0; 25-й продентиль — 1,6; 75-й процентиль — 2,4. Выборку нельзя считать извлеченной из нормально распределенной совокупности: среднее не только не равно медиане, но даже превышает 75-й процентиль. Стандартное отклонение превышает среднее, при этом среди данных нет отрицательных значений (и не может быть по самой природе данных). Высокие значения среднего и стандартного отклонения обусловлены главным образом двумя «выпадающими» значениями — 19,0 и 23,6.
2.4. Распределение по числу авторов не может быть нормальным уже потому, что нормальное распределение непрерывно, а число авторов всегда целое. Кроме того, все 4 средних меньше двух стандартных отклонений. Это значит, что в случае нормального распределения какое-то число статей должно было бы иметь отрицательное число авторов. Следовательно, мы имеем дело с асимметричным распределением. К 1976 г. среднее число авторов резко возросло, однако стандартное отклонение возросло еще больше, так что теперь среднее меньше одного стандартного отклонения. Это говорит об увеличении асимметрии. Обратите внимание, что если бы авторы исследования привели не стандартное отклонение, а стандартную ошибку, мы не смогли бы прийти к этим выводам.