Популярные услуги

Главная » Лекции » Медицина » Медицинская статистика » Основы корреляционного анализа

Основы корреляционного анализа

2021-03-09СтудИзба

Основы корреляционного анализа.

Наиболее простой вид связи между переменными величинами  --  это функциональная зависимость:y=f(x). Каждому значению x соответствует одно значение y.

В медицине и биологии чаще встречается более сложный вид зависимости, когда каждому x соответствует множество значений y  --  это корреляционная зависимость.

То есть имеем целое «облако» из точек в системе координат. Каждому значению xi соответствуем множество значений y, среднее арифметическое этих значений y̅i  называется условным средним.

Таким образом, среди множества точек с изменением x можно выделить точки, соответствующие условным средним yy̅, y̅, y̅,….y̅n. Если соединить эти точки кривой линией, то получим  линию регрессии, а соответствующая ей функция y=y̅(x)  --  функция регрессии.

Точно также, при изменении значений y, каждому yi соответствует множество значений x, их средние арифметические x̅i   --  условные средние, соединив их кривой , получаем вторую линию регрессии, ей соответствует функция регрессии: x=x̅(y).

x̅,y̅  --  общие средние. Это средние арифметические, вычисленные по всем значениям x и y.

Следовательно, в отличии от функциональной зависимости, корреляционная зависимость характеризуется двумя линиями регрессии:

Рекомендуемые материалы

уравнение регрессии.

В настоящее время изучение различных корреляций является важным разделом многих биологических дисциплин, поэтому возникает потребность в количественном измерении корреляции. Для этого служит ряд методов, наиболее распространённым из которых является вычисление коэффициента корреляции  --  это количественная характеристика связи (зависимости) между исследуемыми величинами.

1. Дисперсия суммы случайных величин. Корреляционный момент.

X и Y  --  случайные величины.

(1)    Z=X+Y  --   их сумма.

(2)    M[Z]=M[X]+M[Y]

Найдём D[Z]=D[X+Y] , для этого вычтем из уравнения (1) уравнение (2):

(3)    Z-M[Z]=X+Y-M[X]-M[Y]=(X-M[X])-(Y-M[Y])

Для сокращения записи обозначают:

Момент  --  это отклонение каждого значения случайной величины от её математического ожидания.

Возведём уравнение (3) в квадрат:  (Z-M[Z])2=((X-M[X])+(Y-M[Y]))2

ΔZ2=(ΔX+ΔY)2  , тогда

ΔZ2=ΔX2+ΔY2+2·ΔX·ΔY  --  это сумма квадратов отклонений.

Математическое ожидание от суммы квадратов отклонений это дисперсия:

D[Z]=D[X+Y]=M[ΔZ2]=M[ΔX2]+M[ΔY2]+2·M[ΔX·ΔY]=D[X]+D[Y]+2·M[ΔX·ΔY]

Принято обозначение: M[ΔX·ΔY]=K[X,Y]  --  корреляционный момент.

Основное свойства корреляционного момента:  если величины Xи Y независимы, то их корреляционный момент K[X,Y]=0. Обратное утверждение неверно.

Из последнего утверждения следует:

2. Теорема сложения дисперсий.

Если величины Xи Y независимы, то:

D[X+Y]= D[X]+D[Y]

Этой теоремой пользуются в теории погрешностей, при обработке результатов косвенных измерений. Так как входящие в расчётные формулы величины в большинстве случаев независимы, то подсчитывая среднюю квадратическую погрешность, суммируют квадраты всех их погрешностей.

3. Коэффициент корреляции (параметрический).

Корреляционный момент K[X,Y] – размерная величина, то есть зависит от выбора единицы измерения. Это затрудняет сравнение корреляционных моментов различных случайных величин, поэтому удобнее использовать безразмерную величину  --  коэффициент корреляции:

   --  это коэффициент корреляции для генеральной совокупности.

 

      --  средние квадратические отклонения  при n→∞

Но мы имеем дело с выборкой, n конечно, выборочные оценки M[X] и M[Y]  --  это x̅ и y̅  --  общие средние (средние арифметические всех значений X и  Y, которые мы имеем из выборки).

Поэтому для вычисления коэффициента корреляции для выборки, используют формулу:

Свойства коэффициента корреляции:

1). -1≤R[X,Y]≤+1

если R[X,Y]˃0  то корреляция называется положительной,

если R[X,Y]<0  то корреляция называется отрицательной.

2). если R[X,Y]≈1, зависимость между X и Y близка к линейной.

3).  , то X и  Yсвязаны линейной зависимостью:

y=ax+b

x=cx+d

Так как мы имеем дело с выборочной совокупностью, то имеем не множество значений X и  Y, а несколько пар выборочных значений: (xi,yi),  i=1 : n.

Так как коэффициент корреляции R[X,Y] вычисляется по выборке, то есть является статистической оценкой  ρ[X,Y]--  коэффициента корреляции генеральной совокупности, то  R[X,Y] вычислен с ошибкой. Встаёт вопрос: достоверно ли значение выборочного коэффициента корреляции?

4. Оценка значимости параметрического коэффициента корреляции.

Проверка коэффициента корреляции на достоверность осуществляется по критерию Стьюдента.

Н0: ρ=0,следовательно  R[X,Y] не достоверен (то есть коэффициент корреляции генеральной совокупности ρ=0, следовательно зависимости между  XиY нет).

где  σR  --  ошибка выборочного коэффициента корреляции R[X,Y]

для n<30                где n-2   число степеней свободы.

В таблице критерия Стьюдента по заданному уровню значимости α и числу степеней свободы: n-2  находим   .

если      Н0 принимаем.         Вывод:  R  недостоверен, за   висимости между XиY нет.

если      Н0 отвергаем.         Вывод:  R  достоверен, зависимость (корреляция) между XиY есть.

Если коэффициент корреляции достоверен, то можно переходить к построению линий регрессии и записать уравнение регрессии.

5. Построение линий регрессии.

Коэффициент корреляции R[X,Y]  указывает лишь на наличие связи двух величин, но не даёт возможности судить, как количественно изменяется одна величина относительно другой. Ответ на этот вопрос даёт регрессионный анализ.

Корреляционная зависимость характеризуется двумя линиями регрессии:

Если R[X,Y] =1, то это линейная зависимостьy=bx+a.

Если R[X,Y] ≠1,то условные средние y̅I  не лягут на одну прямую, но при R[X,Y] ≈1  (R=0,95,  R=0,85) можно провести усредняющую прямую. Так как имеем две линии регрессии:

то для y=y̅(x):

то для x=x̅(y):

σ(Y)=Sn(Y)           выборочные оценки среднего

σ(X)=Sn(X)           квадратического отклонения.

Так как обе линии регрессии проходят через точку с координатами (x̅,y̅),              где  x̅,y̅ --  общие средние, вычисленные по выборке, то уравнение регрессии имеет вид:

или:

6. Ранговый коэффициент корреляции.

Определить, есть ли связь между признаками  XиY, можно и с помощью рангового коэффициента корреляции. Он менее точен и не может использоваться для построения линий регрессии, но так как ранговый коэффициент корреляции легко вычислить, есть смысл воспользоваться им для первоначальной оценки связи между признаками.

Ранговый коэффициент корреляции вычисляется по формуле:

n  --  число пар x,y (объём выборки).

rxi  --  ранг по признаку  X

ryi   --  ранг по признаку  Y.

То есть ранги отдельно расставляются для XиY.

Так как RS эксп  вычислен по выборке, то он также нуждается в проверке на достоверность.

 Для этого RS эксп  сравнивают с RS критич , найденным в таблице ранговой корреляции ,для заданного уровня значимости α и числа степеней свободы n-2.

Н0:  RS эксп  не достоверен.

Если     |RS эксп| < RS критич          то   RS ,полученный по выборке не достоверен,           корреляции (зависимости)  между XиY нет.

Если     |RS эксп| ˃ RS критич          то   RS ,полученный по выборке  достоверен,           корреляция (зависимость)  между XиY есть.

Пример:  По критерию ранговой корреляции выяснить, есть ли корреляция между признаками XиY для уровня значимости α=0,05.

X

Y

rxi

ryi

(rxi-ryi)

(rxi-ryi)2

23

5

4

5

-1

1

21

1

3

1

2

4

24

4

5

4

1

1

20

3

1,5

3

-1,5

2,25

28

8

9,5

8

1,5

2,25

20

2

1,5

2

0,5

0,25

26

7

7

7

0

0

25

6

6

6

0

0

27

10

8

10

-2

4

28

9

9,5

9

0,5

0,25

Σ=15

n=10

α=0,05

Н0:  RS эксп  не достоверен, корреляции нет.

По таблице ранговой корреляции для α=0,05 и числа степеней свободы 10-2=8 находим: RS критич=0,64.

Так как        Н0  отвергаем.

Вывод: Ранговый коэффициент корреляции достоверен, корреляция между признаками XиY есть.

Вычислим параметрический коэффициент корреляции:

X

Y

xi-x̅

yi-y̅

(xi-x̅)(yi-y̅)

(xi-x̅)2

(yi-y̅)2

23

5

-1,2

-0,5

0,6

1,44

0,25

21

1

-3,2

-4,5

14,4

10,24

20,25

24

4

-0,2

-1,5

0,3

0,04

2,25

20

3

-4,2

-2,5

10,5

17,64

6,25

28

8

3,8

2,5

9,5

14,44

6,25

20

2

-4,2

-3,5

14,7

17,64

12,25

26

7

1,8

1,5

2,7

3,24

2,25

25

6

0,8

0,5

0,4

0,64

0,25

27

10

2,8

4,5

12,6

7,84

20,25

28

9

3,8

3,5

13,3

14,44

12,25

x̅=24,2

y̅=5,5

Σ=79

Σ=87,6

Σ=82,5

√∑̅=9,36

√∑̅=9,08

Проверка на достоверность:

Н0: ρ=0,следовательно  R[X,Y] не достоверен (то есть коэффициент корреляции генеральной совокупности ρ=0, следовательно зависимости между  XиY нет).

В таблице критерия Стьюдента по заданному уровню значимости α=0,05 и числу степеней свободы: n-2=10-2=8  находим   =2,31

Так как      Н0 отвергаем.         Вывод:  R  достоверен, зави

симость (корреляция) между XиY есть.

Построение линий регрессии:

Уравнение регрессии:

Контрольные вопросы.

1. Что такое корреляция?

2. Дисперсия суммы случайных величин. Корреляционный момент.

Вместе с этой лекцией читают "Литература".

3. Теорема сложения дисперсий.

4. Параметрический коэффициент корреляции .

5. Проверка параметрического коэффициента корреляции на достоверность.

6. Построение линий регрессии.

7. Ранговый коэффициент корреляции.

8. Проверка рангового коэффициента корреляции на достоверность.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
427
Средний доход
с одного платного файла
Обучение Подробнее