Популярные услуги

Взаимосвязь переменных

2021-03-09СтудИзба

3. Взаимосвязь переменных

Обработка данных отдельно по каждой из переменных является, как правило, первым, исходным этапом анализа собранной информации. Вместе с тем наиболее интересные вопро­сы, занимающие социологов, связаны с одновременным анализом зна­чений более одной переменной.

Обычный подход к анализу собранных данных предполагает формирование моделей типа: «социальные группы с разным уровнем образования (уровнем дохода, местом жительства и т.п.) отличаются по характеру проведения досуга (политическим предпочтениям, степени удовлетворенности жизнью и т.п.)». Другими словами, допускается, что существует переменная (скажем, принадлежность к определенной социальной группе), которая объясняет поведение других переменных. Таким образом, в этой модели у нас есть причина, и есть следствие. В традиционной терминологии объясняющие переменные называются независимыми, а объясняемые переменные—зависимыми.

В простейшем случае анализа двух переменных модель влияния представлена на рис. 3.1. Здесь влияние одной независимой перемен­ной ставится в центр изучения, а влияние других переменных на зависимую переменную выступает в качестве причины, формирующей остатки, т.е. не объясняемую данной моделью часть поведения зави­симой переменной. Если остаток невелик, можно считать, что наша модель описания поведения зависимой переменной с помощью независимой переменной достаточно точно объясняет собранные данные.

Функцию меры качества модели взаимосвязи переменных выпол­няют коэффициенты связи. Ниже мы подробно остановимся на коэффициентах связи, их особенностях и методах вычисления, но подход одина­ков — чем выше коэффициент, тем больше взаимосвязь переменных, тем выше качество модели, и тем, соответственно, меньше остаток.

Рис. 3.1. Объясняющая модель поведения зависимой переменной

Двумерные таблицы

К наиболее часто используемым инструментам изучения взаимосвязи двух переменных относятся методы анализа таблицы сопряженности. Анализ таблицы является весьма простым и наглядным, и вместе с тем эффективным инструментом изучения одновременно двух переменных. Двумерная таблица сопряженности для переменных ql и q2 (табл. 3.1) составлена по данным исследования «Мониторинг социальных и экономических перемен в России», которые получены из ответов на вопросы:

q10  Как бы вы оценили в настоящее время материальное положение вашей семьи?

Рекомендуемые материалы

ql2 Как бы вы оценили в целом политическую обстановку в России?

Таблица 3.1.

Таблица сопряженности для переменных ql0 и ql2

q 10 Как бы вы

оценили в настоящее время материаль­ное положение нашей семьи?

ql2 Как бы вы оценили в целом политическую обстановку в России?

Все­го

благопо­лучная, спокойная

напря­женная

критическая, взрыво­опасная

затрудняюсь ответить

Хорошее, очень

хорошее

Среднее

Плохое, очень плохое

Затрудняюсь ответить

Всего

12

20

11

0

43

48

478

160

6

692

47

666

701

15

1429

17

138

81

7

243

124

1302 953

28

2407

В табл. 3.1 на пересечении строк и столбцов находятся числа, показывающие, какое количество единиц анализа (в данном случае — респондентов) обладают одновременно данными градациями по перемен­ным q10 и ql2.  Внизу таблицы сопряженности располагаются суммарные данные по всем колонкам, а с правого края таблицы — аналогичные суммы по всем строкам. Иными словами, сбоку справа и снизу находятся одномерные частотные распределения для переменных, использован­ных в таблице.

Можно ли по данным табл. 3.1 сразу дать ответ на вопрос о наличии зависимости между переменными q10 и ql2? По всей веро­ятности, нет — стоящие в клетках таблицы числа ничего особенного не демонстрируют. Поставим вопрос иначе — а что, собственно, мы ищем? По всей видимости, при наличии зависимости между пере­менными q10 и ql2 при разных значениях переменной q10 поведение данных по переменной ql2 будет различным. Если говорить о приме­ре табл. 3.1 — это значит, что респонденты, по-разному оцениваю­щие свое материальное положение, будут по-разному оценивать по­литическую обстановку в России.

Если бы количество респондентов, имеющих различные значе­ния переменной q10, было одинаковым, в табл. 3.1 можно было бы сравнивать между собой строки и оценить, насколько схожи значения в клетках, располагающихся в одной колонке. Однако количество рес­пондентов по строкам сильно разнится, поэтому для такого сравне­ния построим таблицу, в клетках которой располагаются не абсолют­ные количества единиц анализа, а процент от сумм по строкам. Дру­гими словами, число респондентов в каждой строке берется за 100% и от этого числа считается процент в каждой клетке таблицы. Таким образом, мы как бы нормируем каждую строку таблицы и получаем возможность сравнения распределений по строкам (табл. 3.2).

Таблица 3.2 показывает, что оценка политической ситуации в России значительно отличается по группам респондентов, по-разному оценивающих материальное положение своей семьи, и, следовательно, имеется определенная зависимость между переменными q10 и ql2.

При анализе зависимостей двух переменных важнейшим являет­ся вопрос о том, какую из переменных считать зависимой, т.е. подвер­женной влиянию, а какую — независимой, т.е. влияющей. В табл. 3.1 и в последующих рассуждениях предполагалось, что оценка матери­ального положения семьи — независимая переменная, иными слова­ми, она влияет на оценку политической ситуации, которая, следова­тельно, выступает зависимой переменной. Если мы поменяем местами переменные в модели и будем считать, что оценка политической ситуации оказывает влияние на оценку материального положения се­мьи, целесообразно изменить таблицу и проводить нормирование не in сумм по строкам, а от сумм по колонкам. Таблица 3.3 построена именно таким образом, т.е. использованы данные табл. 3.1, но нор­мированные по колонкам.

Таблица 3.2.

Таблица сопряженности переменных ql0 и ql2, %

q 10 Как бы вы

оценили в настоящее время материаль­ное положение нашей семьи?

ql2 Как бы вы оценили в целом политическую обстановку в России?

Все­го

благопо­лучная, спокойная

напря­женная

критическая, взрыво­опасная

затрудняюсь ответить

Хорошее, очень

хорошее

Среднее

Плохое, очень плохое

Затрудняюсь ответить

Всего

9,7

1,5

1,2

0

1,8

38,7

36,7

16,8

21,4

28,7

37,9

51,2

73,6

53,6

59,4

13,7

10,6

8,5

25,0

10,1

100,0

100,0

100,0

100,0

100,0

Очевидно, что при решении вопроса о зависимости между пере­менными q10 и ql2 при анализе табл. 3.3 необходимо сравнивать рас­пределения по разным колонкам таблицы, а не по строкам. Такое сравнение показывает, что среди респондентов, оценивающих политическую ситуацию и России как критическую, материальное положение своей семьи оценивают как плохое 49,1% респондентов (колонка 3, строка 3 табл. 3.3). В то же время среди оценивающих политическую ситуацию опти­мистичнее, как напряженную, материальное положение своей семьи считают плохим 23,1% респондентов (колонка 3, строка 2 табл. 3.3).

Таблица 3.3.

Таблица сопряженности переменных ql0 и ql2, %

q 10 Как бы вы

оценили в настоящее время материаль­ное положение нашей семьи?

ql2 Как бы вы оценили в целом политическую обстановку в России?

Все­го

благопо­лучная, спокойная

напря­женная

критическая, взрыво­опасная

затрудняюсь ответить

Хорошее, очень

хорошее

Среднее

Плохое, очень плохое

Затрудняюсь ответить

Всего

27,9

46,5

25,6

0

100,0

6,9

69,1

23,1

0,9

100,0

,3

46,6

49,1

1,0

100,0

7,0

56,8

33,3

2,9

100,0

5,2

54,1

39,6

1,2

100,0

При анализе таблиц сопряженности крайне важно помнить, что мы, по сути дела, ищем наличие (или отсутствие) определенных ста­тистических, а не причинно-следственных зависимостей. Вопрос о том, какая из переменных является причиной, т.е. оказывает влияние, а какая меняется вследствие этой причины, не может быть решен не только с помощью анализа таблиц, но и любым другим формально-статистическим методом. Это вопрос понимания той модели, кото­рую мы проверяем методами построения таблиц либо другими статистическими приемами. Но результатом такой проверки не может быть утверждение: «наша модель верна», либо «наша модель неверна». Утверждать мы можем лишь то, что данные не противоречат (или, наоборот, противоречат) построенной модели, что само по себе от­нюдь не является гарантией ее справедливости.

Иллюстрацию этой мысли можно найти у О. Генри. В рассказе «Вождь краснокожих» главный герой предложил изящную модель для ответа на вопрос о том, почему дует ветер — потому, что деревья шатаются. Если собрать данные о ветре и поведении деревьев во время ветра, любой статистический метод покажет, что данные ни в коем случае не противоречат этой модели, что, видимо, и послужило Джиму основанием для столь глубокомысленного вывода.

Построение таблиц сопряженности в пакете программ SPSS осуще­ствляется с помощью команды Crosstabs.

Коэффициенты связи для номинальных переменных

В настоящее время существует множество числовых показателей для измерения степени и характера взаимосвязи двух переменных — ко­эффициентов связи. Наиболее известный из них — коэффициент .

Коэффициент

Оказывается, что сформулировать ответ на вопрос: что такое зависимость между ответами на два вопроса анкеты, удается довольно просто — от обратного. Другими словами, «зависимость есть отсутствие независимости». Этот, на первый взгляд, абсолютно не конструктивный ответ сильно продвигает нас вперед, поскольку в теории вероятностей существует строгий подход к определению независи­мости двух событий.

Два события считаются независимыми в том случае, если веро­ятность того, что они произойдут одновременно, равна произведе­нию вероятностей того, что произойдет каждое из них.

Если в массиве данных социологического исследования оказалось - мужчин ½ и ⅓  лиц с высшим образованием, то при отсутствии зависимости между полом и образованием мужчин с высшим образованием в массиве должно быть ½ × ⅓ = 1/6. Поскольку массив данных уже собран, можно подсчитать, какая в дей­ствительности в нашем массиве доля мужчин с высшим образовани­ем, и, если эта доля сильно отличается от 1/6, можно говорить, что гипоте­за о независимости между полом и наличием высшего образования не подтверждается.

Таким образом, мы получаем некоторый инструмент количествен­ной оценки степени независимости между двумя переменными. Если первый вопрос анкеты имеет три, а второй вопрос — два возможных варианта ответа, всего возможно шесть комбинаций ответов на эти им опроса. Для каждой из комбинаций мы можем вычислить вероятность ее (комбинации) появления в случае независимости этих пе­ременных и реальную относительную частоту появления этой комби­нации. Далее, находим разность между этими значениями для всех  этих шести возможных комбинаций.

Назовем то количество респондентов, которое должно быть в клетке таблицы в случае независимости двух событий, ожидаемой частотой. 1/2 *1/3*1000 = 166,7.

Как правило, реальные частоты  и  ожидаемые частоты разные во всех клетках. Следовательно, по нашему мнению, можно сделать вывод о том, что модель независимости переменных не подтверждается. Однако в простоте механизма получения такого важного вывода кроется определенная опасность. Ведь мы имеем дело со статистичес­кими данными. Может быть, расхождения между реальными и ожидае­мыми частотами носят случайный характер? Когда требуется делать те или иные выводы на основании статистических  данных, нам недостаточно простого сравнения нескольких чисел. Рас­хождения, равно как и совпадения этих чисел не могут служить доста­точным основанием сколь-нибудь серьезных заключений.

Механизм проверки гипотезы о независимости переменных не сколько сложнее. Вычисляется показатель, фиксирующий степень расхождения реальных и ожидаемых частот, коэффи­циент  (хи-квадрат):

,

где  — наблюдаемые частоты;  — ожидаемые частоты; n — число плеток в таблице.

Если бы мы получили  = 0, можно было бы однозначно говорить о точном совпадении этих частот, и, следовательно, о том, что модель независимости двух анализи­руемых переменных точно описывает реальные данные. Для случая же  > 0 хотелось бы найти какое-то точное значение Z, когда мы могли бы сказать: если  < Z,  маленький, можно считать, что отклонение наблюдаемых и ожидаемых частот незначительно и данные не противоречат модели независимости.

Сделать же это поможет то, что в математической статистик давно известно теоретическое распределение коэффициента  при условии, что в генеральной совокупности признаки независимы.  Теоретическое распределение коэффициента  рассчитаны для определенного числа степеней свободы , где N—число степеней свободы; r- число строк в таблице; с — число колонок.

Ограничения использования коэффициента . Важность метода проверки гипотезы о зависимости между переменными с использованием коэффициента  состоит в том, что в ходе построения этой модели не делают никаких опущений об уровне измерения самих пе­ременных. Иными словами, можно использовать данный метод при­менительно к переменным, измеренным на любом уровне. Этот метод является чрезвычайно важным при обработке социологических данных, поскольку анкетная информация, в подавляющем большин­стве случаев, содержит данные, измеренные на разных уровнях.

Однако одно ограничение применения коэффициента  все-таки есть. Доказано, что коэффициент  будет иметь теоретическое распределение  только в случае, когда ожидаемые частоты в таблице имеют значения 5 и более. Для корректного использования коэффициента  необходимо стремиться к тому, чтобы клеток с маленькими ожидаемыми частотами было как можно меньше.

Коэффициенты связи, основанные на

При использовании коэффициента  кроется неудобство, поскольку само по себе значение коэффициента ничего не значит. Действительно, информация о том, что  = 100, не говорит о наличии либо отсутствии взаимосвязи, поскольку для вывода об этом нужно еще знать число степеней свободы, а после этого необходимо заглянуть в табли­цу критических значений распределения . Хотелось бы иметь такой коэффициент, глядя на значение которого, можно сразу, хотя бы приблизительно оценить наличие либо отсутствие связи.

Эту проблему увидел Пирсон, который предложил коэффици­ент С, производный от , само значение которого уже говорит о на­личии либо отсутствии связи. Этот коэффициент носит название ко­эффициента сопряженности Пирсона:

,

где N—число опрошенных.

Как видно из формулы, с ростом значения  значение коэффи­циента С возрастает. При этом оно всегда больше нуля и меньше еди­ницы. Недостатком коэффициента сопряженности Пирсона является то, что поскольку его значение зависит oт N, сравнивать между собой величины С для разных таблиц, как правило, нельзя.

Более распространен  коэффи­циент сопряженности Крамера, обозначаемый обычно как V.

,

где N— число опрошенных; К— наименьшее из чисел (r, с), где r — число строк; с — число столбцов.

Равно как и коэффициент сопряженности Пирсона С, коэффи­циент  V меняется от нуля до единицы. Оба коэффициента принимают значение нуль при нулевом значении , т.е. в ситуации, когда анали­зируемые переменные независимы. Однако, в отличие от коэффици­ента С, который всегда меньше единицы, коэффициент V равен еди­нице в ситуации жестко детерминированной связи между перемен­ными, т.е. в случае, когда одному значению переменной А всегда со­ответствует только одно значение переменной В.

Однако два этих граничных значения, с интерпретацией кото­рых есть полная ясность, в практических исследованиях не встреча­ются. Что же означают те реальные значения коэффициента Крамера, с которыми обычно приходится иметь дело, скажем, 0,3? Ничего осо­бенного это не означает, кроме того, что, по всей видимости, значе­ние  достаточно велико и можно ожидать, что гипотеза о независи­мости анализируемых переменных не подтвердится. Интересно, что не существует таблиц критических значений для коэффициентов Пир­сона или Крамера. Для того чтобы оценить уровень значимости этих коэффициентов, необходимо определить уровень значимости коэф­фициента , который, собственно, и лежит в их основе.

Как можно проинтерпретировать ситуацию, когда для одной пары переменных коэффициент Крамера равен, например, 0,2, а для дру­гой — 0,5? Можно ли сказать, что вторая пара переменных сильнее взаимосвязана, чем первая?

Здесь мы фактически ввели понятие, которое используем в жиз­ни ежедневно и которое, вроде бы, вполне очевидно — сила связи. Так вот, это интуитивное понимание силы связи никак не может быть применено для работы с коэффициентами связи в таблицах сопря­женности. Большее значение , равно как и коэффициента Крамера, коэффициента Пирсона, либо какого-то иного, означает лишь умень­шение того уровня значимости , на котором отвергается гипотеза о независимости признаков. О характере же выявленной зависимости и о ее силе обсуждаемые коэффициенты ничего не говорят.

Коэффициенты связи, основанные на прогнозе

Поскольку «предсказание» в обыденной жизни ассоциируется, прежде всего, с предсказанием погоды, проиллюстрируем все выше­сказанные примеры из этой области. Предположим, вероятность того, что в Москве будет идти снег в случайно выбранный день года, составляет 0,06. Однако зимой эта вероятность составляет уже при­мерно 0,2. Таким образом, зная значение переменной «время года» для случайно выбранного дня, мы можем гораздо точнее предсказы­вать вероятность того, что в этот день пойдет снег.

Логика коэффициента, фиксирующего улучшение предсказания значений одной переменной на основании значений другой перемен­ной, весьма проста. Если назвать прогноз на основе значений только одной переменной первым прогнозом, а прогноз на основе двух пере­менных — вторым прогнозом, предлагаемые коэффициенты называ­ются коэффициентами, основанными на модели прогноза:

Ошибка при первом прогнозе - Ошибка при втором прогнозе

Ошибка при первом прогнозе

Пока мы обсуждаем коэффициенты, основанные на прогнозе более часто встречающегося значения. Это так называемый прогноз модального значения. Коэффициенты для такого прогноза называют­ся   (лямбда), их предложил Л. Гутман в 1941 г.

Что такое «первый прогноз» при модальном прогнозе? Это мо­дальное значение предсказываемой переменной, обозначим его как А, а процент, который соответствует значению А, — как РrА. При таком обозначении ошибка при первом прогнозе будет Р1 = 1 -РrА.

При втором прогнозе мы анализируем по очереди каждую строку таблицы и выбираем в каждой строке модальную частоту. Пусть модаль­ное значение в каждой строке будет Аi, а соответствующий процент — PrAi. Соответственно ошибка при предсказании значения в i-й строке составит Р=1-РrАi. Таким образом, ошибка при втором прогнозе будет средней ошибкой предсказания по каждой из строк таблицы:

/

Формула коэффициента, фиксирующего улучшение прогноза переменной, значение которой располагаются по столбцам таблицы, выглядит следующим образом:

У обсуждаемого коэффициента есть одна особенность, отличаю­щая его от коэффициента , В вычислении  строки и столбцы уча­ствуют не симметрично. Разумеется, таблицу можно повернуть на 90% и с точки зрения содержащейся в таблице информации от этой операции ничего не изменится. При таком повороте не изменятся значения коэффициентов  и коэффициентов, основанных на . Однако значение коэффициента  изменится. Это связано с тем, что в модели коэффициента  мы предсказываем значение одной пере­менной на основании значений другой и переменные включены в модель не симметрично. Фактически одна переменная рассматрива­ется как причина, а другая как следствие.

В этой связи наряду с переменной  которая фиксирует пред­сказание переменной, расположенной по колонкам таблицы, суще­ствует и переменная  , которая отражает улучшение предсказания переменной, расположенной по строкам на основании переменной, расположенной по столбцам. Наконец, когда мы не можем четко ска­чать, какая из переменных может рассматриваться как причина, а ка­кая как следствие, существует так называемая  , т.е. «лямбда симметричная», представляющая полусумму  и .

Поскольку коэффициенты , так же как и  — статистические меры, то в их отношении встает задача оценки уровня значимости. При вычислении коэффициентов  в па­кете SPSS в команде Crosstabs одновременно проводится вычисление уровней значимости а этих коэффициентов.

Достоинством коэффициентов  является то, что в отличие от коэффициента  либо производных от него само значение  и  имеет непосредственный смысл — это улучшение вероятности пра­вильного предсказания. Иначе говоря, если для некоторой таблицы =0,2, это означает, что мы можем предсказывать модальное значе­ние переменной, располагающейся по колонкам, зная совместное рас­пределение двух переменных на 20% точнее по сравнению с ситуаци­ей, когда мы не знаем этого распределения.

Однако это значение весьма условно. Действительно, коэффи­циенты  являются статистическими мерами и потому точное полу­ченное значение коэффициента бессмысленно. Ведь мы можем повторить опрос для другой выборки (с соблюдением той же процедуры ее построения) и тем не менее почти наверняка получим другое значение коэффициента , поскольку будут опрашиваться другие респонденты. Следовательно, гораздо важнее получить не точечное значение коэф­фициентов , а доверительный интервал.

При вычислении коэффициентов  командой Crosstabs наряду с точечными значениями вычисляются также и величины стандартных ошибок. Стандартные ошибки позволяют построить доверительные интервалы с задаваемыми уровнями значимости.

Из приведенных формул коэффициентов  следует, что у них есть очень существенный недостаток — в том случае, когда все мо­дальные частоты лежат в одной колонке либо в одной строке табли­цы, соответствующие коэффициенты всегда обращаются в нуль. Та­ким образом, равенство нулю коэффициентов  и — это необходи­мое, но не достаточное условие для независимости переменных, об­разующих таблицу.

Последнее свойство весьма неудобно. Действительно, хотелось бы иметь коэффициенты, которые обладают естественным свойством — равенство нулю всегда говорит о независимости. Этим качеством об­ладают коэффициенты, также основанные на прогнозе, но в которых прогнозируется не модальная частота, а весь спектр частот. Это коэф­фициенты  (тау) Гудмена — Краскэла.

Коэффициенты связи  для порядковых данных

В предыдущих рассуждениях о таблицах сопряженности и коэффици­ентах связи не делалось никаких ограничений либо допущений в отношении уровня измерения тех переменных, которые образуют таб­лицу. Не использовалась и информация о порядке следования града­ций в переменных. Очевидно, что если мы поменяем местами градации переменных, это никоим образом не скажется на значении коэф­фициентов , Крамера,  и .

Это является естественным для переменных, измеренных на но­минальном уровне. Действительно, номера, которые присваиваются градациям в таких переменных, имеют абсолютно условный смысл. Так, совершенно не имеет значения, присвоен ли в вопросе «Ваш пол» мужчинам код 1, 2 или 28. Главное, чтобы код, присвоенный мужчинам, отличался от кода, присвоенного женщинам.

Однако эти рассуждения становятся неверными, когда речь захо­дит о переменных, измеренных на порядковом уровне. Для такого рода переменных порядок расположения градаций уже существен, посколь­ку он фиксирует степень выраженности измеряемого свойства. Изме­рение взаимосвязи в таблицах, построенных с использованием по­рядковых переменных, вполне возможно и нередко делается с исполь­зованием коэффициентов , Крамера,  и . Но эти коэффициенты не используют данные о порядке следования градаций и, следова­тельно, лишают нас возможности использовать всю содержащуюся в переменных информацию. Для того чтобы устранить этот недоста­ток, наряду с перечисленными коэффициентами, для порядковых пе­ременных используют и другие меры связи — коэффициенты ранго­вой корреляции.

В настоящее время социологи используют коэффициенты ран­говой корреляции —  Спирмена,  Кендэла,  Гудмена — Краскэла. Рассмотрим правила вычисления коэффициента  Гудмена — Краскэ­ла как самого простого и часто используемого при анализе социоло­гических данных.

На первом шаге вычисления коэффициента  фиксируют S—ко­личества пар, в которых значение первой переменной не меньше зна­чений второй переменной, и D — количества пар, в которых значение первой переменной не меньше значений второй переменной. Имея значения S и D, можно непосредственно рассчитать коэф­фициент  по формуле:

.

Из формулы  следует, что коэффициент  может изменяться в интервале от-1 до+1. Вообще, коэффициент у имеет прямую вероятностную ин­терпретацию — это разность между вероятностями правильного и неправильного порядка для пары случайно извлеченных из выборки наблюдений. Именно так следует понимать силу связи, которая фик­сируется ранговыми коэффициентами корреляции. Поскольку для коэффициента у известно теоретическое распределение, то пакет SPSS одновременно со значением коэффи­циента вычисляет также и значение стандартной ошибки. Благодаря этому возможно построение доверительного интервала для коэффи­циента

Если необходимо решить задачу сравнения коэффициентов у, вы­численных для двух разных социальных совокупностей, необходимо:

•  определить доверительные интервалы для обоих коэффици­ентов;

•  посмотреть, пересекаются ли эти доверительные интервалы. Если они не пересекаются, то мы, с соответствующей доверительной вероятностью, можем утверждать, что эти коэффициенты различны.

Отличие ранговых коэффициентов корреляции от коэффициен­тов связи, основанных на  либо на модели предсказания, состоит в том, что фиксируют не только наличие либо отсутствие связи, но и, в случае наличия связи, ее направление. Это, несомненно, является до­стоинством данных коэффициентов, но в определенных случаях мо­жет являться и их недостатком. Дело в том, что ранговые коэффици­енты корреляции фиксируют только однонаправленность, монотон­ность формы зависимости (см. рис.).

 Например, для всех изобра­женных на рис. 2.6 зависимостей имеем значение коэффициента у, равное +1 или -1, несмотря на то что сами формы зависимости суще­ственно разные.

Что произойдет, если зависимость между переменными не име­ет однонаправленной связи, как, например, зависимости, изображен­ные на рис.?

 Оказывается, что в ситуации такого рода форм зави­симостей ранговые коэффициенты связи оказываются неэффектив­ными. Действительно, если может оказаться, что для части рес­пондентов, например тех, кто имеет малые значения переменной х (рис. график 1), значение рангового коэффициента связи будет отрицательное, а для тех респондентов, которые имеют большие зна­чения переменной х, значение рангового коэффициента будет поло­жительное, то общее значение рангового коэффициента может ока­заться равным нулю. И это при том, что, как показывает график, связь между переменными явно есть.

Таким образом, тот факт, что значение рангового коэффициенту корреляции равно нулю, говорит не об отсутствии связи, а лишь об отсутствии монотонной связи.

Если при изучении взаимосвязи двух порядковых переменных мы получили нулевое значение коэффициента ранговой корреляции, встает вопрос о том, как можно проверить, с какой из ситуаций мы имеем дело: между переменными вообще нет зависимости, или нет монотонной зависимости? Ответ достаточно прост: следует посчи­тать, скажем, коэффициент . Если этот коэффициент покажет на­личие связи при нулевом значении коэффициента у, очевидно, что мы имеем дело с наличием немонотонной связи между переменными.

Коэффициент корреляции Пирсона

В том случае, когда обе анализируемые переменные измерены по мет­рическим шкалам (интервальным либо абсолютным) появляется допол­нительная возможность измерения степени взаимосвязи между этими переменными — это коэффициент корреляции Пирсона. Формула для вычисления этого коэффициента корреляции достаточно проста:

,

Бесплатная лекция: "25 Защита информационных ресурсов" также доступна.

где х и у — средние значения переменных х и у соответственно; Sx и Sy — стандартные отклонения переменных х и у; N — количество наблюдений.

Из формулы следует, что коэффициент г фиксирует сте­пень того, насколько переменные х и у одновременно отклоняются от средних значений. Таким образом, в отличие от ранговых коэффи­циентов корреляции, которые замеряют монотонный характер связи между переменными, коэффициент корреляции Пирсона учитывает более узкий характер монотонности — линейность. Когда между переменными есть строгая линейная зависимость, значение коэффици­ента корреляции Пирсона будет равно +1 в случае положительной связи и -1 в случае отрицательной связи.

Когда мы рассматриваем совместное поведение двух метрических переменных, то целью социологического анализа является установле­ние взаимосвязи, зависимости между этими переменными. При исполь­зовании для решения этой задачи коэффициента корреляции Пирсона следует помнить, что нулевое значение этого коэффициента, строго говоря, свидетельствует только об отсутствии линейной зависимости. Это, в свою очередь, может свидетельствовать и об отсутствии вообще какой-либо зависимости, и о том, что зависимость есть, но она носит нелинейный характер. Установить с помощью данного коэффициента, с какой из этих ситуаций мы имеем дело в конкретном случае, нельзя. После вычисления коэффициента Пирсона для данных социоло­гического опроса, как и в случае ранговых коэффициентов корреля­ции, возникают две взаимосвязанные статистические задачи:

• является ли полученная величина коэффициента статистичес­ки значимой;

• каков доверительный интервал для полученного значения.

Команда Crosstabs, в случае запроса на вычисление коэффици­ента корреляции Пирсона, выводит таблицу, которая позволяет ре­шить обе задачи.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5209
Авторов
на СтудИзбе
431
Средний доход
с одного платного файла
Обучение Подробнее