Популярные услуги

Описательная статистика

2021-03-09СтудИзба

2. Описательная статистика

Прежде всего рассмотрим простейшие количественные методы анализа данных. В зависимости от решаемых задач разделим их на три основных типа.

1. Одномерный описательный анализ раскрывает некоторые ха­рактеристики частотных распределений.

2. Двумерный описательный анализ связан с описанием формы и силы взаимосвязи между переменными, а также со сравнением зна­чений некоторой переменной в разных социальных группах.

3.  Объяснительный анализ направлен на выявление силы влия­ния переменных друг на друга.

Построение частотных распределений

Анализ частотных распределений результатов количественного социо­логического исследования — это первый шаг при обработке собран­ной информации. Во многих случаях этот анализ не является, строго говоря, анализом данных, а выполняет функции получения общих представлений об изучаемых социальных группах.

Первый шаг одномерного описательного анализа для объясне­ния какого-то явления — его описание. Результаты любого массового опроса содержат ответы большого числа респондентов на широкий круг анкетных вопросов. Даже в рамках только одного вопроса анке­ты объем исходной информации достаточно велик для того, чтобы можно было охватить его одним взглядом и каким-то образом сумми­ровать. Именно задачу сжатия исходной информации, компактного ее представления для дальнейшего осмысления и решают методы одно­мерного описательного анализа.

Одномерный описательный анализ решает поставленную задачу взаимодополняющими методами:

• построения частотных распределений;

Рекомендуемые материалы

• графического представления поведения анализируемой пере­менной;

• получения статистических характеристик распределения анализируемой переменной.

Использование статистических характеристик для анализа одномерных распределений

Одной из важнейших характеристик при описании поведения отдела ных переменных является показатель средней тенденции. В курсе «Ме­тоды социологического исследования» подробно обсуждаются вопро­сы уровней измерения, используемые в социологических анкетах, а также рассматриваются возможности применения различных мер цен­тральной тенденции для показателей с разным уровнем измерения.

Возможности использования различных мер средней тенденции цля шкал различного типа приведены в табл. 2.1.


Таблица 2.1.

Возможности использования различных мер средней тенденции для шкал различного типа

№  п/п

Уровень измерения

Допустимые меры средней тенденции

1

2

3

Номинальный Порядковый

Метрический

Мода

Мода, медиана

Мода, медиана, среднее арифметическое

Рассмотрим специфику использования мер средней тенденции для анализа социологических данных на примере среднего арифмети­ческого. Среднее арифметическое широко используется в повседнев­ной жизни и не нуждается в дополнительных рекомендациях. Вместе с тем использование только среднего арифметического для описания значений переменной таит определенную опасность.

Говоря о среднем значении некоторой переменной мы, по сути дела, заменяем рассмотрение всей совокупности значений этой пере­менной единственным показателем, фактически предполагая, что значе­ние этого показателя достаточно хорошо описывает поведение анализи­руемой переменной. Очевидно, что в данном случае среднее значение выступает в качестве определенной модели значений переменной.

Несомненно, что среднее арифметическое переменной представ­ляет совокупность значений этой переменной неполно и с возможны­ми ошибками. Зная, например, среднее значение зарплаты среди совокупности опрошенных, мы не можем достаточно точно определить зарплату того или иного респондента. Только в том случае, когда все значения переменной одинаковы, среднее значение абсолютно точно отражает поведение переменной. Во всех других случаях среднее ариф­метическое как модель переменной является моделью неточной. Сле­довательно, для нас важно знать не только значение данной модели, но и степень точности, качества этой модели.               

Рассмотрим данные о заработной плате пяти респондентов, лученные в ходе социологического исследования (табл. 2.2).

Таблица 2.2.

Данные о средней заработной плате, средне значение заработной платы, расхождение среднего и фактических данных

№ п/п

Значение заработной платы, руб.

Среднее значение, руб.

Расхождение реальной

зарплаты и среднего

значения, руб.

1

17 000

15 500

1500

2

13 000

15 500

-2500

3

18 000

15 500

2500

4

15 000

15 500

500

5

14 500

15 500

-1000

Данные, приведенные в табл. 1.5, можно представить в виде условной формулы:

Реальные данные = Модель + Остаток.

Расхождение реальных данных и модели в этой формуле называ­ется остатком.

В каком случае модель средней зарплаты будет с небольшой по­грешностью описывать реальные данные? Ключевым вопросом при анализе данных с помощью какой бы то ни было модели является оценка того, насколько хороша модель. Остатки дают нам эффектив­ный инструмент для оценки качества модели: очевидно, что модель тем лучше, чем меньше остатки.

Таким образом, наряду со средней характеристикой, которая удоб­на тем, что дает нам картину (вернее, часть картины) поведения значе­ний переменной, целесообразно иметь и еще одно число, которое оце­нивало бы качество средней как модели. Функции такой характеристи­ки выполняют меры разброса, наиболее известна среди них дисперсия. Фактически дисперсия представляет собой не что иное, как сум­му квадратов остатков, деленную на количество наблюдений:

,

где  — значение переменной х для i-го респондента;  — среднее значение переменной х; n — количество опрошенных респондентов. Недостатком дисперсии является то, что эту величину трудно и ценить интуитивно. Данные, представленные в табл. 2.2, имеют понятные нам единицы измерения — рубли. Поэтому мы сразу можем оценить, что за величина остатка, скажем, у респондента 4 — 500 руб. Понятна нам и размерность среднего показателя — 15 500 руб. Мы можем интерпретировать это значение, соотнося его с нашим зна­нием социальной действительности.

В то же время значение дисперсии для данных табл. 2.2 составляет 4 000 000. Едва ли мы можем, хотя бы на качественном уровне, оценить, большая эта величина или маленькая. Это значение не дает нам ответа на главный вопрос — хороша ли наша модель среднего ариф­метического, т.е. средней зарплаты. Причина того, что дисперсия пло­хо приспособлена для ответа на вопрос о качестве модели среднего, в том, что остатки берутся в квадрате. Для того чтобы преодолеть это затруднение, используют два производных от дисперсии показателя — стандартное отклонение и стандартная ошибка среднего.

Стандартное отклонение — это корень квадратный из диспер­сии. Стандартное отклонение для данных табл. 2.2 — 2000.

.

Стандартная ошибка среднего (с.о.) тоже широко использует­ся для решения задачи оценки качества среднего как модели с не­сколько иной стороны: она дает возможность соотнести величину  с генеральным математическим ожиданием. Последнее с вероятностью 0,95 лежит в интервале ( ± 2с.о.).

.

По табл. 2.2 значение стандартной ошибки среднего составлявяет 894. Таким образом, можно утверждать, что с вероятностью 0,95 математическое ожидание зарплаты должно лежать в интервале 15 500 ± 2894, или от 13 712 до 17 288 руб.

Подводя итог, необходимо подчеркнуть, что использование среднего арифметического без указания одного из показателей качества среднего как модели (дисперсии, стандартного отклонения, либо стандартной ошибки среднего) не дает возможности удовлетворительной интерпретации полученного среднего.

Проведенные рассуждения о необходимости дополнения характеристики средней тенденции показателем качества этой модели справедливо и в отношении тех переменных, которые измерены на номинальном или порядковом уровне. Для номинальных переменных мерой центральной тенденции может выступать только мода, т.е. наиболее часто встречающееся значение переменной. Мода не имеет какого-то показателя разброса. Определенной характеристикой может считаться лишь само процентное значение модальной величины. В качестве примера рассмотрим табл. 2.3, в которой приведено одно­мерное частотное распределение респондентов, проживающих в на­селенных пунктах разного типа.

В табл. 2.3 модальным значением является «2». Тот факт, что на, эту градацию приходится 53,7% всех опрошенных респондентов, го­ворит о том, что на все остальные градации приходится лишь 46,3%, что может указывать на разброс значений. Однако данное указание достаточно слабо, поскольку не показывает, как именно разбросаны данные по другим градациям анализируемой переменной.

Для переменных, измеренных на порядковом уровне, основной мерой центральной тенденции является медиана. Рассчитаем медиану для переменной q23: Насколько вы удовлетворены состоянием своего здоровья?, которая фиксирует ответы респондентов по 7-балль­ной порядковой шкале (табл. 2.4).

Таблица 2.3.

Одномерное частотное распределение переменной

CITY «Тип населенного пункта»

№ п/п

Населенный пункт

Количество

Процент

Накопленный

процент

1

2

3

4

Москва

Областной центр

Малый город в области

Сельский населен­ный пункт

520

1300

350

250

21,5

53,7

14,5

10,3

21,5

75,2

89,7

100,0

Итого

2420

100,0

Медиана является такой точкой на шкале, которая делит всю совокупность опрошенных на две равных части — тех, кто отметил градации меньше этой точки (либо равные ей), и тех, кто отметил градации больше этой точки. Из табл. 2.4 видно, что в вопросе q23 градации 1, 2, 3 и 4 отметили 50,4% респондентов, и, следовательно, радация «4» является медианой.

Таблица 2.4.

Одномерное частотное распределение переменной q23

№ п/п

Ответ респондента

Количество

Процент

Накопленный процент

1

Полностью удов­летворен

336

12,2

12,2

2

355

12,9

25,1

S

388

14,1

39,2

4

308

11,2

50,4

5

322

11,7

62,1

6

360

13,1

75,2

7

Совершенно

685

24,9

100,0

неудовлетворен

Итого

2754

100,0

Наиболее распространенным показателем, характеризующим разброс значений переменной, измеренной на порядковом уровне, является квартильное отклонение. Чтобы понять смысл этого показа­теля, необходимо уяснить значение понятия квартиля.

Квартиль является естественным развитием медианы, с той раз­ницей, что квартильное разбиение делит всех респондентов не на 2, а на 4 части. Первый квартиль — это такая точка на шкале, значения меньше (либо равные) которой отметили 25% опрошенных. Второй квартиль — точка, меньше которой отметили 50% опрошенных (следова­тельно, второй квартиль совпадает с медианой). Наконец, третий квар­тиль — точка, градации меньше которой отметили 75% опрошенных.

В примере табл. 1.7 первый квартиль — это градация «2» переменной q29, поскольку градации «1» или «2» отметили 25,1% опрошенных. Второй квартиль (медиана) — «4», а третий квартиль — градация «6». Квартильное отклонение — это разница между третьим и первым квартилями. В рассматриваемом примере квартильное отклонение равно 4. При том что в целом рассматриваемая перемен­ная q23 имеет 7 градаций, квартильное отклонение, равное 4, может рассматриваться как достаточно большое, если рассматривать шкалу как метрическую, можно сделать вывод, что модель средней тенден­ции (в данном случае — медиана) неточно отражает поведение пере­менной, поскольку много респондентов имеют значения переменной, существенно отличающиеся от медианы.

Обдумывая логику разбиения совокупности значений перемен­ной на 2 (медиана), либо на 4 (квартили) равнонаполненных части, вполне можно поставить задачу разбиения и на 5, и на 10, и вообще на любое количество равных частей. Действительно, при анализе социологических данных иногда используются квинтильное (на 5 рав­ных частей) и децильное (на 10 равных частей) разбиения. Соответ­ственно применительно к таким разбиениям можно использовать та­кие меры разброса, как квинтильное и децильное отклонения.

Полезным и нередко используемым показателем при анализе ко­личественных переменных является децильное отношение. Продемон­стрируем использование данного показателя на примере. В ходе социологического исследования респондентам, в частности, задавался вопрос о размере их заработной платы на основном месте работы. При анализе данного показателя возникла потребность изучить, насколько высока неодно­родность значений получаемой респондентами заработной платы.

В качестве первого шага для решения этой задачи было построе­но децильное разбиение исследуемого показателя (табл. 2.5).

Таблица 2.5

Децильное разбиение для переменной «Размер вашего заработка за последний месяц»

Значение

Заработная плата

0

0

10

1800

20

3000

30

3600

40

50

4500

6000

60

7500

70

9000

80

11 100

90

15 000

Материалы табл. 2.5 говорят о том, что заработную пла­ту до 1800 руб. получают 10% опрошенных (граница первого деци-ля), а также о том, что 10% опрошенных получают зарплату в размере 15 000 руб. и выше (граница десятого дециля).

Децильное отношение — это отношение десятого дециля к пер­вому. Этот показатель демонстрирует, во сколько раз больше полу­чают 10% наиболее высокооплачиваемых респондентов по сравнению с 10% наименее оплачиваемых. В нашем примере децильное отношение составляет 8,3, что показывает степень неоднородности заработной платы.

Стандартизация показателей

Одной из задач, возникающих при одномерном анализе социологи­ческих данных, является сопоставление значения определенной пере­менной для конкретного респондента со средним значением этой пе­ременной в какой-то социальной группе. Например, если результаты опроса показали, что некий респондент за последний месяц потратил /0 руб. на покупку хлеба, и не зная средней величины затрат на по­купку данного вида товаров в том регионе, где проживает респон­дент, мы не можем сказать, много или мало денег потратил респон­дент на хлеб. Величина «70 рублей» может быть осознана и проинтерпретирована только в сравнении с затратами других респондентов. Для того чтобы сразу оценить относительную величину того или иного количественного показателя для конкретного респондента, ис пользуется метод стандартизации исходных данных.

Существует несколько различных подходов к стандартизации данных, но самый распространенный — это так называемая Z-стандартизация. Вычисление стандартизованной величины Zxi для значения переменной х для i-го респондента проводится по формуле

,

где — значение переменной для i-го респондента; — среднее зна­чение переменной х; S— стандартное отклонение для переменной х.

Значение показателя  для i-ro респондента более информативно с точки зрения задачи относительного положения данного респондента, чем значение исходной переменной . Действительно, из формулы следует, что если для i-го респондента  положительно, данный респондент имеет значение переменной х. большее, чем средний опрошенный респондент. Таким образом, знак Zxi сразу говорит нам о положени респондента (по переменной х) относительно других опрошенных.

После того как мы выяснили, большее или меньшее значение и переменной х имеет данный респондент по сравнению с другими опрошенными, необходимо узнать, насколько это значение больше или меньше, чем у других респондентов. Из свойств стандартного нормальной распределения следует, что 68% Zxi должны лежать в интервале от -1 до 1, а 95% — в интервале от -2 до 2. Таким образом, если по модулю значение Z. меньше единицы, мы можем сказать, что значение переменной х для данного респондента вполне типично. Если значение  по модулю находится от 1 до 2, можно говорить, что данный респондент по рассматриваемому показателю значительно отличается от среднего респондента. Наконец, если  по модулю превосходит 2, можно утверждать, что данный респондент резко отличается от среднего.

Использование стандартизованных переменных весьма полезно и при решении задачи сопоставления показателей, измеренных в раз­ных единицах. Например, в нашем распоряжении есть данные по оп­росам в России и США, и получается, что у российского респонден­та А средняя зарплата составляет 9000 руб. в мес, а у американского респондента В — 2000 долл. в мес. Очевидно, что, не зная значений средней зарплаты в России и США, мы не можем сказать, выше ли респондент А респондента В, с точки зрения средней заработной пла­ты, в их социальном кругу.

Если у нас есть возможность сопоставлять не исходные данные о величинах зарплат, а соответствующие стандартизованные показа­тели, мы легко можем ответить на поставленный вопрос.

Рекомендуем посмотреть лекцию "5 Преобразование координат".

Интервальное оценивание

Одномерное частотное распределение позволяет констатировать оп­ределенные закономерности в той совокупности респондентов, кото­рые были опрошены в ходе проведенного исследования. Однако объектом социологического исследования выступает, в абсолютном большинстве случаев, не та совокупность респондентов, которая не­посредственно опрашивается, а какая-то социальная либо социально-демографическая группа. Опрошенные респонденты выступают лишь кик представители этой группы, как выборка, которая призвана ре­презентировать поведение группы в целом. Поэтому возникает зако­номерный вопрос: как соотносится одномерное распределение, характеризующее поведение той или иной переменной в выборочной совокупности, с поведением этой переменной во всей анализируе­мой социальной общности? Иными словами, как можно перенести результат, полученный для выборки, на всю изучаемую генеральную совокупность?

Поскольку размер обследованной выборочной совокупности су­щественно меньше, чем генеральная совокупность, то перенесение результатов с выборочной совокупности на генеральную возможно шиш. с определенной точностью. Иными словами, если в ходе опроса получено, что в выборочной совокупности 6,9% опрошенных отвечали, что они «в целом довольны своей жизнью», это вовсе не зна­чит, что во всей генеральной совокупности своей жизнью довольны именно 6,9% населения. Выборочный метод дает нам правило, кото­рое позволяет, зная значение определенного параметра в выборочной  совокупности, оценить возможное значение этого параметра в генеральной совокупности.

Теоремы математической статистики говорят нам, что если выборка исследования реализуется с соблюдением определенных требований, результаты, полученные на выборке, могут быть перенесены на генеральную совокупность доверительных интервалов. Таким образом, если в выборочной совокупности оказалось 6,9% респондентов, довольных своей жизнью, в генеральной совокупности таких респондентов будет (6,9 ± Δ)%. Величина Δ называется максимальной ошибкой выборки, а интервал (6,9 - Δ, 6,9 + Δ) — доверительным интервалом; Δ вычисляется по формуле

где z — критические точки нормального распределения; S2 — дисперсия анализируемого показателя; n — объем выборки.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5184
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее