Популярные услуги

Главная » Лекции » Социология » Анализ данных в социологии » Исследование структуры данных

Исследование структуры данных

2021-03-09СтудИзба

6. Исследование структуры данных

Собирая данные, исследователь руководствуется определенными ги­потезами. Полученная в ходе исследования информация относится к избранным предмету и теме исследования, но нередко она представ­ляет собой сырой материал, в котором нужно изучить структуру по­казателей, характеризующих объекты, а также выявить однородные группы объектов. Информацию лучше представить в геометрическом пространстве, лаконично отразить ее особенности в классификации объектов и переменных. Такая работа создает предпосылки к выявле­нию типологий объектов и формулированию «социального простран­ства», в котором обозначены расстояния между объектами наблюде­ния, позволяет наглядно представить свойства объектов.

Факторный анализ

Социологический смысл модели факторного анализа состоит в том, что измеряемые эмпирические показатели, переменные считаются следствием других, глубинных, скрытых от непосредственного изме­рения характеристик — латентных переменных. Например, если мы фиксируем степень доверия респондента к различным государствен ным институтам, то вполне логично предположить, что нет отдель­ных «доверий» к Государственной Думе, Совету Федерации, Счет­ной палате и т.п. Скорее у респондента есть общее отношение к институтам центральной власти, которое и определяет, как респон­дент отвечает на отдельные вопросы по доверию к каждому отдель­ному институту.

При этом важно, что это общее, единое отношение к государ­ственным институтам, формируя отношение к каждому из них, не определяет отношения к отдельному институту на 100%. Таким об­разом, ответ респондента на вопрос о том, насколько он доверяет ка­кому-то конкретному государственному институту, находится под влия­нием двух составляющих: общего фактора отношения к государствен­ным институтам и отдельного отношения именно к данному конкрет­ному институту.

Метод главных компонент. Один из наиболее распространен­ных методов поиска факторов, метод главных компонент, заключает­ся в последовательном поиске факторов. Вначале определяется пер­вый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д.

Для построения первого фак­тора берется прямая, проходящая через начало координат и облако рассеяния данных. Объектам можно сопоставить расстояния от их про­екций на эту прямую до центра координат, причем для одной из поло­вин прямой (по отношению к нулевой точке) можно взять эти расстоя­ния с отрицательным знаком. Такое построение представляет собой новую переменную, которую назовем осью. При построении фактора находится такая ось, чтобы дисперсия переменных вокруг оси была минимальна. (Заметим, что в определенном смысле эта первая ось строится по той же модели, что регрессионная прямая в регрессион­ном анализе.) Это означает, что эта ось объясняет максимум диспер­сии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эл­липсоида, фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.

Для поиска второго фактора строится ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненной первой осью. После нормировки ось становится вторым фактором. Если данные представляют собой плоский эллипсоид и трехмерном пространстве, два фактора позволяют точно описать эти данные.

Максимально возможное число главных компонент равно коли­честву переменных.

Интерпретация факторов. Как же можно понять смысл того, что скрыто в найденных факторах? Основной информацией, которую использует для этого исследователь, являются факторные нагрузки. Для интерпретации необходимо приписать каждому фактору какой-то термин, понятие. Этот термин появляется на основе анализа кор­реляций фактора с исходными переменными. Например, если при ана­лизе успеваемости школьников фактор имеет высокую положитель­ную корреляцию с оценкой по алгебре, геометрии и большую отрица­тельную корреляцию с оценками по рисованию, можно предположить, что этот фактор характеризует точное мышление.

Рекомендуемые материалы

Не всегда такая интерпретация возможна. Для повышения ин­терпретируемости факторов добиваются большей контрастности мат­рицы факторных нагрузок. Такое улучшение результата называется методом вращения факторов. Его суть состоит в следующем. Если вращать координатные оси, образуемые факторами, мы не потеряем в точности представления данных через новые оси, и при этом фак­торы не будут упорядочены по величине объясненной ими дис­персии, зато появляется возможность получить более контрастные факторные нагрузки.

Индивидуальные значения факторов. Математический аппа­рат, используемый в факторном анализе, в действительности позво­ляет не вычислять непосредственно главные оси. И факторные нагрузки до и после вращения факторов, и общности вычисляются за счет операций с корреляционной матрицей. Поэтому оценка значений факторов для объектов является одной из проблем факторного анализа. Факторы, имеющие свойства полученных с помощью метода глав­ных компонент, определяются на основе регрессионного уравнения. Известно, что для оценки регрессионных коэффициентов для стан­дартизованных переменных достаточно знать корреляционную мат­рицу переменных. Корреляционная матрица по переменным X. и Fk определяется по модели и матрице корреляций X.

Статистические гипотезы в факторном анализе. В SPSS пре­дусмотрена проверка теста Барлетта о сферичности распределения данных. В предположении многомерной нормальности распределения проверяется, не диагональна ли матрица корреляций. Если гипотеза не отвергается (наблюдаемый уровень значимости велик, скажем, больше 0,05)—нет смысла в факторном анализе, поскольку направления глав­ных осей случайны. Тест Барлетта предусмотрен в диалоговом окне факторного анализа, вместе с возможностью получения описательных статистик переменных и матрицы корреляций. На практике предполо­жение о многомерной нормальности проверить трудно, поэтому фак­торный анализ чаще применяется без использования теста Барлетта.

Выполнение факторного анализа. Метод факторного анализа находится в разделе Data Reduction

Проблема определения числа факторов. Как уже отмечалось, полное описание дисперсии исходных признаков возможно только в ситуации, когда число факторов равно числу исходных признаков. Ос­новная направленность факторного анализа — это именно сокраще­ние числа показателей, и, следовательно, мы идем на то, что получен­ные факторы не будут на 100% объяснять исходную информацию, и то, сколько же именно лроцентов будет объяснено, зависит от того, какое число факторов будет получено.

Первый подход — формально-статистический. Есть определен­ные математические основания, говорящие, что целесообразно отби­рать столько факторов, сколько существует собственных чисел корре­ляционной матрицы, больше единицы. Данный критерий называется критерием Кайзера. Отметим, что кри­терий Кайзера по отбору числа факторов в команде факторного ана­лиза SPSS используется по умолчанию.

Второй подход базируется на самостоятельном отборе числа фак­торов, ориентируясь на то, чтобы это число факторов объясняло тре­буемый процент общей исходной дисперсии. Например, если иссле­дователь решает, что факторная модель должна объяснять не менее 75% общей дисперсии исходных переменных, таблица общей диспер­сии показывает, что необходимо взять 10 факторов.

На какой процент объясненной дисперсии необходимо ориенти­роваться? Четких рекомендаций по определению этого процента не существует, кроме одной, вполне очевидной: «Чем больше, тем луч­ше». В этой ситуации, видимо, следует ориентироваться на примеры предыдущих исследователей. В социологии, как правило, встречают­ся факторные модели, в которых объясняется 60—75% дисперсии, хотя можно привести примеры и с большими, и с меньшими процентами.

Есть еще один подход, который базируется на методе так называе­мой каменной осыпи. Суть метода в следующем. Строится график, в котором по оси абсцисс откладываются номера факторов, а по оси ординат — значения собственных чисел для каждого из факторов. Как говорилось вначале, все собственные числа в методе главных компо­нент вычисляются в порядке убывания, поэтому график будет пред­ставлять собой понижающуюся кривую. Далее на этом графике определяют точки, в которых происходит более или менее резкое понижение.

Важно понимать, что ни один из изложенных подходов к опреде­лению числа факторов не дает нам доказательных оснований по от­бору числа факторов. У исследователя остается большая свобода в решении этого вопроса. Основным критерием является максималь­ное удобство в построении наиболее правдоподобной модели, что, естественно, ни в каком смысле не может считаться строгим осно­ванием.

Определение числа факторов происходит в меню Extraction, вызов которого осуществляется нажатием соответствующей клавиши в главном меню команды факторного анализа.

Уровень измерения переменных, используемых в факторном анализе. Поскольку исходной информацией для метода факторного ана­лиза является матрица коэффициентов корреляции Пирсона, это авто­матически диктует нам возможность использования в данном методе переменных, измеренных только по количественным (интервальным либо абсолютным) шкалам, либо дихотомических переменных.

Кластерный анализ

Если процедура факторного анализа сжимает матрицу признаков в матрицу с меньшим числом переменных, кластерный анализ дает нам группы единиц анализа, иначе — выполняет классификацию объек­тов. Иными словами, если в факторном анализе мы группируем столб­цы матрицы данных, в кластерном анализе группируются строки. Си­нонимами термина «кластерный анализ» являются «автоматическим классификация объектов без учителя» и «таксономия».

Если данные понимать как точки в признаковом пространств, задача кластерного анализа формулируется как выделение «сгуще­ний точек», разбиение совокупности на однородные подмножества объектов.

При проведении кластерного анализа обычно определяют pin личные типы расстояний на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и способов вычисления расстояний между объектами суще­ствует великое множество, их выбирают в зависимости от цели исследования. В частности, евклидово расстояние лучше использо­вать для количественных переменных, расстояние 2 — для иссле­дования частотных таблиц, имеются также меры для бинарных переменных.

Иерархический кластерный анализ

Процедура иерархического кластерного анализа в SPSS предусма ривает группировку как объектов (строк матрицы данных), так и пе­ременных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные.

Этот метод реализует иерархический агломеративный алгоритм, Его смысл заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, которые в ходе алго­ритма объединяются. Вначале берется N объектов и между ними по парно вычисляются расстояния. Далее выбирается пара объектов, ко шрые расположены наиболее близко друг от друга, и эти объекты объединяются в один кластер. В результате количество кластеров становится равным N - 1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут ис­пользоваться разные подходы. В SPSS предусмотрены следующие методы, определяемые на основе расстояний между объектами.

• Среднее расстояние между кластерами (Between-groups linkage).

• Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

•  Расстояние между ближайшими соседями — ближайшими объектами кластеров (Nearest neighbor).

• Расстояние между самыми далекими соседями (Furthest neigh­bor).

• Расстояние между центрами кластеров (Centroid clustering), или цеитроидный метод. Недостатком этого метода является то, что центр ofi ьединенного кластера вычисляется как среднее центров объединяе­мых кластеров, без учета их объема.

• Метод медиан — тот же центроидный метод, но центр объеди­ненного кластера вычисляется как среднее всех объектов (Median clustering).

•  Метод Варда (Ward's method). В качестве расстояния между мистерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.

Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут опреде­лять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации.

• Z-стандартизация (Z-Scores). Из значений переменных вычита­ется их среднее, и эти значения делятся на стандартное отклонение.

• Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от—1 до 1.

•  Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

• Максимум 1. Значения переменных делятся на их максимум.

• Среднее 1. Значения переменных делятся на их среднее.

•  Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение. ,

•  Возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это акту­ально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Кластерный анализ методом k-средних

Процедура иерархического кластерного анализа эффективна для ма­лого числа объектов. Ее преимущество в том, что каждый объект можно, образно говоря, пощупать руками. Но эта процедура не годится для массивов большого объема из-за трудоемкости агломеративного алгоритма и слишком большого размера и практической бессмыслен­ности дендрограмм.

В такой ситуации наиболее приемлем алгоритм, носящий назва­ние метода «k-средних». Он реализуется в пакете командой меню k-means.

Алгоритм заключается в следующем: выбирается заданное число к точек и на первом шаге эти точки рассматриваются как «центры» кластеров. Каждому кластеру соответствует один центр. Объекты рас­пределяются по кластерам по принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляют центры этих кластеров, которыми пос­ле этого момента считаются покоординатные средние кластеров. После этого опять перераспределяют объекты. Вычисление центров и пере­распределение объектов происходит до тех пор, пока центры не ста­билизируются.

Часто переменные, используемые в кластеризации, имеют раз­ный диапазон изменений, например рост и вес, килограммы и грам­мы. В этих условиях основное влияние на кластеризацию окажут переменные, имеющие большую дисперсию. Поэтому перед класте­ризацией полезно стандартизовать переменные. К сожалению, в дан­ной команде кластерного анализа средства стандартизации не пре­дусмотрены, в отличие от процедуры иерархического кластерного анализа.

Часть переменных может иметь неопределенные значения, рас­стояния до центров рассчитывают по определенным значениям. Для использования такой возможности в меню Options следует выбрать параметр обработки пропущенных данных Pairwise.

Говоря о допустимом уровне измерения для переменных при клас­теризации, необходимо помнить, что команда использует только евк­лидово расстояние. Следовательно, корректные результаты при при­менении данного метода можно ожидать только на основе метричес­ких переменных.

Лекция "2. Виды и порядок проведения пожароопасных работ" также может быть Вам полезна.

Ключевым вопросом, который необходимо решить при подготовке к кластерному анализу, является вопрос о количестве получаемых клас­теров. В силу специфики алгоритма метода k-means, в отличие от иерархического кластерного анализа, в данном случае в обязательном порядке требуется изначально задать количество получаемых класте­ров. (По умолчанию алгоритм предлагает делить на два кластера).

В выдаче распечатываются центры кластеров (средние значения переменных кластеризации для каждого кластера), получаемые на каж­дой итерации алгоритма. Однако для нас полезна лишь часть выдачи, помеченная текстом «Final centres». Интерпретация кластеров осуще­ствляется на основе сравнения средних значений, выдаваемых про­цедурой, а также исследования сохраненной переменной средствами статистического пакета.

Многомерное шкалирование

Многомерное шкалирование заключается в построении переменных на основе имеющихся расстояний между объектами. В частности, если даны расстояния между городами, программа многомерного шкали­рования должна восстановить систему координат (с точностью до поворота и единицы длины) и приписать координаты каждому горо­ду, так чтобы карта и изображение городов в этой системе координат зрительно совпали. Близость может определяться не только расстоя­нием в километрах, но и другими показателями, такими, как размеры миграционных потоков между городами, интенсивность телефонных звонков, а также расстояниями в многомерном признаковом простран­стве. В последнем случае задача построения искомой системы коор­динат близка к задаче, решаемой факторным анализом, — сжатию данных, описанию их небольшим числом переменных. Нередко важ­но наглядное представление свойств объектов: полезно придать коор­динаты переменным, расположить в геометрическом пространстве пе­ременные. С технической точки зрения это всего лишь транспониро­вание матрицы данных. Для определенности мы будем говорить о создании геометрического пространства для объектов, специально оговаривая случаи анализа множества их свойств. В социальных ис­следованиях методом многомерного шкалирования создают зритель­ный образ «социального пространства» объектов наблюдения или свойств. Для такого образа наиболее приемлемо создание двумерно­го пространства.

Основная идея метода состоит в приписывании каждому объек­ту значений координат, так чтобы матрица евклидовых расстояний между объектами в этих координатах оказалась близка к матрице расстояний между объектами, определенной из каких-либо соображе­ний ранее.

Метод весьма трудоемок и рассчитан на анализ данных, имею­щих небольшое число объектов.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5285
Авторов
на СтудИзбе
418
Средний доход
с одного платного файла
Обучение Подробнее