Автореферат (1137006), страница 3
Текст из файла (страница 3)
Минимальный объемвыборки на каждом предприятии составлял 300 работников.Выбор массива данных определяются тремя основными аргументами. Вопервых, в рамках опроса в основном затрагивались стандартные, несенситивныетемы. Во-вторых, данные собирались с помощью простых по форме анкетныхвопросов. В опроснике не использовались сложные для восприятия табличные играфические вопросы, сложные методики задавания вопросов (парные сравнения,семантический дифференциал и так далее). В-третьих, несмотря на упомянутуюпростоту собранных данных, разнообразие содержательных тем и типов шкал(номинальные, порядковые и интервальные), отраженных в опроснике данногоисследования, позволяет сформулировать содержательные задачи, решаемыекаждым из рассматриваемых в данной работе методов анализа данных.Перечисленные аргументы позволяют утверждать, что экспериментальныеданные получены на типичных, а не на уникальных социологических данных, и9предположить, что аналогичные или похожие результаты могут быть получены приреализации эксперимента по идентичной методике, но на других данных,типичных в том же смысле.Научная новизна работыНаучная новизна диссертационного исследования проявляется в том, чтоавтором были получены следующие результаты.1.
На основе рассмотрения корпуса релевантных научных публикацийпроанализирована связь между причинами возникновенияпропусков всоциологических данных и их типами: полностью случайными, случайными инеслучайными пропусками; даны рекомендации по выявлению ситуаций, вкоторых недопустимо искусственное заполнение пропусков.2. Впервые дано систематическое описание большинства известных алгоритмовзаполнения пропусков в социологических данных.3.
Классическая типология алгоритмов заполнения пропусков Р. Литтладополнена четырнадцатью новыми алгоритмами, В нее были добавленыалгоритмы ColdDeck, ЕМ, Бартлетта, Resampling, Zet, ZetBraid, предикативныйподбор среднего значения, оценивание пропусков методом максимальногоправдоподобия, оценивание пропущенных значений с помощью методанаименьших квадратов, Байесово заполнение пропусков, ковариационноезаполнения пропусков, моделирование пропущенных значений с помощьюнейронных сетей, последовательное заполнение пропусков, вероятностноезаполнения пропусков.4. Разработанаиапробированаметодикаэкспериментальнойоценкиэффективности заполнения пропусков с помощью различных алгоритмов, взависимости от количества пропусков в данных и метода последующего анализаданных (рассматривались методы анализа данных, чаще всего используемые всоциологических исследованиях).5.
Экспериментально установлено, что эффективность заполнения пропусковзависит в некоторых случаях (в частности, при построении регрессионныхмоделей с фиктивными переменными и расчете мер описательной статистики)не просто от метода анализа данных, но и от характера решаемойсоциологической задачи.10Основные положения, выносимые на защиту1. Выбор способа корректировки пропусков в ответах на определенные вопросы(удаление неполных наблюдений, взвешивание имеющихся данных илизаполнение пропусков) зависит от причин возникновения пропусков, наличиясвязи между этими причинами и степенью случайности порождаемых имипропусков (неответов).
Если пропущенные данные могут быть отнесены кполностью случайным (MCAR) или случайным (MAR), возникшие пропускиможно корректировать путем их заполнения или взвешивания выборки. Если жерезультаты анализа причин говорят о зависимости вероятности пропуска отвозможного ответа (неслучайный пропуск, NMAR), то такие отсутствующиезначения после сбора данных корректировать методом заполнения иливзвешивания выборки недопустимо.2.
Предлагаемая в диссертации система контролируемых параметров сравнениярезультатов применения ряда методов анализа данных позволяет оцениватьустойчивость этих результатов относительно использованного алгоритмазаполнения заданного количества пропусков. Эта система состоит изследующих совокупностей параметров, определенных, соответственно, дляперечисленных ниже методов анализа данных: для описательной статистики: для номинальных шкал - доля точныхподстановок (когда подставленное значение совпадает с истинным), мода икоэффициент качественной вариации; для порядковых шкал – доля точныхподстановок, медиана и квартильный размах, для интервальных шкал –среднее арифметическое и дисперсия. для факторного анализа – общий процент объясненной дисперсии и матрицафакторных нагрузок; для регрессионного анализа с фиктивными переменными – коэффициентдетерминации (R2) и ошибка измерения зависимой переменной; для однофакторного дисперсионного анализа – величина F-критерия и егоуровень значимости; для критерия «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровеньзначимости; для коэффициентов корреляции Спирмена и Пирсона - значениекоэффициента корреляции и его уровень значимости.самого3.
Эффективность алгоритмов заполнения пропусков определяется не только ихобъективными свойствами, но и различными сочетаниями следующиххарактеристикисследовательской ситуации, в которой эти алгоритмыиспользуются: долей пропущенных дынных, методом анализа, который будет11применен к данным после заполнения пропусков, характером решаемойсоциологической задачи.4. С помощью разработанной методики эффективность алгоритмов заполненияпропусков может исследоваться применительно к другим, не рассмотренным вдиссертации, методам анализа данных, что потребует разработки отдельнойсистемы контролируемых параметров оценки результатов для каждого такогометода.Теоретическая и практическая значимость работы.Полученные автором теоретические и методические результаты могут бытьиспользованы социологами, экономистами, политологами, маркетологами идругими специалистами в конкретных эмпирическихсоциологическихисследованиях.
В частности, могут использоваться: уточненная классификация причин возникновения пропусков; принципы обоснования допустимости разных способов ликвидациипропусков (удаление неполных наблюдений, взвешивание имеющихсяданных, искусственное заполнение пропусков), на базе анализа связи причинвозникновения пропусков (с использованием упомянутой классификации) истепени случайности последних; систематизированное описание математической сущности, достоинств инедостатков наиболее распространенных алгоритмов заполнения пропускови их классификация; методика проведения экспериментального сравнения эффективностиалгоритмов заполнения пропусков в зависимости от заданных характеристикисследовательской ситуации; схемы для выбора алгоритма заполнения пропусков в зависимости отзаданных характеристик исследовательской ситуации (доли имеющихсяпропусковиметодаанализаданных),рассматриваемыекакэкспериментальнополученныегипотезы,требующие дальнейшейстатистической верификации.Работа может служить базой для дальнейших методических исследований,направленных на оценку устойчивости выводов об эффективности алгоритмовзаполнения пропусков (в зависимости от количества пропусков и метода анализаданных), полученных по результатам эксперимента.В педагогической деятельности результаты диссертационного исследованиямогут быть использованы в рамках общих курсов по методологии сбора (способы12профилактики пропусков)и анализа социологических данных (способыкорректировки имеющихся пропусков), а также могут лечь в основу специальногокурса по работе с неполными социологическими данными.Апробация результатовРезультаты диссертации докладывались в рамках выступлений автора на:1.
Научно-исследовательском семинаре кафедры методов сбора и анализасоциологической информации НИУ ВШЭ для магистров 2-го года обученияпрограммы «Прикладные методы социального анализа рынков» с докладом«Сравнительный анализ алгоритмов заполнения пропусков в данных прииспользовании методов многомерного статистического анализа»;2. IV конференции памяти А.О. Крыштановского «Современные проблемыформирования методного арсенала социолога» (Москва, 2010) с докладом«Способы заполнения пропусков в данных массовых социологическихопросов»;3. V конференции памяти А.О.
Крыштановского «Социологические методы всовременной исследовательской практике» (Москва, 2011) с докладом «Опытиспользования регрессионного моделирования и ЕМ-алгоритма длязаполнения пропусков в данных массового социологического опроса»;4. VI конференции памяти А.О. Крыштановского «Современная социология —современной России» (Москва, 2012). Тема доклада «Экспериментальноесравнение эффективности пяти алгоритмов заполнения пропусков прииспользовании факторного анализа»;5.
XIV Междисциплинарном ежегодном научном семинаре «Математическоемоделирование социальных процессов» им. Героя Социалистического трудаакадемика А.А. Самарского (Москва, 2011) с докладом «Экспериментальноесравнение эффективности алгоритмов заполнения пропусков».Полученные в диссертации результаты встроены в процесс преподаванияряда дисциплин на факультете социологии НИУ ВШЭ: «Методы измерения всоциологии» (4-й курс бакалавриата, специализация «Прикладные методысоциологических исследований»), «Теория измерения в социологии» (1-й курсмагистратуры, программа «Прикладные методы социального анализа рынков»).13Логика и структура работыДиссертация состоит из введения, трех глав, включающих 6 параграфов,заключения, библиографического списка и приложений. Общий объем работы –221 страница, в том числе, 5 приложений на 66 страницах, 11 страницбиблиографии, 28 таблиц и 23 рисунка.
Диссертация имеет следующую структуру:ВведениеГлава 1. Отдельные пропуски в социологических данных: причины, виды иподходы к работе1.1. Типы отдельных пропусков и допустимые способы работы с ними1.2. Причины неответов на вопросы как детерминанты степени случайностипропусков и допустимых способов их ликвидацииРезюме первой главыГлава 2. Алгоритмы заполнения пропусков в данных: систематизированныйобзор2.1.
Основные алгоритмы заполнения пропусков в данных2.2. Имеющиеся наработки в области теоретического и экспериментальногосравнения алгоритмов заполнения пропусков в данныхРезюме второй главы.Глава 3. Методический эксперимент: сравнение эффективности отдельныхалгоритмов заполнения пропусков3.1.
Методика экспериментального сравнения эффективности алгоритмовзаполнения пропусков в данных: теоретическое описание3.2. Эмпирическая апробация разработанной методики экспериментальногосравнения эффективности алгоритмов заполнения пропусков в данныхРезюме третьей главыЗаключениеСписок использованной литературыПриложения14ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫВо Введении аргументируется актуальность и степень разработанноститемы диссертационной работы, формулируется проблема, объект и предметисследования, ставятся цель и задачи, перечисляются теоретико-методологическиеи информационные (база данных) основания работы, раскрывается новизна работыи значимость ее результатов, приводятся основные положения, выносимые назащиту.Глава 1 «Отдельные пропуски в социологических данных: причины, видыи подходы к работе с ними» посвящена систематизации различных элементовпроблемы отдельных пропусков в социологических данных, уточняются объект ипредмет исследования.В первом параграфе аргументируется справедливость отнесения наличияпропусков в данных к важным социологическим проблемам, рассматриваютсяосновные виды пропусков и известные способы «борьбы» с ними.Показано, что пропуски в данных несут серьезную угрозу качествуисследовательских результатов из-за снижения валидности результатов за счетсокращения размера выборки, возникновения в данных, а затем и в результатах иханализа систематических смещений, а также ограничений в применении некоторыхвидов анализа.Рассмотрены две формы неполной информации, встречающейся всоциологическом исследовании: недостижимые наблюдения и неполныенаблюдения (отдельные пропуски).