Автореферат (1137006)
Текст из файла
На правах рукописиЗангиева Ирина КазбековнаСравнительный анализ алгоритмов заполнения пропусковв социологических данныхСпециальность: 22.00.01 –Теория, методология и история социологииАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата социологических наукМосква-2012РаботавыполненаобразовательномвучрежденииФедеральномвысшегогосударственномавтономномпрофессиональногообразования«Национальный исследовательский университет «Высшая школа экономики».Научный руководитель:Официальные оппоненты:Толстова Юлиана Николаевнадоктор социологических наук, профессорТатарова ГульсинаГалеевнадоктор социологических наук, профессор.Федеральное государственноебюджетноеучреждение науки Института социологииРАН, главный научный сотрудникЧеботарев Павел Юрьевичдоктор физико-математических наук, старшийнаучный сотрудник.Федеральное государственное бюджетноеучреждение наукиИнститут проблемуправления им.В.А.
Трапезникова РАН,ведущий научный сотрудникВедущая организация:Федеральное государственное автономноеобразовательноеучреждение высшегопрофессионального образования«Государственный университет управления»Защита состоится 18 мая 2012 года в 13:00 на заседании диссертационногосоветаД 212.048.01 в Национальном исследовательском университете «Высшаяшкола экономики» по адресу: 101000, г. Москва, ул. Мясницкая, д. 20, ауд. 309.С диссертацией можно ознакомиться в библиотекеисследовательского университета «Высшая школа экономики».НациональногоАвтореферат разослан «17» апреля 2012 года.Ученый секретарьдиссертационного советакандидат экономических наукРощина Яна Михайловна2ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальностьБольшинство методов многомерного статистического анализа данных, такиекак факторный, кластерный, регрессионный анализ и многие другие, требуютотсутствия пропусков в анализируемых данных.
Однако в реальных исследованияхреспонденты по разным причинам не отвечают на отдельные вопросы, в результатечего в данных появляются пропуски, с которыми приходится бороться разнымиспособами. Первый способ, предлагаемый всеми известными статистическимипакетами, предусматривает автоматическое исключение из анализа наблюдений(наблюдением мы называем данные, отвечающие отдельному изучаемому объекту,чаще всего—респонденту) с пропусками, что ведет к снижению валидностистатистических выводов за счет сокращения размера выборки, возникновения вданных, а затем и в результатах их анализа, систематических смещений.
Позже наих основе могут быть приняты ошибочные стратегические решения, устранениенегативных последствий которых потребует дополнительных затрат.Чтобы сгладить указанные недостатки удаления неполных наблюдений,оставшиеся полные наблюдения иногда взвешивают. Этот второй способ вбольшинстве случаев проблему тоже не решает. Корректировка пропусков взначениях одной характеристики путем взвешивания по ней всех имеющихсянаблюдений вызовет неоправданные смещения в распределениях значенийостальных характеристик, для которых все значения могли быть изначальноизвестны.Исследователю необходимы практические инструменты для восстановленияотсутствующей информации. Эти инструменты обеспечивает третий (помимоудаления неполных наблюдений и взвешивания полных), на данный моментнаиболее перспективный и бурно развивающийся подход — искусственноезаполнение пропусков в данных.На сегодняшний день разработано множество алгоритмов заполненияпропусков, однако сведения о них пока что не систематизированы и разбросаны побольшому количеству работ.
Отсутствуют обзорные работы, дающиепредставление о специфике, достоинствах и недостатках хотя бы наиболеераспространенных в исследовательской практике алгоритмов заполнениипропусков. Крайне малочисленны и исследования, направленные насравнительную оценку применимости отдельных алгоритмов заполненияпропусков в конкретных исследовательских ситуациях. Сказанное позволяетсчитать, что работа, направленная на систематизацию методов заполненияпропусков в данных и выявление условий их эффективного использования всоциологии, является актуальной.3Разработанность проблемыРассмотрение проблемы использования в социологии алгоритмовзаполнения пропусков не может быть оторвано от условий применения другихспособов «борьбы» с пропусками, от анализа причин возникновения последних.Поэтому круг проанализированных в диссертации работ содержал отнюдь нетолько публикации, посвященные непосредственноалгоритмам заполненияпропусков, но и ряд работ, посвященных и другим аспектам изучения пропусковв данных статистических обследований(особенно социологических)1.Проведенный анализ показал, что такой подход оправдан.В работах, посвященных анализу случаев неполноты социологической(статистической) информации выделяются две большие темы: (1) недостижимостьреспондентов и (2) неответы на отдельные вопросы, или отдельные пропуски вданных.
Диссертация посвящена исключительно второй теме.В российской социологии изучением причин возникновения пропусков вданных, анализом роли пропущенных данных, разработкой отдельных алгоритмовзаполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник,Б.З. Докторов, Е.И. Злоба, Н.А.
Клюшина, Г.С. Лбов, В.Ю. Королев, О.М. Маслова,А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, Снитюк А.А., Г.Г. Татарова, Ю.Н.Толстова, П.Ю. Чеботарев, И.В Яцкив. Однако наиболее широкое освещениепроблематика работы с пропусками данных получила в работах западныхисследователей. Настоящая работа в значительной мере лежит в русле идей,предложенных западной школой.Три основных подхода к работе с отдельными пропусками — удалениенеполных наблюдений, взвешивание полных наблюдений и заполнениепропусков — анализировали и сравнивали между собой Р. Платек, Р. Литтл,Д.
Рубин2 и др. На данный момент основное внимание в литературе уделяетсязаполнению пропусков как наиболее перспективному подходу.В качестве фактора, определяющего выбор допустимого способа ликвидациипропусков, Р. Литтлом была выдвинутастепень случайности пропуска:1Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных встатистических обследованиях вообще, без привязки к конкретной тематике последних.
Однако ситуации,складывающейся в социологии, автор уделяет особое внимание. Проявляется это в основном приобсуждении характера случайности пропусков (где основноевнимание уделяется причинам ихвозникновения); выбора учитываемых методов анализа восстановленных данных (это – наиболееупотребительные в социологии методы, хотя они широко используются и в других отраслях науки),;выборе исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков.2Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada.
1980.No. 6. P. 127; Little R.J. Survey Nonresponse Adjustments for Estimates of Means // International StatisticalReview / Revue Internationale de Statistique. 1986. Vol. 54. No. 2.P. 140; Rubin D.B. Multiple Imputation forNonresponse in Surveys. New York: Willey, 1987. P. 64–66.4возможность считать пропуск неслучайным, случайным или полностьюслучайным3. Пропуски полностью случайны (missing completely at random —MCAR), если вероятность их возникновения не зависит ни от истинного значенияданного признака, ни от значений других признаков. Пропуски случайны (missingat random — MAR), если вероятность их возникновения обусловлена известнымизначениями других признаков, но не связана с признаком, значение которогопропущено. Пропуски неслучайны (not missing at random — NMAR), есливероятность неответа на вопрос зависит от самого значения признака (возможногоответа), которое могло быть получено, если бы ответ был дан.В данной работе не рассматриваются иные типологии пропусков (например,деление на реальные и артефактные, возникшие после удаления самимисследователем заведомо ложных значений), так как они, в отличие от типологиипо степени случайности, не определяют допустимые способы работы с пропускамисоответствующего типа.Степень случайности пропуска в социологических исследованиях не впоследнюю очередь зависит от причины его возникновения.
Основные причинынеответов респондентов на отдельные вопросы анализировали Р. Фербер,А. Шински, Г. Эссер, Т. Даублер, Р. Платек. Из российских авторов,разрабатывавших данную тематику, назовем упомянутых выше О.М. Маслову иВ.Г. Андреенкова, Б.З. Докторова, Н.А. Клюшину, А.Ю. Мягкова, И.Б.
Назарову4.Однако работы, содержащие анализ того, как именно причины пропусковопределяют степень случайности признака, нам неизвестны.Подводя итог сказанному, констатируем актуальность выработкирекомендаций по выбору допустимого способа ликвидации пропусков взависимости от причин пропусков и определяемой этими причинами степени ихслучайности.Общие принципы заполнения пропусков заложили в своих работах Р. Литтли Д. Рубин. Они сформулировали основные задачи заполнения пропусков и3См. например: Little R. J. A. A test of missing completely at random for multivariate data with missing values //Journal of the American Statistical Association. 1988. No. 83. P. 1198–1202.4Ferber R.
Item Nonresponse in a Consumer Survey // Public Opinion Quarterly. 1966. Vol. 30. No 3. P.403–410;Sicinski A. Don't Know Answers in Cross-National Surveys // Public Opinion Quarterly. 1970. Vol. 34. No 1.P. 127; Esser H. Determinanten des Interviewer und Befragtenverhaltens: Probleme der theoretischen Erklarung undempirischen Undersuchung von Interviewreffekten // Allgemeine Bevolkerungsumfrage der Sozialwissenschaften.Frunkfurt, 1984. S.
56–60; Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002. P. 7–10; Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980.Vol.6. P. 97; Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки //Социологические исследования.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.