Автореферат (1137006), страница 2
Текст из файла (страница 2)
1987. № 6. C. 115; Докторов Б.3. О надежности измерения всоциологическом исследовании. Л.: Наука, 1979. C. 56; Клюшина Н.А. Причины, вызывающие отказ отответа // Социологические исследования. 1990. № 1. C. 17–29; Мягков А.Ю. Обеспечение анонимности всоциологическом опросе // Социологические исследования. 1999. №5. C. 45-61; Мягков А.Ю. Опросныеметоды сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8.
C. 36–49;Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. № 1/2. C. 27–39.5принципиальные требования,которым должны удовлетворять отдельныеалгоритмы заполнения. Р. Литтл разработал типологию отдельных алгоритмовзаполнения пропусков в зависимости от степени их простоты и информации,используемой при восстановлении пропущенных значений.
Однако на моментпубликации соответствующей работы (1978 год) этим автором быликлассифицированы всего 5 алгоритмов (подстановка среднего арифметического,регрессионное моделирование пропусков, множественное заполнение, HotDeck,случайный подбор в подгруппе). С тех пор было разработано довольно многоновых алгоритмов, которые до сих пор не систематизированы.Отдельные алгоритмы заполнения пропусков в российской литературеописывали Е.И. Злоба В.Ю. Королев, А.А.
Россиев, В.Е. Снитюк, П.Ю.Чеботарев,И.В. Яцкив. В англоязычной литературе отдельным алгоритмам заполненияпропусков посвящены работы К. Ву, Б. Дейлона, А.Демпстера, К. Эндерса,Дж. Гевики, Дж. Лью и Р. Чен, А. Конга, Р. Фей, У. Фулера, Г. Мидена, Г. Нортона,С. Липситца, Дж. Нелдера и Г. Смита, А. Гупты, Р. Гормана и Т. Сейновски,Г. Банга и Дж.
Робинса и многих других. Публикации, посвященные описаниюотдельныхалгоритмовзаполненияпропусков,составляютнаиболеемногочисленный класс работ, посвященных пропущенным значениям. На данныймомент это один из наиболее распространённых и активно развивающихсяподходов к работе с пропусками. Подтверждением этого является наличиебольшого числа статистических пакетов, включающих в себя модули длязаполнения пропусков с помощью различных алгоритмов.
Например, SPSS(модули Missing Value Analysis Multiple imputation), SAS , STATA, SOLAS, MICE,Mising Data Library for S-Plus.Работы, посвященные сравнению разных алгоритмов заполнения пропусков,появились в 1960–70-е гг. Для сравнения использовались не только разныеоснования (метод анализа данных, который предполагается использовать послезаполнения пропусков, и тип шкалы, по которой измерен признак, значениякоторого подлежат восстановлению), но и разные способы сравнения:теоретическое или экспериментальное. В соответствии со способами сравненияалгоритмов заполнения пропусков выделим два класса работ.Первый класс относится к 1960–70-м гг.
и посвящен результатамтеоретического сопоставления методов анализа данных и алгоритмов заполненияпропусков. Основной фокус работ этого класса находится в теоретическомописании связи между используемыми алгоритмами заполнения пропусков ирезультатами последующего анализа данных определенным методом.
Здесь можноназвать работы Р. Литтла, А. Афифи и Р. Илашоффа, Й. Хайтовски, С. Бака,6Ф. Йейтса. А из российских авторов - упомянутых выше Н.В. Вапника и Г.С.Лбова5, разработавших собственные подходы к заполнению пропусков.Второй класс работ, посвященных сравнению эффективности алгоритмовзаполнения пропусков, объединяет публикации, в которых представленырезультаты экспериментальных сравнений разных алгоритмов заполненияпропусков. Работы второго класса появились в конце 1980-х – начале 2000-х гг. Вэтом русле работали Л.
Чен, Дж. Гилман и О. Данн, Д. Рубин и Н. Шенкер6. Такимобразом, в работах, посвященных сравнению эффективности алгоритмовзаполнения пропусков, отчетливо виден переход от теоретического(дедуктивного) обоснования выводов к экспериментальному (индуктивному).Однако, упомянутые примеры как теоретического, так и экспериментальногосоотнесения методов анализа данных и алгоритмов заполнения пропусков непозволяют составить более или менее полных рекомендаций для исследователя повыбору последних. В качестве причин можно назвать два обстоятельства. Вопервых, работы названных авторов охватывают далеко не все даже самыераспространённые в социологии методы анализа данных. Во-вторых, в известныхпопытках сравнить эффективность разных алгоритмов заполнения пропусков неучитывается количество пропусков, имеющихся в данных.Проблема исследования заключается в (1) отсутствии описаниясоциологических ситуаций, в которых для ликвидации пропусков в данныхдопустимо их искусственное заполнение и (2) недостаточности наработок вобласти сравнительного анализа эффективности отдельныхалгоритмовзаполнения пропусков, в зависимости отхарактеристик исследовательскойситуации.Цель исследования — определить, в каких случаях допустимо искусственноезаполнение пропусков в социологических данных, и экспериментально сравнитьэффективность отдельных алгоритмов заполнения пропусков, в зависимости от5Little R.J.
Regression With Missing X's: A Review // Journal of the American Statistical Association. 1992. Vol.87. No. 420. P. 1227–1237; Afifi A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review ofthe Literature // Journal of the American Statistical Association. 1966. Vol.
61.No 315. P. 595–604; Haitovsky Y.Missing Data in Regression Analysis // Journal of the Royal Statistical Society. 1968. Series B (Methodological).Vol. 30.No. 1.P. 67–82; Buck S.F. A method of estimation of missing values in multivariate data suitable for usewith an electronic computer // Journal of the Royal Statistical Society. 1960. Series B (Methodological). Vol. 22.No.3.P.
302–307; Yates F. The Analysis of Replicated Experiments When the Field Results Are Incomplete // TheEmpire Journal of Experimental Agriculture. 1933. No.1. P. 129–142; Вапник В.Н. Восстановлениезависимостей по эмпирическим данным. М.: Наука, 1979; Лбов Г.С. Методы обработки разнотипныхэкспериментальных данных. Новосибирск: Наука, 1981.6Chan L.S., Gilman J.A., Dunn O.J. Alternative Approaches to Missing Values in Discriminant Analysis // Journalof the American Statistical Associationю 1996.
Vol. 71.No. 356. P. 842–844; Rubin D.B., Schenker N. MultipleImputation for Interval Estimation From Simple Random Samples With Ignorable Nonresponse // Journal of theAmerican Statistical Association. 1986.Vol. 81. No. 394.P. 366–374.7характеристик исследовательской ситуации: количествапропусков и используемого метода анализа данных.(доли) имеющихсяОбъект исследования – алгоритмы заполнения пропусков в данных.Предмет исследования – эффективность отдельных алгоритмов заполненияпропусков при использовании различных методов многомерного анализа данныхс учетом количества пропусков.В соответствии с целью, необходимо решить следующие задачи.1. Классифицировать основные причины появления отдельных пропусков(неответов респондентов на отдельные вопросы) в данных социологическихисследований, выявить и проанализировать связь между этими причинами истепенью случайности пропусков и на основе этой связи установить соответствиемежду причинами возникновения пропусков и допустимыми способами ихликвидации.2.
Дать систематическое описание основных алгоритмов заполненияпропусков в данных.3. Расширить типологию алгоритмов заполнения пропусков Р. Литтла,дополнив ее алгоритмами, разработанными позже.4. Разработать и теоретически обосновать методику экспериментальногосравнения эффективности различных алгоритмов заполнения пропусков в данных.5. Апробировать разработанную методику на «типичных» социологическихданных.Методологические и теоретические основания исследованияВ теоретико-методологическом плане ключевое значение для данногоисследования, особенно в части планирования и реализации методическогоэксперимента, имеют наработки Д.Рубина и Р.Литла: (1) введенная ими типологияотдельных пропусков по степени случайности (полностью случайные, случайные ине случайные пропуски), (2) установленное соответствие между типами пропускови допустимыми способами их корректировки после завершения сбора данных(доказательство применимости методов искусственного заполнения пропусковтолько для тех случаев, когда последние полностью случайны или случайны).
Этиположения были использованы нами при разработке методики эксперимента вкачестве обоснования возможности сравнения алгоритмов заполнения пропусковтолько в ситуации, когда пропуски полностью случайны или случайны. В даннойработе мы ограничились сравнением алгоритмов заполнения пропусков на примере8полностью случайных пропусков, что существенно сократило объем вычислений иоблегчило интерпретацию результатов.Для планирования методического эксперимента принципиальное значениеимеет предложенное Литтлом деление алгоритмов заполнения пропусков напростые и сложные.
Сложные алгоритмы, в свою очередь, Литтл разделил наглобальные и локальные. Данная классификация, дополненная 14-ю алгоритмами,описанными в литературе уже после выхода в свет работы Литтла, в нашемэксперименте стала основанием для формирования экспериментальной выборки изпяти сравниваемых алгоритмов. Выбор 1–3 алгоритмов из каждой группы позволилсократить количество экспериментально сравниваемых алгоритмов с 19,описанных в диссертации, до пяти.Информационная база исследованияВ качестве эмпирической базы для методического эксперимента былииспользованы данные проекта «Социальное партнерство и конфликт»(руководитель И.М.
Козина), выполненного в рамках программы фундаментальныхисследований НИУ ВШЭ в 2010 году. Исходный массив содержал результатывыборочного опроса 935 сотрудников, отобранных на 3-х промышленныхпредприятиях по 2-х ступенчатой выборке. На первой ступени отбиралисьструктурные подразделения, в которых планировалось проведение опроса, сучетом численности и структуры работников и возможностей доступа. На второйступени в отобранных подразделениях осуществлялась квотная выборка,рассчитанная пропорционально численности работников по должностным иквалификационным группам на каждом предприятии.