Автореферат (1137006), страница 4
Текст из файла (страница 4)
Указывается на принципиальное отличие задачпо «борьбе» с этими двумя видами пропусков. Констатируется, что настоящаяработа фокусируется только на неполных наблюдениях.Проанализированы достоинства и недостатки трех основных подходов кработе с отдельными пропусками: удалению неполных наблюдений, взвешиваниюполных наблюдений и заполнению пропусков.Представлена типология отдельных пропусков в зависимости от их степенислучайности. Вслед за Д.Рубином и Р.Литтлом выделены и описаны полностьюслучайные (MCAR –missing completely at random), случайные (MAR-missing atrandom) и неслучайные пропуски (NMAR –not missing at random). Описаны пятьформальных способов определения степени случайности отдельных пропусков вданных7.Теоретический анализ связи между типами пропусков по степенислучайности и допустимыми способами работы ними показал, что корректировке(с помощью одного из трех упомянутых выше подходов) после сбора данныхподдаются только полностью случайные и случайные пропуски.
Корректировать7Показатели DRSS, D Кука, DXX, процедура Дж. и П. Коэнов, алгоритм Литтла.15неслучайные пропуски после сбора данных нельзя, их можно только предупредитьна этапе планирования исследования и разработки инструментария. Поэтомунеслучайные пропуски исключаются из дальнейшего рассмотрения.Во втором параграфе выдвигается гипотеза о том, что тип пропусков,детерминируемый степенью их случайности (определяющей, как было сказановыше, допустимый способ ликвидации пропусков, в частности, использованиеалгоритмов заполнения), зависит от «содержательных» причин пропусков.
Поитогам обзора литературы, касающейся таких причин, сделан вывод, что авторысоответствующих работ не связывали эти причины с какими-то формальнымисвойствами пропусков, в частности, со степенью их случайности и выборомспособа ликвидации. В диссертации высказаны гипотезы о наличии и характеретакой связи. Причины систематизированы с точки зрения того, как они могутобусловливать степень случайности пропусков и, как следствие,«выводить»исследователя на допустимый способ «борьбы» с пропусками.Данное исследование касается только данных, полученных с помощьюопросов. Все причины неответов на вопросы в опросных исследованиях разделенына 3 класса: методологические (некорректные формулировки вопросов и перечнейальтернатив, сензитивность вопросов, «эффект интервьюера», ошибки впланировании и реализации выборке – опрос «не тех» или некомпетентных в темереспондентов и т.д.), социальные (уровень доверия социологическимисследованиям в обществе, влияние СМИ, стереотипы относительно допустимыхспособов изучения общественного мнения и т.д.) и психологические (склонностьскрывать свое мнение, неспособность респондента четко выражать свое мнение,боязнью осуждения собственного мнения со стороны общества и т.д.).
В результатеуказывается, что психологические и социальные причины приводят в первуюочередь к возникновению полностью случайных или случайных пропусков, аметодологические причины напрямую обусловливают неслучайные пропуски.В заключение параграфа обосновывается выбор для дальнейшегоисследования только одного способа работы с отдельными пропусками — ихзаполнение. Указаны следующие преимущества заполнения пропусков посравнению с удалением неполных наблюдением и взвешиванием полных: реально(а не искусственно, как при взвешивании) сохраняется запланированный объемвыборки; сохраняется вся известная информация, которая могла быть утеряна приудалении наблюдений с пропусками; не возникает смещений по другимпеременным, значения которых известны или в данный момент невосстанавливаются; запланированный анализ данных может осуществляться вобычном режиме.16Глава 2 «Алгоритмы заполнения пропусков в данных: описание и способысравнения» посвящена аналитическому обзору девятнадцати наиболеераспространенных в современной методической литературе алгоритмовзаполнения пропусков и методов их сравнения.
Аналитическая роль авторапроявляется в дополнении классической типологии алгоритмов заполненияпропусков Литтла и вычленении нерешенных проблем их сравнения.В первом параграфе предложена типология девятнадцати алгоритмовзаполнения пропусков. За основу взята классическая типология Р. Литтла, вкоторой на первом шаге все алгоритмы делятся на простые и сложные, а на второмшаге сложные алгоритмы подразделяются на глобальные и локальные. Вдиссертации типология Литтла, изначально охватывавшая пять алгоритмов, быладополнена четырнадцатью новыми алгоритмами.Далее дается систематическое описаниедевятнадцати алгоритмовзаполнения пропусков. Систематичность достигается единообразием логикиописания всех алгоритмов, предполагающей последовательное освещениеследующих пунктов: автор и время разработки алгоритма; математическая сущность алгоритма; достоинства и недостатки алгоритма; статистические пакеты, в которых алгоритм реализован.Сначала описываются шесть простых алгоритмов заполнения пропусков: спомощью мер центральной тенденции, подбора объектов (matching),предикативный подбор среднего значения, алгоритмов ColdDeck и HotDeck,моделирования пропусков с помощью регрессионных уравнений.
Затемобсуждаются пять сложных глобальных алгоритмов: метод Бартлетта, ЕМалгоритм, алгоритм Resampling, оценивание пропусков методом максимальногоправдоподобия, Байесово заполнение пропусков. Затем описываются восемьсложных локальных алгоритмов: Zet и ZetBraid, оценивание пропущенныхзначений с помощью метода наименьших квадратов, ковариационное заполненияпропусков, моделирование пропущенных значений с помощью нейронных сетей,множественное, последовательное и вероятностное заполнения пропусков.Описание достоинств и недостатков всех описанных девятнадцати алгоритмовсводятся в одну таблицу.В конце параграфа дан обзор основных статистических пакетов и модулейдля заполнения пропусков в данных: модули Missing Value Analysis и Multipleimputation пакета SPSS 19.0, SOLAS for Missing Data, S-Plus, MICE.Второй параграф представляет собой аналитический обзор имеющихся влитературе примеров обоснования применимости некоторых алгоритмов17заполнения пропусков в сочетании с определенными методами анализа данных.Так, в работах Литтла, Афифи и Илашоффа теоретически доказано, что длялинейного регрессионного анализа пропуски в значениях независимых переменныхпредпочтительно заполнять условным средним, а для однофакторногодисперсионного анализа — оценивать пропуски с помощью метода наименьшихквадратов.Далее обосновывается необходимость при выборе алгоритма заполненияпропусков более целостно подходить к исследовательской ситуации: учитыватьколичество пропусков и планируемый метод анализа данных.
В литературе описанопыт таких сравнений но при этом рассматриваются лишь отдельные алгоритмызаполнения пропусков применительно, главным образом, к одному методу анализаданных — регрессии. В заключение параграфа отмечено, что в работах посравнению разных алгоритмов заполнения пропусков прослеживается явнаятенденция: осуществляется постепенный переход от теоретического сравнения кэкспериментально-статистическому.Глава 3 «Методический эксперимент: сравнение эффективностиотдельных методов заполнения пропусков» посвящена описанию разработаннойавтором методики экспериментального сравнения эффективности алгоритмовзаполнения пропусков(с учетом исследовательской ситуации: количествапропусков и метода анализа данных после их заполнения) и результатов ееэмпирической апробации.Первый параграф посвящен: (1) обоснованию выбора методастатистического эксперимента для сравнения разных алгоритмов искусственногозаполнения пропусков, (2) описанию проблем, возникших при планированииэксперимента и (3) способов их решения в работе.Выбор в пользу экспериментально-статистического метода сделан с учетомуказанной выше тенденции перехода от теоретического к экспериментальностатистическому сравнению алгоритмов заполнения пропусков, а также ввидуявных сложностей математического плана, возникающих при теоретическомсравнении алгоритмов.Анализ задачи планирования экспериментапоказал, что такоепланирование требует решения трех основных проблем:1.
Существует большое количество алгоритмов заполнения пропусков.Необходимо обоснованно сократить количество сравниваемых алгоритмов.2. Не является очевидным, по каким параметрам сравнивать результатырассматриваемых методов анализаи с помощью какогокритериясравнивать результаты применения отдельных алгоритмов заполнения18пропусков к одной исследовательской ситуации.
Необходима разработкасистем таких параметров и критериев.3. Отсутствуютметодикиэкспериментального сравнения алгоритмовзаполнения пропусков. Необходима разработка такой методики.Первая проблема решалась на основе типологии Литтла, дополненной врамках диссертационного исследования (см. главу 2): из каждого из трехвыделенных типов для статистического эксперимента было отобрано от 1 до 3алгоритмов.Поскольку большинство сложных алгоритмов заполнения пропусковописаны разработчиками только теоретически и пока еще не получили реализациив доступных статистических пакетах, для эксперимента были отобраны одинсложный локальный алгоритм - множественное заполнение и один сложныйглобальный - ЕМ-алгоритм.