Диссертация (1136792), страница 12
Текст из файла (страница 12)
Поэтому данная группа просто не может быть помещена на общую шкалу социально-профессионального престижа.Существует достаточно много способов работы с пропущенными значениями. Разумеется, все они применимы только в тех случаях, когда речь идет о(абсолютно) случайных пропусках. Самый простой из них – удаление пропущенных значений, которое может быть сделано по одной из двух схем:а)Удаление всех неполных кейсов и, как следствие, анализ толькополных кейсов. Этот метод неудобен при включении в анализ большого количества переменных, что обычно ведет к удалению значительного количестваслучаев, даже при небольшой доле пропущенных значений в каждой из переменных.б)Удаление неполных кейсов попарно: оценки параметров рассчиты-ваются отдельно для каждой пары включенных в модель переменных, при этомудаляются кейсы с пропущенными значениями только в этой конкретной паре.С одной стороны, такой подход позволяет не удалять избыточное количествокейсов из-за пропущенных значений в факторах, не включенных в модель.
Сдругой стороны, в таком случае для каждой модели происходит анализ разногоколичества случаев, что ограничивает возможности сравнивать и сопоставлятьрезультаты моделирования.Основной минус удаления кейсов связан с тем, что исследователь добровольно уменьшает объем доступной информации, ведь удаляя неполный кейс, онтакже отказывается от всех ответов, которые этот респондент дал.
Это не являет-58ся проблемой при больших выборках, но при ограниченном числе опрошенныхможет сильно снизить возможности анализа. Кроме того, удаление кейсов ведетк смещению оценки параметров, если значения отсутствуют не совершенно случайно.Чтобы избежать подобных проблем, были разработаны две группы методов: импутация (восстановление) пропущенных значений и расчет параметровна основе функции максимального правдоподобия12.
Для них должны выполняться два главных условия: пропуски должны быть (совершенно) случайнымии для всех включенных в модель переменных соблюдается многомерная нормальность (multivariate normality).Самый простой и несовершенный метод восстановления данных – заменапропущенных значений средним, – что не приводит к смещению в результатах,но только в случае, если распределение переменной близко к нормальному. Иногда также можно выработать логические правила, благодаря которым на основенаблюдаемых значений можно заполнить пропущенное. Например, если человекуказал, что за последний год не работал, но оставил пропущенным ответ на вопрос о заработке за прошедший год, можно заключить, что заработок равен нулю(Gelman 2006, p.533).
Однако даже на этом примере видно, что у подобной стратегии есть большие шансы оказаться ложной.Более современным и при этом методологически сложным способом является импутация данных посредством регрессии. Она заключается в замещении пропущенных значений в конкретной переменной предсказаннымирегрессией значениями. При этом очевидно, что чем более влиятельные факторы будут включены в регрессию, тем точнее будет результат.На данный момент, говоря об импутации, чаще всего подразумеваютмножественную случайную импутацию (multiple random imputation). Этот метод позволяет одновременно восстанавливать значения в нескольких перемен-12Существуют и другие способы восстановления значения.
Так, есть техника сопоставления кейсов(matching), особенно актуальная для лонгитюдных исследований, но для данного исследования она нерелевантна.59ных, включенных в анализ. Для каждой из них строится отдельная серия регрессий, включающих все прочие переменные в качестве независимых факторов.Важным шагом в разработке этого подхода было добавление так называемогошума (noise) в импутируемые значения через добавление регрессионной ошибки в модель. Это позволяет избавиться от чрезмерного детерминизма импутации и вернуть элемент случайности в данные.Важно отметить, что на данный момент метод множественной импутации действительно хорошо проработан. Новейшие пакеты учитывают класс итип каждой переменной, что позволяет выбрать для нее правильную модель иснизить вероятность импутации невалидных значений.
Так что из ненегативных переменных, таких как доход, будут исключены значения меньшие нуля, если правильно задать тип фактора.Итак, множественная импутация имеет значительные преимущества посравнению с удалением кейсов или с заменой их средним: Добавление случайной ошибки позволяет получать (практически) несмещенные показатели всех параметров; Итеративная импутация дает возможность получения хорошей оценкистандартной ошибки; Это способ вероятностного восстановления пропущенных данных, а неотказа от информации (как в случае удаления кейсов) или ее сохранения (замена средними); Импутация позволяет получить более точные оценки параметров путемдобавления в модель вспомогательной переменной (auxiliary variable), никак несвязанной с теоретической моделью, проверяемой в ходе анализа13.Однако у множественной импутации есть и свои серьезные недостатки:13Вспомогательная переменная – это переменная, хотя бы умеренно скоррелированная с переменнымив модели, имеющими пропущенные значения, но при этом не являющаяся объясняющей (то есть ее не планируется включать в итоговую модель).
Ее включение в анализ помогает уменьшить стандартные ошибки коэффициентов, сокращая неточность и вариативность в импутированных значениях (Allison 2012).60 Нет гарантии, что истинные параметры действительно находятся в пределах установленного программой интервала. По сути, если исследователь хочетубедиться в том, что импутация на этих данных прошла успешно, он долженпровести отдельный «экспериментальный» анализ. Необходимо сделать подвыборку полных кейсов и случайным образом удалить в них часть ответов. Затемпровести на этих данных импутацию и сравнить результат с параметрами исходных полных данных.
Это достаточно трудоемкая операция, и далеко не все проводят ее, когда применяют метод множественной импутации; Возможен конфликт импутационной модели и аналитической модели,являющейся целью исследования. Такой конфликт может возникнуть в случаезаметных расхождений между двумя моделями. Например, если исследовательвключает в аналитическую модель дополнительные переменные или интерактивные эффекты либо нелинейные эффекты, которые не были учтены в импутационной модели.
В результате можно прийти к ошибочному выводу онезначимости таких эффектов. Это означает, что для разных аналитических моделей могут потребоваться разные импутационные модели, что делает непростой в применении метод еще более трудоемким; Множественная импутация – вероятностный метод, в качестве результата дающий исследователю набор «решений»: несколько баз данных (обычноот 3 до 5) с альтернативными импутациями пропущенных значений. И длядальнейшего анализа нельзя выбрать из них одну. Хотя теоретически все решения одинаково хороши, исследователь должен строить модели на каждой из полученных баз и затем объединять коэффициенты.
Хотя есть пакеты,упрощающие этот процесс (функция «pool» в пакете «mi»), все же для болеесложных видов моделирования, таких как моделирование структурными уравнениями, это остается заметной трудностью; В случае моделирования структурными уравнениями применение импутации ведет к снижению сходимости модели (non-convergence), так как требования к сходимости теперь распространяются и на модель импутации, и на61проверяемую теоретическую модель (то есть анализ должен быть успешноосуществлен, к примеру, 40 раз для 40 импутаций) (Lance, Vandenberg 2014); При всем существующем уровне неопределенности (uncertainty), полученные значения затем воспринимаются и обрабатываются как реальные. Хотяочевидно, что приписывание конкретному кейсу конкретного значения происходит случайным образом и может вести к неожиданным погрешностям.Альтернатива восстановлению данных посредством процедуры множественной импутации – метод наибольшего правдоподобия (maximum likelihood).Важно понимать, что ни одна из процедур, основанных на ML, не подразумевает восстановление (импутацию) значений.
Вместо этого данный метод предлагает иной подход к расчету коэффициентов и параметров модели. Выделяетсядва алгоритма, основанных на ML: максимальное правдоподобие с полной информацией (full information maximum likelihood, FIML) и подход на основе максимизации ожидания (expectation-maximization algorithm, EM).FIML оценивает параметры, используя только ту информацию, котораяуже доступна в неполном наборе данных.
Оценки параметров и стандартныеошибки рассчитываются путем максимизации функции правдоподобия. Оцениваются параметры генеральной совокупности, которые с наибольшей вероятность дали бы оценки параметров, полученные на основе анализируемойвыборки (с пропусками). То есть выбираются те оценки, которые максимизируют вероятность для наблюдаемых данных.Этот алгоритм чаще всего применяется для таких методов как моделирование структурными уравнениями, многоуровневое моделирование и моделирование роста (growth models). Так, алгоритм FIML встроен в пакет lavaan (R),предназначенный для моделирования структурными уравнениями.Второй алгоритм, EM, также не заполняет пропущенные значения, нооценивает параметры путем максимизации логарифмической функции правдоподобия полных данных, в два шага: E (expectation) и M (maximization).