Диссертация (1136792), страница 13
Текст из файла (страница 13)
По сути, это итеративный процесс, идущий по следующему плану:а)Заполнение пропущенных значений оценкой их значений.62б)Оценка параметров на основе этого «полного» набора данных.в)Повторная оценка пропущенных значений на основе полученныхпараметров.г)Повторная оценка параметров на основе обновленного набора дан-ных.Последние два шага повторяются до достижения сходимости для оценкипараметров (см. Do, Batzoglou 2008).Главные плюсы алгоритмов, основанных на функции максимальногоправдоподобия, заключаются в следующем: Более точный расчет стандартных ошибок, что дает возможность болееточной оценки гипотез (в случае FIML); Дают более точные результаты при увеличении числа кейсов; Более асимптотически эффективны, чем множественная импутация; Всегда дают один и тот же результат для заданной базы данных, в товремя как множественная импутация всегда дает разные результаты, это связано с тем, чем она основана на симуляции; Более просты в применении: чаще всего алгоритмы типа FIML встроены внутрь используемых исследователем функций (таких как SEM), в то времякак для применения алгоритма импутации необходимо принять много решений:от модели импутации до типов переменных, включенных в нее; Как следствие, для алгоритмов ML нет проблемы конфликта импутационной модели и аналитической модели; Не вызывают философских / методологических вопросов, которыеобычно вызывает процедура множественной импутации (см.
выше) (Lance,Vandenberg 2014).Но есть у алгоритмов, основанных на максимальном правдоподобии, изаметные минусы: Они плохо приспособлены для работы с порядковыми и бинарными зависимыми переменными; далеко не все статистические пакеты включают алгоритмы максимального правдоподобия для таких случаев;63 Эти два алгоритма менее устойчивы к нарушениям положения о многомерной нормальности, чем множественная импутация. Для алгоритмов, основанных на максимальном правдоподобии, нарушение этого положения ведет кпроблемам сходимости; В отличие от множественной импутации, результатом которой являетсянабор баз данных, на основе которых можно проводить практически любойанализ, алгоритмы ML требуют применения в рамках каждого отдельного аналитического метода.
И если они не предусмотрены определенным методом, будет достаточно трудно включить их в свой анализ. Такая проблема возникает вR для различных регрессионных моделей, так как по умолчанию методом работы с пропусками там является удаление кейсов. При этом для более сложныхметодов FIML уже становится базовым алгоритмом работы с неответами; Главная проблема EM алгоритма в сравнении с FIML в том, что классическая версия ЕМ не рассчитывает стандартные ошибки и, следовательно, неможет дать исследователю информацию о значимости полученных результатов,что в большинстве случаев является одной из задач статистического анализа.Эта проблема решена в ряде статистических пакетов, но далеко не во всех, чтоопять же усложняет процесс применения этого алгоритма в данной работе.Также ЕМ не рекомендуется использовать при количестве пропусков, превышающем 5%, так как это приведет к смещенным оценкам14.Ряд исследователей проводили экспериментальное сравнение силы и надежности разных методов работы с пропусками, анализируя одну и ту же модель одновременно на полной базе и базах со случайно созданныминеответами.
Удаление кейсов списком (listwise deletion) дает худшие результаты, приводя к завышению стандартных ошибок уже при 20% миссингов. Импутация и алгоритмы, основанные на максимальном правдоподобии, дают оченьсхожие результаты, выдавая близкие к истинным стандартные ошибки дажепри 60% пропусков. При этом EM алгоритм дает самые низкие ошибки среди14См. Single Imputation using the Expectation-Maximization Algorithm http://savvystatistics.com/emimpute/64трех перечисленных методов, что говорит о его высокой точности. Здесь проявляется очевидная слабость множественной импутации: добавление элементанеопределенности (шума) в измерения снижает точность результата (Dong,Peng 2013).Итак, множественная импутация проще в применении, чем основанные намаксимальном правдоподобии алгоритмы. После создания набора баз данныхна их основе можно рассчитывать практически любые модели независимо оттого, включен ли модуль импутации в конкретный пакет или даже статистический модуль.
Этот метод подходит для ситуаций, в которых исследователь заранее представляет себе общую аналитическую модель и может подготовитьхорошую импутационную модель. Алгоритмы FIML и EM невозможно применить, если они не включены в определенный пакет, но они снижают вероятность несходимости при моделировании структурными уравнениями (ивключены в соответствующие пакеты). При этом в плане эффективности они неуступают друг другу.Исходя из описанных преимуществ и недостатков разных алгоритмов работы с пропусками в данных, а также из практических соображений доступности этих алгоритмов в разных пакетах R, было принято решение комбинироватьдва метода: множественную импутацию и FIML. Алгоритм максимальногоправдоподобия применяется для моделирования структурными уравнениями.Для всех регрессионных моделей (одноуровневых и многоуровневых) с помощьюмножественнойимпутациисоздаетсяпоказательсоциально-экономического статуса родителей и образования матери.§3Создание индексов для измерения установок относительно об-разованияВ исследование включено четыре социально-психологических показателя, каждый из которых замерялся соответствующим набором вопросов.
Это тришкалы, замеряющие уверенность в своих силах в области математики, гумани-65тарных наук и спорта, а также шкала мотивации к учебе. Важным вопросомбыл выбор метода создания итоговых индексов и оценки их достоверности ивалидности.Выделяют два основных подхода в области создания и оценки тестов:классическая теория тестов (classical test theory, CTT) и современная (иногдапо-русски называемая также стохастической) теория тестов (item response theory, IRT).
Еще одним подходом можно считать конфирматорный факторныйанализ, хотя он и не относится к области теории тестов.Теория тестов – преимущественно психометрическая область знания,ведь именно психологи активно развивали методологию использования тестовдля измерения различных черт и способностей личности. Классическую теориютестов (здесь и далее КТТ) создал Чарльз Спирмен еще в начале 20 века. Из-заэтого данный подход и называется «классическим» и при этом часто считаетсяустаревшим, Зикар и Броадфут охарактеризовали отношение к нему как к «старой лошади, которая полезна, но все при этом ожидают ее скорой смерти»(Zickar, Broadfoot 2009, с. 37).Главная задача КТТ заключается в оценке параметров теста (надежности,валидности, сложности) и в выделении истинной оценки (true score) испытуемого. При этом предполагается, что наблюдаемый тестовый балл складываетсяиз суммы истинного балла и ошибки (error score).
Единицей анализа здесь выступает целый тест, а не отдельный вопрос. Все вопросы, включенные в тест,считаются равными и взаимозаменяемыми. КТТ базируется на следующих положениях: Истинный балл и ошибка не скоррелированы; Средняя ошибка для каждого участника, для всех повторений испытания (теста) и для всех участников равна нулю; Ошибки для разных повторов тестов не скоррелированы (Zickar,Broadfoot 2009).Одно из слабых мест классической теории заключается в объяснениисущности истинного балла.
Проблема заключается в том, что его невозможно66измерить, так как в результате измерения всегда появляется и некоторая случайная ошибка. В общем случае принято приравнивать истинный балл к ожидаемому значению наблюдаемого балла для конкретного индивида вконкретном тесте. Это значит, что для каждого теста есть свой истинный балл,и он к тому же различен для всех участников опроса/ эксперимента.
Определение же истинного балла как некоего общего латентного концепта считается вданной парадигме неверным («платоническое определение истинного балла»,см. Zimmerman 1975).Еще одно ключевое для КТТ понятие – надежность теста (reliability) – определяется как пропорция вариации в наблюдаемом балле, обусловленная вариацией истинного балла. Очевидно, это ведет к дополнительным трудностям воперационализации, так как пропорция истинного балла не может быть измерена напрямую. За десятилетия развития КТТ было разработано множество методов вычисления вариации истинного балла на основе наблюдаемого балла (testretest, split-half, методы внутренней согласованности, популярная сейчас мераальфа Кронбаха).
Именно мера надежности позволяет определить точность теста. КТТ дает возможно оценить не только тестовый балл, но и эффективностьвопросов теста. Для этого измеряются два базовых параметра: сложность вопросов (доля ответивших верно) и их дискриминирующая сила (способностьвопроса «отсечь» индивидов с низкими/высокими способностями).Основными слабостями данного подхода являются: Недостаток инвариантности. Истинные баллы специфичны для каждого теста, а сложность и дискриминирующая сила тестов – для каждой выборки.То есть, пользуясь одним и тем же инструментарием, исследователь будет получать разные параметры каждый раз, так как сложность теста будет влиять наистинные баллы респондентов (чем сложнее тест, тем ниже истинный балл), нопри этом КТТ не делает строгой привязки параметров отдельных вопросов кистинной оценке теста в целом; Параметры индивида и теста оказываются разнесены на две разныешкалы, что усложняет интерпретацию результатов, а также не позволяет при-67менять технику компьютерного адаптивного тестирования.