Диссертация (1136792), страница 14
Текст из файла (страница 14)
Этот метод предполагает оценку способностей индивида по ответу на первый вопрос фиксированной сложности и подбор дальнейших вопросов в соответствие с результатом(более сложные вопросы для тех, кто справился, легкие – для тех, кто ошибся).Для КТТ нет понятия вопроса средней/ высокой сложности и его связи с высокими/ низкими способностями индивида. Следовательно, такой подбор дальнейших вопросов становится невозможным; Надежность считается характеристикой всего теста в целом, так что еготочность – характеристика постоянная для любой выборки.
Это положение КТТназывают самым слабым место подхода. Очевидно, одни и те же вопросы могутбыть сложными для учащихся начальной школы и простыми для преподавателей вуза (Zickar, Broadfoot 2009); КТТ сосредоточена на тесте в целом, а не на отдельных вопросах, чтоявляется минусом с точки зрения рекомендаций для улучшения инструментария и оценки функциональности отдельных его элементов. При этом калибровка больших тестов является важной задачей, так как во многих странах,включая Россию, государственные экзамены проводятся в формате тестирования (ЕГЭ, SAT, международные тесты IELTS, GRA и многие другие).Важное преимущество КТТ заключается в том, что этот подход идеалендля маленьких выборок.
Современная теория тестов неприменима на маленькихсовокупностях, но анализ вопросов (сложности и т.д.) в рамках КТТ даст практически такие же результаты, особенно при достаточно большом количествевопросов.Современная (или стохастическая) теория тестов (здесь и далее IRT)разработана для измерения латентного конструкта (фактора), который влияетна ответы на вопросы теста.
Подразумевается, что за отдельными элементамишкалы - вопросами теста - стоит измеряемый ими конструкт, от которого и зависит то, как респонденты отвечают на заданные вопросы. Этот конструкт врамках IRT называется theta (ϴ), то есть способности (для тестов измеряющих68способности) либо личностная черта (для социально-психологических измерений) респондента.IRT базируется на двух очень строгих положениях: Одномерность: вопросы теста измеряют только одну характеристику,то есть только один латентный конструкт влияет на значения переменных (вопросов) Локальная независимость: связь между элементами шкалы (переменными) объясняется только их общей взаимосвязью с латентным конструктом ϴ;если исключить корреляцию, опосредованную ϴ, элементы окажутся независимыми друг от друга.В рамках IRT можно проверять модели разной степени сложности, которая зависит от количества включенных в нее параметров.
Самая простая модель учитывает только сложность элемента (difficulty, обозначаемая b). Этамодель также называется моделью Раша. Сложность вопроса оказывается расположена на той же оси, что и способности респондента, так как с точки зренияIRT способности респондента равны сложности (решенного им) вопроса.Вторая по сложности модель учитывает также и дискриминирующую силу вопроса (a), так как в большинстве случаев вопросы оказываются в разнойстепени сложными. Легкий вопрос не сможет дифференцировать респондентовс разным уровнем способностей, а очень сложный выделит только самых способных.Следующий шаг в усложнении модели – добавление параметра «псевдоугадывания» (pseudo-guessing), выражающего шанс того, что индивид с низкими способностями случайно даст правильный ответ на сложный вопрос.
Он позволяетучесть «базовую» вероятность правильных ответов на вопрос даже при самыхнизких способностях, т.е. скорректировать модель с учетом попыток респондентов угадывать правильные ответы, либо давать социально желательные с их точкизрения ответы. Этот параметр используется для анализа паттернов неискреннихответов на личностные тесты (Davies et.al. 2005).69Иногда помимо угадывания, учитывают также «небрежность» (carelessness): верхний предел, максимальная вероятность дать верный ответ для самыхспособных.
Так в модель закладывается поправка на ошибки, не связанные сознанием (опечатки и пр.).IRT вводит еще один важный концепт: объем информации, который даеткаждый из элементов теста. Информация является функцией сложности и дискриминирующей силы элемента с одной стороны и способности респондента –с другой. Информативность элемента высчитывается методом максимальногоправдоподобия и показывает, насколько точной будет оценка способностейреспондента.
Если элемент несет большой объем информации для заданногоуровня способностей (и, значит, заданной сложности вопроса), вероятностьверной оценки способностей респондента на основе его ответа на вопрос оказывается большой. То есть оценки способностей будут максимально близки кистинным значениям (Baker, Kim 2004).У IRT множество преимуществ перед другими подходами: Этот метод позволяет работать с данными любого типа, вопросы дажене должны быть сформулированы единым образом и иметь равное количествокатегорий; Характеристики элементов (сложность) и респондента (способность)измеряются на одной шкале, что делает интерпретацию результатов намногопроще; Весь анализ строится вокруг характеристик отдельных элементов, а нетеста в целом.
Это открывает дополнительные возможности для калибровкитестов и для интерпретации поведения респондентов при заполнении тестов; В случае больших тестов с большим количеством вариантов самоготеста – как в случае российского ЕГЭ и международных тестов TIMSS и PISA(речь идет о части, измеряющей способности школьников по предметам), IRTпозволяет создать итоговые индексы для всех респондентов, несмотря на то чтокаждый из респондентов в отдельности ответил не на все вопросы теста.
Этовозможно благодаря тому, что модель IRT рассчитывает паттерн ответа для ка-70ждого респондента и, основываясь на его показателе способностей, можетпредсказать, как он ответил бы на вопрос заданной сложности; IRT дает возможность создать унифицированные индексы для измеряемых способностей. Они будут считаться инвариантными для разных выборок и разных повторов теста.Однако, у IRT отмечают три главные проблемы: Необходимость больших выборок. Требования к объему выборки в рамках IRT больше, что для КТТ, но они более чем выполнимы для большинства количественных социологических исследований. Так, модель может быть оцененауже на 250 кейсах, но для большей точности рекомендуется совокупность хотябы в 500 респондентов (Thorpe, Favia 2012), по крайней мере, для шкал с 5 вариантами ответа. Строгие основные положения теории. Речь идет о требовании локальной независимости и одномерности.
В реальности локальная независимость, тоесть отсутствие связи между элементами теста, не объясненной латентнымконцептом (способностью), практически недостижима. Но IRT требует поменьшей мере максимизировать локальную независимость элементов. Еще более проблематичным является требование одномерности, называемое даже«мифологическим концептом» (Lance, Vandenberg 2010, с.49). Особенно в случае психологических тестов кажется маловероятным, что данный тест замеряетстрого одну черту характера. К счастью, симуляции Монте Карло доказали, чтодля точности моделями IRT не обязательно строго следовать требованию одномерности, скорее, необходимо стремиться к «достаточной одномерности» (см.Reckase 1979); Сложные программы.
Для проведения анализа в рамках IRT необходимы навыки статистической обработки данных несколько выше среднего. Кпримеру, метод IRT недоступен в SPSS, наиболее простой в использованиипрограммы. Модули IRT есть в R, STATA и MPLUS; ни одна из этих программне входит в программу базового обучения анализу данных (в России, так как71STATA распространена в Европе).
Однако для пользователей этого ПО освоитьданный метод не составит большой сложности.Конфирматорный факторный анализ развивался параллельно и часто всвязке с классической теорией тестов. Этот метод создавался для других целейи не сосредоточен на анализе и оценке тестов, поэтому в большинстве классификаций подходов к изучению тестов факторный анализ не упоминается. Темне менее именно этот метод сейчас очень часто используют для создания индексов на основе вопросов теста (опросника).
И содержательно факторный анализ имеет все необходимые элементы для того, чтобы стать одним из методовобработки тестов.Начало методу, как и классической теории тестов, положил Спирмен(1946). Главная задача конфирматорного факторного анализа – проверка модели, объясняющей наблюдаемые переменные общим латентным фактором. Приэтом у исследователя уже имеется теоретическая модель, согласно которой определенный набор переменных связан с каким-то ненаблюдаемым фактором.Разные вопросы / переменные могут быть в разной степени связаны с латентным фактором, что не учитывалось в КТТ, но при этом хорошие вопросы считаются хорошо работающими для всех респондентов.Конфирматорный факторный анализ очень удобен для проверки шкал иформирования индексов, чем и пользуются сейчас исследователи по всему миру.