Диссертация (1097366), страница 28
Текст из файла (страница 28)
Инымисловами, в рамках НП оценка выполнения задания делается на основе 2параметров — параметра сложности определенного задания (вопроса илиутверждения) и параметра уровня способности тестируемого. НП, посравнению с КП, характеризуется еще целым рядом преимуществ. Так, НПпозволяет использование альтернативных форм одного и того жеинструмента или даже неперекрывающихся наборов утверждений дляполучения гомогенной оценки латентной способности в заданной выборке(Wolfe,2000).необходимости,Крометого,НПкорректироватьпозволяет(Wright,отслеживать1993)и,приравномерностьиспользования шкалы Лайкерта, которая искажается отвечающими,демонстрирующими предпочтение определенных позиций на шкале(Lopez, 1996) или при переходе от одного вопроса к другому. Наконец, НПпредполагает использование более адекватных статистических разработок,когда сбор данных осуществляется гнездовым методом (например, когдаданные учащихся «вложены» в данные их классного руководителя) и невсе наблюдения являются независимыми друг от друга.Примеромтаких«вложенных»данныхявляетсяситуацияиспользования оценщиков (или рэйтеров37) для так называемых открытыхзаданий (то есть заданий, где тестируемый должен сам произвести ответ, ане выбрать его из имеющегося набора ответов).
Для подобного родаданных используется так называемая Many-Facet Rasch Model (MFRM)(Smith, Conrad, Chang et al., 2002). Модель MFRM особенно частоприменяется, когда одно и то же задание оценивается больше чем одним37Эксперт, осуществляющий оценку в виде рейтинга какого-либо объекта или субъекта при применении втестировании.153рэйтером (Linacre, Wright, 2002) как для отдельно взятого тестируемого,так и для групп (или гнезд) тестируемых. Особое преимущество этоймодели заключается в том, что она позволяет оценивать эффекты рэйтерови учитывать эти эффекты при подсчете оценок латентной способности.§ 8.2. ИсследованиеУчастники. В данной главе модель MFRM была использована вконтексте оценивания процесса понимания. В исследовании принялиучастие 4 020 детей и взрослых из регионов России, где доминируютэтнические славяне и русский язык.
Выборка формировалась путемвключения учащихся 2—10-х классов (примерно 40 % девочки) иродителей примерно 25 % детей. Возрастной диапазон выборки составил7—68 лет.Методики и переменные для анализа. В качестве теста напонимание прочитанного использовался набор параграфов (см. главу 5 иПриложение 5.2 в качестве примера).
Понимание параграфов оценивалосьпутем анализа ответов на вопросы в форматах множественного выбора иоткрытых заданий (от 1 до 6 вопросов/заданий для параграфа, всего 64задания: 51 — на множественный выбор и 13 — открытых; задания былинаправлены как на фактическое, так и на инференциональное понимание).Всего было использовано 15 параграфов, которые сформированы в 4группы: а) для учащихся 2-х и 3-х классов; б) для учащихся 4—6-хклассов; в) для учащихся 6—8-х классов; г) для старшеклассников ивзрослых.
В каждом случае набор параграфов включал 5 текстов, уровнитрудности которых внимательно контролировались согласно программеобучения русскому языку38. Кроме того, 2 параграфа из каждого наборапараграфов предъявлялись не только той возрастной группе, для которойони разрабатывались, но и смежной возрастной группе, формируя38См.: http://www.edusite.ru/p135aa1.html154«перекрытие», необходимое для применения MFRM (см. ниже).
Инымисловами, каждой возрастной группе предъявлялось только 5 параграфов,но за счет перекрытия все возрастные группы были соединены в однойматрице данных.Результаты. Открытые задания обрабатывались по специальноразработанным рубрикам, используя 5-балльную оценочную шкалу. Вобработке принимали участие 3 группы рэйтеров: 1) пенсионеры,выполняющие работу по оцениванию по найму на основе почасовойнагрузки; 2) работающие люди среднего возраста, выполняющие работу пооцениванию по найму на основе почасовой нагрузки; 3) студенты иаспиранты, изучающие психологию. Все рэйтеры были специальноподготовлены для процесса оценивания открытых ответов по рубрикамэкспертом по этим рубрикам.
В момент подготовки критерием ихвключения в последующую работу по оцениванию служило то, чтосогласованность их оценок с оценками эксперта и по крайней мере ещеодного рэйтера достигала 70 %. В последующем анализе данные рэйтероввнутри каждой группы были объединены в 3 суммирующих показателя,чтобы можно было отслеживать различия оценок, свойственные каждой изэтих групп.Согласно стандартной модели Раша вероятность правильного ответанаопределенноевзаимодействиемзадание/утверждение/вопрос2факторов(фасеток)—тестаопределяетсяуровняспособноститестируемого и уровня трудности данного утверждения/вопроса теста(Rasch, 1966; Wright, Mok, 2000).
MFRM дальше развивает эту модель,вводя дополнительный фактор (фасетку) — оценку ответа на открытуюзадачу рэйтером (Linacre, Wright, 2002). Для проверки этой последнеймодели, включающей 3 фактора(уровень способности тестируемого,уровень сложности задачи, фактор рэйтера), и параметризации этихфакторов использовался пакет FACETS (Linacre, 2004).155Как практически любой статистический пакет, позволяющий строитьсложные статистические модели, FACETS оценивает степень соответствияпостроенной модели тем эмпирическим данным, для которых эта модельпостроена. Так, согласно FACETS моделью понимания прочитанного,построенной для описанных здесь данных, объясняется 76,6 % дисперсии.На рисунке 8.1 показаны распределение латентной способности пониманияпрочитанного в данной выборке, обобщенные позиции групп рэйтеров ираспределение заданий и утверждений.
В дополнение, пакет FACETSгенерируетнесколькостатистическихпоказателейдляутверждений/заданий, показателей латентной способности тестируемых ихарактеристик оценок рэйтеров. Ниже последовательно анализируются всеэти показатели.Задания. Показатели статистического соответствия (фита — fit)основаны на разнице между наблюдаемыми и ожидаемыми ответами,полученными для каждого тестируемого по каждому из заданий, вопросовили утверждений (Bond, Fox, 2001). Локальные показатели соответствиямогут рассматриваться как индикаторы наличия и величины «шума» вмодели измерения. Для каждого задания оцениваются 4 показателя фита:средние квадратичные и резидуальные (или остаточные) величины длявнутреннего (infit) и внешнего (outfit) индикаторов измерительной модели.Ожидаемые значения для средних квадратичных — 1,0.
Значения <1показываюттенденциюповторяемостиутверждений/заданийиизбыточность предикторной информации; значения >1 показываюттенденциюкгенерациинемоделируемогошума,уникальнойизменчивости, которую невозможно объяснить, используя параметрымодели.Однакосамоприсутствиеэтихтенденцийнеявляетсякритическим до того момента, пока величины средних квадратичных недостигнут определенных порогов. Величины в диапазоне 0,50—1,50считаются приемлемыми (Linacre, 2009). Если же средние квадратичные<0,5или>1,5,тосоответствующиеимзаданиядолжныбыть156проанализированы с намерением их изменить, заменить или удалить.Резидуальные(остаточные)величиныявляютсядополнительнымпоказателем степени отклонения полученных экспериментальных отожидаемых модельных данных. Если средние остаточные величины невыходят за указанные выше пределы, то анализ остаточных величинпроводить не обязательно.
Если же анализ резидуальных величин все-такипроводится, то маленькие остаточные величины свидетельствуют охорошем соответствии между ожидаемым и наблюдаемым, а большие — отом, что полученный ответ оказался непредсказуемым, то есть его нельзябыло предсказать на основе теоретических предположений о том, какданный тестируемый, согласно его ответам на другие задания, должен быбыл ответить на данное задание, учитывая его уровень сложности. Прианализе остаточных величин принято пользоваться порогами –2 и +2(Smith, 2000; Smith, Schumacker, Bush, 2000).
Здесь, как и при анализесредних квадратичных величин, infit представляет собой определеннуюстепень редантности (повторяемости), а outfit — присутствие шума вмодели. Анализ показателей локальных индексов соответствия показаладекватное поведение всех 64 заданий—все средние квадратичные дляиндексов infit были в диапазоне от 0,60 до 1,36 и для индексов outfit — от0,47 до 1,38. Этот результат соответствует тому, что оценки надежностиданнойшколыпониманиясоставили0,98.Сложностизаданияварьировались от 2,08 (самое сложное — индиференциальное задание намножественный выбор) до 2,96 (самое простое — фактический вопрос намножественный выбор).Рэйтеры.
Как указывалось выше, все рэйтеры, принимавшие участиев этой работе, были расклассифицированы в 3 группы, и были полученыоценочные показатели для каждой из групп. С точки зрения данногоисследования такое объединение вполне допустимо, поскольку пунктамиинтереса были: 1) сопоставимость дисперсии фасетки тестируемых ифасетки рэйтеров (первая должны быть выше второй); 2) степень сходства157и рассогласования 3 групп рэйтеров и учет этих особенностей приоцениваниилатентногоособенностикаждогофактораизспособностейрэйтеровинтереса(индивидуальныенепредставляли,соответственно, результаты MFRM показывают степень согласованностикаждой из групп, принимавшей участие в оценивании). Во-первых, важноотметить, как рэйтерами использовалась 5-балльная шкала. Значениявыбора каждого из баллов составили 15 % (1), 25 % (2), 38 % (3), 16 % (4) и6 % (5); оценка «5» использовалась меньше всего, но достаточно большоеколичество тестируемых все-таки получили этот самый высокий балл.
Нарисунке 8.2 показана зависимость оценок рэйтеров от уровня латентнойспособности. Во-вторых, дисперсия среди тестируемых была намногобольше, чем дисперсия среди рэйтеров (0,74 ± 0,90 и 0,00 ± 0,34соответственно).В-третьих,всетригруппырэйтеровпоказалиотносительно высокую степень согласованности — 56,1 % по сравнению сожидаемым уровнем — 32,3 %; это говорит о том, что рэйтеры достаточносистематично оценивают открытые вопросы (наблюдаемый показательпримерно в 2 раза превышает показатель ожидаемый). В-четвертых,наблюдалось отличие между 3 группами рэйтеров (²2 = 1194,7, p < 0,01).Из 3 групп рэйтеров 2 (пенсионеры и работающие люди) оказались болеепохожими друг на друга, в то время как группа студентов и аспирантов,изучающих психологию, значительно отличалась от этих групп.
В деталях,студенты и аспиранты оказались самыми критическими «ценителями»(логит 0,39), в то время как 2 остальные группы были близки друг к другу(логиты0,14и0,25дляпенсионеровиработающихлюдейсоответственно).Тестируемые. Главным преимуществом модели MFRM является ееспособность разделять характеристики утверждений/вопросов тестов и тех,кто отвечает на эти вопросы. Характеристики тестируемых моделируютсяотдельно на шкале латентной способности (см. рисунок 8.1). Как и дляостальныхфасеток,дляфасеткитестируемыхFACETSприводит158несколько статистик, свидетельствующих о характеристиках инструмента.Основной показатель здесь показатель надежности теста.