Диссертация (1099176), страница 14
Текст из файла (страница 14)
Рисунок 4.2.1.2. Сложность заданий субтеста Топология для трех групп студентов (Модель 1)
выборками (г = .98 для двух американских подвыборок, .93 для российской и американского меньшинства, .97 для российской и американского большинства), наблюдалось расхождение между групповыми оценками сложности заданий. Так, простые задания оказались проще для российской выборки, чем для американской, а сложные - сложнее. Формальный статистический DIF анализ взаимодействий между фактором группы (российские студенты и американские студенты - представители большинства или меньшиств) и заданиями при поправке на количество проводимых сравнений41 выявил шесть заданий, функционирующих (при поправке на общий уровень способности в группе) дифференцированно в трех группах.
Так, задания 3 (t(449) = 4.17, p < .05), 4 (t(448) = 3.59, p < .05) и 5 (t(434) = 3.56, p < .05) оказались проще, чем ожидалось в рамках модели, для российских студентов, в то время как задания 8 (t(325) = -3.73, p < .05), 9 (t(218) = -5.20, p < .05) и 10 (t(145) = -3.62, p < .05) оказались сложнее, чем ожидалось. При этом не было выявлено различий в функционировании заданий для двух американских подвыборок (все p > .05). Наличие DIF свидетельствует не столько о групповых различиях в уровне выполнения заданий субтеста Топология, сколько об избирательной сложности больше половины заданий субтеста Топология для американских и российских студентов одного уровня способностей, что делает невозможным прямое сравнение показателей способностей в двух группах студентах.
Поскольку субтест состоит всего из 10 заданий, мы приняли решение не исключать задания, показавшие DIF, из дальнейшего анализа для получения новых показателей способностей по субтесту Топология, поскольку это существенно снизило бы длину субтеста и, соответственно, надежность. Следуя рекоммендациям М. Лайнакра (Linacre, 2010), повторный анализ был проведен с поправкой на выявленные DIF путем переформулирования модели и включения показателей DIF заданий в качестве одного из компонентов модели измерения, что при выбранном подходе позволяет автоматически контролировать DIF эффекты. Новая Модель2 объясняла 55.28% дисперсии в показателях выполнения заданий, однако DIF эффект был обнаружен для задания 2 (p < .05), являвшегося неожиданно легким для российских студентов. В Модели3 этот эффект был также учтен - модель объясняла 55.44% дисперсии, и DIF эффекты не были обнаружены ни для одного задания (все p > .05). Скорректированные параметры сложности заданий в рамках третьей модели представлены на Рисунке 4.2.1.3, демонстрирующем достигнутый уровень коррекции между подгруппами.
При анализе полученных показателей, свободных от дифференцированного функционирования заданий и пригодных для межгрупповых сравнений, нами были установлены значимые различия в средних показателях способностей по субтесту Топология (!(2) = 130.60, p < 01; F(2,959) = 10.87, p < .001, # p = .02), однако размер эффекта оказался небольшим. Post-hoc анализ не выявил различий между американскими подвыборками большинства и меньшиства (M = -.18, SD = 1.89 и M = -.20, SD = 1.56, соответственно, p > .05), при этом российские студенты демонстрировали значимо более высокие результаты, чем обе американские подвыборки (M = .31, SD = 1.57, обаp < .001).
Для обеспечения эквивалентности параметров уровня развития вербальных кристаллизованных способностей, получаемых с помощью Словарного субтеста, нами применялась процедура соединения (linkage) англоязычной и русскоязычной версии субтеста. Для этой цели 10 из 33 заданий были сконструированы на русском языке параллельно английской версии. Оставшиеся 23 задания были признаны уникальными для каждой из выборок. Таким образом, общая длина субтеста составила 56 заданий, 10 из которых являлись одинаковыми для обеих выборок. Модель1 объясняла 44.27% дисперсии в показателях выполнения заданий субтеста. Выявленный показатель надежности IRT-R = .72, сепарация IRT-S = 1.61. Анализ локальных индексов пригодности InfitMS и OutfitMS не выявил заданий, демонстрирующих низкую пригодность в рамках модели (Таблица 4.2.1.3, см. также Приложение). 10 общих заданий (с 1 по 10) были оставлены для дальнейшего DIF анализа.
Задание
Рисунок 4.2.1.З. Скорректированная сложность заданий субтеста Топология для трех групп студентов (Модель3)
Задание | M | Сложность | S.E. | InfitMS | OutfitMS |
Общие задания | |||||
1 | .94 | -3.25 | .15 | .89 | 1.00 |
2* | .93 | -2.95 | .13 | 1.01 | 1.22 |
3 | .94 | -3.19 | .15 | .87 | .66 |
4* | .84 | -1.87 | .10 | 1.05 | 1.18 |
5 | .77 | -1.40 | .09 | 1.08 | 1.30 |
6 | .95 | -3.26 | .15 | .88 | .86 |
7* | .54 | -.07 | .07 | 1.10 | 1.11 |
8* | .55 | -.10 | .08 | .88 | .90 |
9 | .28 | 1.29 | .09 | 1.15 | 1.38 |
10* | .29 | 1.14 | .10 | .83 | .76 |
Примечание. М - среднее. Сложность - показатель сложности в шкале логитов. S.E. - стандартная ошибка. InfitMS, OutfitMS - локальные индексы пригодности. * отмечены задания, показавшие значимое дифференцированное функционирование в двух выборках (DIF) и исключенные из дальнейшего анализа
Рисунок 4.2.1.4. Сложность заданий Словарного субтеста для трех групп студентов (Модель 1)
На Рисунке 4.2.1.4 представлена сложность каждого из 10 общих заданий Словарного субтеста для трех групп. Оценки сложности заданий умеренно коррелировали между выборками (г = .99 для двух американских подвыборок, .63 для российской и американского меньшинства, .63 для российской и американского большинства), наблюдалось расхождение между оценками сложности заданий для американских и российской выборки. Формальный статистический DIF анализ взаимодействий между фактором группы изаданиями при поправке на количество проводимых сравнений выявил пять заданий, функционирующих (при поправке на общий уровень способности в группе) дифференцированно в трех группах. Так, задания 2 (t(490) = -6.79, p < .05), 4 (t(493) = -8.73, p < .05) и 7 (t(469) = -5.63, p < .05) оказались сложнее, чем ожидалось в рамках модели, для российских студентов, в то время как задания
-
(t(423) = 11.05, p < .05) и 10 (t(220) = 4.14, p < .05) оказались проще, чем ожидалось. Нами не было выявлено различий в функционировании заданий для двух американских подвыборок (все p > .05). Наличие DIF свидетельствует об избирательной сложности больше половины заданий для американских и российских студентов одного уровня способностей, что делает невозможным прямое сравнение показателей способностей в двух группах студентах при использовании процедуры соединения заданий на основе 10 общих заданий.
Поскольку наличие хотя бы 5 общих заданий различной сложности является допустимым для обеспечения минимального соединения (перекрытия) при вычислении параметров заданий и способностей и использовании частично перекрывающихся наборов заданий42 (Hambleton et al., 2005; Millsap, 2011), мы приняли решение исключить 5 заданий, показавших DIF, из дальнейшего анализа для получения новых показателей способностей по Словарному субтесту. Новая Модель2 объясняла 45.82% дисперсии в показателях выполнения заданий, и DIF эффекты не были обнаружены ни для одного задания (все p > .05), сделав возможными межгрупповые сравнения уровня развития кристаллизованного интеллекта.
При анализе полученных показателей, свободных от дифференцированного функционирования заданий и пригодных для сравнений, нами были установлены значимые различия в средних показателях способностей по Словарному субтесту (!(2) = 228.1, p < .01; F(2,945) = 16.27, p < .001, # p = .03) при маленьком размере эффекта. Post-hoc анализ не выяви
лразличий между американскими подвыборками большинства и меньшиства (M = -.13, SD = 1.19 и M = -.26, SD = .94, соответственно, p > .05), при этом российские студенты демонстрировали значимо более высокие результаты, чем обе американские подвыборки (M = .20, SD = 1.04, обаp < .001).
Таблица 4.2.1.4 обобщает представленные выше результаты для трех аналитических субтестов ROADS. Для всех трех субтестов были выявлены задания, демонстрирующие дифференцированное функционирование для американской и российской выборок. Поскольку значимый DIF свидетельствует о неоэквивалентном функционировании методики на уровне отдельных заданий, полученные результаты свидетельствуют о несопоставимости получаемых баллов, ставя под угрозу валидность кросс- культурных сравнений и использования данных в дальнейшем анализе, в т.ч. в структурном моделировании и регрессионном анализе. Обеспечение сопоставимости данных по всех трем субтестам было проведено в рамках IRT подхода при исключении или учете выявленных DIF заданий. По итогам анализа результирующих параметров способностей для трех субтестов, диагностирующих аналитические способности, а именно флюидный невербальный и кристаллизованный вербальный интеллект, было обнаружено, что российские студенты демонстрировали значимо более высокие уровни развития аналитических способностей, при этом размер эффекта варьировал от среднего (для Словарного субтеста и субтеста Топология) до большого (Классификация).
Оценка уровня креативности по субтесту Креативные Рассказы Таблица 4.2.1.4. Итоговые параметры IRT-моделей для трех аналитических субтестов ROADS
Россия | США | ||||||||||
Субтест | N заданий | N DIF заданий | Итог. N заданий | Метод избавления от DIF | % диспе рсии | IRT-R | IRT-S | M | SD | M | SD |
Классиф. | 14 | 3 | 11 | Исключение | 56.32 | .68 | 1.47 | .24 | 1.37 | -.73 | 1.98 |
Топол. | 10 | 5 | 10 | Коррекция | 55.44 | .51 | 1.01 | .31 | 1.57 | -.19 | 1.76 |
Словар. | 10(+46) | 5 | 5 (+46) | Исключение | 45.82 | .69 | 1.48 | .20 | 1.04 | -.19 | 1.09 |
Примечание. N DIF заданий - количество заданий, продемонстрировавших значимый DIF. % объясненной дисперсии, IRT-R (надежность) и IRT-S (сепарация) приведены для итоговой модели, корректирующей или исключающей DIF задания. Средние и стандартные отклонения для американской выборки приведены при сведении в одну группу выборок меньшинства и большинства.
проводилась с помощью двух групп экспертов - трех российских и двух американских, соответственно. При оценке использовался комбинированный план оценки (judging plan) рассказов, в котором эксперты после достижения высокого установленного a priori уровня согласия оценивали рассказы независимо, но с частичным перекрытием, что позволило провести оценку систематических искажений оценок экспертов и коррекцию таких параметров, как строгость (severity) индивидуальных экспертов. Перекрытие экспертов на американской выборке составило 30 человек, перекрытие на российской выборке более 100 человек. Дополнительно, один из российских экспертов, свободно владеющий английским языком, оценил 60 рассказов из американской выборки. Параметры согласованности экспертов представлены в Таблице 4.2.1.5, из которой видно, что эксперты внутри двух групп продемонстрировали высокую согласованность оценок (среднее для российских экспертов r = .89, для американских экспертов r = .85) , что свидетельствует о консистентном и согласованном применении критериев оценки рассказов. Уровень согласованности между российским и американскими экспертами был несколько ниже - r = .59. Для оценки психометрических свойств субтеста Креативные Рассказы и установления систематических искажений в оценках экспертов (дифференциальное функционирование экспертов; differential rater functioning, DRF) была
Таблица 4.2.1.5. Согласованность экспертных оценок Творческих Рассказов | Российские эксперты (3) | Американские эксперты (2) | Российский и американские эксперты (3) | |||
Шкалы | r | Cohen's к | r | Cohen's к | r | Cohen's к |
Оригинальность | .95 | .92 | .63 | .50 | .64 | .21 |
Сложность | .90 | .86 | .94 | .85 | .54 | .34 |
Эмоциональность | .75 | .71 | .97 | .89 | .54 | .10 |
Соответствие задаче | .95 | .90 | .87 | .63 | .65 | .29 |
Примечание. r - r Пирсона, Cohen's к - каппа Коэна1. Для согласованности российских экспертов и для согласованности российских и американских экспертов представлены средние значения коэффициентов (взятые для трех возможных пар экспертов).