Диссертация (1146969), страница 10
Текст из файла (страница 10)
Мера соответствия успешности выполнения одной задачи всему тесту является показателем дискриминативности заданий теста для данной выборки тестируемыхи называется коэффициентом дискриминации (индексом дискриминации)(Ким, 2007):гдеrpb =(m1- m0)σxn1 n0n(n−1)×�x — среднее арифметическое всех индивидуальных оценок по тесту;xn — среднее арифметическое оценок по тесту у тестируемых, правильно выполнивших задание (в случае личностного опросника — соответствие с «ключом»);σx — среднеквадратическое отклонение индивидуальных оценок по тесту для выборки;Nn — число тестируемых, правильно решивших задачу (или тех, чейответ на данный пункт опросника соответствует «ключу»);N — общее число тестируемых.Также для вычисления коэффициента дискриминации можно использовать формулу (Павловская, Башмакова, 2007):(RT - RB) / NT,гдеRT — количество правильных ответов в сильной группе;RB — количество правильных ответов в слабой группе;NT — количество тестируемых в сильной группе.Коэффициентдискриминации(дифференцирующаяспособность)тестового задания — количественная характеристика способности тестовогозадания дифференцировать тестируемых по уровню их подготовленности.57Значения коэффициента дискриминации могут лежать в пределах от -1 до +1.Высокий положительный коэффициент дискриминации свидетельствует обэффективности деления тестируемых.
Высокое отрицательное значениесвидетельствует о непригодности данной задачи для теста, о ее несоответствии суммарному результату. Коэффициент дискриминации является, посути, показателем критериальной валидности отдельного тестового задания,поскольку определяется по отношению к внешнему критерию — суммарномурезультату. Считается, что коэффициент дискриминации не должен бытьменьше 0.25 (Crocker, 1985). В соответствии со значением коэффициентадискриминации можно провести нормирование тестовых заданий в банкетестовых заданий.Более точное представление о дискриминативности задания можнополучить, посчитав коэффициент точечно-биссериальной корреляции (Челышкова, 2002).Формула расчета коэффициента точечно-биссериальной корреляции(Челышкова, 2002):гдеm1 и m0 — средние значения Х со значением 1 или 0 по Y;σx — стандартное отклонение всех значений по Х;n1, n0 — количество значений Х с 1 или 0 по Y;n — общее количество пар значений.Расчет точечно-биссериальной корреляции является одним из видовпроверки валидности (Челышкова, 2002).Все эти величины, позволяющие оценить качество тестовых заданий инадежность теста в лингводидактическом тестировании, будут рассмотрены вглаве 2.58Классическая теория статистического анализа основывается на томпредположении,чтоэмпирическиполученныйрезультатизмеренияпредставляет собой сумму истинного результата измерения (T) и ошибкиизмерения (E); следует также учесть, что истинные и ложные компоненты некоррелируют (Ким, 2007).Кроме этого, «основу классической теории статистической обработкитестовых результатов составляют два определения — параллельных иэквивалентных тестов» (Ким, 2007, с.
95). Истинные компоненты одного теста(T1) должны быть равны истинным компонентам другого теста (T2) в каждойвыборке тестируемых, отвечающих на оба теста. Предполагается, что T1 = T2и, кроме того, равны дисперсии s12 = s22.Эквивалентные тесты должны соответствовать всем требованиямпараллельных тестов за исключением одного: истинные компоненты одноготеста не обязательно должны равняться истинным компонентам другогопараллельного теста, но отличаться они должны на одну и ту же константу с.Условие эквивалентности двух тестов записывается в следующем виде:T1 = T2 + c12где c12 — константа различий результатов первого и второго тестов.Теория надежности тестов построна на основе приведенных выше положений (Gulliksen, 1950; Lord, 1968).Учитывая, что дисперсия полученных баллов Sх2 равна сумме дисперсийистинных компонентов ST2 и ошибочных компонентов SE2, после проведениянесложных математических преобразований формула для вычислениянадежности будет выглядеть следующим образом (Ким, 2007):r =1-SE2/Sx2.59На основе этой формулы в последующем были предложены различныевыражения для нахождения коэффициента надежности теста.
Надежностьтеста представляет собой его важнейшую характеристику. Невозможноинтерпретировать результаты тестирования, если неизвестна надежность.Надежность теста характеризует его точность как измерительного инструмента. Высокая надежность означает высокую воспроизводимость результатов тестирования в одинаковых условиях.В классической теории корреляционного анализа важнейшей проблемойявляетсяопределениеистинноготестовогобаллатестируемого(T).Эмпирический тестовый балл (X) зависит от многих условий — уровнятрудности заданий, уровня подготовленности тестируемых, количествазаданий, условий проведения тестирования и т.
д. В группе сильных, хорошоподготовленных тестируемых результаты тестирования будут, как правило,лучше, чем в группе слабо подготовленных тестируемых.В этой связи остается открытым вопрос, какова величина мерытрудности заданий для данной генеральной совокупности тестируемых.Проблема связана с тем, что реальные эмпирические данные получают не наслучайных выборках тестируемых, а, как правило, на тестируемых, входящихв состав учебных групп, представляющих собой множество учащихся,достаточно сильно взаимодействующих между собой в процессе обучения иобучающихся в условиях, часто не повторяющихся для других групп.Выполнение статистической обработки результатов тестированияначинается с формирования матрицы тестовых результатов.Матрица тестовых результатов aij — это матрица размерности N x M,содержащая числовые обозначения градации индикатора, связанного сизучаемой латентной переменной, где M — число индикаторов, N — числотестируемых.
Эта матрица (таблица 1) представляет собой таблицу, строкикоторойсоответствуюттестируемым,астолбцы—индикаторнымпеременным. На пересечении находится число, соответствующее ответуданного тестируемого на данное задание. В случае дихотомическогооценивания: 1 — для верного ответа и 0 — для неверного ответа. Матрицуможно упорядочить как по строкам, так и по столбцам (таблица 2).60Таблица 1. Матрица результатов тестирования (по: Челышкова, 2002)НомерНомер задания, jиспытуемого, 12345678910i1101001010021100000000301111001004101111111150111111100610001000107010000000081111000000Таблица 2. Упорядоченная матрица данных тестирования(по: Челышкова, 2002)Номериспытуемого, iНомер задания, j1234567Индивидуальный8910балл,(множество Хi)70100000000121100000000261000100010311010010100481111000000491100001001430111100100510111111000065011111110071111111110007410111111119Числоправильныхответов(множество Rj)88766544225261Важным параметром тестового задания является дисперсия тестовыхбаллов pjqj, где pj — доля тестируемых, правильно выполнивших j-е задание,qj, — доля тестируемых неправильно выполнивших j-е задание.
Чем большевариация, тем лучше задание дифференцирует тестируемых.Таким образом, задание не может дифференцировать студентов поуровню подготовленности, если на него не ответил ни один участник илиуспешно ответили все.Единообразие оценок выполнения достигается определением статистических норм теста, которые устанавливаются эмпирически по итогамвыполнения теста репрезентативной группой тестируемых.
Индивидуальныебаллы, преобразованные в те или иные производные показатели, соотносятсяс нормами. Это позволяет оценить положение тестируемого относительнонормативной выборки и определить достигнутый уровень обученности.Несмотрянахорошоразработанныйматематическийаппарат,классическая теория статистического анализа имеет ряд принципиальныхнедостатков. Так, тестовые баллы тестируемых зависят от трудности заданийв тесте, а трудность задания зависит от выборки тестируемых.
Кроме того, вкачестве недостатка классической теории статистического анализа можновыделить нелинейность тестовых баллов тестируемых, что делает невозможным анализировать качественные данные с помощью количественныхметодов (Ким, 2007).Эффективность тестовых оценок в большой степени зависит от методовсравнения и интерпретации первичных («сырых») баллов тестируемых вгруппе, а не только от качества теста. Стремление исследователей выявитьистинные различия в уровне знаний тестируемых приводит к необходимостиразработки методов интерпретации, ведь «сырые» баллы не дают информациио реальном уровне знаний. Такие методы должны быть эффективны дажев том случае, если сравниваются результаты, полученные в результатепроведения совершенно различных тестов. Один и тот же студент может62казаться более слабым или более сильным в зависимости от уровнятестируемой группы.Классическая теория статистического анализа тестов позволяет оценитьтест в целом, его надежность и валидность, оценить каждое задание теста (поуровню сложности и дискриминативной способности), оценить выборкутестируемых (по успешности выполнения задания).
Однако классическаятеория статистического анализа не учитывает некоторые параметрытестирования — например, соотношения уровня сложности задания и уровняспособности тестируемого. Эти и другие параметры рассматриваются всовременной теории педагогических измерений (IRT), к изложению котороймы и переходим в следующем разделе.1.3.2. Современная теория педагогических измеренийДругой подход к созданию педагогических тестов и к интерпретациирезультатов их выполнения мы находим в современной западной теориипедагогических измерений, которая возникла и была широко признана в 60-е— 80-е годы.
Этот подход основан на теории латентно-структурного анализа(Latent Trait Analysis — LTA), созданной П. Лазарсфельдом и его последователями (Lazarsfeld, Henry, 1968).LTA был создан для измерения латентных свойств личности. Онпредставляет собой один из вариантов многомерного анализа данных, нарядус факторным анализом в его различных модификациях и такими видамианализа, как многомерное шкалирование, кластерный анализ и др.Теория измерения латентных свойств предполагает, что:1.существуетпеременной(х);наодномерныйэтомконтинуумконтинуумесвойствапроисходит—латентнойвероятностноераспределение индивидов с определенной плотностью f(х);2. существует вероятностная зависимость ответа тестируемого на задачу(пункт теста) от уровня его психического свойства, которая называется63характеристикой кривой пункта.
Если ответ имеет две градации («да — нет»,«верно — неверно»), то эта функция есть вероятность ответа, зависящая отместа, занимаемого индивидом на континууме (х);3. ответы тестируемого не зависят друг от друга, а связаны только черезлатентную характеристику измеряемого качества. Вероятность того, что,выполняя тест, испытуемый даст определенную последовательность ответов,равна произведению вероятностей ответов на отдельные задания.Латентный параметр — это свойство личности, которое недоступно дляпрямого наблюдения. В данной работе латентным параметром являетсяуровень сформированности языковых навыков.