Мешкова М.А. Диссертация Методология разработки системы тестирования (Методология разработки системы тестирования), страница 5
Описание файла
Файл "Мешкова М.А. Диссертация Методология разработки системы тестирования" внутри архива находится в следующих папках: Методология разработки системы тестирования, Мешкова М.А. Документ из архива "Методология разработки системы тестирования", который расположен в категории "". Всё это находится в предмете "дипломы и вкр" из 8 семестр, которые можно найти в файловом архиве ДВГУПС. Не смотря на прямую связь этого архива с ДВГУПС, его также можно найти и в других разделах. .
Онлайн просмотр документа "Мешкова М.А. Диссертация Методология разработки системы тестирования"
Текст 5 страницы из документа "Мешкова М.А. Диссертация Методология разработки системы тестирования"
Третий способ является наиболее простым. В данном случае надежность теста оценивается на основании одного сеанса тестирования. Для этого необходимо разделить результаты тестирования по каким-либо признакам на две группы. Например, четные и нечетные вопросы. Затем происходит вычисление коэффициента корреляции между данными группами. Недостатком этого способа можно назвать то, что в итоге происходит сравнение неидентичных групп вопросов.
Для подсчета надежности в данном способе используют формулу (1), где вместо первичных результатов тестирования используют 1 группу результатов, вместо повторных результатов тестирования – 2 группу [20].
В том случае, если тест содержит задания с высоким уровнем внутренней корреляции, тогда он будет обладать высокой надежностью с низким уровнем ошибок измерений [17].
Под дискриминативностью тестовых заданий понимают способность системы тестирования разграничивать уровень знаний тестируемых. В процессе разработки тестовых заданий необходимо добиться того, чтобы задания как можно тоньше измеряли необходимые показатели тестируемых. В том случае, если в результате тестирования у тестируемых выявляются практически одинаковые результаты, то это говорит о том, что тестовые задания слишком грубо измеряют показатели тестируемых. Можно сделать вывод о том, что чем разнообразнее результаты тестирования, тем больше разрешающая способность у теста. Таким образом, дифференцируемость результатов теста является его дискриминативностью, которая измеряется показателем дельта Фергюссона и вычисляется по формуле (2):
, (2)
где – количество тестируемых, – количество заданий, – частота встречаемости каждого показателя. Максимальное значение показателя дискриминативности равно 1, в таком случае тестирование хорошо разделяет тестируемых на сильных и слабых. При значении показателя дискриминативности, равным 0, можно сделать вывод о том, что тестовые задания не обладают дискриминативностью и такой тест необходимо переделать или доработать. На практике обычно используют тесты, показатели дискриминативности больше или равны 0,3 [18].
Для того чтобы определить показатель дискриминативности теста, необходимо после проведения тестирования составить таблицу с указанием количества набранных баллов за тест и частоту встречаемости данных баллов, а затем рассчитать показатель по формуле (2) [21].
2.3 Оценка результатов тестирования
Под шкалированием подразумевают моделирование реальных процессов с помощью числового множества [22].
В зависимости от того, с какой целью проводится тестирование, существуют разные способы интерпретации результатов тестирования: нормативно-ориентированная интерпретация и критериально-ориентированная интерпретация.
Главной задачей нормативно-ориентированного тестирования является определение уровня знаний каждого участника группы тестирования по сравнению друг с другом. На предприятии такой вид тестирования может позволить выявить лучшего и самого слабого сотрудника.
В данном виде тестирования один и тот же результат можно интерпретировать по-разному, в зависимости от уровня компетентности группы по необходимому вопросу. Возможны такие случаи, когда невозможно объективно оценить разницу в уровне подготовки сотрудников. Например, если задание оказалось слишком легким, и все участники ответили правильно, или обратная ситуация, когда никто из испытуемых не смог дать верный ответ на вопрос. В том случае, если таких заданий в тесте оказывается слишком много, то такой тест является неэффективным для достижения данной цели и его необходимо переработать. Для того, чтобы результаты тестирования были более объективны, необходимо использовать определенные нормы и четко осознавать цели, с которыми проводится тестирование.
Результаты данного вида тестирования интерпретируются на основе статистически обоснованных тестовых норм, а также имеется возможность составить рейтинг результатов участников группы тестирования. Исходя из своей специфики, данный тест дает мало информации о том, насколько компетентен данный сотрудник, в каких областях знаний возникают трудности.
Целью критериально-ориентированного тестирования является сопоставление результатов каждого участника тестирования с ожидаемым результатом. Такой вид тестирования способен показать, насколько данный сотрудник соответствует своему уровню подготовки или уровень усвоения практикантом полученной информации. Основной проблемой, связанной с данным видом тестирования – установление минимального ожидаемого балла.
Результаты данного вида тестирования показывают, насколько компетентен сотрудник на предприятии, может указать на проблемы в определенной области его профессиональных знаний. Обычно результаты данного тестирования выражаются в процентах от необходимого уровня.
Таблица 4 – Использование определенного способа интерпретации результатов
тестирования в зависимости от цели
Нормативно-ориентированная интерпретация | Критериально-ориентированная интерпретация | |
Цель проведения тестирования | – выявление лучшего/худшего сотрудника/практиканта/стажера. | – тестирование практикантов/стажеров для определения их уровня подготовки, а также для оценки полученных знаний в ходе прохождения практики; – тестирование кандидатов на должности при приеме на работу для определения их профессионального уровня; – подтверждение квалификации сотрудников на предприятии, оценка роста профессиональных качеств; – выявление проблем в определенной области профессиональных знаний. |
Таким образом, при составлении тестовых заданий, нужно учитывать цели, на которые направлено тестирование. При разработке нормативно-ориентированных тестов важно разработать вариативные тестовые задания по уровню сложности, а при разработке критериально-ориентированных тестов необходимо детально проработать объем знаний и умений, которыми должен обладать специалист, для которого предназначается данный тест. Необходимо отметить, что для того, чтобы достичь необходимой цели тестирования, нельзя использовать нормативно-ориентированный тест в качестве критериально-ориентированного и наоборот, также нельзя использовать один и тот же тест в качестве нормативно-ориентированного и критериально-ориентированного одновременно. Нарушение данных правил приведет к получению некорректных тестовых результатов, которые будут обладать низким уровнем надежности и большой ошибкой измерения [17].
Для того, чтобы объективно оценивать результаты тестирования и не сравнивать их с результатами других участников тестирования каждый раз, устанавливают специальные нормы. После того, как нормы установлены, результаты тестирования сравнивают с показателями норм. Нормы – совокупность показателей, установленных опытным путем по результатам выполнения теста выборкой тестируемых. Процесс получения данных показателей называется процессом нормирования теста. Чаще всего на практике используют среднее значение и стандартное отклонение по множеству индивидуальных баллов.
Чаще всего на практике встречаются 3 вида шкал для представления результатов тестирования: процентильный ранг, линейная Z-оценка, шкалы станайнов и стенов.
Процентильный ранг – показывает относительное положение тестируемого в выборке испытуемых. Процентильный ранг для каждого балла определяется процентом испытуемых, которые выполнили такое же или меньшее количество заданий теста. Не следует путать процентили с процентными показателями, так как процентиль является производным показателем, который указывает на долю от общего числа тестируемых. К достоинствам такой системы шкалирования можно отнести то, что процентили удобны в подсчете и просты в интерпретации. Недостатками такого вида шкалирования является то, то шкала процентильных рангов нелинейна, поэтому в различных областях шкалы баллов увеличение даже на 1 балл может соответствовать различным увеличениям на шкале процентилей. Таким образом, процентили отражают не реальные результаты тестирования, а скорее относительное положение каждого тестируемого в группе, при этом немного искажая реальные различия результатов. Обычно данную шкалу используют в нормативно-ориентированных тестах.
Линейная Z-оценка определяется как отношение индивидуального отклонения результата тестового балла к стандартному отклонению группы тестируемых. При шкалировании результатов тестирования часто используют стандартные показатели, которые указывают на отличие результата тестируемого от среднего балла по выборке. Затем эти показатели используют для определения места каждого тестируемого по его результатам в сравнении с результатами других тестируемых на основе подсчета нормированных отклонений, что и носит называние Z-оценки. Результат отображения Z-оценок образует Z-шкалу.
Для перевода результатов тестирования в Z-шкалу, балл каждого тестируемого преобразуется по следующей формуле:
,
где – балл испытуемого, – среднее значение индивидуальных баллов испытуемых в группе, – стандартное отклонение.
Стандартное отклонение – наиболее распространенный показатель рассеивания значений случайной величины относительно ее математического ожидания.
Стандартное отклонение определяется по формуле:
,
где – -й элемент выборки, – объем выборки, – среднее арифметическое выборки.
Среднее арифметическое выборки определяется по формуле [23]:
.
Такую шкалу удобно использовать для любого распределения индивидуальных баллов, особенно, если распределение баллов по тестированию близко к требованиям нормального закона распределения. Достоинством данной шкалы является то, что общая средняя арифметическая и общая мера вариации данных позволяют достичь сравнимости разных тестов. Недостатком можно назвать то, что при вычислении нередко получаются отрицательные и дробные оценки, которые являются малоинформативными. В таких случаях применяют специальные методы линейного преобразования Z-оценок для перевода на множество целых положительных чисел.
Шкалы станайнов и стенов, получающиеся в результате деления шкалы проходных баллов на различные интервалы. Такие шкалы используют для того, чтобы придать понятную форму результатам тестирования для испытуемых при использовании нормализованных стандартных и линейно образованных показателей. Таким образом, при разбиении нормального распределения на 9 интервалов получается шкала станайнов, при которой оценки результатов тестирования выражаются в стандартных единицах от «1» при низшем балле до «9» при высшем балле.
Также, на практике часто используется шкала стенов, при которой весь массив результатов делиться на 10 частей с интервалом 0,5 стандартного отклонения. В данной шкале среднее арифметическое принимается равным 5,5, при этом расстояние между двумя соседними стандартными единицами равно [24].
Таблица 5 – Виды шкал для представления результатов тестирования
Название шкалы | Краткое описание |
Процентильный ранг | Показывает относительное положение тестируемого в выборке испытуемых. |
Линейная Z-оценка | Отношение индивидуального отклонения результата тестового балла к стандартному отклонению группы тестируемых. |
Шкалы станайнов и стенов | Получаются в результате деления шкалы проходных баллов на различные интервалы (9 и 10 интервалов). |
2.4 Формы построения тестовых заданий