Мешкова М.А. Диссертация Методология разработки системы тестирования (1194684), страница 4
Текст из файла (страница 4)
Валидность теста характеризует его пригодность для измерения определенной величины [17]. Результаты тестирования предоставляют информацию, на основе которой руководство принимает дальнейшее решение относительно сотрудника предприятия, поэтому важно, чтобы эти результаты были корректными и давали объективную оценку сотрудника.
Всего выделяют три вида валидности – содержательную, критериальную и конструктную [18].
Конструктная валидность или концептуальная валидность определяется в таких случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа или модели. Таким образом, для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.
Критериальная валидность или эмпирическая валидность предполагает, существование какого-либо внешнего критерия, связь с которым определяет валидность теста. Существует два вида критериальной валидности – текущая и прогностическая.
Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается взаимосвязью с некоторым внешним критерием, который существует в данное время.
Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, которые будут формироваться в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности тестируемого.
Содержательная валидность (content validity) характеризует тест исходя из степени его соответствия предметной области.
Для обеспечения содержательной валидности необходимо детально проанализировать источники, на основе которых составляется тест.
Согласно П. Клайну [16], содержательная валидность определяется следующим образом:
– необходимо указать категорию лиц, для которой предназначен тест;
– составить список знаний, умений, навыков, подлежащих тестированию;
– выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
– на основе списка составить перечень заданий;
– выполнить внешнюю экспертизу полученных заданий;
– после проверки необходимо преобразовать их в задания в тестовой форме.
Далее, исходя из полученной информации составляются тестовые задания и такой тест будет являться валидным.
Процедура валидизации теста является основополагающей и наиболее сложной операцией в процессе создания заданий для тестирования.
Надежность тестирования – степень точности, с которой измеряется конкретный признак. Надежность и валидность являются основополагающими характеристиками качественного теста. Исходя именно из этих характеристик можно судить о тесте как об измерительном инструменте. При этом тест может иметь высокую надежность, но низкую валидность. В таком случае данный тест не пригоден для применения. Тест с высокой валидностью обязательно имеет и высокую надежность [18].
Если представить, что система тестирования является надёжной и существует некая группа тестируемых, которые забывают ответы на вопросы теста после прохождения тестирования, то после проведения повторных тестирований, результаты участников данной группы не должны сильно отличаться от их предыдущих результатов. В том случае, если тест не обладал необходимой степенью надежности, индивидуальные результаты участников группы будут отличаться каждый раз при проведении нового сеанса тестирования.
Для определения надежности тестов для индивидуальных баллов разных сеансов тестирования можно использовать коэффициент корреляции Пирсона, который характеризует существование линейной зависимости между двумя величинами [18]. Для этого необходимо провести испытания на специально подобранной выборке тестируемых, которая должна репрезентативно представлять генеральную совокупность. При этом нужно учитывать тот факт, что чем больше выборка, тем точнее определяется надежность теста.
Формула расчет коэффициента корреляции Пирсона:
,
где – значения переменной
,
– значение переменной
,
– среднее арифметическое для переменной
,
– среднее арифметическое для переменной
.
Данная формула коэффициента корреляции Пирсона предполагает, что мы должны взять разность между каждыми значениями переменной
, и ее средним значением
. В целях оптимизации расчетов используют аналог формулы, полученный путем преобразований [19]:
.
Для вычисления надежности теста необходимы результаты двух испытаний, которые могут организовываться одним из следующих способов:
– тестирование с помощью двух параллельных тестов (parallel-form reliability);
– повторное тестирование с помощью одного и того же теста (test-retest reliability);
– расщепление теста (split-half method).
Первый способ можно назвать лучшим, с точки зрения расчета надежности. Основная проблема данного метода – разработка параллельных тестов, потому что довольно сложно создать тесты, которые будут являться параллельными и по содержанию, и по результатам.
Второй способ проще с технической стороны, но здесь появляются некоторые сложности, перечисленные далее.
Первое тестирование изменяет уровень подготовленности испытуемых, поэтому повторное тестирование может быть необъективным из-за того, что задания теста стали известны, как и некоторые ответы на вопросы теста. По этой причине повторное тестирование необходимо проводить спустя некоторый интервал времени, который должен быть как можно больше.
К моменту повторного тестирования изменяются внешние условия – смена социальной среды, смена времени года и прочее. Кроме того, по прошествии времени меняется уровень знаний и самих тестируемых, как специальный, так и общекультурный. Исходя из этого, можно сделать вывод, что повторное тестирование будет проводиться уже при других условиях и на иной группе тестируемых, поэтому желательно, чтобы временной интервал между тестированиями был как можно короче.
В итоге получаются взаимоисключающие требования к интервалу повтора тестирования, поэтому такой способ нельзя назвать эффективным. К тому же, повторное тестирование в данном случае не позволяет получить параллельные результаты даже для идеального теста с надежностью приблизительно равной единице.
Обычно оценка надежности строится на подсчете корреляции между двумя наборами данных, при этом можно заметить закономерность, чем выше корреляция, тем надежнее тест.
Для небольшой выборки корреляцию в данном способе можно оценить визуально (таблица 3).
Рассмотрим пример, в котором испытуемые проходят три теста и
по 10 заданий. Эти задания дважды выполняла одна и та же выборка из 10 человек.
Тест обладает оптимальной надежностью, потому что результаты 10 тестируемых при повторном тестировании остались прежними. Тест
не является надежным, потому что те испытуемые, которые имели высокие баллы в первом тестировании, получают низкие баллы при повторном тестировании и наоборот. Тест
обеспечивает хаотичное изменение результатов, хотя баллы отдельных испытуемых (3-го и 9-го) будут остаются идентичными при повторном выполнении теста. Данный тест обладает низкой надежностью.
Таблица 3 – Результаты прохождения тестов
Номер тестируемого | Тест А | Тест В | Тест С | |||||
1-й тест | 2-й тест | 1-й тест | 2-й тест | 1-й тест | 2-й тест | |||
1 | 10 | 10 | 10 | 1 | 10 | 6 | ||
2 | 9 | 9 | 9 | 2 | 9 | 4 | ||
3 | 8 | 8 | 8 | 3 | 8 | 8 | ||
4 | 7 | 7 | 7 | 4 | 7 | 9 | ||
5 | 6 | 6 | 6 | 5 | 6 | 3 | ||
6 | 5 | 5 | 5 | 6 | 5 | 1 | ||
7 | 4 | 4 | 4 | 7 | 4 | 5 | ||
8 | 3 | 3 | 3 | 8 | 3 | 7 | ||
9 | 2 | 2 | 2 | 9 | 2 | 2 | ||
10 | 1 | 1 | 1 | 10 | 1 | 10 |
Данные, представленные в таблице, являются гипотетическими и используются для большей наглядности надежности, на практике подобные результаты практически нереальны.
При использовании второго способа метод оценки надежности основан на подсчете корреляции индивидуальных баллов тестируемых, полученных в результате двукратного прохождения ими одного и того же теста. Обычно повторное тестирование проводится после 1-2 недели.
Для подсчета коэффициента надежности в данном случае используется следующая формула:
, (1)
где – коэффициент надежности теста,
– индивидуальный балл -го испытуемого в первом тестировании,
– индивидуальный балл
-го испытуемого во втором тестировании,
.