Учебник - общая психодиагностика - 2006 (846296), страница 21
Текст из файла (страница 21)
Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности сырого балла). Приналичии разнородных подвыборок для каждой из них должна бытьсвоя таблица.9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне Р < 0,01) с учетом стандартнойошибки в определении среднего значения.10. Обсудить конфигурацию полученных распределений с уче98том предполагаемого механизма выполнения того или иного теста.11. В случае негативного результата: отсутствия устойчивыхнорм для шкалы с заданным числом градаций (с заданной точностьюпрогноза критериальной деятельности) - осуществить обследованиеболее широкой выборки или отказаться от использования, данноготеста.3.2. НАДЕЖНОСТЬ ТЕСТАВ дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традициираздельногоизложенияметодов проверки этих важнейших пси-хометрических свойств теста.Надежность и точность.
Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат действия двух источников разнообразия:самого измеряемого свойства и нестабильности измерительной процедуры,обусловливающейналичиеошибкиизмерения.Этопред-ставление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов:ST2a 2Sx(3.2.1)Так как истинная дисперсия и дисперсия ошибки связаны очевидным соотношением, формула (3.2.1) легко преобразуется в формулу Рюлона:a 1 Se2Sx2где а - надежность теста;(3.2.2)Se2 .
-дисперсия ошибки.Величина ошибки измерения - обратный индикатор точности из99мерения. Чем больше ошибка, тем шире диапазон неопределенностина шкале (доверительный интервал индивидуального балла), внутрикоторого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипотезыо значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно ещеоценить ошибку измерения, обусловливающую разброс в положениииндивидуального балла (рис.
7).Рис. 7. Соотношение распределений Sm – стандартное отклонение эмпирического среднего, St – стандартное отклонениеошибкиКак же определить ошибку измерения? На помощь приходяткорреляционные методы, позволяющие определить точность (надежность) через устойчивость и согласованность результатов, получаемыхкак на уровне целого теста, так и на уровне отдельных его пунктов.Надежность целого теста имеет две разновидности.1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для интервальных шкал подсчитывается хорошо известный коэффициенткорреляции произведения моментов Пирсона:r12 x12i x2i x x1i2in(x12i (x1i ) 2 / n)(x22i x2i ) 2 / n)где х1i.
- тестовый балл i-го испытуемого при первом измерении;100х2i. - тестовый балл того же испытуемого при повторном измерении;n - количество испытуемых.Оценка значимости этого коэффициента основывается на несколько иной логике, чем это обычно делается при проверке нулевойгипотезы - о равенстве корреляций нулю. Высокая надежность достигается тогда, когда дисперсия ошибки оказывается пренебрежительномалой. 'Относительную долю дисперсии ошибки легко определить поформулеSe2S 2 1 r12Sx20(3.2.4)Таким образом, для нас существеннее близость к единице, а неотдаленность от нуля. Обычно в тестологической практике редко удается достичь коэффициентов, превышающих 0,8.
При г = 0,75 относительная доля стандартной ошибки равна1 0,75 0,5 . Этой ошиб-кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от среднего повыборке оказывается, как правило, завышенным. Для того чтобы выяснить «истинное» значение тестового балла индивида, применяетсяформулаx rxi (1r)xгдеx - истинный балл;(3.2.5)'хi — эмпирический балл i-го испытуемого;r - эмпирически измеренная надежность теста;x - среднее для теста.Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9.
Тогдаистинный баллx= 0,9 120 + 0,1 100 =118.Конечно, требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мысоздаем тест для измерения эмоциональных состояний (бодрости, тре101воги и т. д.), то, очевидно, требовать от него ретестовой надежностибессмысленно: у испытуемых быстрее изменится состояние, чем онизабудут свои ответы по первому тестированию.Для шкал порядка в качестве меры устойчивости к перетестированию используется коэффициент ранговой корреляции Спирмена:p 16 d i2n(n 2 1),(3.2.6)где di — разность рангов /-го испытуемого в первом и второмранговом ряду.С помощью компьютера определяется более надежный коэффициент ранговой корреляции Кендалла (1975).2. Надежность- согласованность (одномоментная надежность).Эта разновидность надежности не зависит от устойчивости, имеет особую содержательную и операциональную природу.
Простейшимспособ ее измерения СОСТОИТЕ коррелировании параллельных формтеста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельныеформы теста получают расщеплением составного теста на «четную» и«нечетную» половины: к первой относятся четные пункты, ко второй нечетные. По каждой половине рассчитываются суммарные баллы имежду двумя рядами баллов по испытуемым определяются допустимые(с учетом уровня измерения) коэффициенты корреляции. Если параллельные тесты не нормализованы, то предпочтительнее использоватьранговую корреляцию. При таком расщеплении получается коэффициент, относящийся к половинам теста.
Для того чтобы найти надежностьцелого теста пользуются формулой Спирмена - Брауна:rxx 2rx1 rx(3.2.7)где rx - эмпирически рассчитанная корреляция для половин.Делить тест на две половины можно разными способами, и каждый раз получаются несколько разные коэффициенты (Аванесов В. С.,1982, с. 122), поэтому в психометрике существует способ оценки синхронной надежности, который соответствует разбиению теста на такое102количество частей, сколько в нем отдельных пунктов. Такова формулаКронбаха:j S 2j k j 1a1 2 k 1Sx(3.2.8)где а - коэффициент Кронбаха;k- количество пунктов теста;S 2j - дисперсия по j-му пункту теста;S x2 - дисперсия суммарных баллов по всему тесту.Обратите внимание на структурное подобие формулы Кронбаха(3.2.2) и формулы Рюлона (3.2.8).Несколько раньше была получена формула Кьюдера - Ричардсона, аналогичная формуле Кронбаха для частного случая - когда ответы на каждый пункт теста интерпретируются как дихотомические переменные с двумя значениями (1 и 0):k 2 Sx p jq jk j 1KR20 k 1S x2(3.2.9)где KR20 - традиционное обозначение получаемого коэффициента;p j q j -дисперсия i-и дихотомической переменной, какой являетсяi-й пункт теста; р =N («верно»),q=1-pnВ 1957 г.
Дж. Ките предложил следующий критерий для оценкистатистической значимости коэффициента a:X n21 k (n 1)k (1 a ) a(3.2.10)103где X n21 - эмпирическое значение статистики % квадрат с п-1степенью свободы;k - количество пунктов теста;n - количество испытуемых;.a - надежность.Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласованность пунктов теста, используя при этом только подсчет дисперсий.Однако коэффициенты а и KR2I> позволяют оценить и среднюю корреляцию между i-м и j-м произвольными пунктами теста, так как связаныс этой средней корреляцией следующей формулой:akrij1 (k 1)rij11)где rij - средняя корреляция между пунктами теста.
Легко увидеть идентичность формулы (3.2.11) обобщенной формуле Спирмена Брауна, позволяющей прогнозировать повышения синхронной надежности теста с увеличением количества пунктов теста в k раз (АванесовВ. С., 1982, с. 121). Из этой формулы видно, что при больших k малоезначение rij может сочетаться с высокой надежностью. Пусть rij = 0,1,a k =100, тогда по формуле (3.2.11)a100 0,110 0,911 99 0,1 10,9Широкое распространение компьютерных программ факторногоанализа для исследования взаимоотношений между пунктами теста (поодномоментным данным) привело к обоснованию еще одной достаточно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент:k 11 k 1 1 (3.2.12)104где θ - коэффициент, получивший название тета-надежноститеста;k - количество пунктов теста;λ1 - наибольшее значение характеристического корня матрицыинтеркорреляций пунктов (наибольшее собственное значение,или абсолютный вес первой главной компоненты).Как и предыдущие формулы, формула (3.2.12) также относитсяк оценке надежности теста, направленного на измерение одной характеристики.