Учебник - общая психодиагностика - 2006 (846296), страница 24
Текст из файла (страница 24)
Их подтверждениеуказывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональноеопределение конструктяой валыидности называется предполагаемойвалидностью (assumed validity).Представления о конструктной валидности тестов постоянноразвиваются с пополнением репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с помощью разныхметодик, обогащают теоретические представления об измеряемыхсвойствах.С другой стороны, понятие конструктной валидности указываетна высокую зависимость эмпирических связей теста от теоретическихпредставлений его автора об измеряемом свойстве.
Для иллюстрацииприведен пример взаимоотношений между двумя популярными тестопросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой«экстраверсия» Айзенка. Эти соотношения можно проиллюстрироватьграфически (рис. 10): вектор MAS оказывается расположенным вквадранте «Нейротизм - Интроверсия», образованном системой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует нетолько с релевантным фактором «нейротизм», но и с иррелевантнымфактором «интроверсия».
С этой точки зрения, опросник EPI оказывается просто нечувствительным к особой разновидности «нейротизма» к нейротизму (тревожности) экстравертов; в перечне пунктов MAS от116сутствуют высказывания, в которых могла бы проявиться тревожностьэкстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом- следствием дефекта их диагностического средства. Согласно К.Спенсу, пытавшемуся перенести на человеческое поведение теориюнаучения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз присочетании нейротизма (специфическая активация по Г. Айзенку) и интро-версии (неспецифическая активация)Рис.
10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику MAS с факторами тест-опросникаEPIТаким образом, вовсе не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.Конвергентная и дискриминантная валидность. От того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство«нейротизм» как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интровертыи невротичные экстраверты (векторы этих пунктов должны быть примерно поровну распределены в правом и левом нижних квадрантах;см. рис.
10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки117зрения теории Айзенка, это означает, что фактор «нейротизм» оказывается нагруженным иррелевантным фактором - «интроверсией».(Точно такой же эффект возникает, если появится перекос в выборке если в ней будет больше невротичных интровертов, чем невротичныхэкстравертов.)Для того чтобы не сталкиваться с такими сложностями, психологи хотели бы иметь дело с такими эмпирическими показателями(пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не ; толькотем фактором, который нам нужен, но и другими - иррелевантнымизадаче измерения (рис. 11).На рис. 11 постоянным для всех показателей является релевантный фактор А, но каждый раз он оказывается сопряжен с иррелевантными факторами - X, К и Z.
Задача состоит в таком подборе пунктов,чтобы все потенциальные иррелевантнв!е факторы были уравновешены, т. е. чтобы ни один из них не встречался бы чаще другихна множестве показателей (пунктов), включенных в тест.Рис, 11. Связь эмпирических показателей П1, П2, П, с релевантным (измеряемым) фактором А и с иррелевантными(«шумовыми») факторами X, Y, Z, обусловливающими невалидность показателейТаким образом, по отношению к факторам, которые концептуально определяются как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборепунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982);Соответствие пунктов измеряемому фактору обеспечивает кон118вергентную валидность теста.
Сбалансированность пунктов относительно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство.С точки зрения теории Айзенка, тест Ж. Тейлор не обладаетдискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - «нейротизм».Экспертная эмпирическая валидизация. В отсутствие какоголибо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретическогоконтекста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экспертов квалидизации теста.
В отличие от экспертного анализа содержания теста., эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего незнали), а с испытуемыми из выборки стандартизации.Необходимо экспертам обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если предприняты серьезныеусилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдениевсе равно будет значительно уступать по информативности полевомунаблюдению - в естественных условиях.
Если измеряемое свойствотеоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций (см. главу 4), то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.Поэтому на практике часто прибегают к оценкам особого типа -ксубъективным оценкам, которые выносят испытуемому люди из егокруга, имеющие опыт реального общения с ним. С учетом этого, процедура оценивания приспосабливается к обычным людям, не являющимся психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающейсмысл оцениваемой характеристики. Лучшие условия для такой про119цедуры возникают при наличии группы испытуемых, тесно общающихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг кдругу.
В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - «групповая оценка личности» (КузьминН. В., Семенов В. С., 1977).Для того чтобы групповая оценка личности была источникомдействительно валидной информации, оценщики должны согласованнооценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию.
Для измерения согласованности должнабыть составлена таблица с оценками (табл. 6).Таблица 6О1О2…ОkИ1x11x12…x1kC1И2x21x22x2kC2xn1xn2xnkCnОценщикиИспытуемые…ИnМетоды анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяютсядля обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы,можно получить коэффициенты согласованности для отдельных пароценщиков.
Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбаха - см. формулу (3.2.8).Если же групповая оценка не обнаруживает надежности, то онане может использоваться в качестве критерия валидизации при проверке валидности теста.120Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки.Это эмпирическое значение при наличии невысокого коэффициентанадежности критерия корректируют по формулеrrtx cxac(3.3.1)где rcx - эмпирическая корреляция с критерием;ас — надежность критерия;rtx - корреляция с «истинным» критерием («истинная» валидность теста).Анализ пунктов по критерию валидности. Валидность всего тестацеликом зависит от валидности входящих в него пунктов.
Максимальная валидность достигается за счет отбора таких пунктов из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именнопо критерию валидности обеспечивает максимальную прагматическуюэффективность теста. Вручную (на калькуляторе) такой отбор можнопроизвести,рассчитавбисериальнуюкорреляцию(илифи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см.формулы (3.2.15) и (3.2.17).