Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 12
Текст из файла (страница 12)
7 слева. Для нашей модели вычислить наблюдаемые коэффициенты корреляции между переменными можно с помощью перемножения факторных нагрузок, причем, поскольку все нагрузки одинаковы, коэффициент корреляции будет равен квадрату факторной нагрузки: * Под факторным шкалнрованнем понимается процедура, позволяющая присваивать каждому объекту некоторые числовые оценки значений выделенных факторов, используа значения наблюдаемых переменных для этого объекта. — Примеч. ред. гтУ=Ь;Ь,=Ь';=Ь';=Ьз.
(39) Выражение (39) показывает, что наблюдаемые корреляции совпадают в данном случае с общностью любой из переменных (все три общности здесь равны). В качестве оценки значения фактора берется линейная комбинация параметров Хь Хт, Х,. Так как каждая из зтих переменных имеет одинаковую нагрузку от общего фактора, то естественно сложить их, беря соответствующие значения с одинаковым весом. Окончательное выражение будет иметь вид л Р= Хг+ Ха+ Хз, а соответствующая диаграмма представлена в правой части рис. 7. Отметим, что оценка Р фактически зависит от четырех переменных — общего фактора Р и трех характерных факторов Уь У, и Уз. Следовательно, из-за наличия характерных факторов, корреляция между Р и Р не равна 1.
Ниже мы рассмотрим связь между скрытым общим фактором и его оценкой, т. е. получим надежность оценки. Надежность факторного шкалировання Дисперсию оценки Р легко вычислить, используя свойства математических ожиданий: Фактарная надень Чааеаьоакторного шкааиртеания Рис. т. Графическая модель, иллюстрирующая зависимость между фактором и его оценкой бз чаг(Р) =чаг(Х!)+1ааг(Ха)+чаг(Ха)+ +2[Соч(ХьХ»)+Соч(Х Ха)+Соч(Хг, Ха)]. (40) Поскольку в этом примере взяты единичные веса, выражение упрощается. Дальнейшее упрощение достигается в том случае, если дисперсии каждой переменной будут единичными, а коэффициенты корреляции будут попарно равны друг другу: и Чаг(Г) =и+2[ты+гм +газ) =и +и(п — 1)г= =и[1+ (п — 1) г) =и[1+ (п — ! )Ьа) (41) (из формулы (39) следует, что г а = гьа = гаа = г = й,а) . Некоторая доля дисперсии г связана с характерными факторами, Их вклад равен: ч«(, =Х(1 — й, ) =п(1 — й ), так как все общности в а а а нашем примере равны. Таким образом, доля дисперсии Р, связанная с общим фактором г, получается из соотношения и Чаг(Р)-л(1 — й') л(!+(и — 1)йа) — и(1-аа) га!и,г!— л час(Г) и (1+ (и- ! ) «21 иа2 иг !в (42) 1+ (и — 1)аа 1+ (и — 1)г что соответствует формуле Спирмена — Брауна для надежности и специальному случаю альфа-параметра Кронбаха (СгопЬас)1, 1951: ).огд, )4оч(ск, 1968).
Следует напомнить, что в данном случае пт можно заменить на г. Для того чтобы показать степень неопределенности, или степень ожидаемой «надежности» факторного шкалирования, в табл. 11 представлены значения коэффициентов «надежности» для некоторых типичных значений общностей при различном числе переменных. Отметим, что при возрастании числа переменных для фиксированного значения общности (факторных нагрузок или корреляций) надежность возрастает. Кроме того, даже при весьма высокой факториой нагрузке (скажем, 0,8) надежность все же относительно низкая, если число переменных мало. Следует иметь в виду, что при факторном шкалированни часто используют оценку Р в стандартном виде — с нулевым математическим ожиданием и единичной дисперсией.
Разумеется, принципиального значения зто обстоятельство не имеет. Неодинаковые факторные нагрузки До сих пор мы ограничивались не только одинаковыми факторными нагрузками в однофакторной модели, но и брали лишь данные без ошибок. Теперь попробуем усложнить задачу. Рассмотрим ситуацию, когда факторные нагрузки в однофакторной модели неодинаковы. Получаем корреляционную матрицу более общего вида.
Если оценка фактора найдена в результате 64 таблица 11 Коэффициент надежности (корреляцни между фактором, я его оневкой) для раэлвчных значений равных между собой факторийх нагрузох и различного числа переменных' и(г) «(Л') 1 Фернула дли иаеффициеите надежности (а) )+(е-Ит )+[и-Пз ' суммирования наблюдаемых параметров, надежность такой оценки будет равна; сумма элементов редуцированной корреляционной матрицы а- сумма элементов корреляционной матрицы д Уаг(г) — Ул(е.
У а((Р) — л (1 — йе,) (4З) Уаг(г) Уаг(г") Если все общности одинаковые, то из соотношения (43) вытекает (42). При заданной средней общности (или среднем коэффициенте корреляции) коэффициент надежности будет больше, когда нагрузки одинаковые. Таким образом, в табл. 11 даны оценки сверху для коэффициентов надежности при различных нагрузках. Более серьезным является вопрос, следует ли при шкалировании фактора суммировать переменные с одинаковыми весами, если известно, что коэффициенты нагрузки не равны друг другу.
Рассмотрим крайний случай. Пусть одна общность равна 1, т. е. наблюдаемая переменная полностью определяется скрытым фактором, Тогда этот фактор можно оценить одной переменной, не учитывая остальные; добавление других параметров с общностями, отличными от 1, только ухудшит оценку. Поэтому и в общем случае при факторном шкалировании нельзя просто суммировать значения переменных.
Если однофакторная модель точно описывает наблюдения, оптимальная оценка относительно проста; веса, назначаемые каждой переменной, получаются из соотношения В'()1-() (44) где  — вектор факторных нагрузок, а )т' — корреляционная матрица измеряемых переменных. Соотношение (44), которое выводится из регрессии фактора на переменные, обеспечивает максимальную корреляцию между Е и Р. айаг(Р) — Х(1 — 6,') м,а Обобщенный коэффициент = (45) надежности чаг (Г) где ю, — регрессионные веса, задаваемые соотношением (44).
При этом дисперсия оценки г" равна. маг(Е) = Х Х ш,ы,го, (46) что эквивалентно суммированию всех элементов редуцированной корреляционной матрицы, причем каждый элемент г„ умножается на произведение соответствующих весов ю, и ю,. На диагонали редуцированной матрицы будут стоять квадраты весов переменных. Поскольку эта величина равна Р', она не превосходит максимальной общности Следовательно, если некоторая переменная является точным повторением скрытого фактора, ее вес будет единичным, а веса остальных — нулевыми.
Важно также отметить, что при использовании различных весов для получения оценки значения фактора переменная с большой нагрузкой часто более существенна, чем остальные переменные с малыми нагрузками. Следует помнить, что коэффициент надежности оценки не превосходит квадрата наибольшей факторной нагрузки. ВЫБОРОЧНЫЙ РАЗБРОС И РАЗЛИЧНЫЕ КРИТЕРИИ КАЧЕСТВА ОЦЕНОК До сих пор мы рассматривали идеализированну)о ситуацию, когда однофакторная модель точно соответствует данным без разброса, вызванного выборкой. В этой ситуации скрытая модель идентифицируется абсолютно точно. Если же в наблюдениях появляется разброс, связанный с выборкой, зависимости, проявляющиеся в выборке, уже не будут точно соответствовать генеральной совокупности.
Даже если однофакторная модель безошибочна для генеральной совокупности, она не будет абсолютно точно воспроизводить корреляции в выборочных данных. Поэтому мы вынуждены ввести критерии близости оценок и истинных значений факторов. Существуют три таких критерия. Регрессионный анализ Первый критерий сводится к нахождению оценки (г) значения фактора (Р), доставляющей максимум коэффициента корре- ляции между Р и Р. В другом представлении этот критерий сводится к минимизации суммы квадратов отклонений л(Р— Р)з.
Использование этого критерия обусловливает применение регрессионного анализа. Такой подход возможен, ибо факторный анализ дает значения факторных нагрузок, которые представляют собой корреляции между факторами (подлежащими оцениванию) и наблюдаемыми переменными (выступающими здесь в роли предикторов). При этом корреляции между предикторами являются не чем иным, как наблюдаемыми корреляциями. Эти две последовательности коэффициентов корреляции и представляют исходные данные для решения системы нормальных уравнений.
Оценки значений факторов задаются тогда соотношением л Р Х (В')7-' ), (17) где  — матрица факторных нагрузок; Х вЂ” вектор наблюдаемых переменных, а  — корреляционная матрица наблюдаемых переменных. Заметим, что весовые коэффициенты определяются из заранее введенного соотношения (44). Единственное отличие заключается в том, что в выражении (47) используются наблюдаемые значения корреляционной матрицы В, а для модельных данных без ошибок наблюдаемые значения корреляций совпадают с самими корреляциями. В общем случае воспроизводимые моделью корреляции не совпадают с наблюдаемыми. Ожидаемую надежность оценки факторов получаем с помощью выражения (45).