И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 13
Текст из файла (страница 13)
Рассмотрим ситуацию, когда факторные нагрузки в однофакторной модели неодинаковы. Получаем корреляционную матрицу более общего вида. Если оценка фактора найдена в результате 64 таблица 11 Коэффициент надежности (корреляцни между фактором, я его оневкой) для раэлвчных значений равных между собой факторийх нагрузох и различного числа переменных' и(г) «(Л') 1 Фернула дли иаеффициеите надежности (а) )+(е-Ит )+[и-Пз ' суммирования наблюдаемых параметров, надежность такой оценки будет равна; сумма элементов редуцированной корреляционной матрицы а- сумма элементов корреляционной матрицы д Уаг(г) — Ул(е.
У а((Р) — л (1 — йе,) (4З) Уаг(г) Уаг(г") Если все общности одинаковые, то из соотношения (43) вытекает (42). При заданной средней общности (или среднем коэффициенте корреляции) коэффициент надежности будет больше, когда нагрузки одинаковые. Таким образом, в табл. 11 даны оценки сверху для коэффициентов надежности при различных нагрузках. Более серьезным является вопрос, следует ли при шкалировании фактора суммировать переменные с одинаковыми весами, если известно, что коэффициенты нагрузки не равны друг другу. Рассмотрим крайний случай. Пусть одна общность равна 1, т. е.
наблюдаемая переменная полностью определяется скрытым фактором, Тогда этот фактор можно оценить одной переменной, не учитывая остальные; добавление других параметров с общностями, отличными от 1, только ухудшит оценку. Поэтому и в общем случае при факторном шкалировании нельзя просто суммировать значения переменных.
Если однофакторная модель точно описывает наблюдения, оптимальная оценка относительно проста; веса, назначаемые каждой переменной, получаются из соотношения В'()1-() (44) где  — вектор факторных нагрузок, а )т' — корреляционная матрица измеряемых переменных. Соотношение (44), которое выводится из регрессии фактора на переменные, обеспечивает максимальную корреляцию между Е и Р. айаг(Р) — Х(1 — 6,') м,а Обобщенный коэффициент = (45) надежности чаг (Г) где ю, — регрессионные веса, задаваемые соотношением (44).
При этом дисперсия оценки г" равна. маг(Е) = Х Х ш,ы,го, (46) что эквивалентно суммированию всех элементов редуцированной корреляционной матрицы, причем каждый элемент г„ умножается на произведение соответствующих весов ю, и ю,. На диагонали редуцированной матрицы будут стоять квадраты весов переменных. Поскольку эта величина равна Р', она не превосходит максимальной общности Следовательно, если некоторая переменная является точным повторением скрытого фактора, ее вес будет единичным, а веса остальных — нулевыми.
Важно также отметить, что при использовании различных весов для получения оценки значения фактора переменная с большой нагрузкой часто более существенна, чем остальные переменные с малыми нагрузками. Следует помнить, что коэффициент надежности оценки не превосходит квадрата наибольшей факторной нагрузки. ВЫБОРОЧНЫЙ РАЗБРОС И РАЗЛИЧНЫЕ КРИТЕРИИ КАЧЕСТВА ОЦЕНОК До сих пор мы рассматривали идеализированну)о ситуацию, когда однофакторная модель точно соответствует данным без разброса, вызванного выборкой.
В этой ситуации скрытая модель идентифицируется абсолютно точно. Если же в наблюдениях появляется разброс, связанный с выборкой, зависимости, проявляющиеся в выборке, уже не будут точно соответствовать генеральной совокупности. Даже если однофакторная модель безошибочна для генеральной совокупности, она не будет абсолютно точно воспроизводить корреляции в выборочных данных. Поэтому мы вынуждены ввести критерии близости оценок и истинных значений факторов.
Существуют три таких критерия. Регрессионный анализ Первый критерий сводится к нахождению оценки (г) значения фактора (Р), доставляющей максимум коэффициента корре- ляции между Р и Р. В другом представлении этот критерий сводится к минимизации суммы квадратов отклонений л(Р— Р)з.
Использование этого критерия обусловливает применение регрессионного анализа. Такой подход возможен, ибо факторный анализ дает значения факторных нагрузок, которые представляют собой корреляции между факторами (подлежащими оцениванию) и наблюдаемыми переменными (выступающими здесь в роли предикторов). При этом корреляции между предикторами являются не чем иным, как наблюдаемыми корреляциями.
Эти две последовательности коэффициентов корреляции и представляют исходные данные для решения системы нормальных уравнений. Оценки значений факторов задаются тогда соотношением л Р Х (В')7-' ), (17) где  — матрица факторных нагрузок; Х вЂ” вектор наблюдаемых переменных, а  — корреляционная матрица наблюдаемых переменных.
Заметим, что весовые коэффициенты определяются из заранее введенного соотношения (44). Единственное отличие заключается в том, что в выражении (47) используются наблюдаемые значения корреляционной матрицы В, а для модельных данных без ошибок наблюдаемые значения корреляций совпадают с самими корреляциями. В общем случае воспроизводимые моделью корреляции не совпадают с наблюдаемыми. Ожидаемую надежность оценки факторов получаем с помощью выражения (45).
Критерий наименьших квадратов В однофакторной модели каждая переменная считается взвешенной суммой общих и характерных факторов: Х,=Ь,Р+а',и,. Предположим, что вместо Р взята его оценка Р. Поскольку критерий наименьших квадратов определяется оценкой Р, минимизирующей сумму квадратов: ХХ(Х„-Ь,Р)з (48) 1 Э то получаем следующую оценку: л Р=х(вв')-'в. (49) Отличие (49) и (47) состоит в том, что в (49) входят воспроизведенные в модели корреляции ВВ' вместо )г. Таким образом, регрессионный анализ и критерий наименьших квадратов приводят к одним и тем же оценкам, когда выборочные корреляции совпадают с корреляциями для генеральной совокупности.
В противном случае эти оценки дают отличающиеся друг от друга результаты. Критерий Бартлетга Для данного подхода включается в рассмотрение выборочная изменчивость. Если характерную долю дисперсии отнести на счет условных ошибок наблюдений, то лучше уменьшать вес тех переменных, которые имеют большие дисперсии ошибок. Введем следующий критерий: (50) В результате параметры с меньшими общностями получают и меньший вес. Поэтому для неодинаковых коэффициентов факториых нагрузок оценка шкалы, полученная с помощью критерия Бартлетта, отличается от двух предыдущих: о Р=ХУ-аВ(В У-~В)-~ (51) где у-' — диагональная матрица характерностей. Наличие у-з может рассматриваться как результат взвешивания. НЕСКОЛЬКО ОБШИХ ФАКТОРОВ И ЛОПОЛННТЕЛЬНЫЕ СЛОЖНОСТИ Усложним ситуацию, предположив, что имеются два и более общих фактора.
Три рассмотренных критерия можно обобщить для многофакторного случая как для ортогонального, так и для косоугольного решений. Все результаты, полученные для одного фактора, справедливы и для нескольких факторов. Тем не менее тот факт, что корреляция значения фактора с его оценкой не равна 1, порождает в многомерном случае следующие вопросы: 1) будут ли факторные шкалы ортогональны друг другу, если сами скрытые факторы являются ортогональными; 2) будет ли каждая шкала коррелировать только с соответствующим ей фактором (факторная шкала называется монохроматической, если ее частные коэффициенты корреляции с другими факторами нулевые)г В общем случае всем этим требованиям не удовлетворяет ни одна из оценок.
Факторные шкалы будут коррелировать друг с другом, даже если скрытые факторы предполагаются ортогональными; кроме того, корреляции между факторными шкалами не совпадают точно с корреляциями между косоугольными факторами. Поэтому шкала некоторого фактора будет коррелировать с другими факторами. Однако в частном случае перечисленные требования выполняются, во-первых, когда факторная модель точно соответствует экспериментальным данным и отсутствуют выборочная изменчивость и ошибки измерений и, во-вторых, каждая переменная имеет нагрузку только на один фактор. Если выполняются эти два условия, каждый фактор или размерность можно рассматривать отдельно, причем задача сводится к однофакторной модели для данных без ошибок.
Кроме того, как уже было отмечено, в этих условиях нет неопределенности при выборе критерия для оценки шкал — все они будут эквивалентны. К сожалению, такая идеализированная ситуация практически не осуществима. Тем не менее есть еще и другие условия, когда для некоторых факторных шкал выполняются требования ортогональности и монохроматичности.
Если первоначальные факторы (до вращения) были выделены с использованием критерия максимального правдоподобия, регрессионная оценка и оценка Бартлетта для факторных шкал будут ортогональны и монохроматичны. Правда, ортогональность в скрытой факторной модели проявляется далеко не всегда. К тому же после проведения ортогонального вращения для регрессионной оценки факторных шкал уже не выполняется ни одно из этих свойств, а для оценки Бартлетта остается справедливым только условие монохроматичности, т.