Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 8
Текст из файла (страница 8)
Сводя некоторые меньшие нагрузки к почти нулевым, можно получить пригодную для дальнейшего анализа целевую матрицу. Затем находятся косоугольные факторы, для которых расхождение вычис- Целевая матрица, сестеащав из иудей и единиц Перемее- вае Фактор !Ч. ЕЩЕ О ПРОБЛЕМЕ ОПРЕДЕЛЕНИЯ ЧИСЛА ФАКТОРОВ Хотя мы уже ранее рассмотрели ряд методов нахождения минимального числа факторов, обеспечивающих согласие с наблюдениями, однако существуют причины, чтобы вернуться к этому вопросу. Во-первых, прн обсуждении метода выделения первоначальных факторов отмечалось, что число факторов можно оценивать достаточно приблизительно, поэтому мы не будем вдаваться в подробности, относящиеся к данной задаче. Во-вторых, некоторые первоначальные решения не дают достоверной информации о числе факторов, так как требуют последующего проведения вращений.
В-третьих, мы можем столкнуться с затруднениями, связанными с неполным соответствием между факторной моделью и данными наблюдений. В-четвертых, надо быть готовыми к тому, что в большинстве компьютерных программ требуется предварительная оценка числа факторов. лительной матрицы факторной структуры с целевой — минимально. В рамках данного метода существуют различные алгоритмы, основанные на целевой матрице факторной структуры, но мы не будем их описывать.
В-третьих, можно задать целевую матрицу, состоящую из нулей и единиц. Этот подход часто соответствует действительной степени информированности исследователя, когда ему известно только то, что некоторые нагрузки должны быть велики, а другие — малы. В табл. 7 представлен пример такой целевой матрицы. Можно воспользоваться более общим видом целевой матрицы: некоторые ее элементы полагаются нулевыми, некоторые— равными другим фиксированным величинам, а остальные элементы полагаются произвольными. Более подробно это будет обсуждаться в разделе, посвященном конфирматорному факторному анализу.
Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой. Наиболее часто применяются: 1) критерии значимости, связанные с методами максимального правдоподобия и наименьших квадратов; 2) различные правила, формулируемые в терминах собственных чисел; 3) критерий, основанный на величине долей дисперсий факторов; 4) критерий отсеивания и 5) критерий интерпретируемости и инвариантности.
КРИТЕРИИ ЗНАЧИМОСТИ При условии выполнения предложений, необходимых для метода максимального правдоподобия, с чисто статистической точки зрения предпочтительнее пользоваться критерием х'. Применение этого критерия показало, что для большой выборки при значительном количестве переменных число выделяемых факторов намного больше числа факторов, которое ожидает получить исследователь.
Хотя это обстоятельство не является недостатком метода, в некоторых случаях оно заставляет исследователей после применения критерия статистической значимости использовать дополнительно критерий, основанный на величине доли воспроизводимой дисперсии. Анализ с помощью метода Монте-Карло критерия максимального правдоподобия показывает, что последний особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Другими словами, данный метод хорошо приспособлен к отклонениям, связанным с выборкой, и гораздо хуже — к изменениям в модели.
При достаточно большом объеме выборки любые отклонения в модели будут трактоваться как значимые факторы. Таким образом, после соответствующих вращений второстепенные факторы необходимо удалить с учетом величины долей их дисперсий. Ранее было описано пошаговое использование критерия начиная с однофакторной модели, постепенно увеличивают число факторов, если имеют место статистически значимые отклонения модели от наблюдений. Однако при большом числе параметров данная процедура может быть чрезмерно трудоемкой. Поэтому можно сочетать один из быстрых методов определения числа общих факторов, описанных ниже, с критерием максимального правдоподобия.
После того как будет получено начальное число факторов, количество их следует увеличивать, если наблюдения значимо отличаются от модели, либо уменьшать, если эти отличия — незначимы. Со статистической точки зрения решение с помощью метода наименьших квадратов не столь эффективно, как решение с помощью метода максимального правдоподобия, но все сделанные замечания относятся и к нему. КРИТЕРИИ, ОСНОВАННЫЕ НА СОБСТВЕННЫХ ЧИСЛАХ При определении числа факторов часто применяют правило, которое позволяет оставлять факторы с собственными числами, большими 1. При этом используется корреляционная (нередуцнрованная) матрица.
Этот простой критерий хорошо себя зарекомендовал, так как обычно дает результаты, совпадающие с теми, что ожидает получить исследователь. Кроме того, этот метод был тщательно проверен на модельных искусственных данных. Для корреляционной матрицы, относящейся к генеральной совокупности, рассматриваемый критерий всегда дает нижнюю оценку числа общих факторов. Иначе говоря, число обших факторов, соответствующих данной корреляционной матрице, будет больше или равно числу факторов, выделяемых согласно этому критерию. Однако полученное неравенство не обязательно справедливо для выборочной корреляционной матрицы. Хотя Кайзер приводит несколько причин в пользу критерия собственных чисел, больших 1, тем не менее он носит эвристический характер.
После исследования других, более «утонченных» методов, Кайзер все же отдает предпочтение именно этому критерию (Ка(зег, 1974). Другой метод, основанный на собственных числах, относится к редуцированной корреляционной матрице. Согласно этому критерию сохраняются факторы с собственными числами, большими нуля, Преимущество этого метода в том, что для корреляционной матрицы генеральной совокупности он дает более точные нижние оценки числа общих факторов. Но для выборочной корреляционной матрицы критерий обычно дает значительно большее число факторов.
Данный критерий может применяться, когда общности оцениваются и помещаются на главную диагональ. Как правило, некоторые собственные числа будут отрицательными. При этом не имеет смысла выделять все факторы с собственными числами, большими нуля. Хотя сумма отрицательных и положительных собственных чисел равна сумме всех общностей, (т. е. дисперсии, объясняемой общими факторами), отрицательные величины нельзя интерпретировать как дисперсии. Поэтому их присутствие является причиной «инфляции» суммы положительных собственных чисел в том смысле, что оиа становится больше суммы общностей.
Харман (Наппап, 1975) предлагает прекратить выделение общих факторов, когда сумма собственных чисел превысит сумму оценок общностей. КРИТЕРИЙ, ОСНОВАННЫЙ ИА ВЕЛИЧИНЕ ДОЛИ ВОСПРОИЗВОДИМОЙ ДИСПЕРСИИ Критерии значимости «оперируют» с выборочной изменчивостью данных. Критерии, основанные на собственных числах, формулируются в терминах абстрактных характеристик матрицы. 37 КРИТЕРИИ ОТСЕИВтвИИЯ Настоящий метод предложен Каттеллом (Са11ец, 1965), Рассматрнвается графическое изображение собственных чисел корреляционной матрицы, которые наносятся на график в порядке ях убывания. Выделение заканчивается на том факторе, после которого исследуемая зависимость близка к почти горизонтальной прямой линии.
Эту прямую Каттелл н предлагает нспользо- Выход на полную линию покалывает, ето веоюллетел О ~ не более пптн Фактолов ~ о — о с о- о д з х 2 л ю о 1 2 4 8 8 10 12 Число факторов Рис. 5. Критерий отсеивания Возможен третий подход — для каждого фактора оценнвается доля дисперсии, воспроизводимая этим фактором. Данный критернй становится особенно наглядным, когда выделение первоначальных факторов производится с помощью нередуцярованной корреляционной матрицы. Тогда в качестве статистики этого критерия выступает доля дисперсии, воспроизводимой последним выделяемым фактором по отношению к полной дисперсии, равной числу параметров. Следует напомнить, что рассмотренные выше методы выделения предполагают упорядочение факторов по убыванию нх долей днсперснн.
Обсуждаемый критерий определяется уровнем (порогом) для минимальной доли воспронзводимой дисперсии. Например, это может быть один, пять нлн десять процентов. Заметим, что крнтеряй «собственных чисел, ббль1пнх единицы», эквивалентен данному критерию для 100/п1)о-го уровня. Во всех упомянутых выше методах, кроме анализа главных компонент, используется редуцированная корреляционная матрица. Прн этом доля воспроизводимой дисперсии равна отношению собственного числа к сумме всех собственных чисел (сумме элементов на главной диагонали матрицы). Основной недостаток критерия, основанного на величине доли воспроизводимой днсперсии, состоит в определенной его субъективности. Однако он основан на легко поддающейся интерпретации статистике н в этом преимущество данного метода.
вать для выделения факторов. Пример применения критерия отсеивания представлен на рис. 6. Как видно, выделяется не более пяти факторов. Моделирование по методу Монте-Карло показывает, что при наличии второстепенных факторов, данный критерий предпочтительнее по сравнению с другими (Тцскег, Кооргпап, 1.1пп, 1969; 1.1пп, 1968). Кайзер скептически относится к критерию отсеивания (Ка1эег, 1970), так как на графике можно получить более чем один излом, и тогда выделение какой-либо прямой становится субъективным.
КРИТЕРИИ ИНТЕРПРЕТИРУЕМОСТИ И ИНВАРИАНТНОСТИ Для исключения сомнительных результатов можно попытаться применить к одним и тем же данным комбинацию различных независимых критериев и принимать только те результаты, которые подходят ко всем критериям (Нагг!э, 1967). Окончательное решение должно базироваться на его приемлемости с точки зрения научных представлений в данной области. Этот подход является «обходным маневром», но, к сожалению, а может быть и к счастью, мы вынуждены принять его, если хотим, чтобы нашими результатами могли воспользоваться другие исследователи.