И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ, страница 9
Описание файла
DJVU-файл из архива "И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 4 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 9 - страница
Со статистической точки зрения решение с помощью метода наименьших квадратов не столь эффективно, как решение с помощью метода максимального правдоподобия, но все сделанные замечания относятся и к нему. КРИТЕРИИ, ОСНОВАННЫЕ НА СОБСТВЕННЫХ ЧИСЛАХ При определении числа факторов часто применяют правило, которое позволяет оставлять факторы с собственными числами, большими 1. При этом используется корреляционная (нередуцнрованная) матрица. Этот простой критерий хорошо себя зарекомендовал, так как обычно дает результаты, совпадающие с теми, что ожидает получить исследователь. Кроме того, этот метод был тщательно проверен на модельных искусственных данных. Для корреляционной матрицы, относящейся к генеральной совокупности, рассматриваемый критерий всегда дает нижнюю оценку числа общих факторов.
Иначе говоря, число обших факторов, соответствующих данной корреляционной матрице, будет больше или равно числу факторов, выделяемых согласно этому критерию. Однако полученное неравенство не обязательно справедливо для выборочной корреляционной матрицы. Хотя Кайзер приводит несколько причин в пользу критерия собственных чисел, больших 1, тем не менее он носит эвристический характер. После исследования других, более «утонченных» методов, Кайзер все же отдает предпочтение именно этому критерию (Ка(зег, 1974).
Другой метод, основанный на собственных числах, относится к редуцированной корреляционной матрице. Согласно этому критерию сохраняются факторы с собственными числами, большими нуля, Преимущество этого метода в том, что для корреляционной матрицы генеральной совокупности он дает более точные нижние оценки числа общих факторов. Но для выборочной корреляционной матрицы критерий обычно дает значительно большее число факторов. Данный критерий может применяться, когда общности оцениваются и помещаются на главную диагональ. Как правило, некоторые собственные числа будут отрицательными. При этом не имеет смысла выделять все факторы с собственными числами, большими нуля.
Хотя сумма отрицательных и положительных собственных чисел равна сумме всех общностей, (т. е. дисперсии, объясняемой общими факторами), отрицательные величины нельзя интерпретировать как дисперсии. Поэтому их присутствие является причиной «инфляции» суммы положительных собственных чисел в том смысле, что оиа становится больше суммы общностей. Харман (Наппап, 1975) предлагает прекратить выделение общих факторов, когда сумма собственных чисел превысит сумму оценок общностей. КРИТЕРИЙ, ОСНОВАННЫЙ ИА ВЕЛИЧИНЕ ДОЛИ ВОСПРОИЗВОДИМОЙ ДИСПЕРСИИ Критерии значимости «оперируют» с выборочной изменчивостью данных.
Критерии, основанные на собственных числах, формулируются в терминах абстрактных характеристик матрицы. 37 КРИТЕРИИ ОТСЕИВтвИИЯ Настоящий метод предложен Каттеллом (Са11ец, 1965), Рассматрнвается графическое изображение собственных чисел корреляционной матрицы, которые наносятся на график в порядке ях убывания. Выделение заканчивается на том факторе, после которого исследуемая зависимость близка к почти горизонтальной прямой линии. Эту прямую Каттелл н предлагает нспользо- Выход на полную линию покалывает, ето веоюллетел О ~ не более пптн Фактолов ~ о — о с о- о д з х 2 л ю о 1 2 4 8 8 10 12 Число факторов Рис.
5. Критерий отсеивания Возможен третий подход — для каждого фактора оценнвается доля дисперсии, воспроизводимая этим фактором. Данный критернй становится особенно наглядным, когда выделение первоначальных факторов производится с помощью нередуцярованной корреляционной матрицы. Тогда в качестве статистики этого критерия выступает доля дисперсии, воспроизводимой последним выделяемым фактором по отношению к полной дисперсии, равной числу параметров. Следует напомнить, что рассмотренные выше методы выделения предполагают упорядочение факторов по убыванию нх долей днсперснн.
Обсуждаемый критерий определяется уровнем (порогом) для минимальной доли воспронзводимой дисперсии. Например, это может быть один, пять нлн десять процентов. Заметим, что крнтеряй «собственных чисел, ббль1пнх единицы», эквивалентен данному критерию для 100/п1)о-го уровня. Во всех упомянутых выше методах, кроме анализа главных компонент, используется редуцированная корреляционная матрица.
Прн этом доля воспроизводимой дисперсии равна отношению собственного числа к сумме всех собственных чисел (сумме элементов на главной диагонали матрицы). Основной недостаток критерия, основанного на величине доли воспроизводимой днсперсии, состоит в определенной его субъективности. Однако он основан на легко поддающейся интерпретации статистике н в этом преимущество данного метода. вать для выделения факторов. Пример применения критерия отсеивания представлен на рис.
6. Как видно, выделяется не более пяти факторов. Моделирование по методу Монте-Карло показывает, что при наличии второстепенных факторов, данный критерий предпочтительнее по сравнению с другими (Тцскег, Кооргпап, 1.1пп, 1969; 1.1пп, 1968). Кайзер скептически относится к критерию отсеивания (Ка1эег, 1970), так как на графике можно получить более чем один излом, и тогда выделение какой-либо прямой становится субъективным.
КРИТЕРИИ ИНТЕРПРЕТИРУЕМОСТИ И ИНВАРИАНТНОСТИ Для исключения сомнительных результатов можно попытаться применить к одним и тем же данным комбинацию различных независимых критериев и принимать только те результаты, которые подходят ко всем критериям (Нагг!э, 1967). Окончательное решение должно базироваться на его приемлемости с точки зрения научных представлений в данной области. Этот подход является «обходным маневром», но, к сожалению, а может быть и к счастью, мы вынуждены принять его, если хотим, чтобы нашими результатами могли воспользоваться другие исследователи. Ч. ВВЕДЕНИЕ В КОНФИРМАТОРНЫЙ ФАКТОРНЫЙ АНАЛИЗ Рассматривая разведочный факторный анализ, мы выделяли те предположения, которые необходимы для его применения.
Наиболее важные из этих предположений — принципы факторной причинности и зкономии. Методика факторного анализа состоит в том, что априори принимается определенная модель взаимосвязи между наблюдаемыми переменными, а затем находится решение, наиболее полно согласующееся с наблюдениями, Возникает законный вопрос: существует ли возможность какого-либо подтверждения факторной моделиу Как уже упоминалось, нет способа доказать существование определенной причинной структуры исходя нз наблюдаемой ковариационной структуры. Тем не менее можно оценить, до какой степени правдоподобие факторной модели эмпирически подтверждено.
СТЕПЕНЬ ЭМПИРИЧЕСКОГО ПОДТВЕРЖДЕНИЯ ГИПОТЕЗ О ФАКТОРНОИ МОДЕЛИ По сравнению с разведочным анализом в конфирматорном факторном анализе рассматриваются более специфические гипотезы о факторной структуре. Следовательно, имеется вероятность, что если нв самом деле данные не полностью соответствуют модели, то определенные гипотезы будут отвергнуты. В этом смыс- ле модели в конфирматорном анализе являются самопроверяющимися.
Если данная гипотеза подтверждается результатами наблюдений, появляется ббльшая уверенность в том, что рассматриваемая факторная модель соответствует действительности. Пе- ред тем как обсуждать конфирматорный факторный анализ„важно получить представление аб эмпирическом подтверждении модели в целом, а также решить, можно лн использовать факторный анализ для наших данных или нет. Пример Применение факторной модели к двумерной корреляционной матрице не дает никакой новой информации, так как модель с одним общим фактором всегда совместима с ней. Таким образом, в этой ситуации факторный анализ неприменим вовсе не потому, что факторная модель несовместима с данными.
Причина в другом — степень эмпирического подтверждения модели (или, короче, его информативность) нулевая, и, кроме того, нет единственного решения. Рассмотрим зависимость между первыми двумя переменными в модели, представленной на рис. 1. Если задан произвольный коэффициент корреляции, можно выбрать первую факторную нагрузку на интервале от — 1 до +1 (за исключением О). При этом существует другая факторная нагрузка, обеспечивающая совместимость с наблюдаемой корреляцией. Короче говоря, всегда есть факторное решение, совместное с даннымн.
Ситуация несколько меняется, когда факториый анализ применяется к корреляционной матрице с тремя переменными. Если оказывается, что однофакторная модель совместима с данными, степень эмпирического подтверждения уже ненулевая, так как некоторые случайно выбранные корреляционные матрицы несовместимы с однофакторной моделью. В частности, для того, чтобы корреляционная матрица с тремя параметрами была совместима с однофакторной моделью, три коэффициента корреляции должны удовлетворять следующим условиям: 1) либо все коэффициенты корреляции положительные, либо четное число из них является отрицательным; 2) абсолютная величина любого коэффициента должна быть больше или равна абсолютной величине произведения остальных двух коэффициентов: (г,~) )г,ьг>ь|.