И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ, страница 2
Описание файла
DJVU-файл из архива "И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 4 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 2 - страница
К счастью, как будет показано, эти трудности преодолимы. Исследователь для решения проблемы в большей или меньшей степени должен положиться на существующие компьютерные программы, которые часто предусматривают различные варианты вычислений, принятые по умолчанию. Последние устраивают пользователя по крайней мере до тех пор, пока задача не потребует некоторых изменений. Более того, по мере знакомства с разнообразными вариантами факторного анализа становится ясно, что различия между ними большей частью поверхностны. Фактически это разнообразие обусловлено расхождением в небольшом числе основных предположений. Еще более существенно, что применение различных методов и критериев к одним и тем же данным приводит к эквивалентным, с практической точки зрения, результатам. Короче говоря, читателю не обязательно изучать и использовать все варианты немедленно.
Вместе с тем необходимо, чтобы пользователь знал наиболее распространенные алгоритмы факторного анализа и осознавал с самого начала тот факт, что большинство проблем не имеет единственного, окончательного (или наилучшего) решения. Надеемся, что читатель имеет общее представление о концепции факторного анализа, а также знаком с различием между неоднозначностью вывода скрытой (латентной) факторной структуры из наблюдаемых ковариаций (логическая задача) и разбросом значений оценок параметров генеральной совокупности по выборке (статистическая задача). Хотя при получении решения задачи факторного анализа эти две проблемы в целом переплетаются, важно представлять концептуальные различия.
Прежде чем мы изложим статистические методы и практические вопросы, нам кажется, что будет полезно обратиться к основам фактор- ного анализа. ОБЗОР ОСНОВ ФАКТОРНОГО АНАЛИЗА В факторном анализе предполагается, что наблюдаемые переменные являются линейной комбинацией некоторых латентных (гипотетических или ненаблюдаемых) факторов, Некоторые из этих факторов допускаются общими для двух и более переменных, а другие — характерными для каждого параметра в отдельности. Характерные факторы — ортогональны друг другу (по крайней мере в разведочном факторном анализе). Следовательно, характерные факторы не вносят вклад в ковариацию между переменными. Другими словами, только общие факторы, число которых предполагается гораздо меньшим числа наблюдаемых переменных, вносят вклад в ковариацию между ними.
Принимаемая в факторном анализе линейная система такова, что структура ковариаций может быть идентифицирована без ошибок, если известна матрица нагрузок латентных факторов, Тем не менее однозначное восстановление латентной факторной структуры исходя из наблюдаемой ковариационной структуры всегда проблематично.
Эта неопределенность не имеет никакого отношения к статистическому оцеииванию и должна разрешаться с помощью «внестатистических» постулатов; принципа факторной причинности и принципа зкономии. При использовании этих постулатов и свойств линейной системы можно точно идентифицировать латентную факторную структуру путем исследования результирующей ковариациониой матрицы, если структура не является слишком сложной и если она удовлетворяет требованиям простой факторной структуры. Модель с двумя общими факторами (рис.
1) может быть восстановлена из матрицы корреляций, представленной в нижнем треугольнике табл. 1. Любая компьютерная программа (какой бы алгоритм в ней ни был заложен) позволяет достаточно хорошо восстановить данную модель". в ~г .во г 5 5 ОСНОВНЫЕ АЛГОРИТМЫ И МЕТОДЫ В зависимости от задач исследователя следует воспользоваться либо разведокпь5м, либо конфирматорным факторным анализом.
В обоих случаях существуют три основных этапа: под. готовка соответствующей матрицы ковариаций, выделение перво- На практике тем не менее на исследуемую матри- 1 цу корреляций оказывают влияние различные случай- , 70 Ьг. 51 ные и неслучайные ошибки, и в результате она будет отлична от корреляционной матрицы, обусловленной .л факторной структурой гене- гм ральной совокупности. Над 7О главной диагональю табл. 1 помещены элементы коррек в ляционной матрицы, вычисленной для выборки объема 100 с использованием факторного отображения, приведенного на рис. 1 (т. е. с Рис.
1. Гриф фбкториой структуры с использованием матрицы шестью переменными и двумя косоугольКОРРеляции под дИагОнальЮ нымк обюими ФактоРами, где иаблюдие- мыв первмвкаые означают: табл. 1). Обратите внима" к,— правпгельство должно грзгигь больше Ние на Отличие между соот- срелсгв нз шкалы; Кз — правительство должно гратихь больше ветствующими наддиаго- средсге на совращение процента безрабох- НаЛЬНЫМИ И Поддпатональ- К правительство должмо нонтролировагь боль" НЫМИ ЭЛЕМЕНтаМИ табЛИЦЫ шои бизнес; К,— правнтельсхво должно устранись сегрегацию и на тат факт, что каждая через заиатосгь населении; выборочная корреляционная кз — праввтельсгво должно обеспечивать нацио- нальным меньшинствам соогвехсгвуююую матрица будет отличаться в хвачу рабочих мест; Кз — правительство должно выполнять програмнекоторои степени от кор- му борьбы с «рнзисами реляционной матрицы для генеральной совокупности и от любой другой выборочной матрицы для других выборок из той же самой генеральной совокупности.
Таким образом, на практике невозможно получить точную структуру факторной модели, можно только пытаться найти оценки параметров факторной структуры, с использованием определенных статистических и (или) практических критериев. При решении задач разведочного факторного анализа исследователь обычно делает три шага: (1) подготовка соответствующей ковариационной матрицы„ (2) выделение первоначальных (ортогональпых) факторов и (3) вращение с целью получения окончательного решения, Подчеркнем, что исходную информацию для факторного анализа получить сравнительно просто. Таблкца 1 Коэффициенты корреляции для генеральной совокупности (поддпагональные алемепты) и модельной выборки обьема 100 (наддиагональные элементы), относящиеся к модели с двумя общпмн факторами, представленной на рнс. 1 начальных факторов и вращение с целью получения окончательного решения.
Хотя на практике для получения окончательного решения не всегда требуются все эти шаги (особенно при проверке специальных гипотез), тем не менее удобно обсуждать разнообразие методов факторного анализа в связи с данными этапами. Таким образом, первая часть этой работы так или иначе касается этих трех этапов анализа. Перед проведением факторного анализа необходимо решить: использовать ли как исходную матрицу ковариации (корреляции) между переменными или использовать корреляции между индивидуумами (объектами). В данной работе мы будем обсуждать только первый из этих подходовэ.
На нервом этапе может применяться модель общих факторов, а также анализ главных компонент, цель которого отлична от цели факторного анализа. В то же время оба метода широко используются и являются эффективными способами исследования «взаимосвязей» между переменными. Основное отличие между этими двумя методами заключается в том, что главные компоненты являются линейными функциями от наблюдаемых переменных, в то время как общие факторы не выражаются через комбинацию наблюдаемых переменных. Альтернативой анализу первоначальных факторов служит анализ образов-факторов, в котором предполагается, что наблюдаемые переменные выбраны из бесконечного множества переменных, причем вводятся «образы- факторы», являющиеся линейными комбинациями переменных.
Сопоставление этих подходов будет рассмотрено ниже. Кроме того, существует несколько путей выделения первоначальных факторов. Из них в этой работе рассматриваются следующие: 1) решение, получаемое методом максимального правдоподобия (включая канонический факторный анализ); 2) решение по ме- * Второй подход, так называемый Я-техника, кратко рассматривается в раэд. «Кластерный анализ» вЂ” Лрилее. лед. 10 тоду наименьших квадратов (включая метод минимальных остат. ков н метод главных факторов с итерациями по общностям) и 3) альфа-факторный анализ.
Последний может рассматриваться либо как вариант метода с общими факторами, либо как альтернативная стратегия. Шаг, связанный с вращением, включает два варианта: ортогональное и косоугольное вращение. Косоугольные вращения в свою очередь подразделяются на те, которые основаны на прямом упрощении матрицы коэффициентов факторного отображения, и на те, которые используют упрощение матрицы нагрузок на вторичные оси. Внутри этих вариантов существует множество подвариантов. О большинстве из них мы поговорим в следующих разделах. Вопрос о числе факторов рассматривается отдельно, что связано с необходимостью обсудить несколько эмпирических правил, которые многие практики находят полезными.
В разделе, посвященном конфирматорному факторному анализу, будет дано понятие эмпирического подтверждения факторных моделей, а затем мы проиллюстрируем его на двух простых, но важных практических примерах. Далее мы обсудим вопрос вычисления значений факторов. Этот раздел помещен после обсуждения конфирматорного факторного анализа, поскольку используются некоторые его результаты. В заключительном разделе рассматривается широкий спектр проблем в форме вопросов и ответов, причем многие из них в основном тексте вовсе не обсуждались. Здесь мы также даем некоторые практические советы для решений, по которым пока нет единого мнения.
Словарь, приложенный в конце работы, служит не для точного определения каждого термина, а лишь дает удобный способ представления контекста, в котором этот термин встречается. И наконец, ссылки не предназначены ни для отражения исторического развития методов факторного анализа, ни для обзора последних достижений в этой области. Мы пользовались источниками, которые считали ценными, с точки зрения нашего соб. ственного понимания предмета. Н. МЕТОДЫ ВЫДЕЛЕНИЯ ПЕРВОНАЧАЛЬНЫХ ФАКТОРОВ Основная цель выделения первичных факторов в разведочном факторном анализе заключается в определении минимального числа общих факторов, которые удовлетворительно воспроизводят корреляции между наблюдаемыми переменными. При отсутствии ошибок измерений и случайности в выборке, а также при выполнении принципа факторной причинности, для заданной корреляционной матрицы существует точное соответствие между минимальным числом общих факторов и рангом редуцированной О корреляционной матрицы. (В редуцированной корреляционной матрице общности помещаются на главную диагональ.) Иными словами, в случае отсутствия ошибок в соответствии факторной модели данным число общих факторов и общности могут быть сколь угодно точно вычислены с помощью исследования ранга редуцированной корреляционной матрицы.
Если же выборка является случайной, то проблема усложняется и возникает задача найти критерий, с помощью которого можно было бы оценить минимально необходимое число общих факторов. Но поскольку основной критерий определения минимального числа общих факторов заключается в хорошей воспроизводимости наблюдаемых корреляций с помощью отобранных факторов, то задачу можно переформулировать следующим образом: определить правило остановки при выделении общих факторов. Эта задача сводится к определению момента, когда расхождение между вычисленными и наблюдаемыми корреляциями может быть приписано случайности выборки. Мы начнем с описания основной стратегии, которая является общей для ряда методов выделения.