Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu), страница 4
Описание файла
DJVU-файл из архива "Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 4 - страница
(о) решении матрицы Х1= 1+гнь (6) Хе=1 — гы. (у) Если между 'двумя переменными имеется линейная зависимость, то одно собственное число будет 2, а другое — О.-Для некоррелированных переменных оба собственных числа будут равны 1. Заметим также, что сумма собственных чисел 11+Ха=(1+ +г~з)+ (1 — гм) =2 равна числу переменных, а произведение Х,Хе= (1 — г|г') равна детерминанту корреляционной матрицы. Эти свойства сохраняются для корреляционных матриц любой размерности, причем первое (большее) собственное число представляет величину дисперсии, соответствующую первой главной оси, а второе собственное число — величину дисперсии, соответствующую второй главной оси н так далее.
Так как при использовании корреляционной матрицы сумма собственных чисел равна числу переменных, то, разделив первое собственное число на лг (число переменных), можем получить долю дисперсии, со. ответствующую данному направлению или компоненте: ( Доля соответствующая ) ( Соответствующее 1 / данной компоненте ( ~ собственное число у/ ' Использование дегерминаигного уравнения типа (2) эффективно только для матриц небольшого порядка (яебольшого числа переменяых). Гораздо реаульгагивнее различные итерап„'конные схемы. — Примеч. ред. 1б Таблица 2 Две первые главные компоненты корреляционной матрнцы, представленной полцнагональнымн влементамн табл. 1 ' Нелвяинм Ы, строго говоря, ие являются оценками общностей, так как в анализе главных комвовент не лредловагается существование общих Факторов. При определении соответствующих собственных векторов есть дополнительное ограничение, состоящее в том, что их длина должна быть единичной.
По этой причине коэффициенты нагрузок для главных компонент получаются делением коэффициентов собственных векторов на квадратный корень соответствующих собственных чисел, что правильно отражает относительную долю дисперсии наблюдений. Зля дальнейшего сравнения анализа главных компонент с другими методами произведем вычисления для корреляционной матрицы, представленной в табл.
1. Мы используем модельные данные с целью выявления характеристик без статистических флуктуаций. В табл. 2 сведены результаты анализа главных компонент. Следует выделить три момента: 1) имеется шесть компонент (последние четыре являются второстепенными и в таблице не представлены); 2) первые две компоненты объясняют ббльшую долю дисперсии, чем первые два общих фактора (61,6 и 41% соответственно); 3) первые две компоненты в отличие от первых двух факторов не объясняют наблюдаемые корреляции. Например, (ЬпЬрг) + (ЬгтЬ,р) = (0,747 0,706) + ( — 0,395) Х ( — 0,409) = =0,6890, что значительно больше, чем скрытая корреляция, равная 0,56. Сходство анализа главных компонент и факторного анализа заключается в том, что в обоих методах происходит сокращение данных. Зная величину собственных чисел, исследователь 17 может принять, например, решение использовать только две первые компоненты.
Но снова отметим, что эти компоненты не объясняют корреляции. Существует еще одно сходство двух методов — они применяются при исследовании взаимной зависимости переменных. Заметим, что в случае некоррелированных переменных главных компонент не существует, так как все они равноправны: каждой соответствует одинаковая доля дисперсии. Если же корреляция между переменными увеличивается, то доля, объясняемая несколькими первыми компонентами, возрастает. Одним из отличий между двумя рассматриваемыми методами является следующее. Факториый анализ представляет ковариационную структуру в терминах гипотетической модели, в то время как анализ главных компонент сокращает данные посредством использования нескольких линейных комбинаций наблюдаемых переменных. Выбор метода определяется целью исследования.
Объяснение корреляций в терминах небольшого числа факторов возможно лишь при введении гипотетической модели. Если же иметь дело с линейными комбинациями переменных, то обращаться к какой-либо модели нет необходимости, при этом латентная факторная структура остается «вещью в себе». Таким образом, анализ главных компонент ориентирован на несколько другие задачи по сравнению с факторным.
Тем не менее стоит повторить, почему мы уделили ему особое внимание. Во-первых, анализ главных компонент часто рассматривается как один из методов факторного анализа. Во-вторых, при описании метода главных факторов используются аналогичные понятия и вычислительные процедуры (нахождение собственных значений и векторов). Более того, знание анализа главных компонент помогает понять методы факторного анализа. В-третьих, и это самое важное, некоторая статистика, встречающаяся в анализе главных компонент, очень часто применяется на практике для определения числа факторов. (Речь идет о критерии «собственных чисел, ббльших единицы», на котором мы остановимся ниже.» МЕТОДЫ ФАКТОРНОГО АНАЛИЗА Наиболее ранним методом факторного анализа является метод главных факторов, в котором методика анализа главных компонент используется применительно к редуцированной корреляционной матрице. На главной диагонали последней располагают общности, для оценивания которых обычно пользуются квадратом множественного коэффициента корреляции между соответствующей переменной и совокупностью остальных переменных.
Также может применяться наибольший по абсолютной величине коэффициент корреляции в соответствующей переменной строке корреляционной матрицы. После размещения оценок общностей на главной диагонали корреляционной матрицы выделяются факторы таким же спосо- 18 бом, что и в анализе главных компонент. Другими словами, факторный анализ проводится исходя из характеристического уравнения, как и в анализе главных компонент (отсюда и название— метод главных факторов).
Характеристическое уравнение в этом случае имеет вид бе1 (й~ — ь() =О, (9) где Р~ — редуцированная корреляционная матрица с оценками общностей на главной диагонали. Хотя настоящий подход еще широко распространен, он постепенно уступает место методу наименьших квадратов, к изложению которого мы и приступаем, Метод наименьших квадратов Метод наименьших квадратов в факторном анализе сводится к минимизации остаточной корреляции после выделения определенного числа факторов и к оцениванию степени соответствия вычисленных и наблюдаемых коэффициентов корреляции (берется сумма квадратов отклонений). Если взять количество факторов, равное числу переменных, то вычисленные и наблюдаемые коэффициенты корреляции совпадут.
Кроме того, расхождение между ними уменьшается при увеличении числа предполагаемых факторов. Поэтому, используя метод наименьших квадратов, мы будем считать, что число факторов меньше числа переменных. В общих чертах алгоритм состоит в следующем. На первом шаге предполагается, что число факторов есть некоторое Й. (Можно начать с однофакторной гипотезы, а затем, увеличивая число факторов, получить приемлемое решение.) На втором шаге производится оценка общностей. (Применяется квадрат множественного коэффициента корреляции между данной переменной и остальными.) На третьем шаге выделяются й факторов, для которых вычисленные коэффициенты корреляции наилучшим образом приближают наблюдаемые корреляции (в смысле минимума суммы квадратов отклонений). На этом этапе решается уравнение, аналогичное (9).
На четвертом шаге снова производится оценка общностей, причем используется матрица фактор- ного отображения, полученная на предыдущем этапе Процесс повторяется до тех пор, пока дальнейшее улучшение станет невозможным. Описанный алгоритм известен под названием: «Метод главных факторов с итерациями по общностям», Метод минимальных остатков (Наппап, 19?6) также является итерационной процедурой, основанной на том же принципе, что н метод главных факторов, причем с вычислительной точки зрения данный подход более эффективен.
Для метода минимальных остатков при большом объеме выборки применим критерий хнквадрат. Харман утверждает, что этот приближенный критерий независим от метода выделения факторов и может использоваться не только в алгоритме минимальных остатков. Критерий хи- Твблнпв 3 квадрат может быть применен для проверки окончания работы алгоритма 1Нагшап, 1975; МсРопа!д, 1975).
Хотя этот Метод главных факторов с итераннямн по обивиостям (исследоввиие нолитическях взглядов) критерии применяется для больших выборок, «ирония» заключается в том, что именно когда объем выборки велик, даже незначительная по величине сумма квадратов отклонений может быть статистически значима. Поэтому Харман предлагает рассматривать число факторов, получаемых с помошью критерия хи-квадрат, лишь как оценку сверху и выделять существенные, теоретически интерпретируемые факторы после анализа результа- Переиеввее л* — 0,320 — 0,2в2 — 0,24! 0,473 0,409 0,340 0,731 0,642 0,550 0,513 0,441 0,367 х, Хв х х, лв «в 0,637 0,492 0,360 0,487 0,362 0,251 Собственные значения Объясняе- мая доля дисперсии 1,842 0,746 12,4 тов вращения. В табл.
3 представлены результаты вычислений по итерационному методу главных факторов для исходных данных, взятых из табл. 1. Метод максимального правдоподобия Метод максимального правдоподобия преследует ту же цель, что и метод наименьших квадратов в найти факторное решение, которое наилучшим образом объясняет наблюдаемые корреляции. Алгоритм можно представить следующим образом. Допустим, что наблюдаемые данные — это выборка из генеральной совокупности, которая точно соответствует й-факторной модели. Совместное распределение переменных 1включая факторы) предполагается многомерным нормальным. Неизвестными являются значения нагрузок для каждой переменной.
Задача сводится к оцениваиию значений латентных переменных (нагрузок) генеральной совокупности, при которых в заданных предположениях функция правдоподобия для распределения элементов корреляционной матрицы максимальна. Несколько иной критерий заключается в нахождении факторных нагрузок, прн которых общие факторы и наблюдаемые переменные находятся в канонической корреляции, т. е. коэффициент корреляции между ними максимален. Третий критерий, основанный на тех же принципах, сводится к определению факторных нагрузок, при которых детерминант матрицы остаточных корреляций максимален. Все эти критерии достаточно сложны для практического применения, но существуют различные итерационные схемы для получения на их основе решений, существенно отличающихся друг от друга с точки зрения вычислительной эффективности.
В настоящее время метод, предложенный Йореско (Логезйод, 1967), считается одним из лучших. В принципе все варианты метода максимального правдоподобия сводятся к решению характеристического уравнения, которое может быть представлено в виде де1 (гчт — Лг') =О, (10) где г(у определяется соотношением 1гт= У-т((т — !гв) У-т»е (11) = и-ч,и-' (12) причем УА — оценка дисперсии характерных параметров. Разница между уравнениями (4) и (10) в том, что в последнем используется редуцированная корреляционная матрица ЙА вместо корреляционной матрицы )г.