И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ, страница 7
Описание файла
DJVU-файл из архива "И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 4 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 7 - страница
4). Таким образом, можно предположить, что скопления точек находятся на первичных осях, или же что проекции точек на вторичных осях в нулевые. В нашем примере переменные Хь Хз, Х» имеют нулевые проекции на вторичной оси Рь а переменные Хь' Хм Ха — нулевые проекции на оси Жь Однако не ясно, зачем проводить вторичные оси, вместо того чтобы провести первичные оси прямо через скопления точек. Следует отметить, что метод, основанный на идентификации вторичных осей, при котором они рассматриваются как ортогональные, позволяет более точно определить первичные оси, если число факторов больше двух, а скопления точек не столь явные, как в модельных данных.
Из всего сказанного можно сделать вывод, что основная а~ Рис. 4. Р, н г,— первичные косоугольные факторы; Рб н г",' — соответствующие вторичные оси. Проекции Хь Хт и Ха будут нулевыми на оси га', а проекции Ха, Ха и Ха — на оси Рб цель вращения заключается в нахождении матрицы факторного отображения, наиболее близкой к простейшей идеальной структуре, описанной выше. МЕТОДЫ ОРТОГОНАЛЬНОГО ВРАЩЕНИЯ: КВАРТИМАКС, ВАРИМАКС И ЭКВИМАКС Мы остановимся только на основных принципах каждого метода, так как предполагается„ что читатель будет использовать какую-то готовую компьютерную программу. В предыдущем разделе описана простейшая структура при заданном числе общих факторов й и числе переменных п.
Полезно еще раз повторить некоторые свойства такой матрицы, Поскольку каждая переменная имеет нагрузку только на один фактор, интерпретация переменных не представляет труда. Но для численного использования зта характеристика степени сложности неудобна. Одной из возможных мер сложности модели является вариация квадрата факторной нагрузки для каждой стро- ки (для каждой переменной). Мы рассматриваем квадрат нагрузок только для того, чтобы избежать осложнений, связанных с учетом знака.
Известно, что дисперсия определяется как математическое ожидание квадрата отклонений от среднего, поэтому при фиксированном числе факторов и заданных общностях дисперсия максимальна, если одно из значений квадратов нагрузок равно общности, а все остальные элементы в строке нулевые. Иначе говоря, дисперсия квадратов факторных нагрузок переменной есть мера факторной сложности этой переменной: факторная сложность= — ~, '(Ьо — Ь„)', переменной Г (19) где г — число столбцов факторной матрицы; ܄— факторная нагрузка 1ьго фактора на 1-ю переменную; ܄— среднее значение квадратов факторных нагрузок в 1-й строке.
Соотношение (19) может быть представлено в следующем виде: 2 ~;(ь„) — (ч ь„) з=! 20 ( ) Число факторов г и общности каждой переменной считаются известными в результате решения задачи выделения первоначальных факторов. Поэтому слагаемое, входящее в (20) с отрицательным знаком, является константой, ибо 2 2 ~"', Ь„=Ь, з=1 в случае ортогонального решения. Общей мерой сложности может служить сумма д, всех переменных (21) Использование критерия квиргимакс основано на вращении осей таким образом, чтобы результирующие факторные нагрузки максимизировали д. При этом максимизация д эквивалентна максимизации следующего выражения: и Я= Е ЕЬо (22) так как слагаемое со знаком минус в (21) является константой.
Отсюда и название — квартимакс. На практике, применяя этот критерий, можно достичь простоту интерпретации переменных за счет простоты интерпретации 30 л 2' ь„— ( 2' ь„)' (23) лт Заметим при этом, что выражение где суммирование происходит по номеру параметра 4, не является константой. Общая мера простоты задается критерием в т е З;лЧ Ь„вЂ” Ч (Ч Ь„)т т=! 1 т=! (24) л' известным под названием критерия варимакс. Обычно нормированные факторные нагрузки применяют, чтобы избавиться от не. желательного влияния на результат вращения переменных с большой общностью, т.
е. в выражении (24) квадраты нагрузок Ь„' заменяются на ЬЯЙ,2, а четвертые степени Ь, 4 — иа Ььт4(ига. В табл. 6 представлены результаты применения методов квартимакс и варимакс (с нормированием) к одним и тем же данным. Отметим, что, хотя, алгоритмически метод квартимакс проще, чем варимакс, последний дает лучшее разделение факторов.
Эксперименты, проведенные Кайзером (Ка(зег, 1968), пока- Таблица 6 Результаты вращений по методам виримвкс и квиртимлкс, применяемых к фкяториой матрице в табл. 4' Метод враменна варн- макс Метод вра- щение квар- тимакс Перемен- иаа и! иа 1 О, 787 0 7 30 0,595 0,154 0,083 0,306 О,1 33 0,143 0,1 65 0,5 ЗЗ 0,7 80 0,4 92 0,793 0,736 0,602 0,173 0,111 О,З 24 0,167 0,170 0,187 0,539 0,7 83 0,503 Х, х Х! Ха Ха Ха ' В етом примере тенденции выделе. нив генерального фактора методом ивар. тимакс выражена слабо. 31 факторов. В частности, описание переменной упрощается при уменьшении числа общих факторов, связанных с ней. В то же время описание фактора становится проще, если относительно небольшое число переменных имеют существенные нагрузки на этот фактор, а остальные переменные — нулевые нагрузки.
В общем, метод квартимакс имеет тенденцию к выделению генерального фактора. Метод варимакс использует несколько другой критерий, в котором добиваются упрощения описания столбцов факторной матрицы. Вместо дисперсии квадратов нагрузок переменной рассматривается дисперсия квадратов нагрузок фактора. Индекс сложности и! фактора 1' равен: зывают, что факторная матрица, получаемая с помощью метода вращения варимакс, в большей степени инвариантна по отношению к выбору различных множеств переменных. Учитывая, что критерий квартимакс основан на упрощении описания строк, а критерий варимакс — на упрощении описания столбцов, можно предложить некоторый совместный критерий, введя соответствующие веса.
Обобщенный критерий имеет вид аЯ+ рг'=Мах1тпт, (25) где Π— задается соотношением (22), а У вЂ” соотношением (24), умноженным на и для удобства представления и с учетом того, что умножение на константу не влияет на процесс нахождения максимума; а и р — веса. Полученный критерий запишем в форме: 1' П т и ~', ~ Ьо — у 2", ( ~„бц)э/п=Мах1тит, (26) 3=1 1 1 з=1 ~=1 где у=5/(а+~). Если у=О, то образуется критерий квартимакс, а если у=1, то — варимакс.
При уэ г/2 и у=0,5 получаем особые критерии, названные экэимакс и бикваргимакс соответственно. МЕТОДЫ КОСОУГОЛЬНОГО ВРАЩЕНИЯ Косоугольное вращение является более общим, чем ортогональное, так как здесь нет ограничений, связанных с некоррелированностью факторов. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена методом вращения.
Поскольку косоугольные вращения производятся с учетом корреляций между факторами, существуют многочисленные методы интерпретации результатов факторного анализа. Так, для объяснения корреляции между факторами в ряде слу. чаев вводят факторы второго и более высокого порядков. Кроме того, существуют два подхода к косоугольному вращению — использование вторичных осей и первичной матрицы факторного отображения. Основные принципы получения простой структуры уже обсуждались, поэтому описание методов будет кратким. Методы, основанные на введении вторичных осей Обсуждаемые здесь методы основаны на том, что если существуют разделимые скопления точек, определяемые первичными факторами, то они будут иметь почти нулевые проекции на все вторичные оси, за исключением одной, Таким образом, можно определить критерий, называемый квартимин, который аналогичен квартимаксу: 32 (27) гУ= ~.', 2., 'амагм !=! г(г=! где ам и агх — проекции г-го параметра на /-ю и й-ю вторичные оси.
Величина гУ будет нулевой, если все параметры имеют нагрузку только на один фактор. Цель вращения — нахождение та. ких фякторных нагрузок, которые минимизируют /У. Для орта. тональных вращений этот критерий эквивалентен квартимвксу. По аналогии с ортогональным критерием варимакс вводится критерий коварииии. В этом случае минимизируется ковариация квадратов проекций на вторичные оси г г - г г С= ~ (п ~ аг,агг — 2; а„~', агх). (28) г<г=! 1=1 4=! Модификация эгого критерия основана на нормировании — замене а!!э на аггг//ггг.