И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ, страница 8
Описание файла
DJVU-файл из архива "И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 4 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 8 - страница
Применительно к одним и тем же данным критерий ковзримии, как правило, дает меньше косоугольных факторов, чем квартимин. Объединение этих двух критериев при. водит ь обобщенному критерию В = а/у+ 8С/и = в(пппшп, (2с) где а и р — веса, назначаемые для /У и для С сгстветственно. После умножения соотношения (29) на и и групггировки членов, получаем общий критерий облимин г !! г 2 В= ~ (и 2 а';ам- у 2", а;, 2, 'а,г), (30) !<э=! з=! г=! 1 ! где у=й/(а+~).
Этот общий критерий при у=0 переходя! н квартпмин (наибольшая косоугольность), при у=0,5 — в бчквартимин, а при у=1 — в коваримин (наименьшая косоугольность). Вще раз отметим, что, как правило, применяется критерий облимин в нормированной форме, т. е. когда аг„г заменяется на аггг//ггг. Другой критерий, тесно связанный с принципами облимина, но используемый в совершенно другом вычислительном алгоритме, называется критерием бинормамин.
В нем заложена идея объективного выбора значения у в соотношении (30). По сравнению с критерием биквартимин, в котором у=1/2, бниормамин дает лучшие результаты для особо простых или особо сложных данных. Прямой метод облимин Дженрих и Сэмпсон ()епг)сЬ, Ьагпрзоп, 1966) предложили критерий, основанный на упрощении матрицы нагрузок первичных факторов (без использования вторичных осей).
Этот критерий допускает эффективную программную реализацию. Минимизируемая функция имеет вид, аналогичный (30), Отличие только 33 в том, что используются нагрузки первичных факторов, а не на- грузки вторичной структуры. Критерий имеет вид Г г г п 2 и г (7= Х ЕЬ,Ь -г(( Е ЬО Е Ьгь)l г«»=г г-г г (31) Другие методы косоугольного вращения Существует много других методов косоугольного вращения. Мы упомянем некоторые наиболее известные.
Критерий облимакс (Заппдегз, 1953) основан на упрощении факториой структуры по принципу увеличения числа значительных и пренебрежимо малых нагрузок за счет остальных коэффициентов структуры, Этот критерий эквивалентен критерию квартнмакс в случае ортогонального вращения, но приводит к решению, отличному от метода квартимнн при использовании его без ограничения, связанного с ортогональностью. Следует отметить еще два метода вращения, Это — метод оргоблик (ог(ЬоЫ(ппе), предложенный Гаррисом и Кайзером (Нзтг(з, Ка(зег, 1964), и метод максплейн (шахр!апе), рассмот. ренный Каттеллем и Мерлем и позднее Эбеном (СаНе11, Миег1е, 1960; ЕЬеп, 1966). Последний подход принципиально отличается ото всех упомянутых ранее.
ВРАЩЕНИЕ С ИСПОЛЬЗОВАНИЕМ ЦЕЛЕВОЙ МАТРИЦЫ Еще один подход к вращению основывается на априорной информации о факторной структуре. Во-первых, можно задать значения нагрузок для каждой переменной, а затем проводить вращения с целью обеспечения минимального отличия полученной матрицы факторной структуры от заданной матрицы (в смысле критерия наименьших квадратов).
При этом можно налагать дополнительные ограничения типа ортогональиости. Этот вид вращения обычно применяется для анализа соответствия двух факторных структур. Во-первых, в качестве целевой матрицы можно использовать где Ьц — элементы матрицы нагрузок первичных факторов. Заметим, что в соотношении (31) по сравнению с (30), член с отрицательным знаком дан с сомножителем 1(п.
Как и в традиционном критерии облимин, выбор параметра а регулирует «степень» косоугольности получаемого решения. Вбльшие значения а соответствуют «наиболее» косоугольным решениям, а меньшие отрицательные значения — «наиболее» ортогональным решениям. В наиболее простом случае однофакторной модели следует положить а=О. Необходимо сделать предостережение о том, что выбор а в прямом критерии облимин отличается от выбора у в (30).
Подробно этот аспект рассматривался Харманом (Нагшап, 1975). Таблица 7. некоторые функции от ортогонального решения. Этот подход, известный под названием лромакс-метода косоугольных вращений (Непдг1скзоп, ЦГЫ1е, 1964), основан на том, что ортогональные вращения, как правило, близки к косоугольным. Сводя некоторые меньшие нагрузки к почти нулевым, можно получить пригодную для дальнейшего анализа целевую матрицу. Затем находятся косоугольные факторы, для которых расхождение вычис- Целевая матрица, сестеащав из иудей и единиц Перемее- вае Фактор !Ч. ЕЩЕ О ПРОБЛЕМЕ ОПРЕДЕЛЕНИЯ ЧИСЛА ФАКТОРОВ Хотя мы уже ранее рассмотрели ряд методов нахождения минимального числа факторов, обеспечивающих согласие с наблюдениями, однако существуют причины, чтобы вернуться к этому вопросу.
Во-первых, прн обсуждении метода выделения первоначальных факторов отмечалось, что число факторов можно оценивать достаточно приблизительно, поэтому мы не будем вдаваться в подробности, относящиеся к данной задаче. Во-вторых, некоторые первоначальные решения не дают достоверной информации о числе факторов, так как требуют последующего проведения вращений. В-третьих, мы можем столкнуться с затруднениями, связанными с неполным соответствием между факторной моделью и данными наблюдений.
В-четвертых, надо быть готовыми к тому, что в большинстве компьютерных программ требуется предварительная оценка числа факторов. лительной матрицы факторной структуры с целевой — минимально. В рамках данного метода существуют различные алгоритмы, основанные на целевой матрице факторной структуры, но мы не будем их описывать.
В-третьих, можно задать целевую матрицу, состоящую из нулей и единиц. Этот подход часто соответствует действительной степени информированности исследователя, когда ему известно только то, что некоторые нагрузки должны быть велики, а другие — малы. В табл. 7 представлен пример такой целевой матрицы. Можно воспользоваться более общим видом целевой матрицы: некоторые ее элементы полагаются нулевыми, некоторые— равными другим фиксированным величинам, а остальные элементы полагаются произвольными. Более подробно это будет обсуждаться в разделе, посвященном конфирматорному факторному анализу. Существует несколько часто употребляемых критериев определения числа факторов.
Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой. Наиболее часто применяются: 1) критерии значимости, связанные с методами максимального правдоподобия и наименьших квадратов; 2) различные правила, формулируемые в терминах собственных чисел; 3) критерий, основанный на величине долей дисперсий факторов; 4) критерий отсеивания и 5) критерий интерпретируемости и инвариантности.
КРИТЕРИИ ЗНАЧИМОСТИ При условии выполнения предложений, необходимых для метода максимального правдоподобия, с чисто статистической точки зрения предпочтительнее пользоваться критерием х'. Применение этого критерия показало, что для большой выборки при значительном количестве переменных число выделяемых факторов намного больше числа факторов, которое ожидает получить исследователь. Хотя это обстоятельство не является недостатком метода, в некоторых случаях оно заставляет исследователей после применения критерия статистической значимости использовать дополнительно критерий, основанный на величине доли воспроизводимой дисперсии.
Анализ с помощью метода Монте-Карло критерия максимального правдоподобия показывает, что последний особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Другими словами, данный метод хорошо приспособлен к отклонениям, связанным с выборкой, и гораздо хуже — к изменениям в модели. При достаточно большом объеме выборки любые отклонения в модели будут трактоваться как значимые факторы.
Таким образом, после соответствующих вращений второстепенные факторы необходимо удалить с учетом величины долей их дисперсий. Ранее было описано пошаговое использование критерия начиная с однофакторной модели, постепенно увеличивают число факторов, если имеют место статистически значимые отклонения модели от наблюдений. Однако при большом числе параметров данная процедура может быть чрезмерно трудоемкой.
Поэтому можно сочетать один из быстрых методов определения числа общих факторов, описанных ниже, с критерием максимального правдоподобия. После того как будет получено начальное число факторов, количество их следует увеличивать, если наблюдения значимо отличаются от модели, либо уменьшать, если эти отличия — незначимы.