Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 14
Текст из файла (страница 14)
Так, можно заметить, что такая комбинация наблюдаемых переменных не является оптимальной, т. е. другое взвешивание переменных может увеличить корреляцию между шкалами и наблюдаемыми переменными. Однако здесь можно воспользоваться тем же доводом, который приводился в пользу простого суммирования: множественный коэффициент корреляции между шкалой (линейной комбинацией наблюдаемых переменных) и всем набором наблюдаемых переменных мало изменяется при небольших отклонениях в весах (Юапд, З(ап!еу, 1970; Юа(пег, 1976). Здесь следует сделать одно предостережение, о котором уже говорилось в равд. П1.
Если известно, что факторная модель точно соответствует данным, нельзя отбрасывать высокие факторные нагрузки (например, порядка 0,9) и приписывать им такое же значение, как и небольшим нагрузкам. Итак, по-видимому, как обычные, так и неполные факторные шкалы имеют право на существование и могут использоваться на практике. ЗНАЧЕНИЯ ГЛАВНЫХ КОМПОНЕНТ Сделаем несколько замечаний по поводу шкал, соответствующих главным компонентам.
Как уже отмечалось, принцип глав- 61 получаются при суммировании зн пропорциональными компонентным Значение компоненты=В ~ (йц/Лг) Х!1 !52) где Ьп — нагрузка на !сю переменную от г-й компоненты; Лг — соответствующее собственное значение. Деление на собственное значение приводит к тому, что значение компоненты будет иметь единичную дисперсию. ПРИМЕЧАНИЕ !.
Если скрытая структура является сложной, как, например, для бокспроблены Терстоуна (сн. Иберла, !980), трудно точно восстановить скрытуго структуру из ковариационной матрицы только на основании кзкого-то аналитического критерия. Для этого могут потребоваться аппроксимация гиперплоскостяии н приненение визуальных вращений. Таблица 12 Результат применыиги конфврматорного еракторного анализа к коррелвционной матрице. представленной иаддиагональными элементами табл. 1 при использовании модели в табл.
7г ' Этя результаты еезучееы е пеыощьщ прееремиы ЫБКЕЬ Пг, е ее СОрдмм. ных компонент отличается от принципа введения факторной модели. Поэтому ни один нз этих подходов не может подменять другой. На практике применяются оба подхода. В некоторых задачах значения главных компонент могут быть предпочтительнее, чем факторные шкалы, в особенности сели необходимо только сжать информацию, содержащуюся в данных, и факторная структура для этого не нужна. Именно поэтому стоит уделить этому вопросу немного внимания. Как мы уже знаем, главные компоненты являются математическими функциями измеряемых переменных.
Таким образом, компоненты можно непосредственно представлять в виде линейной комбинации переменных и говорить о значении компонент, а не об их оценках. Значения компонент аченнй переменных с весами, нагрузкам: И!. КРАТКИЕ ОТВЕТЫ НА ЧАСТО ВОЗНИКАЮЩИЕ ВОПРОСЫ ПРИРОДА ПЕРЕМЕННЫХ И ИХ ИЗМЕРЕНИЕ а) Какой способ измерений необходим в факторном анализеу В факторном анализе требуется, чтобы переменные измерялись по крайней мере на уровне шкалы интервалов (З(ечепз, 1946).
Это требование обусловлено тем, что входной ннформаци. ей для факторного анализа являются элементы ковариацнонной матрицы. Кроме того, представление переменных в виде линейной комбинации скрытых факторов и использование оценок факторов через линейные комбинации наблюдаемых переменных для порядковых переменных невозможны. б) Возможно ли использование тау-статистики Кендалла или гамма-статистики Гудмана и Крускала вместо обычных карреляиийу Нет, невозможно. Как уже отмечалось, операции сложения для порядковых переменных не определены, поэтому не существует факторных моделей с порядковыми статистиками. Допускается лишь эвристическое использование таких моделей без статистической интерпретации результатов.
(Существуют некоторые не- метрические методы шкалнрования, специально разработанные для оперирования с нечисловыми переменными.) в) Должен ли исследователь, учитывая данные выше ответьи всегда избегать использования факторного анализа в случаях, когда метризуемость пространства переменных не вполне ясная Не обязательно. Многие переменные, такие, как меры отношений и мнений в социологии, различные переменные при обработке результатов тестирования, не имеют точно определенной метрической основы. Тем не менее часто предполагается, что порядковым переменным можно давать числовые значения, не нарушая их внутренних свойств. Окончательный ответ на этот вопрос основан на двух моментах: 1) насколько хорошо вспомогательные числовые значения отражают скрытые истинные расстояния и 2) велико ли искажение, вносимое в корреляции между параметрами (являющимися входными данными в факторном анализе) при введении шкалирования. К счастью, коэффициенты корреляции обладают свойством робастности по отношению к порядковым искажениям в измеряемых данных (1аЬоч((з, 1967, 1970; Кпп, 1975).
Поэтому, если искажения корреляций, вносимые при шкалировании порядковых переменных, не слишком велики, вполне законно использовать эти переменные в качестве числовых. Тем не менее следует быть готовыми к появлению пусть даже незначительных, систематических ошибок в факторном решении. г) Расскажите о дихотомических переменньж, Существует мнение, что факторный анализ вполне применим для таких переменных, во-первььх, поскольку при использовании дихотоми- ческих переменных не требуется предположение об измерениях и, во-вторых, поскольку гр Гфи), равное коэффициенту корреляции Пирсона, является адекватной мерой зависимости для факторного анализа. Поэтому, возможно ли применение факторного анализа к матрице значений ез? Нет.
Дихотомические переменные нельзя представить в рамках факторной модели. Действительно, вспомним о предположении, что каждая переменная является взвешенной суммой по крайней мере двух скрытых факторов (одного общего и одного характерного). Даже если эти факторы принимают лишь 2 значения (что вряд ли встретится на практике), наблюдаемая переменная будет принимать уже 4 возможных значения.
Следовательно, никакие соображения, кроме чисто эвристических, не могут обосновать применение факторного анализа к днхотомическнм переменным. д) Ответ на предыдущий вопрос озадачивает. Поскольку мы обычно предполагаем факторную модель непрерывной„следует ожидать и непрерывности измеряемых переменных. Однако переменные, с которыми мы имеем дело на практике, часто принимают лишь весьма ограниченный набор значений — да или нет; согласие или несогласие; в лучшем случае — целиком согласен, согласен, безразличен, полностью не согласен и т. д. Означает ли зто, что мы применяем факторный анализ к данным, которые с ним не согласуются? В некотором смысле — да. Переменные, принимающие ограниченный набор значений, строго говоря, несовместимы с факторной моделью. Если предположить, что наблюдаемые переменные представляют собой результаты неточных измерений или результаты, полученные при объединении в одну группу близких значений, вопрос будет состоять не в том, применима ли факторная модель к данным, а в том, насколько неслучайные ошибки измерений искажают результаты факторного анализа.
Группирование близких значений, безусловно, сказывается на корреляциях, но степень этого влияния зависит от законов распределений, шага дескрнтизацин и т. д. Тем не менее имеются некоторые обнадеживающие соображения по поводу использования факторного анализа как эвристического метода прн наличии больших ошибок измерений (см. следующий вопрос). е) В каких случаях возможно применение факторного анализа к данным, содержащим дихотомические переменные или переменные с конечным множеством значений? В общем случае, чем шире множество значений, тем точнее результаты.
В случае дихотомических переменных использование коэффициента гр может быть оправдано, если решается задача нахождения кластеров переменных я если корреляции между исходными переменными невелики*, скажем, не превосходят 0„6 ' Здесь предполагается, что существуют некоторые скрытые переменные, порождаюшие наблюдаемые дяхотомические переменные. Последние получаются делением интервалов значений зтих скрытых переменных на 2 части.— Лримеч.
дед. 64 иии 0,7. При переходе от непрерывных переменных к дихотомн. ческим переменным корреляции уменьшаются. При этом на величину уменьшения влияет выбор точек делении. Если корреляции не очень велики, эффект, связанный с выбором точек деления, не столь значителен. Таким образом, группированне (дихотомнзация) переменных в целом уменьшает корреляции между ними, но не влияет на кластерную структуру данных, поскольку факторный анализ основан на относительной величине корреляций. Если цель исследования состоит в нахождении кластерной структуры, использование факторного анализа оправдано (Кпп, Х!е, ЧегЬа, 1977). ж) Если отклонения, возникающие в решении из-за введения точек деления более значительны, чем отклонения связанные с уменьшением корреляций при группировании, то почему бы не использовать относительные величины ф/фюах или Й/)х' „вместо фиЮ Такой подход целесообразен только в том случае, когда распределение имеет какую-то особую (негауссову) форму (Сагго(, 1961) или когда непрерывные переменные связаны функцнональ.