И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 10
Текст из файла (страница 10)
(32) Интересно проанализировать условие (32). Рассмотрим верхнюю часть рис 1 и введем такие обозначения: гы=ЬА; Й~=Ьз~', гы=Ь!Вз' Ьз=Ь 2' гзз = Ьзбз ~ Ьз= Ь з ' где Ь,=08, Ьз=07, Ьз 0,6 — факторные нагрузки, Ьь Ьь йз— общности. Перемножим два коэффициента корреляции: ГГЗГ43 =Ь!ЬЗЬ!ЬЗ=ЬЗ! ЬЗЬЗ=Й24Гм ' (33) Поскольку общности не превышают !, то из (33) вытекает условие (32) ! "! = )Г42Г!3! / !Г231~) Аналогичные рассуждения можно провести и для других пар коэффициентов корреляции. Но не все случайно выбранные корреляционные матрицы для трех переменных удовлетворяют сформулированным условиям. Поэтому тот факт, что экспериментальные данные согласуются с однофакторной моделью является информативным, однако не слишком информативным, так как условию (32) удовлетворяют достаточно много случайно выбранных корреляционных матриц для трех переменных. Корреляционная матрица для четырех переменных, основанная на однофакторной модели, удовлетворяет трем дополнительным условиям: Г4ЗГ24 = Г!4Г23 ГЪ2Г34 = Г!4Г23 (34) Г 4ЗГ24 = Г 42Г34 ' Эти условия легко получить: .„.„=Ь,Ь,Ь,Ь,= (Ь,Ь,) (Ь,Ь,) =.„;,.
Вообще, чем больше число переменных, тем больше число условий, которым должна удовлетворять корреляционная матрица для данной факторной модели. Таким образом, совместимость однофакторной модели с корреляционной матрицей для четырех переменных дает исследователю эмпирическое подтверждение, что факторные предположения не совсем произвольны.
Следовательно, некоторое заключение о факторной структуре информативно только тогда, когда корреляционная матрица удовлетворяет некоторым ограничениям. Лишь в этом случае можно судить, соответствует ли данная факторная модель экспериментальным данным. Более того, чем больше отношение числа переменных к числу гипотетических факторов, тем весомее эмпирическое подтверждение факторной модели, поскольку увеличивается число структурных ограничений, накладываемых на корреляционную матрицу с целью согласования с данной моделью. Вспомним теперь, что применение факторного анализа предполагает наложение различных допущений иа экспериментальные данные.
Поэтому можно отвергнуть факторную модель только на основе того, что эти предположения являются либо произвольными, либо неподходящими. Тем не менее такое суждение смягчается, когда степень эмпирического подтверждения высока, поскольку следует считаться со структурными ограничениями в данных. С одной стороны, можно сказать, что информативность факторного анализа зависит от условий его применения.
С другой стороны, в факторном решении содержится информация о его пригодности: чем больше число эмпирических огранкчений, которым должно удовлетворять решение, тем больше степень уверенности в том, что факторная модель соответствует данным. С этой точки зрения даже разведочный факторный анализ дает информацию о пригодности и экономичности модели.
число эинивичвских огрлничвнин для еАнторнои модвли С учетом вышесказанного важной характеристикой информативности гипотезы является число ограничений, накладываемых данной факторной моделью (т. е. число условий, которым должны удовлетворять элементы корреляционной матрицы для возможного их восстановления с помощью факторной модели). Оказывается, это число равно количеству степеней свободы для критерия значимости решения максимального правдоподобия. Ясное понимание зависимости между факторной гипотезой и соответствующим ей числом степеней свободы является решающим моментом для понимания конфирматорного факторного анализа.
Существует несколько различных подходов к определению числа ограничений для элементов корреляционной матрицы, Один подход сводится к использованию теоремы о ранге. В этой теореме утверждается, что если на диагональ корреляционной матрицы поместить общности, соответствующие г-факторной модели, то ранг (число линейно-независимых строк или столбцов) редуцированной корреляционной матрицы будет равен г. При этом все миноры, содержащие больше, чем г строк и столбцов, будут иметь нулевой детерминант. Отсюда можно определить число условий, которым должна удовлетворять корреляционная матрица прн заданном числе факторов и параметров (Наппап, 1976).
Другой подход связан с изучением степеней свободы для критерия значимости. По-видимому, второй подход является более общим. Для примера предположим, что мы имеем дело с эмпирической корреляционной матрицей. Количество аппроксимируемых параметров, содержащихся в ней, равно 1/2п (и — 1) — числу элементов над главной диагональю. Факторный анализ позволяет получить первоначальное решение с помощью варьирования пХг факторных нагрузок (г — число общих факторов) с тем, чтобы обеспечить наилучшее воспроизведение наблюдаемой корреляционной матрицы, Но для первоначального факторного решения требуется ортогональность полученных факторов.
Это условие влечет за собой !/2г (г — 1) дополнительных связей, Поэтому число свободных параметров составит пг — (1/2) г(г — 1). (36) Итак, число условий, которым должны удовлетворять элементы корреляционной матрицы, задается соотношением !/2п(п-1) — [пг-1/2г(г — 1)1 =1/2 [(л — г)з- (п+г)). (36) 42 3 —.при 9 переменных (12) и так далее. Однако нет оснований считать разность между числом переменных и числом факторов непосредственной мерой степени эмпирического подтверждения. Альтернативой служит отношение количества ограничений к количеству независимых коэффициентов наблюдаемой матрицы.
Хотя в таблице зти отношения не представлены (знаменатели их приведены в последнем столбце), следует отметить их достаточно высокую информативность. При оценивании степени эмпирического подтверждения факторного решения следует принимать во внимание два осложняющих дело обстоятельства: 1) определенные свойства, присущие генеральной совокупности не обязательно могут проявиться в выборке; 2) даже при использовании генеральной совокупности факторная модель может не совсем точно соответствовать экспериментальным данным.
Другими словами, свойства генеральной совокупности должны оцениваться с учетом этих расхождений. Более того, на практике не представляется возможным отделить действие одного из этих упомянутых обстоятельств от другого. Таким бравом, само по себе выражение (36) не может служить мерой степени эмпирического подтверждения. Решение, на которое накладывается большее число ограничений, обеспечивает более значительную степень подтверждения при заданной степени расхождения между факторным решением и наблюдениями. Поэтому необходимо научиться оценивать вышеупомянутое расхождение. Степень вмпирнческого подтверждения мли надежность С помощью критерия значимости, применяемого для какого- либо первоначального факторного решения, оценивается возможность приписать расхождение между гипотетической моделью и наблюдениями статистической флуктуации в выборке.
Критерий значимости непосредственно зависит от объема выборки; при достаточно большой выборке любые расхождения между моделью и экспериментальными данными могут стать значимыми. Это следует из того факта, что если модель точно соответствует наблюдениям, то чем больше объем выборки, тем меньше расхождения между выборочными параметрами и параметрами генеральной совокупности.
Для очень большой выборки такие расхождения весьма малы. Применение этого статистического принципа бывает затруднительным, когда исследователь подозревает наличие второстепенных факторов и не имеет возможности определить их природу. Тогда критерий значимости может не подтвердить адекватность модели. Даже если рассматриваемая факторная модель воспроизводит большую долю наблюдаемых ковариаций и привносит определенный порядок в структуру наблюдений, критерий значимости может показать, что модель статистически неадекватна экспериментальным данным. Поэтому необходима мера адекват- ности, которая концептуально независима от статистической значимости.
Итак, необходимо определить меру расхождения между наблюдаемой корреляционной матрицей и воспроизведенной матрицей. Один из возможных подходов описан Харманом. Ои предлагает использовать среднее значение квадрата отклонения, при котором квадраты отклонений корреляций, полученных для окончательного факторного решения, от наблюдаемых корреляций суммируются и делятся на число этих коэффициентов: л ~Г,ч,(гм — г*;) з/(п(п-1)1, !М! !де суммирование распространяется на все недиагональные элементы (Наппап, 197б).
Однако для этой величины не ясен выбор порогового значения. Другая альтернатива, предложенная Такером и Левисом (Тцсйег, (.етч!з, 1973), рассматривает коэффициент надежности для факторного решения методом максимального правдоподобия. Этот подход основан на использовании частных коэффициентов корреляции, при~ем вводится нормировка на число степеней свободы с тем, чтобы учесть возможные расхождения между фактор- ными решениями. Кроме того, в коэффициенте надежности происходит сопоставление соответствующих статистик со случаем отсутствия влияния факторов. Формула для коэффициента надежности М.-А4. гйо = (37) Л4,— 1 где М,— математическое ожидание статистики х' в отсутствии влияния факторов, деленное на !/з л (л — 1), а Мь — математическое ожидание Хз для окончательного факторного решения„деленное на (!/з) !(л — г)з — (л+г)] (ЗогЬот,,!бгезйод, 197б).
Коэффициент гйо принимает значения от О до !, причем О означает наихудшее согласие модели и данных, а! — наилучшее. На практике чаще применяется приближенное значение гйо, асимптотически эквивалентное (37) при возрастании объема выборки: Е,— ! гйо=1 — — ' Еу — ! где Е = ХЕ( м )'/(/4 ' Ез=ч„'~ (г9)з/'(1/2л(л — 1)1; !Ф! гон †частн коэффициенты корреляции без влияния факторов/ !(гх — число степеней свободы, равное !/з ((п — г)' — (и+г)1, в разведочном факторного анализе. В конфирматорном анализе число степеней свободы несколько больше. Отметим, что частные коэф- 45 фнциенты корреляции есть не что иное, как расхождения между воспроизведенными и наблюдаемыми корреляциями, представленные в стандартной форме. ДРУГАЯ КОНЦЕПЦИЯ ЭМПИРИЧЕСКОГО ПОДТВЕРЖДЕНИЯ: ВЫБОРОЧНАЯ АДЕКВАТНОСТЬ При использовании традиционных статистических критериев предполагается, что есть выборка объектов. Однако на практике в определенной мере имеет место и психометрическая выборка— анализируемые переменные почти всегда являются выбранными из некоторой совокупности.
Возникает вопрос об адекватности рассматриваемой факторной модели по отношению к данному набору переменных. Напомним, что психометрический подход используется в анализе образов и альфа-векторном анализе, но предмет обсуждения относится и к любому другому методу факторного анализа.