Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 76
Текст из файла (страница 76)
е. знаки отдельных векторов так, чтобы как можно больше корреляций стало положительными. Тогда векторы будут иметь тенденцию к группировке в одном направлении в пучок. После этого первый общий фактор г«> определяется как нормированная (т. е. как вектор единичной длины) сумма всех исходных векторов пучка, и, следовательно, он будет проходить каким-то образом через середину (центр) этого пучка; отсюда название «центроид» для общего фактора в этом случае.
Переходя затем к остаточным переменнь<м х<'"> = х">— — <)><7«>, подсчитывая ковариационную матрицу Х<'> = =- Х вЂ” <)«); для этих остаточных переменных и проделывая относительно х<"> и Х<'> ту же самую процедуру построения пучка и т.п., выделяем второй общий фактор («второй центроид»)1<»> и т. д. Формализация этих соображений приводит к следующей итерационной схеме вычислений по определению факторных нагрузок<)<7 и остаточных дисперсий о„с учетом описанной ранее вычислительной схемы (!4.7). Задаемся некоторым на- чальным приближением У<о> для дисперсий остатков У.
Обычно полагают [96, 16Н о«оо> =о,, [! — гпах [г>, [[. <м>(п <1»0 Подсчитываем Чг<о> = Х вЂ” У<'>. Выбираем в качестве,нулевого приближения Ь<о> первого столбца Ь, вспомогательной матрицы В столбец, состоящий из одних единиц Ь<" = Далее в соответствии с (14.7) определяем нулевое приближение (><<о> первого столбца матрицы нагрузок ч><о> а<о> [о> < (а<о> Чо<о> а<о>) 2 Затем вычисляется матрица Ч"[о> = Чг<~> — а<о>а<>о>' и определяется нулевое приближение <)<о> второго столбца матрицы нагрузок Ч»<о> а<о> <о) о о (14.
10) ! (ь'; ч,»ь, ) ' где вектор Ь1»> состоит только из -[- 1 или — 1, а знаки подбираются из условия максимизации знаменателя правой части (14.10) и т. д. Получив, таким образом, нулевое приближение <.[<о> =- (<)<,о>, ..., д»<о>) для матрицы нагрузок»1, вычисляем У<'> = Х вЂ” (1<о>(1<о>' и переходим к следующей итерации. При этом матрица В<'> не обязана совпадать с В<о>. Кстати, как нетрудно усмотреть из вышесказанного, <-й столбец матрицы В задает веса, с которыми суммируются векторы одного пучка для образования <-го общего фактора (оцентроида»). Поскольку смысл центроидной процедуры в простом суммировании векторов пучка, она иногда так и называется — «про<(едура простого суммирования», то исследователю остается определить лишь нужное направление каждого из векторов пучка, т.
е. знаки единиц, образующих столбцы Ь,. Непосредственная ориентация (при подборе знаков у компонент вектора Ь<) на максимизацию выражений Ь,'»' Чг~ >< Ь<оч хотя и несколько сложнее реализуема, чем некоторые эвристические приемы, опирающи- зло> еся на анализ знаков элементов остаточных матриц»4»,, (96, с. 41 — 461, но быстрее и надежнее приводит к выделению именно таких центроидов, которые при заданном р' будут обусловливать возможно большую часть общей дисперсии исходных признаков, т.
е. минимизировать дисперсию остаточных компонент и,. Если не все исходные ковариации пы положительны, может быть целесообразным использование и в качестве Ь~а> вектора, состоящего как из + 1, так и из — !. Отметимтакже, что недостатком центроидного метода является зависимость центроидных нагрузок д„от шкалы, в которой измерены исходные признаки. Поэтому исходные признаки хп> обычно нормируют с помощью среднеквадратических отклонений а,',~, так что выборочная ковариационная матрица Х 1/» заменяется во всех рассуждениях выборочной корреляционной матрицей Й. Анализируя описанную выше процедуру центроидного метода, нетрудно понять, что построенные таким способом общие факторы могут интерпретироваться как первые р' «условных» главных компонент матрицы Х вЂ” У, найденные при дополнительном условии, что компоненты соответствующих собственных векторов могут принимать лишь два значения: плюс или минус 1. Оценка значений общих факторов.
Это одна из основных задач исследования. Действительно, мало установить лишь сам факт существования небольшого числа скрыто дейстующих общих факторов 1!'>, ..., 1!»'>, объясняющих природу взаимной коррелированности исходных признаков и основную часть их дисперсии. Желательно непосредственно определить эти общие факторы, описать их в терминах исходных признаков и постараться дать им удобную содержательную интерпретацию. Приведем здесь идеи и результаты двух распространенных методов решения этой задачи, предложенных в разное время М.
Бартлеттом (1938 г.) и Г. Томсоном (!95! г.) В обоих случаях предполагаем задачу статистического оценивания неизвестных нагрузок 0' =- (д„) и остаточных дисперсий У =- (о„) уже решенной. Л!егпод Барплетта рассматривает отдельно для каждого фиксированного номера наблюдения ч (т = 1, 2, ..., п) модель (14.1) как регрессию признака х» по аргументам йо д.~, ..., д.р', при этом верхний индекс ! = 1, 2, ..., р у признака (и соответствующий первый нижний индекс у на- трузок) играет в данном случае роль номера наблюдений в этой регрессионной схеме, так что хп>= ~~Р $>>>д>>+'и>!! ((=1, ...., р). У= 1 Таким образом, величины Д>, ф>, ..., ф' ' интерпретируются как неизвестные коэффициенты регрессии х, по д, д.„..., д. р'.
В соответствии с известной техникой метода наименьших квадратов (с учетом «неравноточностн» измерений, т. е. того, что, вообще говоря, Рх«'*> ~ Рх«'*> при >, чь >«), определяющей неизвестные коэффициенты регрессии Р„= =7(ы>, ",1" ')' из условия У, >~ — У >' — ~х!» — У ~!» д>,1 =пни У вЂ” х >=! получаем Р„=(0 Ч- 0)- Я Ч- Х, (у=1, ..., л). (14.11) Очевидно, если исследуемый вектор наблюдений Х нормален, то эти оценки являются одновременно и оценками максимального правдоподобия.
Нестрогость данного мего. да — в замене истинных (неизвестных нам) величин д,> и о„ нх приближенными (оценочными) значениями д„н о„. Метод Томсона рассматривает модель (14.1) как бы «вывернутой наизнанку», а именно как регрессию зависимых переменных )>>>, ..., ~!»'> по аргументам х!'>, ..., х!»>. Тогда коэффициенты с„в соотношениях (>'>= ~~~~ смх>/> (»=1, ..., р ) /=и нли в матричной записи где С вЂ” матрица коэффициентов с;; размера р' х р, находят в соответствии с методом наименьших квадратов из усло- вия л я' / ~ ф» — ~~ сых~,~~~ = м=~ ~= ~ тй =т!и ~ч, ~ ~ф! — ~я~~ смх~~>), ~ы ~=ш=! / ! (14,12) Поскольку решение экстремальной задачи (14.12) выписывается, как известно [1б), в терминах ковариаций хн> и Рн, то отсутствие наблюдений по зависимым переменным 1!и можно компенсировать знанием этих ковариаций, так как легко подсчитать, что х(п (хч» х!м )ы) )юч) х(И ~п! аа'+У 0 Отсюда, используя известные формулы метода наименьших квадратов, получаем (с заменой матриц 0 н У их выборочными аналогами) Р,=(1+ Г)-'0' У-'Х, (я= 1, 2, ..., и), (14.13) где матрица Г (размера рх р) определяется соотношением Г=- 0' У-'О.
Сравнение выражений (14.11) и (14.13) позволяет получить явное соотношение между решениями по методу Бартлетта Р(в' н методу Томсона Йт>. р<а> (! + Г-т) 7<т> Если элементы матрицы 0'У-' 0 достаточно велики, то эти два метода будут давать близкие решения. Статистическая проверка гипотез, Проверка гипотез, связанных с природой и параметрами используемой модели факторного анализа, составляет один из необходимых моментов исследования. Теория статистических критериев применительно к моделям факгорного анализа разработана весьма слабо.
Пока удалось построить лишь так называемые критерии адекватности модели, т. е. критерии, предназначенные для проверки гипотез типа гипотезы Н„, заключающейся в том, что исследуемый вектор наблюдений Х допускает представление с помощью модели факторного анализа (14.1) с данным (заранее выбранным) числом общих факторов р'.
При этом критическая статистика у (Х,„..., Х„), т. е. функция от результатов наблюдения, по значению которой принимается решение об отклонении или непротиворечивости высказанной гипотезы Н,, зависит от вида дополнительных (идентифицирующих) условий модели. Так, если рассматривается модель с дополнительными идентифицирующими условиями вида !), т, е. дополнительно постулируется диагональность матрицы Г = 0'Ч вЂ” ' (1, то гипотеза И«отвергается (с вероятностью ошибиться, приблизительно равной а) в случае у, (Х„, ..., Х„) = и (1п ! Ч1+ 1п ) 1+ Г ( — 1п ( Х !) ) )(,', (ч,), гдечислостепеней свободы ят = — 1(р — р')« — (р+ р )1; его 1 «« положительность обеспечивается условием (14.6), а !(«(я,)— как и ранее, величина ! 00 сс «4-ной точки т«-распределения с т, степенями свободы (находится из таблиц).
На языке ковариационных матриц гипотеза т««означает в данном случае, что элементы матрицы Х вЂ” (1Й'+ Ч) должны лишь статистически незначимо отличаться от нуля, или, что эквивалентно, матрица Х вЂ” Ч должна иметь ранг, равный р'. А это в свою очередь означает, что последние р — р' характеристических корней Х.„ „ „ ..., Х„ уравнения )Х вЂ” Ч вЂ” ДЧ! = 0 должны лишь незначимо отличаться от нуля. Статистика у, (Х„..., Х„) может быть записана в терминах этих характеристических корней: у,(Х„..., Х„) =и ~ 1п(1+к«). Если же в качестве идентифицирующих условий дополнительно к (14.1), или, что то же, к (14.2), постулируется наличие какого-то заранее заданного числа и нулевых нагрузок д«т из общего числа р р' на определенных («специфи- ческихэ) позициях, то гипотеза На отвергается (с вероятностью ошибиться, приблизительно равной а) в случае, когда у,(Х„....
Х„) =п(1п)у))+)п)О' у-' Х у-'а~— — 1п ! Г ! — 1п (х 1):> т ' (яз), где число степеней свободы ч = ~ р (р — 1) — (р.р' — т). 1 Иногда удобнее вычислять критическую статистику у., (Х,, ..., Х„) в терминах характеристических корней г,, г„ ..., гя,(нумерованных в порядке убывания их величин) выборочной корреляционной матрицы Й исследуемого вектора наблюдений Х: уз(Х„..., Х„) =(а — — — — )Х 2р+ 11 2р' 6 3 Статистики у, (Х„..., Х„) и у, (Х„..., Х„) получены в результате реалйзацни известной схемы критерия отношения правдоподобия. Пользуясь этой схемой, можно построить аналогичные критерии адекватности и для некоторых специальных вариантов центроидного метода !96, с.
50). Однако из-за слишком узких рамок такой модели эти критерии, с нашей точки зрения, не представляют достаточного интереса. До сих пор не удалось построить многомерной решающей процедуры типа р' (Х), т. е. оценки для неизвестного числа общих факторов р'. В настоящее время приходится ограничиваться последовательной эксплуатацией критериев адекватности Н,: р' — ра (ра заранее задано) при альтернативе Н~ .' Р ) ра Если гипотеза Н, отвергается, то переходят к проверке гипотезы Нэ . р'=рз + 1 при альтернативе Н(:Р ) р, л 1 и т. д.