И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 44
Текст из файла (страница 44)
Подобно иерархическим агломеративным методам каждый из статистических критериев находит кластеры определенного вида. Критерий (г %' благоприятствует образованию гиперсфернческих, очень однородных кластеров. Более важно, что этот критерий чувствителен к простым преобразованиям первичных данных, например, таких, как нормировка. Поскольку критерий бе1ЯУ не зависит от преобразований или от выбора масштаба, порождаемые им кластеры не обязаны иметь гиперсферическую форму. Его исполь- 178 зование, однако, предполагает, что у кластеров будет одна и та же форма, н это может вызвать некоторые затруднения в прикладном анализе данных.
Скотт н Саймонс (1971) показали, что критерий йе! %' нмет тенденцию к созданию кластеров приблизительно одинаковых размеров, даже если таких кластеров нет в данных. К сожалению, характеристики других критериев известны плохо, так как они ~не подвергались широкому изучению н сравнению, Одна нз главных проблем, присущая всем итеративным методам, — проблема субоптнмального решения. Поскольку эти методы могут выбрать лишь очень малую часть всех возможных разбиений, есть определенная вероятность, что будет выбрано субоптнмальное разбиение. Такую проблему называют также проблемой локального (в противоположность глобальному) оптимума. Действительно, объективного способа определить, является лн полученное с помощью итеративного метода группировки реве~вне глобально оптимальным, нет.
Однако один подход к решениюэтой проблемы состоит в том, чтобы применять метод кластеризации совместно с подходящей процедурой проверки результата на достоверность (см. разд, 1Ч). Исследование методом Монте-Карло работы итеративных методов показало, что главная причина появления субоптималвных решений заключается в плохом исходном разбиении набора данных (В(азЫ!е16 апд АЫепбег1ег, 1978а; М!11!цап, 1980). Итерации по принципу й-средних чрезвычайно чувствительны к плохим начальным разбиениям н дело еще более усложняется, когда начальное приближение выбирается случайным образом (очень распространенная возможность, предоставляемая многими пакетами программного обеспечения итеративных методов). Блэшфнлд и Олдендерфер (1978а) показали, что разумный выбор начального разбиения лишь ненамного улучшает положение дел, ~но Миллиган (1980) продемонстрировал, что итерационный процесс по принципу й-средних, использующий начальное разбиение, полученное кластеризацией по методу средней связи, приводит к лучшему восстановлению известной структуры данных по сравнению с прочимн итеративными и иерархическими методами кластеризации.
Другими исследователями было доказано, что итеративные методы дают оптимальное решение прн любом начальном разбиении, если данные имеют хорошую структуру (Ечег!!1, 1980; Ваупе е(. а!., 1980). Как видим, для решения этой задачи нужно провести больше исследований с помощью метода Монте-Карло. ВАРИАНТЫ ФАКТОРНОГО АНАЛИЗА Эти методы кластер~ного а~налива весьма популярны в психологии.
Они известны больше как варианты факторного анализа, обратный факторный анализ или факторизация Я-типа. Работа методов начинается с формирования корреляционной матрицы сходств между объектами. Обычно факторный анализ проводится с корреляционной матрицей размерностью Р)гР, но если нужно 179 определить кластеры, то анализ осуществляется на основе корреляционной матрицы размерностью МхУ. По корреляционной матрице определяются факторы, и объекты распределяются по кластерам в зависимости от их факторных нагрузок. Использование факторного анализа Я-типа имеет долгую историю. Самыми ревностными сторонниками этого вида кластеризации до недавнего времени были Оуверолл и Клетт (1972), а также Скиннер (1979).
Предметом критики методов факторного анализа в кластеризации стали неправомерное применение линейной модели к объектам, проблема множественных факторных нагрузок (неясно, что делать с объектом, который имеет высокие нагрузки более чем для одного фактора) и двойное центрирование данных (Ечег(11, 1980; Р1е166 е1. а1., 1971). Чтобы дать читателю представление о том, как используется обратный факторный анализ, приведем пример, где рассматривается модальный профильный анализ (ЬЫппег, 1979). В этом методе кластеризации для формирования пространства малой размерности, представляющего соотношения между объектами, взята декомпозиция Экерта — Юнга. Подход Скиннера на основе пространственной модели (концептуальные вопросы часто возникают в связи с обратным факторным анализом) обсуждается в (ЬЫппег, 1979). Процедура состоит из трех главных шагов; 1) начальной оценки факторов; 2) увеличения числа факторов с помощью повторных выборок и 3) проверки общности факторов на новой выборке.
Первый шаг этой процедуры иллюстрируется данными ММР1-теста. Трехфакторное решение было выбрано потому, что нам заранее известно о существовании трех кластеров в данных. Первыесемь собственных значений' решения равны: 28,07 17,16 11,49 9,39 5,39 4,60 4,22 Используя стандартные приемы факторного анализа для оценки числа факторов, можно было бы привести доводы в пользу того, что двухфакторное или четырехфактор~ное решение будет более приемлемо, чем трехфакторное. Тем не менее, поскольку было известно, сколько диагностических классов существует в данных, рассматривалось только трехкластерное решение.
Первым с помощью модального профильного анализа был получен биполярный фактор, который положительно коррелировал с фактором, соответствующим больным неврозами и отрицательно — с факторами, соответствующими больным расстройствами личности. Третий фактор включал в основном факторы, соответствующие больным психозами. Второй фактор состоял из всех факторов трех групп больных, Три модальных профиля похожи на те, которые большинство психологов-клиницистов описывают как типичные ММР1-профили больных «неврозами», «расстройствами личности» и «психозами».
Однако они имеют меньшие различия, чем профили для реальных трех групп в дан~ных. Это согласуется с главной чертой обратного факторного анализа, который придает большее значение форме, а не сдвигу. ДРУГИЕ В1ЕТОДЫ Иерархические днвизимные методы являются логической противоположностью агломеративным методам. В начале процедуры. (при К=1) все объекты принадлежат одному кластеру, а затем этот всеобъемлющий кластер разрезается на последовательно уменьшающиеся «ломтики». Есть два дивизимных вида: монотетический и политетический. Монотетический кластер — это группа, все объекты которой имеют приблизительно одно и то же значение некоторого конкретного признака.
Таким образом, монотетические кластеры определяются фиксированными признаками,определенные значения которых необходимы для принадлежности к кластерам. В противоположность этому политетическне кластеры являются группами объектов, для принадлежности к которым достаточно наличия определенных сочетаний иэ некоторого подмножества признаков.
Все три метода — иерархические, агломеративные н итеративные — будут образовывать только политетические кластеры. Монотетические дивизиммые методы применяют в первую очередь к бинарным даяным, а процедура деления совокупности объектов на подгруппы основана на определении признака, максимизнрующего несходство между кластерами, получающимися в результате. Часто дивизимные критерии основаны на использовании статистики Х' или ~некоторых информационных статистик (С!!Вогд апб 8!ер)1епзоп, 1975; Ечег!11, 1980).
Монотетический подход к дивнзимной кластеризации, известный также как ассоциативный анализ, широко распространен в экологии, но применение этого метода в социальных науках ограничено археологией (РееЫез, 1972; %Ьа!!оп, 1971; 1972). Методы поиска модальных значений плотности рассматривают кластер как область пространства с «высокой» плотностью точек по сравнению с окружающими областями. Они «обследуют» пространство в поисках скоплений в данных, которые и представляют собой области высокой плотности. Существуют два основных вида методов поиска модальных значений плотности: методы, основанные на кластеризации по одиночной связи, и методы разделения «смесей» многомерных вероятностных распределений. Как отметил Эверитт (1980), методы поиска модальных значений плотности, основанные на кластеризации по одиночной связи, препятствуют образованию цепочек.
В отличие от метода одиночной связи методы поиска модальных значений плотности под- 181 чинены строгому правилу, согласно которому предпочтение отдается образованию нового кластера, а не присоединению очередного объекта к уже сушествуюшей группе. Обычно это правило основано на измерении расстояния между сушествующим кластером и новым объектом нлн кластероч (%1зпаг1„1969) нли же на измерении среднего сходства, как в методе ТАХМАР, предложенном Кармайклом и Спитом (1969).
Если правило не выполняется, объединение объектов и кластеров не производится. Из этих методов широкое распространение получил модальный анализ, впервые предложенный Уишартом (1969) и позднее встроенный в пакет . программ по кластерному анализу СЖЬТАН (%Маг!, 1982).