Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 43
Текст из файла (страница 43)
Задание начального разбиения требует детального распределения данных по кластерам. В этой процедуре центр тяжести каждого кластера определяется как многомерное среднее объектов кластера. Начальные разбиения могут выбираться случайным образом (как это было в примере с данными ММР1-теста) или же задаваться каким-либо образом самим пользователем (например, пользователь может взять в качестве исходного разбиения решение, полученное иерархической кластеризацией).
177 Тил итерации. Данный момент итерационного процесса связан со способом распределения объектов по кластерам. И опять имеются два основных вида итераций: по принципу Ьсредних и по принципу «восхождения на холм». Итерации по принципу й-средних (они называются также «итерациями по принципу ближайшего центра» и «перемещающими итерациями») заключаются просто в перемещении объектов в кластер с ближайшим центром тяжести. Итерации по принципу й-средних могут быть либо комбииаторными, либо некомбинаторными.
В первом случае перевычисление центра тяжести кластера производится после каждого изменения его состава, а во втором случае — лишь после того, как будет завершен просмотр всех данных. Кроме того, итерации по принципу л-средних подразделяются на исключающие и включающие. В итерациях исключающего типа после вычисления центра тяжести кластера рассматриваемый объект удаляется нз кластера, а в итерациях включающего типа — помещается в кластер. В итерациях, работающих по принципу «восхождения на холм», вместо присоединения объектов к кластеру в зависимости от расстояния между объектом и центром тяжести кластера, перемещение объектов производится исходя нз того, будет или нет предполагаемое перемещение оптимизировать значение некоторого статистического критерия. Статистический критерий.
Методы, основанные иа принципе «восхождения на холм», используют один или несколько следующих критериев (функций качества кластеризации): 1гЯ7, 1г%'-' В, г(е1 Я7 и наибольшее собственное значение матрицы ((7-'В, где %'— объединенная внутригрупповая ковариацнонная матрица, в В— объединенная межгрупповая ковариационная матрица.
Каждая из этих статистик часто рассматривается в многомерном дисперсионном анализе (МАг(ОУА); их применение выводится из статистической теории, заложенной в МАИОЧА. Фактически все четыре критерия связаны с обнаружением однородности кластеров в многомерном пространстве. Хотя в явном виде итерации по принципу й-средних не применяют статистический критерий прн перемещении объектов, неявно они оптимизируют критерий (г%'. Таким образом, процедура л-средних минимизирует дисперсию внутри каждого кластера. Важно отметить, однако, что итерации по принципам й-средннх и «восхождсння на холм», используя критерий (г%', приведут к различным результатам при одних и тех же исходных данных.
Подобно иерархическим агломеративным методам каждый из статистических критериев находит кластеры определенного вида. Критерий (г %' благоприятствует образованию гиперсфернческих, очень однородных кластеров. Более важно, что этот критерий чувствителен к простым преобразованиям первичных данных, например, таких, как нормировка. Поскольку критерий бе1ЯУ не зависит от преобразований или от выбора масштаба, порождаемые им кластеры не обязаны иметь гиперсферическую форму. Его исполь- 178 зование, однако, предполагает, что у кластеров будет одна и та же форма, н это может вызвать некоторые затруднения в прикладном анализе данных.
Скотт н Саймонс (1971) показали, что критерий йе! %' нмет тенденцию к созданию кластеров приблизительно одинаковых размеров, даже если таких кластеров нет в данных. К сожалению, характеристики других критериев известны плохо, так как они ~не подвергались широкому изучению н сравнению, Одна нз главных проблем, присущая всем итеративным методам, — проблема субоптнмального решения. Поскольку эти методы могут выбрать лишь очень малую часть всех возможных разбиений, есть определенная вероятность, что будет выбрано субоптнмальное разбиение. Такую проблему называют также проблемой локального (в противоположность глобальному) оптимума.
Действительно, объективного способа определить, является лн полученное с помощью итеративного метода группировки реве~вне глобально оптимальным, нет. Однако один подход к решениюэтой проблемы состоит в том, чтобы применять метод кластеризации совместно с подходящей процедурой проверки результата на достоверность (см. разд, 1Ч). Исследование методом Монте-Карло работы итеративных методов показало, что главная причина появления субоптималвных решений заключается в плохом исходном разбиении набора данных (В(азЫ!е16 апд АЫепбег1ег, 1978а; М!11!цап, 1980).
Итерации по принципу й-средних чрезвычайно чувствительны к плохим начальным разбиениям н дело еще более усложняется, когда начальное приближение выбирается случайным образом (очень распространенная возможность, предоставляемая многими пакетами программного обеспечения итеративных методов). Блэшфнлд и Олдендерфер (1978а) показали, что разумный выбор начального разбиения лишь ненамного улучшает положение дел, ~но Миллиган (1980) продемонстрировал, что итерационный процесс по принципу й-средних, использующий начальное разбиение, полученное кластеризацией по методу средней связи, приводит к лучшему восстановлению известной структуры данных по сравнению с прочимн итеративными и иерархическими методами кластеризации. Другими исследователями было доказано, что итеративные методы дают оптимальное решение прн любом начальном разбиении, если данные имеют хорошую структуру (Ечег!!1, 1980; Ваупе е(.
а!., 1980). Как видим, для решения этой задачи нужно провести больше исследований с помощью метода Монте-Карло. ВАРИАНТЫ ФАКТОРНОГО АНАЛИЗА Эти методы кластер~ного а~налива весьма популярны в психологии. Они известны больше как варианты факторного анализа, обратный факторный анализ или факторизация Я-типа. Работа методов начинается с формирования корреляционной матрицы сходств между объектами. Обычно факторный анализ проводится с корреляционной матрицей размерностью Р)гР, но если нужно 179 определить кластеры, то анализ осуществляется на основе корреляционной матрицы размерностью МхУ.
По корреляционной матрице определяются факторы, и объекты распределяются по кластерам в зависимости от их факторных нагрузок. Использование факторного анализа Я-типа имеет долгую историю. Самыми ревностными сторонниками этого вида кластеризации до недавнего времени были Оуверолл и Клетт (1972), а также Скиннер (1979). Предметом критики методов факторного анализа в кластеризации стали неправомерное применение линейной модели к объектам, проблема множественных факторных нагрузок (неясно, что делать с объектом, который имеет высокие нагрузки более чем для одного фактора) и двойное центрирование данных (Ечег(11, 1980; Р1е166 е1.
а1., 1971). Чтобы дать читателю представление о том, как используется обратный факторный анализ, приведем пример, где рассматривается модальный профильный анализ (ЬЫппег, 1979). В этом методе кластеризации для формирования пространства малой размерности, представляющего соотношения между объектами, взята декомпозиция Экерта — Юнга. Подход Скиннера на основе пространственной модели (концептуальные вопросы часто возникают в связи с обратным факторным анализом) обсуждается в (ЬЫппег, 1979).
Процедура состоит из трех главных шагов; 1) начальной оценки факторов; 2) увеличения числа факторов с помощью повторных выборок и 3) проверки общности факторов на новой выборке. Первый шаг этой процедуры иллюстрируется данными ММР1-теста. Трехфакторное решение было выбрано потому, что нам заранее известно о существовании трех кластеров в данных.
Первыесемь собственных значений' решения равны: 28,07 17,16 11,49 9,39 5,39 4,60 4,22 Используя стандартные приемы факторного анализа для оценки числа факторов, можно было бы привести доводы в пользу того, что двухфакторное или четырехфактор~ное решение будет более приемлемо, чем трехфакторное. Тем не менее, поскольку было известно, сколько диагностических классов существует в данных, рассматривалось только трехкластерное решение. Первым с помощью модального профильного анализа был получен биполярный фактор, который положительно коррелировал с фактором, соответствующим больным неврозами и отрицательно — с факторами, соответствующими больным расстройствами личности. Третий фактор включал в основном факторы, соответствующие больным психозами. Второй фактор состоял из всех факторов трех групп больных, Три модальных профиля похожи на те, которые большинство психологов-клиницистов описывают как типичные ММР1-профили больных «неврозами», «расстройствами личности» и «психозами».
Однако они имеют меньшие различия, чем профили для реальных трех групп в дан~ных. Это согласуется с главной чертой обратного факторного анализа, который придает большее значение форме, а не сдвигу. ДРУГИЕ В1ЕТОДЫ Иерархические днвизимные методы являются логической противоположностью агломеративным методам. В начале процедуры. (при К=1) все объекты принадлежат одному кластеру, а затем этот всеобъемлющий кластер разрезается на последовательно уменьшающиеся «ломтики».
Есть два дивизимных вида: монотетический и политетический. Монотетический кластер — это группа, все объекты которой имеют приблизительно одно и то же значение некоторого конкретного признака. Таким образом, монотетические кластеры определяются фиксированными признаками,определенные значения которых необходимы для принадлежности к кластерам. В противоположность этому политетическне кластеры являются группами объектов, для принадлежности к которым достаточно наличия определенных сочетаний иэ некоторого подмножества признаков.
Все три метода — иерархические, агломеративные н итеративные — будут образовывать только политетические кластеры. Монотетические дивизиммые методы применяют в первую очередь к бинарным даяным, а процедура деления совокупности объектов на подгруппы основана на определении признака, максимизнрующего несходство между кластерами, получающимися в результате. Часто дивизимные критерии основаны на использовании статистики Х' или ~некоторых информационных статистик (С!!Вогд апб 8!ер)1епзоп, 1975; Ечег!11, 1980).