Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 40
Текст из файла (страница 40)
Например то, что его метрические свойства и гибкость дают возможность после простого изменения системы бинарных весов при оценке сходства учитывать и негативные пары. К сожалению, коэффициент Гауэра можно редко найти в пакетах прикладных программ по кластерному анализу, так как он практически не применяется в области социальных наук. Вероятностные коэффициенты сходства БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ Обсуждение коэффициентов сходства, используемых в кластерном анализе, проводится в работах Снита и Сокэла (1973), Клиффорда и Стефенсона (1975).
Там же можно найти формулы для вычисления некоторых обсуждаемых мер. 164 Радикальное отличие коэффициентов этого типа от описанных выше заключается в том, что, по сути дела, сходство между двумя объектами не вычисляется. Вместо этого мера такого типа прилагается непосредственно к исходным данным до их обработки. При образовании кластеров вычисляется информационный выигрыш (по определению Шеннона) от объединения двух объектов, а затем те объединения, которые дают минимальный выигрыш, рассматриваются как один объект.
Другой особенностью вероятностных мер является то, что они пригодны лишь для бинарных данных. До сих пор не было разработано ни одной схемы использования меры этого вида для качественных и количественных переменных. Вероятностные коэффициенты сходства еше не нашли своего применения в социальных науках, но уже в течение десятилетия ими широко пользуются специалисты по численной таксопомин и экологии. Более подробно об этом см. (Ьпеа(п апд Бока!, 1973; СН~огб апб 51ер)1епзоп, 1975).
Более широко теоретические вопросы, связанные со сходством, рассматриваются в работах Хартигана (1967) и Тверски (1977). Обсуждение Скиннером (1978) формы, поднятия и рассеяния очень важно для многих применений мер сходства в социальных исследованиях. Последние три работы важны потому, что понятие сходства играет главную роль в формировании кластеров. Обычно кластеры определяются как группы сходных объектов. Хотя во многих приложениях кластерного анализа особое значение придается процедуре формирования кластеров, все же выбор меры сходства является решающим моментом в исследованиях, использующих кластерный анализ.
Н!. ОБЗОР МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА 0 ПРИРОДЕ КЛАСТЕРОВ Главная цель кластерного анализа — нахождение групп схожих объектов в выборке данных. Этн группы удобно называть кластерами. Не существует общепринятого или просто полезного определения термина «кластер», и многие исследователи считают что уже слишком поздно либо вовсе незачем пытаться найти такое определение (Воппег, 1964).
Несмотря на отсутствие определения, ясно, что кластеры обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость. Хотя Спит и Сокэл рассматривают эти свойства для случая метрического пространства, очевидно (как они признают), что эти свойства можно логически распростра~нить и на неметрические пространства. Плотность — это свойство, которое позволяет определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащих их вовсе.
Хотя четко определенной меры плотности нет, это понятие очевидно. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Несмотря на то, что между этим свойством и тем, которое используется в теории статистических выводов, есть аналогия, кластеры не всегда представляют многомерные нормальные популяции. Поэтому лучше всего рассматривать дисперсию как характеристику того, насколько близко друг к другу расположены в пространстве точки кластера.
Следовательно, кластер можно назвать «плотным», если все точки находятся вблизи его центра тяжести, и «неплотным», если они разбросаны вокруг центра. Свойство кластеров — размеры — тесно связано с дисперсией; если кластер можно идентифицировать, то можно и измерить его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т. е.
имеют круглую форму) в многомерном пространстве, описываемом признаками. 165 Форма — это расположение точек в пространстве, Несмотря на то, что обычно кластеры изображают в форме гиперсфер или эллипсоидов, возможны кластеры и другой формы, например удлиненные кластеры. В последнем случае понятие радиуса или диаметра перестает быть полезным. Вместо этого можно вычислить «связность» точек в кластере — относительную меру расстояния между ~ними. Если же кластеры имеют другие, более причудливые формы (см. Ечег111, 1980), то понятие связности становится менее полезным, а ценность относительных оценок диаметра и плотности, следовательно, уменьшается.
Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве. Так, кластеры могут быть относительно близки друг к другу и не иметь четких графинин, или же они могут быть разделены широкими участками пустого пространства. С помощью этих терминов можно описать кластеры любого вида. Согласно Эверитту (1980) кластеры — это «непрерывные области (некоторого) пространства с относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек». Важность этого определения заключается в том, что оно не сводит понятие кластера к какой-то частной форме до начала анализа данных.
Разработанные кластерные методы образуют семь основных семейств: 1) иерархические агломеративные методы; 2) иерархические дивизимные методы; 3) итеративные методы группировки; 4) методы поиска модальных значений плотности; 5) факторные методы; 8) методы сгущений; 7) методы, использующие теорию графов. Эти семейства соответствуют различным подходам к созданию групп, и применение различных методов к одним и тем же дан~ямы может привести к сильно различающимся результатам. В конкретных отраслях науки могут оказаться особенно полезными определенные семейства методов. Так, иерархические агломеративные методы чаще всего используются в биологии, тогда как факторные аналитические методы большим успехом пользуются в психологии.
Когда сталкиваешься с трудной проблемой: «Какой из кластер~ныл методов использовать?», важно помнить, что этот метод должен находиться в согласии с ожидаемым характером классификации, применяемыми признаками и мерой сходства (если она требуется для оценки подобия объектов). Наиболее известными семействами кластерных методов, используемыми в социальных науках, являются иерархические агломеративные, иерархические дивизимные и факторные.
Поэтому каждый из этих трех методов будет рассмотрен более детально на примере двух наборов данных, описанных в разд. 1, Другие, менее известные семейства будут обсуждены более кратко. 166 ИЕРАРХИЧЕСКИЕ АГЛОИЕРАТИВИЬ$Е МЕТОДЫ Из семи семейств кластерных методов наиболее часто в приложениях употребляются иерархические агломеративные методы. Проанализировав все опубликованные в 1973 г. работы, в которых использовался кластерный анализ, Бг7эшфилд и Олдендерфер (1978Ь) нашли, что в г(з этих статей пРименЯетсЯ какой-либо из иерархических агломеративных методов.
Самым легким для ионина~пня из иерархических агломеративных методов является метод одиночной связи. Рассмотрим матрицу сходства размерностью 6Х6, которая была получена в равд. П спомощью коэффициента Жаккара для данных о захоронениях. Метод одиночной связи начинает процесс кластеризации с поиска двух наиболее похожих объектов в матрице сходства. В этом примере наиболее схожими являются объекты ПЖЭ (подросток, женский пол, элитарный) и ВЖЭ (взрослый, женский пол, элитарный) с уровнем сходства 7=0,750. На следующем шаге к этой группе присоединяется объект ВМЭ, так как его коэффициент сходства с ПЖО равен 0,500.
Дело в том, что по правилу объединения для метода одиночной связи новый кандидат на включение в состав кластера присоединяется к существующей группе в том случае, если он имеет наивысший уровень сходства с каким-либо из членов этой группы, Другими словами, для объединения двух объектов требуется только одна связь между ними. Третий шаг присоединяет объект ПМН к кластеру, содержащему объекты ВЖЭ, ВМЭ и ПЖЭ, потому что он тоже имеет коэффициент сходства с ВМЭ, равный 0,500. Четвертый шаг процесса кластеризации присоединяет объект РМН к группе, образованной объектами ПЖЭ, ВМЭ, ВЖЭ и ПМН с уровнем сходства 7=0,333. 0 225 о гео О ЗЗО О ЗОО О 445 0500 О 555 0 610 О 665 о гго Рис 3 Деидрограмма дли данных о шести за- ХОРОИЕИИЯХ 167 Из этого примера можно вывести четыре важных наблюдения относительно иерархических агломеративных методов, Первое— все эти методы просматривают матрицу сходства размерностью МХУ (где У вЂ” число объектов) и последовательно объединяют наиболее схожие объекты.
Именно поэтому они называются алгомеративными (объединяющими). Второй важный момент, на который стоит обратить внимание, состоит в том, что последовательность объединений кластеров можно представить визуально в виде древовидной диаграммы, часто называемой дендрограммой. Древовидная диаграмма, отражающая применение метода одиночной связи к данным о шести захоронениях, показана на рис. 3. Каждый шаг, на котором объединялась пара объектов, представляется ветвью этого дерева. Заметьте, что дерево изображает иерархическую организацию связей между шестью точками данных.
На самом нижнем уровне все шесть точек независимы; ма следующем уровне они объединяются в одну группу и три независимых объекта; наконец, на самом верхнем уровне они все объединяются в одну большую группу. Третьим важным моментом является то, что для полной кластеризации этими методами на основе матрицы сходства размерностью УХУ требуется ровно М вЂ” 1 шагов. На первом шаге события (объекты) рассматриваются как самостоятельные кластеры. На последнем шаге все события объединяются в одну большую группу.