И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 43
Текст из файла (страница 43)
7), ясно показывает, что найденное решение состоит из трех кластеров. Как и вслучае метода средней связи, здесь имеется взаимосвязь между кластерами и диагностическими классами. Однако и метод Уорда не порождает точного решения. Нише приводится таблица распределения объектов по кластерам н классам: кластер ! П !!! Н ж ! О диагнозы П 1 !6 13 РЛ О ЗО О Обычная трудность, связанная с использованием метода Уорда, заключается в том, что найденные с его помощью кластеры можно упорядочить по величине профильного сдвига. Так, в приведенном решении профили кластера 111 являются наиболее приподнятыми, тогда как кластер 11 содержит наименее приподнятые кластеры.
Практическое применение метода Уорда в социологических исследованиях показало, что он порождает решения, которые находятся под сильным воздействием величины профильного сдвига. Имеется несколько способов сравнения различных иерархических агломеративных методов. С помощью одного из ннх можно проанализировать, как зти методы преобразуют соотношения между точками в многомерном пространстве. Сжимающие пространство методы изменяют эти соотношения, «уменьшая» пространство между любыми группами в данных. Когда очередная точка подвергается обработке таким методом, она скорее всего будет присоединена к уже существующей группе, а ие послужит началом нового кластера. Расширяющие пространство методы действуют противоположным образом. Здесь кластеры как бы «расступаются»; таким образом в пространстве образуются мелкие, более «отчетливые» кластеры.
Этот способ группировки также склонен к созданию кластеров гиперсферической формы и приблизительно равных размеров. Методы Уорда и полных связей являются методами, расширяющими пространство. И ~наконец, сохраняющие пространство методы, такие, как метод средней связи, оставляют без изменения свойства исходного пространства.
Уильямс и др. (1971) рассматривают свойства сужающих пространство методов как недостатки, особенно в прикладном анализе данных, тогда как, по мнению других авторов, — среди них наиболее известны Джардайн и Сибсон (1988) — эти методы предпочтительнее ввиду их хороших математических свойств, невзирая на результаты их практического использования. Эверитт (1980) уравновешивает зти две крайности замечанием, что успех применения рассматриваемых методов в анализе данных в большой степени зависит от априорных представлений об ожидаемом виде класте- 175 ров и действительной структуре данных, Проблема, которая будет подробно обсуждаться в одном из последующих разделов, состо- ит в том, чтобы определить, когда один из этих методов привносит в данные не свойственную им структуру.
ИТЕРАТИВНЫЕ МЕТОДЫ ГРУППИРОВКИ В отличие от иерархических агломератнвных методов итеративные методы группировки кластерного анализа не имели широкого применения, и специфика использования этих методов не до конца понимается их потенциальными пользователями. Большинство итеративных методов группировки работает следующим образом: 1. Начать с исходного разбиения данных на некоторое заданное число кластеров; вычислить центры тяжести этих кластеров. 2. Поместить каждую точку данных в кластер с ближайшим центром тяжести. 3.
Вычислить новые центры тяжести кластеров; кластеры не заменяются на новые до тех пор, пока не будут просмотрены полностью все данные. 4. Шаги 2 и 3 повторяются до тех пор, пока не перестанут меняться кластеры. Данные ММР1-теста были подвергнуты кластеризации с помощью процедуры к-средних процедурой С(.118ТАб) (УУ(з)1аг1, 1982) для того, чтобы продемонстрировать основные черты итеративных методов. Первый шаг состоит в формировании исходного разбиения данных, Процедура С( 118ТАг) произвольно распределяет 90 объектов по трем кластерам (й=3).
Значение й задается пользователем. Затем вычисляются центры тяжести кластеров. После этого определяются евклидовы расстояния между всеми объектами и центрами тяжести трех кластеров н объекты приписываются к ближайшему центру тяжести. Для данных ММР1-теста это означает, что 51 объект перемещается из кластера, в котором они Находились первоначально, в кластер с ближайшим центром тяжести. После всех перемещений вычисляются центры тяжести новых кластеров. Эти центры тяжести уже совсем другие и приближаются к реальным центрам трех групп в данных ММР1-теста. На втором шаге все повторяется, но на этот раз производится восемь перемещений.
Находятся поные центры тяжести и переходим к следующему шагу. На третьем шаге никаких перемещений не происходит. Все объекты приписываются к ближайшим центрам тяжести кластеров. В отличие от иерархических агломеративных методов, которые требуют вычисления и хранения матрицы сходств между объектами размерностью ЖХА7„ итеративные методы работают непосредственно с первичными дамными. Поэтому с их помощью возможно обрабатывать довольно большие множества данных. Более того, итеративные методы делают несколько просмотров данных и могут компенсировать последствия плохого исходного разбиения дан- 176 иых, тем самым устраняя самый главный недостаток иерархических агломеративных методов.
Эти методы порождают кластеры одного ранга, которые не являются вложенными, и поэтому не могут быть частью иерархии. Большинство итеративных методов не допускает перекрытия кластеров. Несмотря на свои привлекательные черты, итеративные методы группировки имеют существенное ограничение. Наиболее простой способ отыскать оптимальное разбиение множества данных с помощью итеративного метода заключается в образовании всевозможных разбиений этого множества данных. Но такое, казалось бы, простое с точки зрения математических вычислений решение возможно лишь для очень небольших и тривиальных задач. Для 15 объектов и 3 кластеров этот подход требует рассмотрения 217945?28000 конкретных разбиений, что, очевидно, за пределами возможностей современных вычислительных машин.
Поскольку все допустимые разбиения даже для маленькихиаборов данных не могут быть рассмотрены, исследователи разработали широкий круг эвристических процедур которые можно использовать для выбора небольшого подмножества из всех разбиений данных, чтобы найти или хотя бы приблизиться к оптимальному разбиению набора данных. Эта ситуация подобна той, с которой сталкиваются при эвристическом подходе к разработке правил объединения для иерархических агломеративных методов.
Процедуры выбора разумны и правдоподобны, но только малая часть из них имеет достаточное статистическое обоснование. Большинство эвристических, вычислительных и статистических свойств итеративных методов группировки могут быть описаны с помощью трех основных факторов: 1) выбора исходного разбиения; 2) типа итерации и 3) статистического критерия. Эти факторы могут сочетаться огромным количеством способов образуя алгоритмы отбора данных прн определении оптимального разбиения. Не удивительно, что их различные комбвнации ведут к разработке методов, порождающих разные результаты при работе с одними и теми же данными. Исходное разбиение.
Есть два основных способа начать итеративный процесс: определить начальные точки или подобрать подходящее начальное разбиение. Начальные точки определяют центры тяжести кластеров (АпбегЬегд, 1973). Когда используются начальные точки, то при первом просмотре точки данных приписываются к ближайшим центрам тяжести кластеров. Задание начального разбиения требует детального распределения данных по кластерам. В этой процедуре центр тяжести каждого кластера определяется как многомерное среднее объектов кластера. Начальные разбиения могут выбираться случайным образом (как это было в примере с данными ММР1-теста) или же задаваться каким-либо образом самим пользователем (например, пользователь может взять в качестве исходного разбиения решение, полученное иерархической кластеризацией).
177 Тил итерации. Данный момент итерационного процесса связан со способом распределения объектов по кластерам. И опять имеются два основных вида итераций: по принципу Ьсредних и по принципу «восхождения на холм». Итерации по принципу й-средних (они называются также «итерациями по принципу ближайшего центра» и «перемещающими итерациями») заключаются просто в перемещении объектов в кластер с ближайшим центром тяжести. Итерации по принципу й-средних могут быть либо комбииаторными, либо некомбинаторными. В первом случае перевычисление центра тяжести кластера производится после каждого изменения его состава, а во втором случае — лишь после того, как будет завершен просмотр всех данных.
Кроме того, итерации по принципу л-средних подразделяются на исключающие и включающие. В итерациях исключающего типа после вычисления центра тяжести кластера рассматриваемый объект удаляется нз кластера, а в итерациях включающего типа — помещается в кластер. В итерациях, работающих по принципу «восхождения на холм», вместо присоединения объектов к кластеру в зависимости от расстояния между объектом и центром тяжести кластера, перемещение объектов производится исходя нз того, будет или нет предполагаемое перемещение оптимизировать значение некоторого статистического критерия. Статистический критерий.
Методы, основанные иа принципе «восхождения на холм», используют один или несколько следующих критериев (функций качества кластеризации): 1гЯ7, 1г%'-' В, г(е1 Я7 и наибольшее собственное значение матрицы ((7-'В, где %'— объединенная внутригрупповая ковариацнонная матрица, в В— объединенная межгрупповая ковариационная матрица. Каждая из этих статистик часто рассматривается в многомерном дисперсионном анализе (МАг(ОУА); их применение выводится из статистической теории, заложенной в МАИОЧА. Фактически все четыре критерия связаны с обнаружением однородности кластеров в многомерном пространстве.
Хотя в явном виде итерации по принципу й-средних не применяют статистический критерий прн перемещении объектов, неявно они оптимизируют критерий (г%'. Таким образом, процедура л-средних минимизирует дисперсию внутри каждого кластера. Важно отметить, однако, что итерации по принципам й-средннх и «восхождсння на холм», используя критерий (г%', приведут к различным результатам при одних и тех же исходных данных.