И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 45
Текст из файла (страница 45)
Несмотря на привлекательность, этот метод обладает некоторыми недостатками, из которых наиболее важным является его зависимость от выбора шкал измерений. Кроме того, предполагается, что искомые в пространстве кластеры имеют сферическую форму. Другая основная группа методов поиска модальных значений плотыости — методы по определению параметров смеси распределений. Смесь определяется как совокупность выборок, представляющих различные популяции объектов. Например, множество данных ММР1-теста является смесью потому, что оно содержит выборки из трех популяций: больных неврозами, психозами н расстройствами личности. Этот подход к кластерному анализу явно основан на статистической модели, в которой элементы разных групп нли классов должны иметь различные вероятностные распределения признаков.
Цель кластеризации данных состоит в определении параметров, описывающих распределения для популяций. Важные частные случаи разделения смесей реализованы в процедурах НОКМ1Х и НОКМАР, разработанных Вульфом (1970, 1971). Процедура НОКМ!Х получает оценки максимального правдоподобия для параметров многомерных смесей нормалькых распределений. Настоящий метод предполагает, что основные популяции различаются средними и ковариационными структурами Процедура КОКМАР построена на более простом предположении, что структуры внутригрупповых ковариацнй одинаковы.
Уникальность обеих процедур ЫОКМ!Х и НОКМАР состоит в том, что они не распределяют объекты по кластерам, а вместо этого дают вероятность принадлежности каждого объекта к каждому из кластеров. Например, в случае перекрывающихся кластеров вероятность того, что объект принадлежит обоим кластерам, равна 0,6 (%!айаг!, 1982). Методы поиска модальных значений плотности особенно чувствительны к проблеме субоптимальных решений (ЕнегФ, 1980), поскольку уравнение максимального правдоподобия в общем случае может иметь несколько решений. Хотя в принципе можно сравнить оценки для различных неоптимальных решений, однако это нелегко сделать (или вовсе невозможно) даже для небольших задач.
Другой недостаток данных методов в том, что все компоненты смеси являются многомерными нормальными распределениями. Очевидно, возможны и другие виды распределений, но 182 неясно, насколько устойчивы к нарушению предположения о нормальности. Методы сгущения уникальны в том смысле, что они позволяют создавать перекрывающиеся кластеры. В отличие от иерархических методов, это семейство кластерных методов не порождает иерархические классификации; объектам разрешается быть членамн нескольких кластеров. Многие ранние разработки методовсгущения относятся к лингвистическим исследованиям, поскольку именно там важно учитывать, что некоторые слова имеют различные значения.
Методы сгущения требуют вычисления матрицы сходства между объектами и определения оптимального значения статистического критерия, называемого специалистами «функцией когезии» («функция сцепления»). Затем объекты перемещаются до тех пор, пока функция не достигнет оптимального значения.
Поскольку эти методы одновременно создают лишь две группы, то обычно первичные данные случайным образом разделяются на несколько на. чальных конфигураций, каждая из которых в дальнейшем может быть рассмотрена с точки зрения пригодности. Серьезный недостаток рассматриваемых методов состоит в том, что из-за неудачной поисковой процедуры время от времени происходит повторное обнаружение одних и тех же групп, а это не дает новой информации. Другим практическим недостатком является то, что их характеристики малоизвестны, так как эти методы ие имеют широкого распространения. Джардайн и Сибсон (1968) предложили метод сгущения, основанный на теории графов, который, хотя и лишен серьезного недостатка повторного обнаружения групп, все же ограничен анализом лишь очень малых групп (У(25), что обусзовленно чрезвычайной вычислительной трудоемкостью (см.
также Со!е апд 1«'!зЬаг(, 1970). По многим причинам методы теории графов оказались среди новых методов, доступных исследователю. Значительный интерес для теоретиков (а также для пользователей) представляет то, что кластерные методы этого семейства основаны на хорошо разработанных теоремах и аксиомах теории графов. А поскольку из теорем теории графов вытекает большое количество полезных следствий, то возможно, что эта теория станет альтернативой преимущественно эвристическому характеру других кластерных методов. Например, иерархические агломеративные методы могут бытьсжато описаны в терминах теории графов (РцЬез апд,)а)п, 1980). Теория графов ведет также к созданию нуль-гипотезы, которая может быть использована при проверке наличия кластеров в матрице сходства. Она известна как «гипотеза случайного графа», утверждаюшая, что все ра~нжированные матрицы близости являются равновероятными (1.!пп, 1975).
Кроме того, теория графов применяется при разработке более эффективных вычислительных алгоритмов для известных методов кластеризации и в некоторых случаях позволяет сделать число анализируемых объектов довольно большим. оппвдвлвиив числя кляствпов Поскольку кластерный анализ предназначен для создания однородных групп, естественно рассмотреть процедуры, позволяющие определить число полученных групп.
Например, вложенная древовидная структура дендрограммы указывает на то, что в данных может находиться много различных групп, и правомерен вопрос: где нужно «обрезать» дерево, чтобы получить оптимальное число групп? Точно так же и при работе с итеративными методами пользователь должен указать число групп, присутствующих в данных, еще до создания этих групп. К сожалению, эта проблема до сих пор находится среди нерешенных задач кластерного анализа из-за отсутствия подходящей нулевой гипотезы и сложной природы многомерных выборочных распределений. Затруднения в создании работоспособной нулевой гипотезы вызывает отсутствие непротиворечивого и универсального определения кластерной структуры, Но, как мы уже указывали, появление такого определения маловероятно.
Понятие «отсутствие структуры» в наборе данных (одна из возможных нулевых гипотез) весьма далеко от ясности, и непонятно, каким должен быть тест, позволяющий определить, есть ли в данных структура или нет, Уже созданные нулевые гипотезы (такие, как гипотеза случайного графа и гипотеза случайного положения), возможно, и полезны, но исчерпывают далеко не все возможности и должны еще найти свое место в практическом анализе данных. В любом случае «отклонение нулевой гипотезы не имеет особого значения, потому что разумные альтернативные гипотезы еще не разработаны; практичного и математически полезного определения «кластерной структуры» нет до сих пор» (ПиЬез апд .)а(п, 1980).
В той же степени не поддается решению задача о разделении смеси многомерных распределений в анализе реальных данных, Хотя многие вопросы м~ногомерных нормальных распределений хорошо разработаны, все же реальные данные не будут соответствовать этому стандарту; более того, м~ногне выборки реальных данных являются сложными смесями, имеющими различные многомерные выборочные распределения неизвестной структуры. Поскольку не существует статистической теории и теории распределений, которые помогли бы в разделении этих смесей, также неразумно ожидать появления формальных тестов для целей кластерного анализа.
Реакция на эти ограничения была различной. В некоторых отраслях, особенно в биологии, задача определения числа кластеров не имеет первостепенной важности просто потому, что целью анализа является предварительное исследование общей картины зависимостей между объектами, представленной в виде иерархического дерева. Однако в социальных науках развиваются два основных подхода к определению числа присутствующих кластеров; эвристические процедуры и формальные тесты. Эвристические процедуры — несомненно наиболее часто испо льзуемые методы. На самом верхнем базисном уровне иерархическое дерево «обрезается» после субъективного просмотра р азличных уровней дерева. Для дендрограммы (рис.
8), изображаюгцей результаты обработки полного набора данных о захоронениях методом Уорда, применяемых евклидово расстояние, субъективная обрезка дерева приведет к выделению двух кластеров одногоуровня и, возможно, трех кластеров, если рассматривать различные уровни дерева. Эту процедуру вряд ли можно назвать удовлетворительной, поскольку обычно ее результаты зависят от нужд и представлений исследователей о «правильной»-структуре данных. Более формальный, но все же эвристический подход к задаче состоит в том, чтобы графически изобразить число получаемых из иерархического дерева кластеров как функцию коэффициента слияния или смешения, равного числу способов объединения различных объектов в кластер. Значения коэффициентов слияния показаны вдоль оси У древовидной диаграммы.
Этот тест, вариант 2.620 2 525 2 229 5934 1.ВЗВ 1.эаэ 0.152 0.451 оды Рис. В дендрограмма метода уорда для полного на- бора данных о захоронениях которого был предложен Торндайком в 1953 г., аналогичен критерию отсеивания факторного анализа, Заметное «уплощение» на этом графике говорит о том, что дальнейшее слияние кластеров не дает новой информации. На рис.
9 показан такой график для пол~ного набора данных о захоронениях, полученный с помощью метода Уорда и евклидова расстояния. Уплощение кривой начинается вблизи решения из трех кластеров, и линия остается, по существу, плоской возле решения из двух кластеров. Отсюда следует, что в данных присутствуют три (но вероятнее всего два) кластера.
Другая субъективная процедура, несколько более формализованная, заключается в том, чтобы прн новом просмотре значений коэффициента слияния найти значимые «скачки» значения коэффициента. Скачок означает, что объединяются два довольно несхожих кластера. Таким образом, число кластеров, предшествую- 24 23 22 27 га 19 79 17 1б и !4 а 1з Ы 12 Е !1 ч 79 О .4 .б 1.2 !,б 2.9 2.4 2.В З.О коэффициент сяияиия Рис. 9. График зависимости между числом кластерон и величиной козффимнента слияния, полученный с помоптью метода Уорда для полного набора данных о захоронениях щее этому объединению, является наиболее вероятным решением.