Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 45
Текст из файла (страница 45)
В той же степени не поддается решению задача о разделении смеси многомерных распределений в анализе реальных данных, Хотя многие вопросы м~ногомерных нормальных распределений хорошо разработаны, все же реальные данные не будут соответствовать этому стандарту; более того, м~ногне выборки реальных данных являются сложными смесями, имеющими различные многомерные выборочные распределения неизвестной структуры. Поскольку не существует статистической теории и теории распределений, которые помогли бы в разделении этих смесей, также неразумно ожидать появления формальных тестов для целей кластерного анализа.
Реакция на эти ограничения была различной. В некоторых отраслях, особенно в биологии, задача определения числа кластеров не имеет первостепенной важности просто потому, что целью анализа является предварительное исследование общей картины зависимостей между объектами, представленной в виде иерархического дерева.
Однако в социальных науках развиваются два основных подхода к определению числа присутствующих кластеров; эвристические процедуры и формальные тесты. Эвристические процедуры — несомненно наиболее часто испо льзуемые методы. На самом верхнем базисном уровне иерархическое дерево «обрезается» после субъективного просмотра р азличных уровней дерева. Для дендрограммы (рис. 8), изображаюгцей результаты обработки полного набора данных о захоронениях методом Уорда, применяемых евклидово расстояние, субъективная обрезка дерева приведет к выделению двух кластеров одногоуровня и, возможно, трех кластеров, если рассматривать различные уровни дерева.
Эту процедуру вряд ли можно назвать удовлетворительной, поскольку обычно ее результаты зависят от нужд и представлений исследователей о «правильной»-структуре данных. Более формальный, но все же эвристический подход к задаче состоит в том, чтобы графически изобразить число получаемых из иерархического дерева кластеров как функцию коэффициента слияния или смешения, равного числу способов объединения различных объектов в кластер. Значения коэффициентов слияния показаны вдоль оси У древовидной диаграммы. Этот тест, вариант 2.620 2 525 2 229 5934 1.ВЗВ 1.эаэ 0.152 0.451 оды Рис. В дендрограмма метода уорда для полного на- бора данных о захоронениях которого был предложен Торндайком в 1953 г., аналогичен критерию отсеивания факторного анализа, Заметное «уплощение» на этом графике говорит о том, что дальнейшее слияние кластеров не дает новой информации.
На рис. 9 показан такой график для пол~ного набора данных о захоронениях, полученный с помощью метода Уорда и евклидова расстояния. Уплощение кривой начинается вблизи решения из трех кластеров, и линия остается, по существу, плоской возле решения из двух кластеров. Отсюда следует, что в данных присутствуют три (но вероятнее всего два) кластера. Другая субъективная процедура, несколько более формализованная, заключается в том, чтобы прн новом просмотре значений коэффициента слияния найти значимые «скачки» значения коэффициента.
Скачок означает, что объединяются два довольно несхожих кластера. Таким образом, число кластеров, предшествую- 24 23 22 27 га 19 79 17 1б и !4 а 1з Ы 12 Е !1 ч 79 О .4 .б 1.2 !,б 2.9 2.4 2.В З.О коэффициент сяияиия Рис. 9. График зависимости между числом кластерон и величиной козффимнента слияния, полученный с помоптью метода Уорда для полного набора данных о захоронениях щее этому объединению, является наиболее вероятным решением. Ниже показаны коэффициенты слияния, соответствующие числу кластеров, которое для полного множества данных о захоронениях принимает значения от 10 до 1.
1О кластеров 0,312 5 кластеров 0,729 9» 0,333 4» 0,733 8» 0,354 3» 1,075 7» 0,458 2» 1,708 6» 0,642 1» 2,872 З1+т) З+ йэт где г — величина коэффициента слияния; гр+т — величина коэффициента 1на (/+1)-м этапе кластерного процесса; (с — стандартное отклонение, а г н з, — среднее и стандартное отклонение коэффициентов слияния. Невыполнение неравенства говорит о том, что в данных имеется только один кластер.
На практике ста~ндартное отклонение может быть вычислено на каждом этапе кластерного процесса, где Ф равно: й1= (з'+ з)/зтт Значения коэффициента слияния для полного набора данных о захоронениях, обработанного методом кластеризации Уорда с использованием евклидова расстояния, были рассмотрены выше. Теперь приведем значения стандартного отклонения для решений, содержащих от 1 до 4 кластеров: Коаффиииенты тлитиии Стандартное отилонение 0,458 0,974 1,929 3,684 0,472 1,074 1,707 2,871 4 кластера 3» 2» 1» В этом случае согласно правилу остановки оптимальным считается решение из трех кластеров. Уишарт (!982) отметил, что можно оценить статистическую значимость результатов, полученных с помощью этого правила, используя 1-статистику с и — 2 степе- 187 Как видим, между решениями из четырех и трех кластеров есть скачок, что приводит к выводу о допустимости решения из четырех кластеров. Одна из трудностей, связанная с этой процедурой, состоит в том, что можно найти много малых скачков значения коэффициента слияния, но совершенно невозможно исходя лишь из простого визуального обследования указать, какой из этих скачков «правильный».
Этот тест был обобщен в работах (Мо)епа, 1977, Мо)епа апб %(зЬаг1, 1980). Там же была разработана эвристическая процедура, позволтнощая лучше определить «значимый скачок» коэффициента. «Правило остановки № 1», как его определил Мойена, предписывн:т, что групповой уровень или оптимальное разбиение нерархическото кластерного решения получается, если удовлетворяется неравенство нями свободы, где и — число коэффициентов слияния, Процедура заключается в перемножении квадратного корня из и — 1 и значения стандартного отклонения й. В данном примере значения 4,79 (квадратный корень из 23) умножается на 9,74, в результате получаем 4,67.
Значение значимо с уровнем 0,01 при 22 степенях свободы. Сейчас этот метод вместе с более сложным правилом встроен в процедуру СШЬТАМ2. Трудности, связанные с составными многомерными выборочными распределениями, мало сказались на разработке формальных статистических тестов, но широкое распространение получило лишь небольшое число этих тестов. Нулевая гипотеза, наиболее часто применяемая в статистических тестах, предполагает, что исследуемые данные являются случай~ной выборкой из гекеральной совокупности с многомерным нормальным распределением. Вульф (1971), считая, что это предположение верно, предложил тест отношения правдоподобия для проверки гипотезы, что имеется г, а не г' групп.
Альтернативная гипотеза, разработанная Ли (!979), заключается в следующем; да~нные — это выборка из генеральной совокупности с равномерным распределением. Тест, основанный на альтернативной гипотезе, использует критерий внутрнгрупповой суммы квадратов. Он является полезной отправной точкой в определении возможных различий между кластерами. К сожалению, тест может работать только с одним признаком. Какая бы процедура ни была выбрана, пользовагель должен постоянно сознавать, что лишь малая часть этих тестов подверглась широкому изучению. Таким образом, поскольку большинство тестов плохо изучено и эвристично, то результаты их использования должны приниматься с большой осторожностью. В идеале правила определения числа имеющихся в наличии кластеров должны использоваться совместно с подходящей процедурой проверки достоверности результатов (см.
разд. 1У), так как может случиться, что правило остановки рекомендует такое число кластеров, которое не подтверждается результатами измерений по другим критериям. срдвнпнив мвтодов илдстпвиздции Как мы уже говорили, с помощью разных методов кластеризации можно получить различные результаты для одних и тех же данных, Теперь попробуем разобраться, почему так происходит. Мы постоянно отмечали, что некоторые методы имеют присущие только им особенности и свойства.
Например, метод одиночной связи имеет тенденцию к образованию длинных цепочек кластеров, в то время как метод Уорда склонен к образованию плотных гиперсферических кластеров. Понимание того, что различные методы кластеризации будут порождать заметно различающиеся результаты, имеет более чем просто академический интерес, поскольку эти методы применяются к исследованию реальных данных без особых раздумий, рутин~но. Лучше еще до исчерпывающего анализа данных знать сильные и слабые стороны различных методов, чем 1ев внезапно обнаружить, что результаты анализа во многом обязаны свойствам самого метода, а не внутренней структуре данных. Многие сравнения кластерных методов сводятся к оценке, насколько хорошо различные методы кластеризации восстанавливают известную структуру данных.
Хотя в некоторых из этих исследований были использовамы реальные данные с такими же характеристиками, в большинстве случаев применялись искусственные данные, полученные с помощью моделирования методом Монте-Карло и выборочного метода, которые специально создавались для имитации особенностей реальных данных (например, данные, имитирующие результаты ММР1-теста (В!азЫ!е!б апб Могеу, 1980). Чаще всего наборы данных подбирались в соответствии со свойствами важных видов распределений, таких, как двумерное нормальное, многомерное нормальное и многомерное гамма-распределения.
В зависимости от цели сравнения эти наборы данных изменялись в размерах (число объектов на кластер), форме кластеров, числе кластеров в данных, степени перекрытия кластеров, наличии выбросов и степени полноты классификации (должна ли классификация быть исчерпывающей). Некоторые сравнения проводились на наборах данных, удовлетворяюших ультраметрическому неравенству — более строгому варианту неравенства треугольника, описанному в равд. !1 (М)1!!пап апб 1ззас, 1980).