И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 46
Текст из файла (страница 46)
Ниже показаны коэффициенты слияния, соответствующие числу кластеров, которое для полного множества данных о захоронениях принимает значения от 10 до 1. 1О кластеров 0,312 5 кластеров 0,729 9» 0,333 4» 0,733 8» 0,354 3» 1,075 7» 0,458 2» 1,708 6» 0,642 1» 2,872 З1+т) З+ йэт где г — величина коэффициента слияния; гр+т — величина коэффициента 1на (/+1)-м этапе кластерного процесса; (с — стандартное отклонение, а г н з, — среднее и стандартное отклонение коэффициентов слияния.
Невыполнение неравенства говорит о том, что в данных имеется только один кластер. На практике ста~ндартное отклонение может быть вычислено на каждом этапе кластерного процесса, где Ф равно: й1= (з'+ з)/зтт Значения коэффициента слияния для полного набора данных о захоронениях, обработанного методом кластеризации Уорда с использованием евклидова расстояния, были рассмотрены выше.
Теперь приведем значения стандартного отклонения для решений, содержащих от 1 до 4 кластеров: Коаффиииенты тлитиии Стандартное отилонение 0,458 0,974 1,929 3,684 0,472 1,074 1,707 2,871 4 кластера 3» 2» 1» В этом случае согласно правилу остановки оптимальным считается решение из трех кластеров. Уишарт (!982) отметил, что можно оценить статистическую значимость результатов, полученных с помощью этого правила, используя 1-статистику с и — 2 степе- 187 Как видим, между решениями из четырех и трех кластеров есть скачок, что приводит к выводу о допустимости решения из четырех кластеров.
Одна из трудностей, связанная с этой процедурой, состоит в том, что можно найти много малых скачков значения коэффициента слияния, но совершенно невозможно исходя лишь из простого визуального обследования указать, какой из этих скачков «правильный». Этот тест был обобщен в работах (Мо)епа, 1977, Мо)епа апб %(зЬаг1, 1980).
Там же была разработана эвристическая процедура, позволтнощая лучше определить «значимый скачок» коэффициента. «Правило остановки № 1», как его определил Мойена, предписывн:т, что групповой уровень или оптимальное разбиение нерархическото кластерного решения получается, если удовлетворяется неравенство нями свободы, где и — число коэффициентов слияния, Процедура заключается в перемножении квадратного корня из и — 1 и значения стандартного отклонения й. В данном примере значения 4,79 (квадратный корень из 23) умножается на 9,74, в результате получаем 4,67. Значение значимо с уровнем 0,01 при 22 степенях свободы.
Сейчас этот метод вместе с более сложным правилом встроен в процедуру СШЬТАМ2. Трудности, связанные с составными многомерными выборочными распределениями, мало сказались на разработке формальных статистических тестов, но широкое распространение получило лишь небольшое число этих тестов. Нулевая гипотеза, наиболее часто применяемая в статистических тестах, предполагает, что исследуемые данные являются случай~ной выборкой из гекеральной совокупности с многомерным нормальным распределением. Вульф (1971), считая, что это предположение верно, предложил тест отношения правдоподобия для проверки гипотезы, что имеется г, а не г' групп.
Альтернативная гипотеза, разработанная Ли (!979), заключается в следующем; да~нные — это выборка из генеральной совокупности с равномерным распределением. Тест, основанный на альтернативной гипотезе, использует критерий внутрнгрупповой суммы квадратов. Он является полезной отправной точкой в определении возможных различий между кластерами. К сожалению, тест может работать только с одним признаком. Какая бы процедура ни была выбрана, пользовагель должен постоянно сознавать, что лишь малая часть этих тестов подверглась широкому изучению.
Таким образом, поскольку большинство тестов плохо изучено и эвристично, то результаты их использования должны приниматься с большой осторожностью. В идеале правила определения числа имеющихся в наличии кластеров должны использоваться совместно с подходящей процедурой проверки достоверности результатов (см.
разд. 1У), так как может случиться, что правило остановки рекомендует такое число кластеров, которое не подтверждается результатами измерений по другим критериям. срдвнпнив мвтодов илдстпвиздции Как мы уже говорили, с помощью разных методов кластеризации можно получить различные результаты для одних и тех же данных, Теперь попробуем разобраться, почему так происходит. Мы постоянно отмечали, что некоторые методы имеют присущие только им особенности и свойства. Например, метод одиночной связи имеет тенденцию к образованию длинных цепочек кластеров, в то время как метод Уорда склонен к образованию плотных гиперсферических кластеров. Понимание того, что различные методы кластеризации будут порождать заметно различающиеся результаты, имеет более чем просто академический интерес, поскольку эти методы применяются к исследованию реальных данных без особых раздумий, рутин~но.
Лучше еще до исчерпывающего анализа данных знать сильные и слабые стороны различных методов, чем 1ев внезапно обнаружить, что результаты анализа во многом обязаны свойствам самого метода, а не внутренней структуре данных. Многие сравнения кластерных методов сводятся к оценке, насколько хорошо различные методы кластеризации восстанавливают известную структуру данных.
Хотя в некоторых из этих исследований были использовамы реальные данные с такими же характеристиками, в большинстве случаев применялись искусственные данные, полученные с помощью моделирования методом Монте-Карло и выборочного метода, которые специально создавались для имитации особенностей реальных данных (например, данные, имитирующие результаты ММР1-теста (В!азЫ!е!б апб Могеу, 1980). Чаще всего наборы данных подбирались в соответствии со свойствами важных видов распределений, таких, как двумерное нормальное, многомерное нормальное и многомерное гамма-распределения. В зависимости от цели сравнения эти наборы данных изменялись в размерах (число объектов на кластер), форме кластеров, числе кластеров в данных, степени перекрытия кластеров, наличии выбросов и степени полноты классификации (должна ли классификация быть исчерпывающей).
Некоторые сравнения проводились на наборах данных, удовлетворяюших ультраметрическому неравенству — более строгому варианту неравенства треугольника, описанному в равд. !1 (М)1!!пап апб 1ззас, 1980). Внимание было уделено последствиям использования различных мер сходства. Результаты проведенных исследований трудно свести воедино, потому что каждое из них придает особое значение своей комбинации структур данных и проверяемых методов. Поэтому не удивительно, что были получены противоречивые результаты (М!!!1- пап, 1981). Однако, по-видимому, четыре фактора оказывают на работу методов кластеризации большое влияние: 1) характеристики кластерной структуры; 2) наличие выбросов и степень полноты классификации; 3) степень перекрытия кластеров; 4) выбор меры сходства.
Наиболее важными характеристиками кластерной структуры, влияющими на работу методов кластеризации, являются форма кластеров, размеры кластеров (которые выражены в числе объектов, приходящихся на кластер, и в различиях относительных размеров кластеров) и число кластеров. Мы уже показали на нескольких примерах, что определенные методы кластеризации склонны к обнаружению определенных видов кластеров. Расширяющие пространство методы, такие, как метод Уорда, полных связей, итеративные методы группировки, использующие критерий !г%', приводят к кластерам гиперсферической формы.
Поэтому не надо удивляться, что в исследованиях, используюших методы Монте-Карло для создания кластеров такой формы, расширяющие пространство методы восстанавливают известную кластерную структуру лучше, чем сужающие пространство методы. Не чдивительно и то, что эти методы обычно не в состоянии вос- становить структуру кластеров, имеющих растянутую или необычную форму Кроме того, расширяющие пространство методы имеют тенденцию находить кластеры приблизительно равных размеров.
Но в этом случае, как показывают исследования по методу Монте-Карло, кластеры, состояшие из относительно небольшого числа объектов, могут слиться с кластерами больших размеров. Мойена (1977) доказал, в частности, что увеличение числа групп в данных неблагоприятно воздействует на работу метода Уорда, но этот результат не нашел подтверждения в другой работе, где применяется метод Монте-Карло. Вообще говоря, сужающие пространство методы, подобные методу одиночной связи, хорошо работают с теми кластерными структурами, для которых расширяющие пространство методы оказываются несостоятельными.
Так, исследованиями, используюшимн метод Монте-Карло, проверено, что сужающие пространство методы действительно дают хорошее восстановление известной кластерной структуры, если кластеры хорошо определены и разделены. Наличие выбросов и степень полноты классификации, требуемая при кластеризации,— важные факторы, влияюшие на работу метода. Полная классификация является исчерпывающей: все рассматриваемые объекты должны быть размещены по группам. Основанное на методе Монте-Карло исследование влияния этого фактора показывает, что, если требуется полная классификация и данные имеют мало выбросов, то метод Уорда дает превосходное восстановление известной кластерной структуры (Кшрег апб Р!зЬег, 1975; Мо!епа, 1977), Однако в работах (В!азЫ1е!й апд Могеу, 1980; Еде!ЬгосК 1979; Ебе!Ъгоск апд Мс1.аидЫ(п, 1979; М11!!цап„!980) показано, что если степень полноты классификации уменьшается, то кластеризация по методу средней связи дает восстановление такое же, что и по методу Уорда.
Мнллиган и Иссак (1980), воспользовавшись данными с ультраметрикой, доказали, что в действительности метод средней связи может работать лучше метода Уорда даже в случае полной классификации. Вообще может показаться, что на работе расширяющих пространство методов неблагоприятно сказывается присутствие большого числа выбросов, но это утверждение еще требует проверки. Важно помнить, что выбросы — это не просто обособленные объекты; на самом деле они могут быть представителями подгрупп, о которых в выборке содержится мало данных, Следовательно, очевидное решение проблемы выбросов (отбросить эти данные) должно быть хорошо продуманным.
Независимо от их интерпретации выбросы необходимо тщательно исследовать еще до применения кластерного анализа. Для каждого выброса необходимо определить, почему он так отличен от других объектов. Проблема перекрытия кластеров аналогична проблемам степени полноты классификации и наличия выбросов в выборке данных. Перекрытие кластеров в это просто степень, с которой кластеры занимают одно и то же пространство. Кластеры могут быть хорошо разделенными, но могут находиться и близко один к дру- гому, Кроме того, могут присутствовать шумовые точки, т. е.