И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 50
Текст из файла (страница 50)
Н1, за исключением вариантов факторного анализа. Это следующие процедуры: Н1ЕКАКСНУ восемь иерархических агломеративных методов ° СЕИТКО1Р центроидный иерархический метод ° КЕ1.ОСАТЕ итеративный метод й-средних ° МОРЕ модальный анализ ° РЕИ51ТУ улучшенный метод модального анализа . Р1Ч1РЕ монотетический дивизимный метод ° КРЕИР метод теории графов Джардайна и Сибсона ° РИРК1ТЕ метод минимального покрывающего дерева ° Е()С).1Р итеративный метод, использующий нелинейное программирование метод разделения многомерных нормальных смесей ° 1ИЧАК1АИТ итеративный метод оптимизации многомерных индикаторов однородности кластеров Среди других особенностей этой программы — кластерная диагностика и средства проверки обоснованности решений, включающие процедуры К~Э(.ЕЯ и СОМРАКЕ, в которых реализованы правила остановки Мойена (1977) и кофенетическнй коэффициент корреляции Мойена и Уишарта (1980).
Процедура СОККЕЕ содержит в общей сложности 38 мер сходства, а пакет программ имеет вспомогательную процедуру, позволяющую пользователю определить коэффициент сходства любого вида (РЕЕ1ИЕ). С помощью других вспомогательных программ можно управлять кластерной диагностикой или графическим выводом информации. Есть еще трв пакета программ, посвященных кластерному анализу: ВСТКУ (Тгуоп апб Ва1!еу, 1970), С(Л38 (Ег(ейпап апд КпЬ)п, 1967), ИТБт'8 (КоЬИ е1 а!., 1974), Из этих трех пакетов ИТВУ8 является наиболее важным, поскольку в него включены методы и идеи, обсуждавшиеся в книге по кластерному анализу и численной таксономии (Бпеа1Ь апб Бойа!, 1973) Помимо кластерного анализа, пакет ИТЯУ8 содержит несколько многомерных статистических процедур, в том числе многомерное шкалирование и факторный анализ.
Пакет программ ВСТКУ создан на основе книги (Тгуоп апб Вайеу, 1970) н включает ряд методов кластеризации, отражающих подход Трайона к факторному анализу. Последний пакет программ СШЬ в настоящее время использует- ся редко, а заинтересованный читатель может найти современную версию этой программы в новейшей редакции СШИТАЯ. ПРОСТЫЕ ПРОГРАММЫ КЛАСТЕРНОГО АНАЛИЗА Простые программы кластерного анализа именно таковыми и являются. Эти программы написаны главным образом на Фортране. Онн обычно реализуют один или два алгоритма кластеризации. Некоторым образом они напоминают подпрограммы первой категории, определенные выше, в том, что они требуют от пользователя знания языка управления заданиями вычислительной системы и языка, на котором написаны программы.
Вообще говоря, эти программы почти не имеют средств отладки программ, плохо документированы и выводят мало информации. Однако простые программы важны, потому что они часто используются в определенных отраслях науки„а также лежат в основе алгоритмов, входящих в такие пакеты программ, как ЬАЯ, 1М61. и ОЯ!К15. Наиболее известной из этих программ является НОВО(ЗР, реализующая метод, объединивший методы одиночной и полной связей (Хойпз!оп, 1967) и !МОРАТА, реализующая гибкий итеративный метод группировки, широко применяемый в технике (На!1 апд Кйаппа, 1977) .
ЛИТЕРАТУРА ПО КЛАСТЕРНОМУ АНАЛИЗУ Классификация является основным этапом научного исследования, но характер, методы и цели исследования в любой области науки определяются стоящими перед ней задачами и изучаемыми ею явлениями. Поэтому неудивительно, что кластерный анализ— метод, рекламируемый как «объективное» средство классификации, принимает различные формы и определяется многими, часто противоречащими друг другу способами. Также естественно, что литературу по кластерному анализу можно найти в самых различных журналах (по электротехнике, биологии, библиотечному делу, по психиатрии н т. д.). Необходимо отдавать себе отчет в том, что методы кластерного анализа разрабатываются широким кругом научных дисциплин и что под этим названием собрано большое количество совершенно различных методов.
В равд. 1 мы описали причины возросшего интереса к кластерному анализу. Одновременно с разработкой новых методов и алгоритмов кластеризации отмечался быстрый рост числа статей, связанных с кластеризацией, во многих областях науки. Но если в начале 60-х годов быстрый рост публикаций был ограничен, в какой-то степени, рамками биологических наук, в конце 60-х— начале 70-х годов кластерный анализ распространился фактически на все области научных исследований. Например, в !973 г. в !62 журналах, включая Ас!а РзуИо!ойХса, Атеасап Ап(!диПу, Сотри!ег Хоигпа(, Хоигпа1 о1 В!осйепиз!гу, (Хиаг!ег!у Хоигпа! о! Мес(!с1- пе, Хоигла! оХ Магйе!!лд )!езеагсй, Яуз!ета!!с Яоо!оду и Хоигпа! о( Есо1оду, было опубликовано 292 статьи, которые либо цитировали хотя бы одну из основных работ по кластерному анализу, либо использовали в своих названиях термины «кластерный анализ» или «численная таксономия» (В!аэЫ(еЫ апб А!депдег1ег, 1978).
Тематика исследований варьирует от анализа морфологии мумифицнрованных грызунов в Новой Гвинее до изучения резуль. татов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване. Такой взрыв публикаций оказал огромное влияние иа развитие и применение кластерного анализа.
Но, к сожалению, имеются н негативные стороны. Быстрый рост публикаций по кластерному анализу повлек за собой образование группировок пользователей и как следствие — создание жаргона, используемого лишь группировками, его создавшими (В!азЫ(е!6 апб А!депдег1ег, 1978; В!азЫ!е!б, 1980). О формировании жаргона специалистами в области социальных наук свидетельствует, например, разнообразная терминология, относящаяся к методу Уорда. «Метод Уорда» в литературе называется по-разному. Известны по крайней мере еще четыре его названия: «метод минимальной дисперсии», «метод суммы квадратов ошибок», «нерархическая группировка, минимизирующая 1г%» и «НОКООР». Первые два названия указывают просто на критерий, оптимум которого определяется в методе Уорда, тогда как третье связано с суммой квадратов ошибок, являющейся монотонным преобразованием следа матрицы Ж, внутригрупповой ковариационной матрицы Наконец, широко применяемое название «НОВО!)Р» — это название популярной компьютерной программы, которая реализует метод Уорда (Ъе!бгпап, 1967).
Образование жаргона мешает развитию междисциплинарных связей, препятствует эффективному сравнению методологии н результатов применения кластерного анализа в различных областях науки, ведет к ненужным затратам усилий (повторное изобретение одних и тех же алгоритмов) и, наконец, не дает новым пользователям глубоко понять выбранные нми методы (В1азЫ!е!б апд а!бепйег1ег, 1978). Например, авторы одного исследовании в области социальных наук (йопегз апб 1.1пбеп, 1973) сравнили три различных метода кластеризации, применяя одни н те же данные.
Они называли этн методы следующим образом: «иерар. хическая группировка», «иерархическая кластеризация или НСО» и «кластерный анализ», И ни одно из этих названий не было привычным для методов кластеризации. Начинающий пользователь программ кластерного анализа будет сбит с толку всеми существующими названиями и не сможет связать нх с другими описаниями методов кластеризации. Опытные пользователи окажутся в трудном положении при сравнении своих исследований с аналогичными работами.
Возможно, мы впадаем в крайность, но жаргон представляет собой серьезную проблему, 208 В последние годы развитие кластерного анализа несколько замедлилось, судя и по числу публикаций, и по числу дисциплин, где этот метод применяется. Можно сказать, что в настоящее время психология, социология, биология, статистика и некоторые технические дисциплины выходят на стадию консолидации в отношении кластерного анализа. Количество статей, воспевающих достоинства кластерного анализа, постепенно уменьшается, При этом все чаще появляются работы, в которых на контрольных данных проводится сравнение применимости различных методов кластеризации.
В литературе стало уделяться больше внимания и приложениям. Многие исследования направлены на разработку практических мер для проверки обоснованности результатов, полученных с помощью кластерного анализа. Все это свидетельствует о серьезных попытках создать разумную статистическую теорию методов кластеризации. Рекомендйции по состйвлению отчетов ов исследовйннях, испОльзующих клАстерныи АнАлиз Цель нашей работы — помочь потенциальному пользонателю освоить кластерный анализ и познакомить его с многообразием методов, литературой, программным обеспечением н терминологией Надеемся, что после ее прочтения, специалисты смогут оценить достоинства и недостатки различных подходов н методов классификации.
Здесь рассматриваются те проблемы и способы их устранения, о которых должен знать каждый пользователь программ кластерного анализа. Хотелось бы, однако, предложить несколько рекомендаций, которые вряд ли улучшат качество научных исследований, но все же дадут возможность сравнить результаты исследований, проведенных с помощью кластеризации.
1 Необходимо давать четкое описание метода кластеризации. Это поможег избавиться от жаргона в публикациях. Несомненно, одним нз стандартов может служить книга Снита н Сокэла (1973). В нашей рабате мы следуем их термина. логии и рекомендуем ее другим. Название метода должно сопровождаться соответствующими ссылками. 2, Необходимо четко указывать, какая мера сходства была выбрана (или статистический критерий, если используется итеративный метод).