Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 49
Текст из файла (страница 49)
Пакет программ (в рамках процедуры СШЬТЕК) сейчас содержит метод центра тяжести, метод Уорда и иерархический агломеративный метод средней связи. Евклидово расстояние — все еще единственная используемая мера сходства, В процедуре ЕАЗТСШЯ был добавлен метод А-средних (центроидный метод группировки Андерберга). И наконец, в пакет был включен факторный метод кластеризации признаков (процедура ЧАКСШЯ) В пакете было увеличено число диагностических программ, аналогичных имеющимся в пакете СШЯТАХ.
Значительный интерес представляет новая процедура остановки при определении числа кластеров — кубический критерий кластеризации. Эта процедура была добавлена в последнюю версию пакета программ, но авторы БАБ не опубликовали никаких работ, которые могли бы продемонстрировать ее обоснованность или практичность в прикладных исследованиях. В программе ЯРАЯ в настоящее время нет ни одного метода кластерного анализа, Однако есть новая процедура СШЬТЕм (Ва)а), 1979), которая, возможно, будет включена в ГРВЗ. Новая процедура содержит 27 мер сходства, большинство из них — коэффициенты ассоциативности.
В пакете имеется семь иерархических агломеративных методов (включая методы одиночной, полной и средней связей н метод Уорда), которые может применять пользователь. пАКеты НРОГРАихх клАстеРнОГО АнАлизА С точки зрения серьезного исследователя, пакеты программ кластерного анализа обладают максимальной гибкостью и большими удобствами для пользователя.
Они сочетают преимущества общих пакетов статистических программ (интегрированный язык управления, процедуры отбора и обработки данных) с чертами, ИОКМ1Х представляющими особый интерес для пользователя кластерного анализа (разнообразие методов кластеризации, специальные диагностические программы и улучшенная графика). Огромное значение имеет то, что многие из этих пакетов программ содержат малодоступные или даже уникальные методы кластеризации и аналитические процедуры, связанные со специальными задачами и структурами данных. Наиболее известным нз пакетов программ кластерного анализа является программа С(.РВТАИ.
Новейшая редакция СШБТАИ (версия 2.1; Мзйаг1, 1982) включает одиннадцать процедур, которые содержат все семейства методов кластеризации, определенные в равд. Н1, за исключением вариантов факторного анализа. Это следующие процедуры: Н1ЕКАКСНУ восемь иерархических агломеративных методов ° СЕИТКО1Р центроидный иерархический метод ° КЕ1.ОСАТЕ итеративный метод й-средних ° МОРЕ модальный анализ ° РЕИ51ТУ улучшенный метод модального анализа . Р1Ч1РЕ монотетический дивизимный метод ° КРЕИР метод теории графов Джардайна и Сибсона ° РИРК1ТЕ метод минимального покрывающего дерева ° Е()С).1Р итеративный метод, использующий нелинейное программирование метод разделения многомерных нормальных смесей ° 1ИЧАК1АИТ итеративный метод оптимизации многомерных индикаторов однородности кластеров Среди других особенностей этой программы — кластерная диагностика и средства проверки обоснованности решений, включающие процедуры К~Э(.ЕЯ и СОМРАКЕ, в которых реализованы правила остановки Мойена (1977) и кофенетическнй коэффициент корреляции Мойена и Уишарта (1980).
Процедура СОККЕЕ содержит в общей сложности 38 мер сходства, а пакет программ имеет вспомогательную процедуру, позволяющую пользователю определить коэффициент сходства любого вида (РЕЕ1ИЕ). С помощью других вспомогательных программ можно управлять кластерной диагностикой или графическим выводом информации. Есть еще трв пакета программ, посвященных кластерному анализу: ВСТКУ (Тгуоп апб Ва1!еу, 1970), С(Л38 (Ег(ейпап апд КпЬ)п, 1967), ИТБт'8 (КоЬИ е1 а!., 1974), Из этих трех пакетов ИТВУ8 является наиболее важным, поскольку в него включены методы и идеи, обсуждавшиеся в книге по кластерному анализу и численной таксономии (Бпеа1Ь апб Бойа!, 1973) Помимо кластерного анализа, пакет ИТЯУ8 содержит несколько многомерных статистических процедур, в том числе многомерное шкалирование и факторный анализ. Пакет программ ВСТКУ создан на основе книги (Тгуоп апб Вайеу, 1970) н включает ряд методов кластеризации, отражающих подход Трайона к факторному анализу.
Последний пакет программ СШЬ в настоящее время использует- ся редко, а заинтересованный читатель может найти современную версию этой программы в новейшей редакции СШИТАЯ. ПРОСТЫЕ ПРОГРАММЫ КЛАСТЕРНОГО АНАЛИЗА Простые программы кластерного анализа именно таковыми и являются. Эти программы написаны главным образом на Фортране. Онн обычно реализуют один или два алгоритма кластеризации. Некоторым образом они напоминают подпрограммы первой категории, определенные выше, в том, что они требуют от пользователя знания языка управления заданиями вычислительной системы и языка, на котором написаны программы. Вообще говоря, эти программы почти не имеют средств отладки программ, плохо документированы и выводят мало информации.
Однако простые программы важны, потому что они часто используются в определенных отраслях науки„а также лежат в основе алгоритмов, входящих в такие пакеты программ, как ЬАЯ, 1М61. и ОЯ!К15. Наиболее известной из этих программ является НОВО(ЗР, реализующая метод, объединивший методы одиночной и полной связей (Хойпз!оп, 1967) и !МОРАТА, реализующая гибкий итеративный метод группировки, широко применяемый в технике (На!1 апд Кйаппа, 1977) . ЛИТЕРАТУРА ПО КЛАСТЕРНОМУ АНАЛИЗУ Классификация является основным этапом научного исследования, но характер, методы и цели исследования в любой области науки определяются стоящими перед ней задачами и изучаемыми ею явлениями. Поэтому неудивительно, что кластерный анализ— метод, рекламируемый как «объективное» средство классификации, принимает различные формы и определяется многими, часто противоречащими друг другу способами. Также естественно, что литературу по кластерному анализу можно найти в самых различных журналах (по электротехнике, биологии, библиотечному делу, по психиатрии н т.
д.). Необходимо отдавать себе отчет в том, что методы кластерного анализа разрабатываются широким кругом научных дисциплин и что под этим названием собрано большое количество совершенно различных методов. В равд. 1 мы описали причины возросшего интереса к кластерному анализу. Одновременно с разработкой новых методов и алгоритмов кластеризации отмечался быстрый рост числа статей, связанных с кластеризацией, во многих областях науки.
Но если в начале 60-х годов быстрый рост публикаций был ограничен, в какой-то степени, рамками биологических наук, в конце 60-х— начале 70-х годов кластерный анализ распространился фактически на все области научных исследований. Например, в !973 г. в !62 журналах, включая Ас!а РзуИо!ойХса, Атеасап Ап(!диПу, Сотри!ег Хоигпа(, Хоигпа1 о1 В!осйепиз!гу, (Хиаг!ег!у Хоигпа! о! Мес(!с1- пе, Хоигла! оХ Магйе!!лд )!езеагсй, Яуз!ета!!с Яоо!оду и Хоигпа! о( Есо1оду, было опубликовано 292 статьи, которые либо цитировали хотя бы одну из основных работ по кластерному анализу, либо использовали в своих названиях термины «кластерный анализ» или «численная таксономия» (В!аэЫ(еЫ апб А!депдег1ег, 1978). Тематика исследований варьирует от анализа морфологии мумифицнрованных грызунов в Новой Гвинее до изучения резуль.
татов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване. Такой взрыв публикаций оказал огромное влияние иа развитие и применение кластерного анализа. Но, к сожалению, имеются н негативные стороны. Быстрый рост публикаций по кластерному анализу повлек за собой образование группировок пользователей и как следствие — создание жаргона, используемого лишь группировками, его создавшими (В!азЫ(е!6 апб А!депдег1ег, 1978; В!азЫ!е!б, 1980).
О формировании жаргона специалистами в области социальных наук свидетельствует, например, разнообразная терминология, относящаяся к методу Уорда. «Метод Уорда» в литературе называется по-разному. Известны по крайней мере еще четыре его названия: «метод минимальной дисперсии», «метод суммы квадратов ошибок», «нерархическая группировка, минимизирующая 1г%» и «НОКООР». Первые два названия указывают просто на критерий, оптимум которого определяется в методе Уорда, тогда как третье связано с суммой квадратов ошибок, являющейся монотонным преобразованием следа матрицы Ж, внутригрупповой ковариационной матрицы Наконец, широко применяемое название «НОВО!)Р» — это название популярной компьютерной программы, которая реализует метод Уорда (Ъе!бгпап, 1967).
Образование жаргона мешает развитию междисциплинарных связей, препятствует эффективному сравнению методологии н результатов применения кластерного анализа в различных областях науки, ведет к ненужным затратам усилий (повторное изобретение одних и тех же алгоритмов) и, наконец, не дает новым пользователям глубоко понять выбранные нми методы (В1азЫ!е!б апд а!бепйег1ег, 1978). Например, авторы одного исследовании в области социальных наук (йопегз апб 1.1пбеп, 1973) сравнили три различных метода кластеризации, применяя одни н те же данные. Они называли этн методы следующим образом: «иерар. хическая группировка», «иерархическая кластеризация или НСО» и «кластерный анализ», И ни одно из этих названий не было привычным для методов кластеризации.