И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 49
Текст из файла (страница 49)
Применялся тот же самый метод кластеризации ВМОРКМ. Результирующие выходные статистики Р-отношения показаны ниже: а 5! л Ю о й Ф $ о 6 Х м ФЭ м ф> ~с л ы й 6 Ф о О ы Я И о Ф О. 3 о о о й. Реиввые ееввые Заметьте насколько больше Р-отношения для реальных данных, чем для рандомизированных. Почти все они являются трехзначными числами, и по любым стандартам они будут казаться очень большими величинами.
На рис. 12 и 13 приведены схемы расположения кластеров для реальных и раидомизированных данных соответственно. Обратите внимание, что для реальных данных кластеры очень плотные и между ними существуют четкие границы. У рандомизнрованных данных такой структуры не отмечается. Хотя большинство процедур обоснования достоверности решений изучены плохо и требуют осторожного обращения, некоторые из них необходимо использовать во всех исследованиях, где применяется кластерный анализ. Читателю, желающему продолжить изучение затронутой здесь темы, предлагаем следующие работы: (1)иЬез апд Ла!и, 1980; ПоЬ11, 19?4; ЗЬ!ппег апб В!азЬ1!е!б, 1982; СЬатЬегз апб К!е!пег, 1982).
У. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ КЛАСТЕРНОГО АНАЛИЗА И ЛИТЕРАТУРА ПО КЛАСТЕРИЗАЦИИ Программное обеспечение кластерного анализа можно разделить на четыре основные категории; 1) библиотеки подпрограмм н алгоритмов; 2) общие пакеты программ по статистике, содержащие и методы кластеризации; 3) пакеты программ по кластерному анализу н 4) простые программы, реализующие какой-либо вид кластеризации (В1азЬ1!е18 е1 а1., 1982). Поскольку исчерпывающий обзор программного обеспечения кластерного анализа выходит за рамки нашей работы, мы сосредоточим внимание лишь на тех программах и пакетах, которые получили широкое распространение. БИБЛИОТЕКИ ПОДПРОГРАММ И АЛГОРИТМОВ В настоящее время доступны три основные библиотеки программ и алгоритмов: книги (АпбегЬегп, 1973; Наг(!дап, 1975) и 201 Р К Ов и ни Ры' м! Рв Р! Яс Ма 3! 55,1 895,2 70',2 25о,'9 115,1 151,4 414,3 4 497,5 129,5 365,О 370„9 243,7 Ревдеввыяыевеввые 19,1 91,4 37,6 39,4 37,4 25,1 28,5 3',9 75,9 72,1 91,8 зо',о 59,4 ч <ч ям ',чо~од ~~' ММ ~4М <Ч <цм МО2 Ь3 мы Ю4 ы з х о Ь Ф Р, $ 3 х о о х О х ю Й о 64 202 программы из Международной математической и статистической библиотеки (1М81, 1980!.
Поскольку большая часть этого программного обеспечения довольно запутана, пользователь должен применять все возможности языка управления заданиями для редактирования н последующего выполнения программ, Если воспользоваться современным программистским жаргоном, то можно сказать, что это программное обеспечение не оченВ «дружественно к пользователю», Прежде чем начать работу с программами, пользователь должен быть знаком как с языком управления заданиями вычислительной системы, так и с языком Фортран, который использовался прн разработке этих программ. В общем, уровень программной поддержки пользователя очень низок.
Алгоритмы Хартигаца описаны в отдельном руководстве пользователя (Ра!! а1, 1975), тогда как алгоритмы Андерберга можно найти лишь в его книге. Хотя в документацию собрания 1МЗЕ-подпрограмм входят и описания алгоритмов кластеризации, это не облегчает пользование алгоритмами. Несмотря на широкий выбор методов и вспомогательных программ, новичку не рекомендуется пользоваться алгоритмами этой категории до тех пор, пока не появятся обстоятельные руководства. ПАКЕТЫ СТАТИСТИЧЕСКИХ ПРОГРАММ, СОДЕРЖАШИЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ МЕТОДОВ КЛАСТЕРИЗАПИИ Возможно, наиболее удобным и общедоступным программным обеспечением кластерного анализа являются подпрограммы, содержащиеся в таких пакетах статистических программ, как: ВМРР (0!хоп, 1983), 8А8 (5АЯ 1пз!!!ц!е, 1982), ВР88 (ЬР$8, 1984).
Концепции, заложенные в основу этих пакетов, хорошо известны. Они открывают непрограммистам сравнительно легкий доступ к сложным статистическим методам решения широкого круга исследовательских задач, Помогает пользователю н то, что в пакетах программ используется язык управления заданиями вычислительной системы, позволяющий с минимальными усилиями передавать вычислительной системе запросы пользователя. Эти пакеты программ содержат также разнообразные методы отбора н обработки данных, позволяющие сделать сложный анализ простым и выполнимым.
Если же пакет программ содержит метод, представляющий интерес для пользователя, то преимущества применения уже существующих пакетов статистических программ становятся значительными. За исключением программы ВМЭР, число различных дополнительных программ кластеризации, содержащихся в большинстве статистических пакетов, очень мало, Например, ранняя версия ЯАЬ содержала только один метод кластеризации, а 8Р88 — ни одного. Однако такое положение существенно изменилось.
Для ВМЭР были разработаны четыре процедуры кластерного анализа: 1) методы одиночной, полной и средней связей для группировки признаков; 2) методы средней связи (центроидная группировка), одиночной связи и й-ближайших соседей для группировки объектов; 3) блочный метод кластеризации (Наг((дап, 1975) для одновременной группировки объектов и признаков; 4) итеративный метод А-средних, образующий разбиения объектов. (Последняя процедура, ВМПРКМ, была использована в примере, иллюстрирующем применение методики повторных выборок; см. разд. 17.) Процедуры ВМ1)Р снабжены хорошими описаниями, имеют понятные распечатки н имн довольно легко пользоваться. Наиболее серьезными недостатками этого пакета программ являются небольшое число иерархических агломеративных методов кластеризации объектов и возможность выбора лишь четырех мер сходства (евклидово расстояние, метрика Минковского, расстояние хи-квадрат и ~р-коэффициент).
Во втором пакете статистических программ, ЬАЯ, до недавнего времени был лишь один метод кластерного анализа — метод полной связи. Однако в недавнюю версию этого пакета (ЗАЗ, 1982) включены существенные добавления, хотя, как ни странно, в нем уже нет метода полной связи. Пакет программ (в рамках процедуры СШЬТЕК) сейчас содержит метод центра тяжести, метод Уорда и иерархический агломеративный метод средней связи. Евклидово расстояние — все еще единственная используемая мера сходства, В процедуре ЕАЗТСШЯ был добавлен метод А-средних (центроидный метод группировки Андерберга). И наконец, в пакет был включен факторный метод кластеризации признаков (процедура ЧАКСШЯ) В пакете было увеличено число диагностических программ, аналогичных имеющимся в пакете СШЯТАХ.
Значительный интерес представляет новая процедура остановки при определении числа кластеров — кубический критерий кластеризации. Эта процедура была добавлена в последнюю версию пакета программ, но авторы БАБ не опубликовали никаких работ, которые могли бы продемонстрировать ее обоснованность или практичность в прикладных исследованиях. В программе ЯРАЯ в настоящее время нет ни одного метода кластерного анализа, Однако есть новая процедура СШЬТЕм (Ва)а), 1979), которая, возможно, будет включена в ГРВЗ. Новая процедура содержит 27 мер сходства, большинство из них — коэффициенты ассоциативности.
В пакете имеется семь иерархических агломеративных методов (включая методы одиночной, полной и средней связей н метод Уорда), которые может применять пользователь. пАКеты НРОГРАихх клАстеРнОГО АнАлизА С точки зрения серьезного исследователя, пакеты программ кластерного анализа обладают максимальной гибкостью и большими удобствами для пользователя. Они сочетают преимущества общих пакетов статистических программ (интегрированный язык управления, процедуры отбора и обработки данных) с чертами, ИОКМ1Х представляющими особый интерес для пользователя кластерного анализа (разнообразие методов кластеризации, специальные диагностические программы и улучшенная графика).
Огромное значение имеет то, что многие из этих пакетов программ содержат малодоступные или даже уникальные методы кластеризации и аналитические процедуры, связанные со специальными задачами и структурами данных. Наиболее известным нз пакетов программ кластерного анализа является программа С(.РВТАИ. Новейшая редакция СШБТАИ (версия 2.1; Мзйаг1, 1982) включает одиннадцать процедур, которые содержат все семейства методов кластеризации, определенные в равд.