Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 36
Текст из файла (страница 36)
Это важно отметить, потому что каждая дисциплина предъявляет свои требования к отбору данных, к форме их представления, к предполагаемой структуре классификации. Что может быть полезным в психологии, может оказатьси ненужным для биологов, а так как кластерные методы порой пе более чем правила для создания групп, то пользователь должен знать те особенности, которые часто сопровождают обсуждение и описание методов кластеризации. 3) Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных. Это обычное явление в большинстве прикладных исследований.
Одной из причин неодинаковых решений является то, что кластерные методы получены нз разных источников, которые предопределяли использова~ние различных правил формирования групп. Данная ситуация вносит в работу с кластерным анализом путаницу не только для начинающих, ио и для опытных пользователей.
Кроме того, желательно иметь специальную методику, позволяющую проверить, насколько «естественны» группы, выделенные методом кластеризации в наборе данных. Было разработано несколько процедур, способных помочь в решении этой задачи. 4) Йель кластерного анализа заключается в поиске суи4ествуюи)их структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, т. е.
методы кластеризации необходимы для обнаружения структуры в данных, которую нелегко найти при визуальном обследовании или с помощью экспертов. Эта ситуация отличается от ситуации дискриминантного анализа, который более точно определяется как процедура идентификации. Последний приписывает объекты к уже существующим группам, а не создает новые группы, Хотя цель кластеризации и заключается в нахождении структуры, иа деле кластерный метод привносит структуру в данные и эта структура может не совпадать с искомой, «реальиой».
Кластерный метод всегда размещает объекты по группам, которые могут радикально различаться по составу, если применяются различные методы кластеризации. Ключом к использованию кластерного анализа является умение отличать «реальные» группировки от навязанных методом кластеризации данных. П. МЕРЫ СХОДСТВА ТЕРМИНОЛОГИЯ Для описания особенностей оценивания сходства создавалась специальная терминология.
Как мы покажем позднее (см. Равд. Ч), развитие жаргона кластерного анализа в различных отраслях науки связано с быстрым ростом и распространением самого кластерного анализа, Терминология какой-либо дисциплины образуется ыэ таким образом, что она может перекрывать терминологию других дисциплин, даже если термины используются для описания одних и тех же предметов. Если потенциальный пользователь кластерного анализа не осведомлен о таких терминологических различиях, это может привести к большой путанице. Термин «событие»„«единица», «случай», «паттерн», «предмет», ОТЕ (операционная таксономическая единица) обозначают объект, тогда как «переменная», «признак», «свойство», «характеристика» обозначают те черты «объектов», которые позволяют оценить нх сходство.
Другая группа важных терминов — «Я-анализ» и «(1-анализ»; первый из них относится к связям между переменными. Кластерный анализ, например, традиционно рассматривается как Щ-техника», в то время как факторный анализ — как «Й-техника». Потенциальный пользователь кластерного анализа должен также обратить внимание на то, что матрицы данных часто формируются различными способами.
В общественных науках обычно совокупность данных изображают в виде матрицы, образованной й7 событиями (строки матрицы), которые определяются Р переменными (столбцы матрицы). В биологии имеет место обратный порядок, что приводит к матрице данных размерностью РХЖ. В этой работе мы воспользуемся термином «первичные данные» для описания исходной матрицы событий размерностью УХР и их переменных до вычисления сходства. В соответствии с этим мы будем употреблять термины «матрица сходства» или «матрица близости» для описания матрицы сходств событий размерностью УХ)у, вычисленной с помощью некоторой меры сходства по первичным данным. Даже термин «сходство» не свободен от смыслового многообразия, а его синонимами являются «подобие», «близость», «связанность», «ассоциативность».
Однако другие авторы ограничивают использование термина «коэффициент сходства». Например, Эверитт (1980) пользуется термином «коэффициент сходства» для обозначения тех мер, которые Спит н Сокэл (1973) называют «коэффициентами ассоциативности». Клиффорд н Стефенсон (!975) для еще большей путаницы сводят применение термина «коэффициент ассоциативности» к значению, которое является частным случаем определений, дан~ных Эвериттом, а также Спитом и Сокэлом. Мы будем пользоваться термином «коэффициент сходства» (или «мера сходства») н придерживаться классификации коэффициентов сходства, предложенной Спитом н Сокзлом (1973), которые подразделили эти коэффициенты на четыре группы: 1) коэффициенты корреляции; 2) меры расстояния; 3) коэффициенты ассоциативности; 4) вероятностные коэффициенты сходства.
Позже каждая из групп будет кратко описана. ПОНЯТИЕ СХОДСТВА То, что некоторые вещи обнаруживают между собой сходство или различие, является весьма важным моментом для процесса классификации. Несмотря на кажущуюся простоту, понятие сходства и особенно процедуры, используемые при измерении сходства, не так просты. В самом деле, понятие сходства тесно связано с такими основополагающими эпистемологическими проблемами, как: «Каким образом мы можем образовывать полезные абстрактные понятия, позволяющие внести порядок в то, что мы знаем?». Конечно, чтобы ответить на этот вопрос, нужно уметь рассортировывать вещи по классам, что требует умения объединять вещи, воспринимающиеся как схожие.
Проблема сходства состоит, однако, не в простом распознавании сходных или несходных вещей, а в том, какое место эти понятия занимают в научных исследованиях. Наука для плодотворного развития должна базироваться на объективных, воспроизводимых процедурах; таким образом, разработка статистических процедур для измерения более «объективиого» сходства вещей является естественным следствием необходимости в воспроизводимых и надежных классификациях.
Количественное оценивание сходства отталкивается от понятия метрики. При этом подходе к сходству события представляются точками координатного пространства, причем замеченные сходства н различия между точками находятся в соответствии с метрическими расстояниями между ними (Тчегзку, !977). Размерность пространства определяется числом переменных, использованных для описания событий. Существует четыре стандартных критерия, которым должна удовлетворять мера сходства, чтобы быть метрикой: 1) Симметрия, Даны два объекта х и у; расстояние между ними удовлетворяет условию с((х,у) =д(у,х) ~0. 2) Неравенство греуеольника. Даны три объекта х, у, х; расстояния между ними удовлетворяют условию д (х у) (ст (х,г) + е((у,г), Очевидно, это просто утверждение, что длина любой стороны треугольника меньше или равна сумме двух других сторон.
Полученное выражение также называется метрическим неравенством. 3) Различимость нетождественных объектов. Даны два объекта хну: если с((х,у)ФО, то к~у*. 4) Неразличимость идентичных объектов, Для двух идентичных объектов х и х' е((х,х') =О, т. е. расстояние между этими объектами равно нулюее. * Если хну, то Л 1х, у)~0. Примеч ред. ** Если Л (х, х') =О, то объекты х н х' идентичны, — Примеч. ред. 151 Перечисленные математические требования очень важны, поэтому многие исследователи, среди которых наиболее известны Джардин и Сибсон (!971), а также Клиффорд и Стефенсом (1975), выдвигают аргументы против механического использования коэффициентов сходства, не являющихся метриками.
Не все из обсуждаемых ниже мер расстояния могут быть метриками. Ряд корреляционных мер метриками не являются. Коэффициенты, не представляющие собой метрики, могут не быть совместно монотоннымн; другими словами, значения различных коэффициентов на одних и тех же данных не будут согласованно изменяться. Это вызывает опасение, что коэффициенты могут указывать ~на наличие сильно различающихся зависимостей между объектами. Поскольку такая признанная мера сходства, как смешанный момент корреляции Пирсона, явно не удовлетворяет третьему критерию, и, как считают Клиффорд и Стефенсон (1975), во многих приложениях может не выполняться второй критерий (т.