И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 37
Текст из файла (страница 37)
Последний приписывает объекты к уже существующим группам, а не создает новые группы, Хотя цель кластеризации и заключается в нахождении структуры, иа деле кластерный метод привносит структуру в данные и эта структура может не совпадать с искомой, «реальиой». Кластерный метод всегда размещает объекты по группам, которые могут радикально различаться по составу, если применяются различные методы кластеризации. Ключом к использованию кластерного анализа является умение отличать «реальные» группировки от навязанных методом кластеризации данных. П.
МЕРЫ СХОДСТВА ТЕРМИНОЛОГИЯ Для описания особенностей оценивания сходства создавалась специальная терминология. Как мы покажем позднее (см. Равд. Ч), развитие жаргона кластерного анализа в различных отраслях науки связано с быстрым ростом и распространением самого кластерного анализа, Терминология какой-либо дисциплины образуется ыэ таким образом, что она может перекрывать терминологию других дисциплин, даже если термины используются для описания одних и тех же предметов.
Если потенциальный пользователь кластерного анализа не осведомлен о таких терминологических различиях, это может привести к большой путанице. Термин «событие»„«единица», «случай», «паттерн», «предмет», ОТЕ (операционная таксономическая единица) обозначают объект, тогда как «переменная», «признак», «свойство», «характеристика» обозначают те черты «объектов», которые позволяют оценить нх сходство. Другая группа важных терминов — «Я-анализ» и «(1-анализ»; первый из них относится к связям между переменными. Кластерный анализ, например, традиционно рассматривается как Щ-техника», в то время как факторный анализ — как «Й-техника». Потенциальный пользователь кластерного анализа должен также обратить внимание на то, что матрицы данных часто формируются различными способами.
В общественных науках обычно совокупность данных изображают в виде матрицы, образованной й7 событиями (строки матрицы), которые определяются Р переменными (столбцы матрицы). В биологии имеет место обратный порядок, что приводит к матрице данных размерностью РХЖ. В этой работе мы воспользуемся термином «первичные данные» для описания исходной матрицы событий размерностью УХР и их переменных до вычисления сходства. В соответствии с этим мы будем употреблять термины «матрица сходства» или «матрица близости» для описания матрицы сходств событий размерностью УХ)у, вычисленной с помощью некоторой меры сходства по первичным данным.
Даже термин «сходство» не свободен от смыслового многообразия, а его синонимами являются «подобие», «близость», «связанность», «ассоциативность». Однако другие авторы ограничивают использование термина «коэффициент сходства». Например, Эверитт (1980) пользуется термином «коэффициент сходства» для обозначения тех мер, которые Спит н Сокэл (1973) называют «коэффициентами ассоциативности». Клиффорд н Стефенсон (!975) для еще большей путаницы сводят применение термина «коэффициент ассоциативности» к значению, которое является частным случаем определений, дан~ных Эвериттом, а также Спитом и Сокэлом. Мы будем пользоваться термином «коэффициент сходства» (или «мера сходства») н придерживаться классификации коэффициентов сходства, предложенной Спитом н Сокзлом (1973), которые подразделили эти коэффициенты на четыре группы: 1) коэффициенты корреляции; 2) меры расстояния; 3) коэффициенты ассоциативности; 4) вероятностные коэффициенты сходства. Позже каждая из групп будет кратко описана.
ПОНЯТИЕ СХОДСТВА То, что некоторые вещи обнаруживают между собой сходство или различие, является весьма важным моментом для процесса классификации. Несмотря на кажущуюся простоту, понятие сходства и особенно процедуры, используемые при измерении сходства, не так просты. В самом деле, понятие сходства тесно связано с такими основополагающими эпистемологическими проблемами, как: «Каким образом мы можем образовывать полезные абстрактные понятия, позволяющие внести порядок в то, что мы знаем?».
Конечно, чтобы ответить на этот вопрос, нужно уметь рассортировывать вещи по классам, что требует умения объединять вещи, воспринимающиеся как схожие. Проблема сходства состоит, однако, не в простом распознавании сходных или несходных вещей, а в том, какое место эти понятия занимают в научных исследованиях. Наука для плодотворного развития должна базироваться на объективных, воспроизводимых процедурах; таким образом, разработка статистических процедур для измерения более «объективиого» сходства вещей является естественным следствием необходимости в воспроизводимых и надежных классификациях. Количественное оценивание сходства отталкивается от понятия метрики.
При этом подходе к сходству события представляются точками координатного пространства, причем замеченные сходства н различия между точками находятся в соответствии с метрическими расстояниями между ними (Тчегзку, !977). Размерность пространства определяется числом переменных, использованных для описания событий.
Существует четыре стандартных критерия, которым должна удовлетворять мера сходства, чтобы быть метрикой: 1) Симметрия, Даны два объекта х и у; расстояние между ними удовлетворяет условию с((х,у) =д(у,х) ~0. 2) Неравенство греуеольника. Даны три объекта х, у, х; расстояния между ними удовлетворяют условию д (х у) (ст (х,г) + е((у,г), Очевидно, это просто утверждение, что длина любой стороны треугольника меньше или равна сумме двух других сторон. Полученное выражение также называется метрическим неравенством.
3) Различимость нетождественных объектов. Даны два объекта хну: если с((х,у)ФО, то к~у*. 4) Неразличимость идентичных объектов, Для двух идентичных объектов х и х' е((х,х') =О, т. е. расстояние между этими объектами равно нулюее. * Если хну, то Л 1х, у)~0. Примеч ред. ** Если Л (х, х') =О, то объекты х н х' идентичны, — Примеч. ред. 151 Перечисленные математические требования очень важны, поэтому многие исследователи, среди которых наиболее известны Джардин и Сибсон (!971), а также Клиффорд и Стефенсом (1975), выдвигают аргументы против механического использования коэффициентов сходства, не являющихся метриками.
Не все из обсуждаемых ниже мер расстояния могут быть метриками. Ряд корреляционных мер метриками не являются. Коэффициенты, не представляющие собой метрики, могут не быть совместно монотоннымн; другими словами, значения различных коэффициентов на одних и тех же данных не будут согласованно изменяться. Это вызывает опасение, что коэффициенты могут указывать ~на наличие сильно различающихся зависимостей между объектами. Поскольку такая признанная мера сходства, как смешанный момент корреляции Пирсона, явно не удовлетворяет третьему критерию, и, как считают Клиффорд и Стефенсон (1975), во многих приложениях может не выполняться второй критерий (т. е.
неравенство треугольника), то следует проверить, действительно ли некоторая мера является метрикой. Несмотря на очевидную важность метрик„они — отнюдь не единственный способ описания сходства объектов. Конечно, исходя из философских соображений, которые начинают подтверждаться психофизиологическими исследованиями, возможно понимание сходства объектов как сравнение их характерных черт; таким образом, оценивание сходства может основываться на процессе сопоставления признаков (Тчегзку, 1977).
Такое понятие сходства не приводит к естественной размерности для своего представления. Более того, есть большая группа социальных исследований, в которых сходство между объектами оценивается непосредственно. Например, можно брать за основу степень взаимосвязи объектов, и в исследованиях такого рода часто наблюдается асимметрия отношения сходства. Иначе говоря, объект А может соответствовать В, но В может не соответствовать А в той же степени (например, Адам может любить Бетти, хотя он Бетти вовсе не нравится). Такой тип отношений также свойствен экономике в случае, когда одно государство импортирует товаров из другой страны больше, чем оно экспортирует, Асимметрия вызывает дополнительные затруднения при вычислении коэффициентов сходства. Тверски (1977) дает хорошее введение в эти вопросы.
Специалисты по кластерному анализу должны сознавать, что существует несколько видов сходства и что, хотя многие из коэффициентов и мер, обычно используемых в количественных подходах к классификации, являются метриками, все же имеются альтернативы применению этих мер, которые могут оказаться целесообразными и необходимыми в контексте исследования.
Выбор меры сходства, таким образом, должен быть органической частью плана исследования, определяющегося теоретическим, практическим и философским содержанием задачи классификации. 152 вывор нврвмвнных Прежде чем приступить к описанию весьма распространенных коэффициентов, используемых при оценке сходства, необходимо сделать небольшое отступление и рассказать о выборе переменных и преобразовании данных, предшествующих оцениванию.
Выбор переменных в кластерном анализе является одним из наиболее важных шагов в исследовательском процессе, но„к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации, Теория является базисом для разумного выбора переменных, необходимых в исследовании. На практике, однако, теория, обосновывающая классификационные исследования, часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче.