Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 37
Текст из файла (страница 37)
е. неравенство треугольника), то следует проверить, действительно ли некоторая мера является метрикой. Несмотря на очевидную важность метрик„они — отнюдь не единственный способ описания сходства объектов. Конечно, исходя из философских соображений, которые начинают подтверждаться психофизиологическими исследованиями, возможно понимание сходства объектов как сравнение их характерных черт; таким образом, оценивание сходства может основываться на процессе сопоставления признаков (Тчегзку, 1977). Такое понятие сходства не приводит к естественной размерности для своего представления.
Более того, есть большая группа социальных исследований, в которых сходство между объектами оценивается непосредственно. Например, можно брать за основу степень взаимосвязи объектов, и в исследованиях такого рода часто наблюдается асимметрия отношения сходства. Иначе говоря, объект А может соответствовать В, но В может не соответствовать А в той же степени (например, Адам может любить Бетти, хотя он Бетти вовсе не нравится). Такой тип отношений также свойствен экономике в случае, когда одно государство импортирует товаров из другой страны больше, чем оно экспортирует, Асимметрия вызывает дополнительные затруднения при вычислении коэффициентов сходства. Тверски (1977) дает хорошее введение в эти вопросы.
Специалисты по кластерному анализу должны сознавать, что существует несколько видов сходства и что, хотя многие из коэффициентов и мер, обычно используемых в количественных подходах к классификации, являются метриками, все же имеются альтернативы применению этих мер, которые могут оказаться целесообразными и необходимыми в контексте исследования. Выбор меры сходства, таким образом, должен быть органической частью плана исследования, определяющегося теоретическим, практическим и философским содержанием задачи классификации. 152 вывор нврвмвнных Прежде чем приступить к описанию весьма распространенных коэффициентов, используемых при оценке сходства, необходимо сделать небольшое отступление и рассказать о выборе переменных и преобразовании данных, предшествующих оцениванию.
Выбор переменных в кластерном анализе является одним из наиболее важных шагов в исследовательском процессе, но„к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации, Теория является базисом для разумного выбора переменных, необходимых в исследовании.
На практике, однако, теория, обосновывающая классификационные исследования, часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче. Важность наличия теории для руководства выбором переменных нельзя недооценивать. Искушение скатиться к наивному эмпиризму в использовании кластерного анализа очень сильно, так как метод специально создан для получения «объективной» группировки объектов.
Под «наивным эмпиризмом» мы понимаем отбор и последующий анализ как можно большего количества переменных в надежде на то, что «структура» проявится, как только будет собрано достаточное количество данных. Хотя эмпирические исследования важны для любой науки, те из них, в основе которых лежит наивный эмпиризм, опасны при применении кластерного анализа ввиду эвристической природы метода и большого числа нерешенных проблем, которые компрометируют приложения (Ечег)11, 1979). В большинстве видов статистического анализа данные обычно подвергаются нормировке некоторым подходящим способом. При проверке, имеет ли переменная ~нормальное распределение, часто производится логарифмическое или какое-нибудь другое преобразование.
В том случае, если данные измерены в разных масштабах, нормировка обычно проводится таким образом, чтобы среднее равнялось нулю, а дисперсия — единице. Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой в кластерном анализе. Как указывает Эверитт (1980), нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия. Более целесообразно проводить нормировку переменных внутри групп (т, е. внутри кластеров), по, очевидно, этого нельзя сделать, пока объекты не разнесены по группам. Эдельброк (1979) отметил, что переменные многомерных данных могут менять значения параметров ~распределения от группы к группе; таким образом, нормировка может не быть равносильным 153 преобразованием для этих переменных и даже может изменять соотношения между ними.
Однако, исследовав методом МонтеКарло воздействие нормировки на последующий анализ с использованием коэффициента корреляции н различных иерархических кластерных методов, Эдельброк не обнаружил существенных различий в результатах классификации по нормированяым и ненормированным переменным.
Мнллига~н (1980) также показал, что нормировка, по-вндимому, оказывает незначительное воздействие на результаты кластерного анализа. Другие, особенно Мэттьюз (1979), продемонстрировали, что нормировка отрицательно сказывается на адекватности результатов кластерного анализа по сравнению с «оптимальной» классификацией объектов исследования.
Ситуация относительно нормировки не совсем ясна, Пользователи, имеющие данные с существенно различными измерениями, без сомнения, захотят стандартизировать их, особенно если применяется такая мера сходства, как евклидово расстояние. Решение о проведении нормировки должно приниматься с учетом специфики решаемой задачи, при этом пользователь должен понимать, что результаты могут различаться в зависимости от принятого решения, хотя величина воздействия будет меняться от одного множества данных к другому.
Возможны н другие виды преобразования данных, многие из которых применяются одновременно с кластерным анализом. Факторный анализ и метод главных компонент часто используются в том случае, когда известно, что переменные, взятые для исследования, сильно коррелированы. Наличие сильно коррелирова~нных переменных прн вычислении меры сходства приводит, по существу, к взвешиванию этих переменных. Так, если есть три сильно коррелированные переменные, то их совместное действие эквивалентно действию лишь одной переменной, которая имеет вес, в три раза превышающий вес каждой из первоначальных переменных. Метод главных компонент и факторный анализ могут применяться для уменьшения размерности данных, тем самым создавая новые, некоррелированпые переменные, которые будут употребляться в ка.
честве первичных данных при вычислении сходства между объектами. Использование процедуры преобразования данных вызывает много споров. В факторном анализе существует тенденция к ослаблению связей между кластерами, поскольку предполагается, что факторные переменные нормалнно распределены. Действие фактор- ного анализа приводит к такому преобразованию данных, при котором зависимые переменные сливаются в одну, нормально распределенную. Рольф (1970) отметил, что метод главных компонент стремится к такому преобразованию данных, прн котором хорошо разделенные кластеры остаются таковыми и в редуцированном пространстве, но при этом уменьшается расстояние (и тем самым ослабляются связи) между кластерами или группами, которые были разделены слабо. Полемика ведется и вокруг вопроса о необходимости взвеши- 154 ванна переменных.
Особенно много таких дискуссий в области биологии. Взвешивание — это манипулирование значемием переменной, позволяющее ей играть ббльшую или меньшую роль в измерении сходства между объектами (%1)1(ашз, 1971). Хотя идея взвешивания и проста, ее практическое применение затруднительно. Уильямс описывает пять видов взвешивания, из которых чаще всего использует выбор весов априори, Спит и Сокэл (1973) решительно возражают против априорного взвешивания и считают, что наиболее подходящий способ измерения сходства состоит в присвоении всем переменным равных весов.
Однако необходимо учитывать, что Спит и Сокэл рассматривают кластеризацию как чисто эмпирический подход к созданию классификаций. Во многих случаях имеет смысл взвешивать некоторые переменные априори, если для этого есть хорошее теоретическое обоснование и процедура, позволяющая осуществить взвешивание. Поскольку вопрос взвешивания еще не стал предметом обсуждения в общественных науках, исследователи, пользующиеся кластерными методами, должны знать о существовании разногласий.
МЕРЫ СХОДСТВА Теперь, когда задача выбора переменных и преобразования данных обсуждены, можно познакомиться с наиболее известными ко. эффициентами сходства. Как уже отмечалось, существует четыре нх вида: коэффициенты корреляции; меры расстояния; коэффициенты ассоциативности и вероятностные коэффициенты сходства. Каждый из этих видов имеет свои достоинства и недостатки, которые следует рассматривать прежде, чем будет принято решение использовать один из них. Хотя все четыре вида мер сходства широко применялись специалистами в численной таксономии и в биологии, лишь коэффициенты корреляции и расстояния получили широкое распространение в области социальных наук.
Поэтому мы уделим больше внимания этим двум типам мер. Коэффициенты корреляции Коэффициенты корреляции, часто называемые угловыми мерамн ввиду их геометрической интерпретации, — самый распространенный тип сходства в области социальных наук. Наиболее известным является смешанный момент корреляции, предложенный Карлом Пирсоном. Первоначально использованный в качсствс метода определения зависимости переменных, он был применен в количественной классификации при вычислении корреляции между объектами.
В связи с этим коэффициент вычисляется следующим образом: (х„— х,) (х,х — хд) 1 г где хо — значение (-й переменной для 1-го объекта; х1 — среднее всех зйачений переменных )ого объекта, а и†число переменных. Для такого метода берутся переменные, измеренные по шкалам отношений или шкалам интервалов, а в случае бинарных данных он преобразуется в известный ф-коэффициент. Значение коэффициента корреляции изменяется от — 1 до +1, причем значение нуль указывает, что между объектами нет связи.
Поскольку при вычислении среднего для каждого объекта суммирование производится по всем переменным этого объекта, то стандартные критерии значимости для г здесь не имеют ясного смысла. Часто говорят, что коэффициент корреляции оценивает форму в том смысле, что он нечувствителен к различиям в величине переменных, используемых для вычисления коэффициента. Как отметил Уильямс (1971), коэффициент Пирсона г чувствителен только к форме из-за неявной нормировки каждого обекта по всем переменным. Это свойство особенно важно для приложений к таким отраслям науки, как психология, социология и антропология, в которых данные часто описываются в терминах профилей.