И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 38
Текст из файла (страница 38)
Важность наличия теории для руководства выбором переменных нельзя недооценивать. Искушение скатиться к наивному эмпиризму в использовании кластерного анализа очень сильно, так как метод специально создан для получения «объективной» группировки объектов. Под «наивным эмпиризмом» мы понимаем отбор и последующий анализ как можно большего количества переменных в надежде на то, что «структура» проявится, как только будет собрано достаточное количество данных. Хотя эмпирические исследования важны для любой науки, те из них, в основе которых лежит наивный эмпиризм, опасны при применении кластерного анализа ввиду эвристической природы метода и большого числа нерешенных проблем, которые компрометируют приложения (Ечег)11, 1979).
В большинстве видов статистического анализа данные обычно подвергаются нормировке некоторым подходящим способом. При проверке, имеет ли переменная ~нормальное распределение, часто производится логарифмическое или какое-нибудь другое преобразование. В том случае, если данные измерены в разных масштабах, нормировка обычно проводится таким образом, чтобы среднее равнялось нулю, а дисперсия — единице. Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой в кластерном анализе.
Как указывает Эверитт (1980), нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия. Более целесообразно проводить нормировку переменных внутри групп (т, е.
внутри кластеров), по, очевидно, этого нельзя сделать, пока объекты не разнесены по группам. Эдельброк (1979) отметил, что переменные многомерных данных могут менять значения параметров ~распределения от группы к группе; таким образом, нормировка может не быть равносильным 153 преобразованием для этих переменных и даже может изменять соотношения между ними. Однако, исследовав методом МонтеКарло воздействие нормировки на последующий анализ с использованием коэффициента корреляции н различных иерархических кластерных методов, Эдельброк не обнаружил существенных различий в результатах классификации по нормированяым и ненормированным переменным. Мнллига~н (1980) также показал, что нормировка, по-вндимому, оказывает незначительное воздействие на результаты кластерного анализа.
Другие, особенно Мэттьюз (1979), продемонстрировали, что нормировка отрицательно сказывается на адекватности результатов кластерного анализа по сравнению с «оптимальной» классификацией объектов исследования. Ситуация относительно нормировки не совсем ясна, Пользователи, имеющие данные с существенно различными измерениями, без сомнения, захотят стандартизировать их, особенно если применяется такая мера сходства, как евклидово расстояние. Решение о проведении нормировки должно приниматься с учетом специфики решаемой задачи, при этом пользователь должен понимать, что результаты могут различаться в зависимости от принятого решения, хотя величина воздействия будет меняться от одного множества данных к другому.
Возможны н другие виды преобразования данных, многие из которых применяются одновременно с кластерным анализом. Факторный анализ и метод главных компонент часто используются в том случае, когда известно, что переменные, взятые для исследования, сильно коррелированы.
Наличие сильно коррелирова~нных переменных прн вычислении меры сходства приводит, по существу, к взвешиванию этих переменных. Так, если есть три сильно коррелированные переменные, то их совместное действие эквивалентно действию лишь одной переменной, которая имеет вес, в три раза превышающий вес каждой из первоначальных переменных. Метод главных компонент и факторный анализ могут применяться для уменьшения размерности данных, тем самым создавая новые, некоррелированпые переменные, которые будут употребляться в ка. честве первичных данных при вычислении сходства между объектами.
Использование процедуры преобразования данных вызывает много споров. В факторном анализе существует тенденция к ослаблению связей между кластерами, поскольку предполагается, что факторные переменные нормалнно распределены. Действие фактор- ного анализа приводит к такому преобразованию данных, при котором зависимые переменные сливаются в одну, нормально распределенную.
Рольф (1970) отметил, что метод главных компонент стремится к такому преобразованию данных, прн котором хорошо разделенные кластеры остаются таковыми и в редуцированном пространстве, но при этом уменьшается расстояние (и тем самым ослабляются связи) между кластерами или группами, которые были разделены слабо. Полемика ведется и вокруг вопроса о необходимости взвеши- 154 ванна переменных. Особенно много таких дискуссий в области биологии.
Взвешивание — это манипулирование значемием переменной, позволяющее ей играть ббльшую или меньшую роль в измерении сходства между объектами (%1)1(ашз, 1971). Хотя идея взвешивания и проста, ее практическое применение затруднительно. Уильямс описывает пять видов взвешивания, из которых чаще всего использует выбор весов априори, Спит и Сокэл (1973) решительно возражают против априорного взвешивания и считают, что наиболее подходящий способ измерения сходства состоит в присвоении всем переменным равных весов. Однако необходимо учитывать, что Спит и Сокэл рассматривают кластеризацию как чисто эмпирический подход к созданию классификаций.
Во многих случаях имеет смысл взвешивать некоторые переменные априори, если для этого есть хорошее теоретическое обоснование и процедура, позволяющая осуществить взвешивание. Поскольку вопрос взвешивания еще не стал предметом обсуждения в общественных науках, исследователи, пользующиеся кластерными методами, должны знать о существовании разногласий. МЕРЫ СХОДСТВА Теперь, когда задача выбора переменных и преобразования данных обсуждены, можно познакомиться с наиболее известными ко. эффициентами сходства.
Как уже отмечалось, существует четыре нх вида: коэффициенты корреляции; меры расстояния; коэффициенты ассоциативности и вероятностные коэффициенты сходства. Каждый из этих видов имеет свои достоинства и недостатки, которые следует рассматривать прежде, чем будет принято решение использовать один из них. Хотя все четыре вида мер сходства широко применялись специалистами в численной таксономии и в биологии, лишь коэффициенты корреляции и расстояния получили широкое распространение в области социальных наук. Поэтому мы уделим больше внимания этим двум типам мер.
Коэффициенты корреляции Коэффициенты корреляции, часто называемые угловыми мерамн ввиду их геометрической интерпретации, — самый распространенный тип сходства в области социальных наук. Наиболее известным является смешанный момент корреляции, предложенный Карлом Пирсоном. Первоначально использованный в качсствс метода определения зависимости переменных, он был применен в количественной классификации при вычислении корреляции между объектами. В связи с этим коэффициент вычисляется следующим образом: (х„— х,) (х,х — хд) 1 г где хо — значение (-й переменной для 1-го объекта; х1 — среднее всех зйачений переменных )ого объекта, а и†число переменных.
Для такого метода берутся переменные, измеренные по шкалам отношений или шкалам интервалов, а в случае бинарных данных он преобразуется в известный ф-коэффициент. Значение коэффициента корреляции изменяется от — 1 до +1, причем значение нуль указывает, что между объектами нет связи. Поскольку при вычислении среднего для каждого объекта суммирование производится по всем переменным этого объекта, то стандартные критерии значимости для г здесь не имеют ясного смысла. Часто говорят, что коэффициент корреляции оценивает форму в том смысле, что он нечувствителен к различиям в величине переменных, используемых для вычисления коэффициента.
Как отметил Уильямс (1971), коэффициент Пирсона г чувствителен только к форме из-за неявной нормировки каждого обекта по всем переменным. Это свойство особенно важно для приложений к таким отраслям науки, как психология, социология и антропология, в которых данные часто описываются в терминах профилей. Формально профиль определяется просто как вектор значений признаков объекта, графически изображаемый в виде ломаной линии.
Например, данные ММР1-теста, использованные в нашей работе, часто изображают так, чтобы для каждого индивида получнлааь ломаная — профиль (см. рис. 1). Одним из главных недостатков коэффициента корреляции как меры сходства, является то, что он чувствителен к форме за счет снижения чувствительности к величине различий между переменными. Кронбах и Глезер (1953) впервые показали, что сходство между профилями определяют следующие три элемента; форма, т. е.
спуски н подъемы ломаной линии для 70 !! н , всех переменных; рас- сеяние, т. е. дисперсия / значений переменных относительно их сред! него; поднятие (уровень или сдвиг), т. е. среднее значение для объекта по всем пере- Т " менным. Чувствитель'т' ность коэффициента корреляции Пирсона лишь к форме означаРнс. 2. профннн данных мМРьтестн ет, что два профиля мо- 156 гут иметь корреляцию +1,О, и все же не быть идентичными (т. е. профили объектов не проходят через одни и те же точки). На рис.