Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 38
Текст из файла (страница 38)
Формально профиль определяется просто как вектор значений признаков объекта, графически изображаемый в виде ломаной линии. Например, данные ММР1-теста, использованные в нашей работе, часто изображают так, чтобы для каждого индивида получнлааь ломаная — профиль (см. рис. 1). Одним из главных недостатков коэффициента корреляции как меры сходства, является то, что он чувствителен к форме за счет снижения чувствительности к величине различий между переменными. Кронбах и Глезер (1953) впервые показали, что сходство между профилями определяют следующие три элемента; форма, т. е.
спуски н подъемы ломаной линии для 70 !! н , всех переменных; рас- сеяние, т. е. дисперсия / значений переменных относительно их сред! него; поднятие (уровень или сдвиг), т. е. среднее значение для объекта по всем пере- Т " менным. Чувствитель'т' ность коэффициента корреляции Пирсона лишь к форме означаРнс. 2. профннн данных мМРьтестн ет, что два профиля мо- 156 гут иметь корреляцию +1,О, и все же не быть идентичными (т. е. профили объектов не проходят через одни и те же точки). На рис. 2 показаны два профиля данных для ММР1-теста; один изображен сплошной линией, а другой — пунктирной.
Формы их одинаковы. Хотя корреляция между этими двумя профилями равна +1,О, они все жс не совпадают, потому что один из них приподнят, Таким образом, высокая корреляция между профилями будет наблюдаться, когда измерения одного нз профилей будут линейно зависеть от измерений другого. Следовательно, при использовании коэффициента корреляции теряется некоторая ивформация, что может привести к неверным результатам, если не будет учтено влияние рассеяния и поднятия профиля. Коэффициент корреляции имеет и другие недостатки.
Он часто не удовлетворяет неравенству треугольника, и, как многие указывалн, корреляция, вычисленная этим способом, не имеет статистического смысла, поскольку среднее значение определяется по совокупности всевозможных разнотипных переменных, а не по совокупности объектов. Смысл «среднего» по раэнотипным переменным далеко не ясен. Несмотря на эти недостатки, коэффициент широко использовался в приложениях кластерного анализа. Хаммер и Каннннгхем (1981) показали, что при правильном применении кластерного метода коэффициент корреляции превосходит другие коэффициенты сходства, так как позволяет уменьшить число неверных классификаций. Парадоксально, но ценность корреляции заключается именно в том, что она не зависит от различий между переменными изза рассеяния и сдвига. Существенную роль в успехе работы Хаммера и Каннвнгхема сыграло, однако, то, что исследователи смогли понять, что им нужен именно коэффициент формы, поскольку они считали, что влияние рассеяния н сдвига данных объясняется лишь субъективизмом критиков, а не недостатками, присущими этим классификациям.
Меры расстояния Меры расстояния пользуются широкой популярностью. На практике их лучше бы называть мерами несходства; для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния дело обстоит наоборот. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю, Меры расстояния обычно не ограничены сверху н зависят от выбора шкалы (масштаба) измерений.
Одним из наиболее известных расстояний является евклидово расстояние, определяемое как где дм — расстояние между объектами 1 и 1, а хщ — значение й-й переменнойдля 1-го объекта. Чтобы избежать применения квадратного корня, часто величина расстояния возводится в квадрат, на что обычно указывает обозначение саум. Как и следовало ожидать, это выражение называют «квадратичным евклидовым расстоянием». Можно определить и другие виды расстояния. Так, хорошо известной мерой является манхеттенское расстояние, или «расстояние городских кварталов» (с1(у-ЫосК), которое определяется следующим образом: Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формула Сушествуют расстояния, не являющиеся метриками Минковского, и наиболее важное из них — расстояние Махаланобиса В», которое также носит название обобщенного расстояния (Ма(та1апеЫз, 1936).
Эта метрика определяется выражением А, = (х, — х;) 'Х-' (Х; — Х;), где Š— общая внутригрупповая дисперсионно-ковариационная матрица, а Х; и Х, — векторы значений переменных для объектов 1 н 1. В отличие от евклидовой и метрнк Минковского, эта метрика с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных.
Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклндову расстоянию. Несмотря на важность евклидовой и других метрик, они имеют серьезные недостатки, из которых наиболее важный состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Перемененные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями. Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию.
Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния нормируют переменные к единичной дисперсии и нулевому среднему. Как уже отмечалось, такое преобразование данных может вызвать затруднения. Скиннер (1978) для вычисления сходства данных, представляемых профилями, предложил совместно использовать корреляцию и евклидово расстояние.
При этом можно определить, какой 168 из факторов (форма, сдвиг или дисперсия) делает вклад в оценку сходства. Метод Скиннера похож на метод, предложенный Гуэртином (1966), согласно которому сначала, взяв за основу форму, с помощью корреляции создаются однородные группы объектов, а затем каждая из этих групп с помощью меры расстояния разбивается на подгруппы со схожими сдвиговыми и дисперсионными характеристиками (Ьк(ппег, !978). Однако в методе Скин~нера строится сложная функция сходства, которая объединяет расстояние и корреляцию в вычислительной процедуре, осуществляющей минимизацию ошибки измерения при оценке сходства профилей.
Поскольку в прикладном анализе данных часто возникает необходимость в нормировке, полезно рассмотреть небольшой пример, показывающий влияние нормировки на коэффициенты корреляции и ~расстояния. В качестве данных были взяты четыре профиля ММР1-теста. Каждому из этих профилей соответствует больной с сильной психопатологией. В качестве исходной меры сходства для профилей был взят смешанный момент корреляции Пирсона.
Результаты приведены в следующей матрице: А л с () А ХХХХ 0,776 0,702 0,742 Л (3) Х Х Х Х 0,729 0,770 с (6) (5) ХХХХ 0,'036 (4) (2) (!) ХХ ХХ В верхней треугольной части матрицы приведены значения корреляции, которые показывают, что все четыре профиля имеют очень схожие формы, а профили С и Р даже почти идентичны (гсо= =0,936). В нижней треугольной части матрицы показаны ранги, полученные в результате упорядочения по величине значений сходства от наибольшего (1) к наименьшему (6). Необходимость в ранговом упорядочении будет объяснена ниже. После вычисления евклидовых расстояний получается матрица: А В с (3 А ХХХХ 266 732 736 В 1 (2) ХХХХ 532 465 С (5) (4) ХХХХ !44 7) (6) (3) (!) ХХХХ Заметьте, как различаются масштабирования коэффициентов расстояния и коэффициентов корреляции.
Вспомните, что абсолютные значения коэффициентов расстояния не имеют смысла. Однако и здесь обнаруживается сходство пациентов С и Р (поп= 144, хотя не ясно, насколько хорошим является з~начение 144). Общая картина сходства кажется почти одинаковой и для корреляции, и для расстояния, но существуют и различия. В частности, при использовании корреляции в качестве меры сходства наименее похожими оказались пациенты А и С (где=0,702).
Однако евклидова метрика показывает, что наименее схожими являются пациенты А и Р (с(за=736) !59 Чтобы внести еще большую путаницу, предположим, что мы решили нормировать дамные. (Нормировка была действительно выполнена на основе статистики для всего множества данных, состоящего из 90 объектов). Если для оценки сходства четырех профилей после нормировки используется смешанный момент корреляции, то матрица сходства принимает вид А в с Э А ХХХХ 0,602 0,284 0,433 В (2) ХХХХ 0,367 0,584 С ~6) (5) ХХХХ 0,804 11 4) (3) (1) ХХХХ Обратите внимание, как различаются коэффициенты корреляции для нормированных и ненормированных данных.
Для ненормированных данных глс=0,702, а для иормированных глс=0,284. В обоих случаях глс — наименьшая величина в матрице, но для нормированных данных величина коэффициента корреляции показывает, что между пациентами А и С нет никакого сходства, в то время как для ненормированных данных абсолютное значение корреляции (г=0,706) свидетельствует, что пациенты А и С довольно похожи. Наконец, в нижеприведенной матрице несходства показаны евклндовы расстояния между пациентами в случае нормированны1ь данных: А В 'С (7 А ХХХХ 0 704 2 572 2 071 (1) ХХХХ 2041 1,304 С (6) (5) ХХХХ о,87о В (4) (3) (2) ХХХХ Снова величины изменяются в зависимости от того, нормированы нли нет данные.