И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 39
Текст из файла (страница 39)
2 показаны два профиля данных для ММР1-теста; один изображен сплошной линией, а другой — пунктирной. Формы их одинаковы. Хотя корреляция между этими двумя профилями равна +1,О, они все жс не совпадают, потому что один из них приподнят, Таким образом, высокая корреляция между профилями будет наблюдаться, когда измерения одного нз профилей будут линейно зависеть от измерений другого. Следовательно, при использовании коэффициента корреляции теряется некоторая ивформация, что может привести к неверным результатам, если не будет учтено влияние рассеяния и поднятия профиля.
Коэффициент корреляции имеет и другие недостатки. Он часто не удовлетворяет неравенству треугольника, и, как многие указывалн, корреляция, вычисленная этим способом, не имеет статистического смысла, поскольку среднее значение определяется по совокупности всевозможных разнотипных переменных, а не по совокупности объектов. Смысл «среднего» по раэнотипным переменным далеко не ясен. Несмотря на эти недостатки, коэффициент широко использовался в приложениях кластерного анализа. Хаммер и Каннннгхем (1981) показали, что при правильном применении кластерного метода коэффициент корреляции превосходит другие коэффициенты сходства, так как позволяет уменьшить число неверных классификаций. Парадоксально, но ценность корреляции заключается именно в том, что она не зависит от различий между переменными изза рассеяния и сдвига.
Существенную роль в успехе работы Хаммера и Каннвнгхема сыграло, однако, то, что исследователи смогли понять, что им нужен именно коэффициент формы, поскольку они считали, что влияние рассеяния н сдвига данных объясняется лишь субъективизмом критиков, а не недостатками, присущими этим классификациям. Меры расстояния Меры расстояния пользуются широкой популярностью. На практике их лучше бы называть мерами несходства; для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния дело обстоит наоборот.
Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю, Меры расстояния обычно не ограничены сверху н зависят от выбора шкалы (масштаба) измерений. Одним из наиболее известных расстояний является евклидово расстояние, определяемое как где дм — расстояние между объектами 1 и 1, а хщ — значение й-й переменнойдля 1-го объекта. Чтобы избежать применения квадратного корня, часто величина расстояния возводится в квадрат, на что обычно указывает обозначение саум. Как и следовало ожидать, это выражение называют «квадратичным евклидовым расстоянием». Можно определить и другие виды расстояния. Так, хорошо известной мерой является манхеттенское расстояние, или «расстояние городских кварталов» (с1(у-ЫосК), которое определяется следующим образом: Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формула Сушествуют расстояния, не являющиеся метриками Минковского, и наиболее важное из них — расстояние Махаланобиса В», которое также носит название обобщенного расстояния (Ма(та1апеЫз, 1936).
Эта метрика определяется выражением А, = (х, — х;) 'Х-' (Х; — Х;), где Š— общая внутригрупповая дисперсионно-ковариационная матрица, а Х; и Х, — векторы значений переменных для объектов 1 н 1. В отличие от евклидовой и метрнк Минковского, эта метрика с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклндову расстоянию. Несмотря на важность евклидовой и других метрик, они имеют серьезные недостатки, из которых наиболее важный состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Перемененные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями.
Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию. Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния нормируют переменные к единичной дисперсии и нулевому среднему. Как уже отмечалось, такое преобразование данных может вызвать затруднения. Скиннер (1978) для вычисления сходства данных, представляемых профилями, предложил совместно использовать корреляцию и евклидово расстояние.
При этом можно определить, какой 168 из факторов (форма, сдвиг или дисперсия) делает вклад в оценку сходства. Метод Скиннера похож на метод, предложенный Гуэртином (1966), согласно которому сначала, взяв за основу форму, с помощью корреляции создаются однородные группы объектов, а затем каждая из этих групп с помощью меры расстояния разбивается на подгруппы со схожими сдвиговыми и дисперсионными характеристиками (Ьк(ппег, !978).
Однако в методе Скин~нера строится сложная функция сходства, которая объединяет расстояние и корреляцию в вычислительной процедуре, осуществляющей минимизацию ошибки измерения при оценке сходства профилей. Поскольку в прикладном анализе данных часто возникает необходимость в нормировке, полезно рассмотреть небольшой пример, показывающий влияние нормировки на коэффициенты корреляции и ~расстояния.
В качестве данных были взяты четыре профиля ММР1-теста. Каждому из этих профилей соответствует больной с сильной психопатологией. В качестве исходной меры сходства для профилей был взят смешанный момент корреляции Пирсона. Результаты приведены в следующей матрице: А л с () А ХХХХ 0,776 0,702 0,742 Л (3) Х Х Х Х 0,729 0,770 с (6) (5) ХХХХ 0,'036 (4) (2) (!) ХХ ХХ В верхней треугольной части матрицы приведены значения корреляции, которые показывают, что все четыре профиля имеют очень схожие формы, а профили С и Р даже почти идентичны (гсо= =0,936). В нижней треугольной части матрицы показаны ранги, полученные в результате упорядочения по величине значений сходства от наибольшего (1) к наименьшему (6). Необходимость в ранговом упорядочении будет объяснена ниже.
После вычисления евклидовых расстояний получается матрица: А В с (3 А ХХХХ 266 732 736 В 1 (2) ХХХХ 532 465 С (5) (4) ХХХХ !44 7) (6) (3) (!) ХХХХ Заметьте, как различаются масштабирования коэффициентов расстояния и коэффициентов корреляции.
Вспомните, что абсолютные значения коэффициентов расстояния не имеют смысла. Однако и здесь обнаруживается сходство пациентов С и Р (поп= 144, хотя не ясно, насколько хорошим является з~начение 144). Общая картина сходства кажется почти одинаковой и для корреляции, и для расстояния, но существуют и различия. В частности, при использовании корреляции в качестве меры сходства наименее похожими оказались пациенты А и С (где=0,702).
Однако евклидова метрика показывает, что наименее схожими являются пациенты А и Р (с(за=736) !59 Чтобы внести еще большую путаницу, предположим, что мы решили нормировать дамные. (Нормировка была действительно выполнена на основе статистики для всего множества данных, состоящего из 90 объектов). Если для оценки сходства четырех профилей после нормировки используется смешанный момент корреляции, то матрица сходства принимает вид А в с Э А ХХХХ 0,602 0,284 0,433 В (2) ХХХХ 0,367 0,584 С ~6) (5) ХХХХ 0,804 11 4) (3) (1) ХХХХ Обратите внимание, как различаются коэффициенты корреляции для нормированных и ненормированных данных.
Для ненормированных данных глс=0,702, а для иормированных глс=0,284. В обоих случаях глс — наименьшая величина в матрице, но для нормированных данных величина коэффициента корреляции показывает, что между пациентами А и С нет никакого сходства, в то время как для ненормированных данных абсолютное значение корреляции (г=0,706) свидетельствует, что пациенты А и С довольно похожи. Наконец, в нижеприведенной матрице несходства показаны евклндовы расстояния между пациентами в случае нормированны1ь данных: А В 'С (7 А ХХХХ 0 704 2 572 2 071 (1) ХХХХ 2041 1,304 С (6) (5) ХХХХ о,87о В (4) (3) (2) ХХХХ Снова величины изменяются в зависимости от того, нормированы нли нет данные.
Однако поскольку значение коэффициента евклидова расстояния не имеет естественного смысла, постольку эти изменения не очень важны. Что действительно важно, так это относительное изменение. Наиболее драматическим моментом является то, что коэффициент евклидова расстояния для нормированных данных показывает, что пациенты А и  — пара с наибольшим сходством„между тем, как три другие матрицы сходства указывают ма то, что наиболее похожие пациенты — это С и Р. В заключение важно отметить, что все четыре матрицы порождают разные ранжирования коэффициентов сходства.
Это замечание важно, так как оно показывает, что выбор коэффициента сходства и преобразования данных может плохо повлиять иа соотношения, содержащиеся в итоговой матрице сходства. Коэффициенты ассоциативности Коэффициенты ассоциативности применяются, когда необходимо установить сходство между объектами, описываемыми бинарными переменными. Легче всего рассмотреть эти коэффициенты, обра- 160 тившись к 2Х2-таблице ассоциативности, в которой 1 указывает на наличие переменной, а 0 — на ее отсутствие. 1 О 1 с ь о с л Было предложено большое число ()30) таких коэффициентов, а поэтому нереально пытаться дать исчерпывающее описание всей совокупности этих мер.