Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 38

Файл №1185345 Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu) 38 страницаКим_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345) страница 382020-08-252020-08-25СтудИзба

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 38)

Формально профиль определяется просто как вектор значений признаков объекта, графически изображаемый в виде ломаной линии. Например, данные ММР1-теста, использованные в нашей работе, часто изображают так, чтобы для каждого индивида получнлааь ломаная вЂ” профиль (см. рис. 1). Одним из главных недостатков коэффициента корреляции как меры сходства, является то, что он чувствителен к форме за счет снижения чувствительности к величине различий между переменными. Кронбах и Глезер (1953) впервые показали, что сходство между профилями определяют следующие три элемента; форма, т. е.

спуски н подъемы ломаной линии для 70 !! н , всех переменных; рас- сеяние, т. е. дисперсия / значений переменных относительно их сред! него; поднятие (уровень или сдвиг), т. е. среднее значение для объекта по всем пере- Т " менным. Чувствитель'т' ность коэффициента корреляции Пирсона лишь к форме означаРнс. 2. профннн данных мМРьтестн ет, что два профиля мо- 156 гут иметь корреляцию +1,О, и все же не быть идентичными (т. е. профили объектов не проходят через одни и те же точки). На рис. 2 показаны два профиля данных для ММР1-теста; один изображен сплошной линией, а другой вЂ” пунктирной.

Формы их одинаковы. Хотя корреляция между этими двумя профилями равна +1,О, они все жс не совпадают, потому что один из них приподнят, Таким образом, высокая корреляция между профилями будет наблюдаться, когда измерения одного нз профилей будут линейно зависеть от измерений другого. Следовательно, при использовании коэффициента корреляции теряется некоторая ивформация, что может привести к неверным результатам, если не будет учтено влияние рассеяния и поднятия профиля. Коэффициент корреляции имеет и другие недостатки.

Он часто не удовлетворяет неравенству треугольника, и, как многие указывалн, корреляция, вычисленная этим способом, не имеет статистического смысла, поскольку среднее значение определяется по совокупности всевозможных разнотипных переменных, а не по совокупности объектов. Смысл «среднего» по раэнотипным переменным далеко не ясен. Несмотря на эти недостатки, коэффициент широко использовался в приложениях кластерного анализа. Хаммер и Каннннгхем (1981) показали, что при правильном применении кластерного метода коэффициент корреляции превосходит другие коэффициенты сходства, так как позволяет уменьшить число неверных классификаций. Парадоксально, но ценность корреляции заключается именно в том, что она не зависит от различий между переменными изза рассеяния и сдвига. Существенную роль в успехе работы Хаммера и Каннвнгхема сыграло, однако, то, что исследователи смогли понять, что им нужен именно коэффициент формы, поскольку они считали, что влияние рассеяния н сдвига данных объясняется лишь субъективизмом критиков, а не недостатками, присущими этим классификациям.

Меры расстояния Меры расстояния пользуются широкой популярностью. На практике их лучше бы называть мерами несходства; для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния дело обстоит наоборот. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю, Меры расстояния обычно не ограничены сверху н зависят от выбора шкалы (масштаба) измерений.

Одним из наиболее известных расстояний является евклидово расстояние, определяемое как где дм вЂ” расстояние между объектами 1 и 1, а хщ вЂ” значение й-й переменнойдля 1-го объекта. Чтобы избежать применения квадратного корня, часто величина расстояния возводится в квадрат, на что обычно указывает обозначение саум. Как и следовало ожидать, это выражение называют «квадратичным евклидовым расстоянием». Можно определить и другие виды расстояния. Так, хорошо известной мерой является манхеттенское расстояние, или «расстояние городских кварталов» (с1(у-ЫосК), которое определяется следующим образом: Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формула Сушествуют расстояния, не являющиеся метриками Минковского, и наиболее важное из них вЂ” расстояние Махаланобиса В», которое также носит название обобщенного расстояния (Ма(та1апеЫз, 1936).

Эта метрика определяется выражением А, = (х, вЂ” х;) 'Х-' (Х; вЂ” Х;), где Е вЂ” общая внутригрупповая дисперсионно-ковариационная матрица, а Х; и Х, вЂ” векторы значений переменных для объектов 1 н 1. В отличие от евклидовой и метрнк Минковского, эта метрика с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных.

Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклндову расстоянию. Несмотря на важность евклидовой и других метрик, они имеют серьезные недостатки, из которых наиболее важный состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Перемененные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями. Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию.

Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния нормируют переменные к единичной дисперсии и нулевому среднему. Как уже отмечалось, такое преобразование данных может вызвать затруднения. Скиннер (1978) для вычисления сходства данных, представляемых профилями, предложил совместно использовать корреляцию и евклидово расстояние.

При этом можно определить, какой 168 из факторов (форма, сдвиг или дисперсия) делает вклад в оценку сходства. Метод Скиннера похож на метод, предложенный Гуэртином (1966), согласно которому сначала, взяв за основу форму, с помощью корреляции создаются однородные группы объектов, а затем каждая из этих групп с помощью меры расстояния разбивается на подгруппы со схожими сдвиговыми и дисперсионными характеристиками (Ьк(ппег, !978). Однако в методе Скин~нера строится сложная функция сходства, которая объединяет расстояние и корреляцию в вычислительной процедуре, осуществляющей минимизацию ошибки измерения при оценке сходства профилей.

Поскольку в прикладном анализе данных часто возникает необходимость в нормировке, полезно рассмотреть небольшой пример, показывающий влияние нормировки на коэффициенты корреляции и ~расстояния. В качестве данных были взяты четыре профиля ММР1-теста. Каждому из этих профилей соответствует больной с сильной психопатологией. В качестве исходной меры сходства для профилей был взят смешанный момент корреляции Пирсона.

Результаты приведены в следующей матрице: А л с () А ХХХХ 0,776 0,702 0,742 Л (3) Х Х Х Х 0,729 0,770 с (6) (5) ХХХХ 0,'036 (4) (2) (!) ХХ ХХ В верхней треугольной части матрицы приведены значения корреляции, которые показывают, что все четыре профиля имеют очень схожие формы, а профили С и Р даже почти идентичны (гсо= =0,936). В нижней треугольной части матрицы показаны ранги, полученные в результате упорядочения по величине значений сходства от наибольшего (1) к наименьшему (6). Необходимость в ранговом упорядочении будет объяснена ниже. После вычисления евклидовых расстояний получается матрица: А В с (3 А ХХХХ 266 732 736 В 1 (2) ХХХХ 532 465 С (5) (4) ХХХХ !44 7) (6) (3) (!) ХХХХ Заметьте, как различаются масштабирования коэффициентов расстояния и коэффициентов корреляции.

Вспомните, что абсолютные значения коэффициентов расстояния не имеют смысла. Однако и здесь обнаруживается сходство пациентов С и Р (поп= 144, хотя не ясно, насколько хорошим является з~начение 144). Общая картина сходства кажется почти одинаковой и для корреляции, и для расстояния, но существуют и различия. В частности, при использовании корреляции в качестве меры сходства наименее похожими оказались пациенты А и С (где=0,702).

Однако евклидова метрика показывает, что наименее схожими являются пациенты А и Р (с(за=736) !59 Чтобы внести еще большую путаницу, предположим, что мы решили нормировать дамные. (Нормировка была действительно выполнена на основе статистики для всего множества данных, состоящего из 90 объектов). Если для оценки сходства четырех профилей после нормировки используется смешанный момент корреляции, то матрица сходства принимает вид А в с Э А ХХХХ 0,602 0,284 0,433 В (2) ХХХХ 0,367 0,584 С ~6) (5) ХХХХ 0,804 11 4) (3) (1) ХХХХ Обратите внимание, как различаются коэффициенты корреляции для нормированных и ненормированных данных.

Для ненормированных данных глс=0,702, а для иормированных глс=0,284. В обоих случаях глс вЂ” наименьшая величина в матрице, но для нормированных данных величина коэффициента корреляции показывает, что между пациентами А и С нет никакого сходства, в то время как для ненормированных данных абсолютное значение корреляции (г=0,706) свидетельствует, что пациенты А и С довольно похожи. Наконец, в нижеприведенной матрице несходства показаны евклндовы расстояния между пациентами в случае нормированны1ь данных: А В 'С (7 А ХХХХ 0 704 2 572 2 071 (1) ХХХХ 2041 1,304 С (6) (5) ХХХХ о,87о В (4) (3) (2) ХХХХ Снова величины изменяются в зависимости от того, нормированы нли нет данные.

Характеристики

Тип файла

DJVU-файл

Размер

2,35 Mb

Материал

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

kim_-mjuller-i-dr-faktornyj_-diskriminantnyj-i-klasternyj-analizy.djvu.rar

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.