И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 39

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 39 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 392019-05-092019-05-09СтудИзба

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 39)

2 показаны два профиля данных для ММР1-теста; один изображен сплошной линией, а другой вЂ” пунктирной. Формы их одинаковы. Хотя корреляция между этими двумя профилями равна +1,О, они все жс не совпадают, потому что один из них приподнят, Таким образом, высокая корреляция между профилями будет наблюдаться, когда измерения одного нз профилей будут линейно зависеть от измерений другого. Следовательно, при использовании коэффициента корреляции теряется некоторая ивформация, что может привести к неверным результатам, если не будет учтено влияние рассеяния и поднятия профиля.

Коэффициент корреляции имеет и другие недостатки. Он часто не удовлетворяет неравенству треугольника, и, как многие указывалн, корреляция, вычисленная этим способом, не имеет статистического смысла, поскольку среднее значение определяется по совокупности всевозможных разнотипных переменных, а не по совокупности объектов. Смысл «среднего» по раэнотипным переменным далеко не ясен. Несмотря на эти недостатки, коэффициент широко использовался в приложениях кластерного анализа. Хаммер и Каннннгхем (1981) показали, что при правильном применении кластерного метода коэффициент корреляции превосходит другие коэффициенты сходства, так как позволяет уменьшить число неверных классификаций. Парадоксально, но ценность корреляции заключается именно в том, что она не зависит от различий между переменными изза рассеяния и сдвига.

Существенную роль в успехе работы Хаммера и Каннвнгхема сыграло, однако, то, что исследователи смогли понять, что им нужен именно коэффициент формы, поскольку они считали, что влияние рассеяния н сдвига данных объясняется лишь субъективизмом критиков, а не недостатками, присущими этим классификациям. Меры расстояния Меры расстояния пользуются широкой популярностью. На практике их лучше бы называть мерами несходства; для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния дело обстоит наоборот.

Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю, Меры расстояния обычно не ограничены сверху н зависят от выбора шкалы (масштаба) измерений. Одним из наиболее известных расстояний является евклидово расстояние, определяемое как где дм вЂ” расстояние между объектами 1 и 1, а хщ вЂ” значение й-й переменнойдля 1-го объекта. Чтобы избежать применения квадратного корня, часто величина расстояния возводится в квадрат, на что обычно указывает обозначение саум. Как и следовало ожидать, это выражение называют «квадратичным евклидовым расстоянием». Можно определить и другие виды расстояния. Так, хорошо известной мерой является манхеттенское расстояние, или «расстояние городских кварталов» (с1(у-ЫосК), которое определяется следующим образом: Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формула Сушествуют расстояния, не являющиеся метриками Минковского, и наиболее важное из них вЂ” расстояние Махаланобиса В», которое также носит название обобщенного расстояния (Ма(та1апеЫз, 1936).

Эта метрика определяется выражением А, = (х, вЂ” х;) 'Х-' (Х; вЂ” Х;), где Е вЂ” общая внутригрупповая дисперсионно-ковариационная матрица, а Х; и Х, вЂ” векторы значений переменных для объектов 1 н 1. В отличие от евклидовой и метрнк Минковского, эта метрика с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклндову расстоянию. Несмотря на важность евклидовой и других метрик, они имеют серьезные недостатки, из которых наиболее важный состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Перемененные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями.

Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию. Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния нормируют переменные к единичной дисперсии и нулевому среднему. Как уже отмечалось, такое преобразование данных может вызвать затруднения. Скиннер (1978) для вычисления сходства данных, представляемых профилями, предложил совместно использовать корреляцию и евклидово расстояние.

При этом можно определить, какой 168 из факторов (форма, сдвиг или дисперсия) делает вклад в оценку сходства. Метод Скиннера похож на метод, предложенный Гуэртином (1966), согласно которому сначала, взяв за основу форму, с помощью корреляции создаются однородные группы объектов, а затем каждая из этих групп с помощью меры расстояния разбивается на подгруппы со схожими сдвиговыми и дисперсионными характеристиками (Ьк(ппег, !978).

Однако в методе Скин~нера строится сложная функция сходства, которая объединяет расстояние и корреляцию в вычислительной процедуре, осуществляющей минимизацию ошибки измерения при оценке сходства профилей. Поскольку в прикладном анализе данных часто возникает необходимость в нормировке, полезно рассмотреть небольшой пример, показывающий влияние нормировки на коэффициенты корреляции и ~расстояния.

В качестве данных были взяты четыре профиля ММР1-теста. Каждому из этих профилей соответствует больной с сильной психопатологией. В качестве исходной меры сходства для профилей был взят смешанный момент корреляции Пирсона. Результаты приведены в следующей матрице: А л с () А ХХХХ 0,776 0,702 0,742 Л (3) Х Х Х Х 0,729 0,770 с (6) (5) ХХХХ 0,'036 (4) (2) (!) ХХ ХХ В верхней треугольной части матрицы приведены значения корреляции, которые показывают, что все четыре профиля имеют очень схожие формы, а профили С и Р даже почти идентичны (гсо= =0,936). В нижней треугольной части матрицы показаны ранги, полученные в результате упорядочения по величине значений сходства от наибольшего (1) к наименьшему (6). Необходимость в ранговом упорядочении будет объяснена ниже.

После вычисления евклидовых расстояний получается матрица: А В с (3 А ХХХХ 266 732 736 В 1 (2) ХХХХ 532 465 С (5) (4) ХХХХ !44 7) (6) (3) (!) ХХХХ Заметьте, как различаются масштабирования коэффициентов расстояния и коэффициентов корреляции.

Вспомните, что абсолютные значения коэффициентов расстояния не имеют смысла. Однако и здесь обнаруживается сходство пациентов С и Р (поп= 144, хотя не ясно, насколько хорошим является з~начение 144). Общая картина сходства кажется почти одинаковой и для корреляции, и для расстояния, но существуют и различия. В частности, при использовании корреляции в качестве меры сходства наименее похожими оказались пациенты А и С (где=0,702).

Однако евклидова метрика показывает, что наименее схожими являются пациенты А и Р (с(за=736) !59 Чтобы внести еще большую путаницу, предположим, что мы решили нормировать дамные. (Нормировка была действительно выполнена на основе статистики для всего множества данных, состоящего из 90 объектов). Если для оценки сходства четырех профилей после нормировки используется смешанный момент корреляции, то матрица сходства принимает вид А в с Э А ХХХХ 0,602 0,284 0,433 В (2) ХХХХ 0,367 0,584 С ~6) (5) ХХХХ 0,804 11 4) (3) (1) ХХХХ Обратите внимание, как различаются коэффициенты корреляции для нормированных и ненормированных данных.

Для ненормированных данных глс=0,702, а для иормированных глс=0,284. В обоих случаях глс вЂ” наименьшая величина в матрице, но для нормированных данных величина коэффициента корреляции показывает, что между пациентами А и С нет никакого сходства, в то время как для ненормированных данных абсолютное значение корреляции (г=0,706) свидетельствует, что пациенты А и С довольно похожи. Наконец, в нижеприведенной матрице несходства показаны евклндовы расстояния между пациентами в случае нормированны1ь данных: А В 'С (7 А ХХХХ 0 704 2 572 2 071 (1) ХХХХ 2041 1,304 С (6) (5) ХХХХ о,87о В (4) (3) (2) ХХХХ Снова величины изменяются в зависимости от того, нормированы нли нет данные.

Однако поскольку значение коэффициента евклидова расстояния не имеет естественного смысла, постольку эти изменения не очень важны. Что действительно важно, так это относительное изменение. Наиболее драматическим моментом является то, что коэффициент евклидова расстояния для нормированных данных показывает, что пациенты А и В вЂ” пара с наибольшим сходством„между тем, как три другие матрицы сходства указывают ма то, что наиболее похожие пациенты вЂ” это С и Р. В заключение важно отметить, что все четыре матрицы порождают разные ранжирования коэффициентов сходства.

Это замечание важно, так как оно показывает, что выбор коэффициента сходства и преобразования данных может плохо повлиять иа соотношения, содержащиеся в итоговой матрице сходства. Коэффициенты ассоциативности Коэффициенты ассоциативности применяются, когда необходимо установить сходство между объектами, описываемыми бинарными переменными. Легче всего рассмотреть эти коэффициенты, обра- 160 тившись к 2Х2-таблице ассоциативности, в которой 1 указывает на наличие переменной, а 0 вЂ” на ее отсутствие. 1 О 1 с ь о с л Было предложено большое число ()30) таких коэффициентов, а поэтому нереально пытаться дать исчерпывающее описание всей совокупности этих мер.

Характеристики

Тип файла

DJVU-файл

Размер

2,35 Mb

Материал

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.s.-enjukov-s.b.-koroleva-faktornyj-diskriminantnyj-i-klasternyj-analiz.rar

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ.djvu

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.