Главная » Просмотр файлов » И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 42

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 42 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 422019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 42)

Устойчивость — это важное свойство любой классификации, так как устойчивые группы с большим правдоподобием представляют собой «естественные» группировки по сравнению с теми группами, которые исчезают, если некоторые объекты переупорядочены или исключены из анализа. Вопрос об устойчивости становится особенно .существенным, когда мы имеем дело с малыми выборками объектов ()агб(пе апб В(Ьзоп, 1071).

Иерархические агломеративные методы различаются главным образом по правилам построения кластеров. Некоторые авторы для обозначения способа группировки используют термин «стратегия классификации». Существует много различных правил группировки, каждое нз которых порождает специфический иерархический метод. Известно по крайней мере двенадцать различных методов группировки, четыре из них наиболее распространенные: одиночной связи, полной связи, средней связи и метод Уорда. Ланс и Уильямс (1967) получили формулу, которая позволяет описать правила группировки в общем виде для любого иерархического агломеративного метода. Формула имеет вид г( (Ь й) = А (1) . д (61) +А (1) г1 Щ) + В ° Ц ~1) + + С .АВЯ (г((й,() — д(6,1) ), где и'(й, й) — различие (расстояние) между кластерами и и й, причем кластер й является результатом объединения кластеров (или объектов) 1 и 1' в ходе агломеративного шага, С помощью этой формулы можно вычислить расстояние между некоторым объектом (й) и новым кластером (й), полученным объединением объектов 1 и 1 в единый кластер.

Прописными буквами обозначены параметры, которые определяют конкретный вид группировки; в методе одиночной связи, например, этн параметры принимают следующие значения: А(1)=А(1) =1/2, В=О и С=1/2. Получен~ная формула оказала большую помощь при разработке вычислительных алгоритмов для этих методов. Чтобы проиллюстрировать работу иерархических методов и показать действие разных правил группировки, данные ММР1- теста были обработаны с помощью четырех наиболее известных методов. Метод одиночной связи.

В этом методе, описанном Спитом (1957), кластер образуется по следующему правилу: объект будет 169 присоединен к уже существующему кластеру, если по крайней мере один из элементов кластера находится ма том же уровне сходства, что и объект, претендующий на включение. Таким образом, присоединение определяется лишь наличием единственной связи между объектом и кластером. Главное преимущество этого метода заключается в его математических свойствам; результаты, полученные по этому методу, инвариантны к монотонным преобразованиям матрицы сходства; применению метода не мешает наличие «совпадений» в данных (Лагб)пе апд Бйззоп, 1971).

Первое нз этих свойств (инвариантность при монотонных преобразованиям) особенно важно по той причивте, что все другие иерархические агломеративные методы таким свойством не обладают. Это означает, что метод одиночной связи является одним из немногих методов, результаты применения которых не изменяются при любых преобразованиях данных, оставляющих без изменения относительное упорядочет не элементов матрицы сходства. 458 222 412 035 365 644 319 652 22З 46О 2222 69 161 027 134 Взв ЗВ 694 42 503 Рнс.

4 Дендротрамма метода одиночной связи дия данных ММР1-теста 170 3947 698- 3535 945 3\24 189 271г 494 2390 679 1888 924 1477.169 1065 414 Б53 669 г41995 -~ Рнс 5. Дендрограмма метода полных свяаей для данных ММР1-теста Главный недостаток метода одиночной связи, однако, состоит в том, что, как было показано на практике, метод приводит к появлению «цепочек» («цепной эффект»), т. е. к образованию больших продолговатых кластеров. Эффект образования цепочек можно показать на примере древовидной диаграммы для данных ММР1-теста (рис.

4). Обратите внимание, что по мере приближения к окончанию процесса кластеризации образуется один большой кластер, а все остающиеся объекты добавляются к нему один за другим. Найденное с помощью метода одиночной связи решение, состоящее из двух кластеров, является тривиальным следствием наличия одного кластера, включающего 89 объектов, и одного кластера, включающего один объект.

На рис. 4 можно отметить еще несколько интересных моментов. Во-первых, анализ рисунка не дает возможности определить, 171 как много кластеров содержится в данных. В противоположяость этому древовидная диаграмма, полученная методом полной связи (см.

рис. 5), четко указывает на наличие двух кластеров. Во-вто~рых, диагностируемые классы больных, тесно связанные с профилями данных ММР1-теста, не образуют четко выделенных кластеров на рисунке. В левой части дерева имеется скопление профилей больных с невротическими заболеваниями (Н), а в середине дерева скопление профилей больных с расстройствами личности (РЛ).

Оставшаяся часть дерева состоит из профилей больных психозами (П), неврозами (Н) и нескольких профилей РЛ. Короче говоря, решение, порожденное методом одиночной связи, не является точным воспроизведением известной структуры данных. Метод полных связей. В этом методе в противоположностьметоду одиночной связи правило объединения указывает, что сходство между кандидатами на включение в существующий кластер и любым из элементов этого кластера не должно быть меньше некоторого порогового уровня (Ьока1 апб М1с)тепег, 1958). Настоящее правило более жесткое, чем правило для метода одиночной связи, и поэтому здесь имеется тенденция к обнаружению относительно компактных гиперсферических кластеров, образованных объектами с большим сходством.

Хотя дерево, порожденное методом полных связей (рис. 5), дает наглядное представление о найденных кластерах данных, все же сравнение полученной классификации с известной не говорит о хорошем их соответствии. Приведенная ниже информация показывает распределение объектов по кластерам и диагностическим классам. Точное решение давало бы взаимооднозначное соответствие между кластерами и диагностическими классами. Однако в решении, полученном по методу полных связей, оно явно отсутствует. Как распределены объекты по классам и кластерам, показано в таблице: кластеры 1 И !!1 П 10 0 20 лкатасаы тт РЛ 8 4 18 Метод средней связи. Предложенный Сокэлом и Миченером (1958) метод средней связи разрабатывался в качестве «средства борьбы» с крайностями как метода одиночной связи, так н метода полной связи.

Хотя есть несколько вариантов метода, по существу, в каждом из них вычисляется среднее сходство рассматриваемого объекта со всеми объектами в уже существующем кластере, а затем, если ~найденное среднее значение сходства достигает илн превосходит некоторый заданный пороговый уровень сходства, объект присоединяется к этому кластеру. Чаще всего используется вариант метода средней связи, в котором вычисляется среднее арифметическое сходство между объектами кластера и кандидатом на включение. В других вариантах метода средней связи вычисляется сходство между центрами тяжести двух кластеров, подлежащих объединению. Метод средней связи широко использовался в био- 7205 475 7087 000 956 528 832 051 707 576 583 702 458 627 334 753 209 678 85 НМ Рнс 6 Дендрограмма метода средней свяан для данных ММР!-теста логии, н только недавно ~начал по-настоящему применяться в социальных науках Анализ рис.

6 дает интересное соотношение между деревом, порожденным методом средней связи, и известными диагностическими классами. Первый кластер (1) содержит почти половину профилей больных психозами, Второй кластер (11) довольно мал и поровну разделен на профили больных неврозами и психозами. Третий кластер (1П) содержит фактически все случаи неврозов, тогда как в четвертый (1Ч) самый большой кластер входят профили больных расстройствами личности и значительное число профилей больных психозами. В какой степени совпадают кластеры и диагностические классы, показывает следующая таблица: 173 кластеры И !11 2 26 з о о о 1 1Ч н о 2 П 1З 14 РЛ О зо диагнозы 154 007 137 891 121 Л5 105 559 69.544 73.428 57 312 41 196 25 080 8,954 Рнс.

7. Дендрограмма метода Уорда длн данных ММР1- теста 174 Метод Уорда. Данный метод построен таким образом, чтобы оптимизировать минимальную дисперсию внутри кластеров. Эта целевая функция известна как внутригрупповая сумма квадратов или сумма квадратов отклонений (СКО). Формула суммы квадратов отклонений имеет вид С КО= х,з — Цп 1Ххт) 3 где х, — значение признака )ьго объекта. На первом шаге, когда каждый кластер состоит из одного объекта, СКО равна О.

По методу Уорда объединяются те группы или объекты, для которых СКО получает минимальное прирашение. Метод имеет тенденцию к нахождению (илн созданию) кластеров приблизительно равных размеров и имеющих гиперсферическую форму, Метод Уордафактически не,нашел применения в биологии, но широко используется во многих социальных науках (В!азЫеЫ, 1980). Дерево„порожденное методом Уорда (рис.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6363
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее