Главная » Просмотр файлов » Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 46

Файл №1185345 Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu) 46 страницаКим_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345) страница 462020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 46)

Внимание было уделено последствиям использования различных мер сходства. Результаты проведенных исследований трудно свести воедино, потому что каждое из них придает особое значение своей комбинации структур данных и проверяемых методов. Поэтому не удивительно, что были получены противоречивые результаты (М!!!1- пап, 1981). Однако, по-видимому, четыре фактора оказывают на работу методов кластеризации большое влияние: 1) характеристики кластерной структуры; 2) наличие выбросов и степень полноты классификации; 3) степень перекрытия кластеров; 4) выбор меры сходства. Наиболее важными характеристиками кластерной структуры, влияющими на работу методов кластеризации, являются форма кластеров, размеры кластеров (которые выражены в числе объектов, приходящихся на кластер, и в различиях относительных размеров кластеров) и число кластеров.

Мы уже показали на нескольких примерах, что определенные методы кластеризации склонны к обнаружению определенных видов кластеров. Расширяющие пространство методы, такие, как метод Уорда, полных связей, итеративные методы группировки, использующие критерий !г%', приводят к кластерам гиперсферической формы. Поэтому не надо удивляться, что в исследованиях, используюших методы Монте-Карло для создания кластеров такой формы, расширяющие пространство методы восстанавливают известную кластерную структуру лучше, чем сужающие пространство методы.

Не чдивительно и то, что эти методы обычно не в состоянии вос- становить структуру кластеров, имеющих растянутую или необычную форму Кроме того, расширяющие пространство методы имеют тенденцию находить кластеры приблизительно равных размеров.

Но в этом случае, как показывают исследования по методу Монте-Карло, кластеры, состояшие из относительно небольшого числа объектов, могут слиться с кластерами больших размеров. Мойена (1977) доказал, в частности, что увеличение числа групп в данных неблагоприятно воздействует на работу метода Уорда, но этот результат не нашел подтверждения в другой работе, где применяется метод Монте-Карло. Вообще говоря, сужающие пространство методы, подобные методу одиночной связи, хорошо работают с теми кластерными структурами, для которых расширяющие пространство методы оказываются несостоятельными. Так, исследованиями, используюшимн метод Монте-Карло, проверено, что сужающие пространство методы действительно дают хорошее восстановление известной кластерной структуры, если кластеры хорошо определены и разделены.

Наличие выбросов и степень полноты классификации, требуемая при кластеризации,— важные факторы, влияюшие на работу метода. Полная классификация является исчерпывающей: все рассматриваемые объекты должны быть размещены по группам. Основанное на методе Монте-Карло исследование влияния этого фактора показывает, что, если требуется полная классификация и данные имеют мало выбросов, то метод Уорда дает превосходное восстановление известной кластерной структуры (Кшрег апб Р!зЬег, 1975; Мо!епа, 1977), Однако в работах (В!азЫ1е!й апд Могеу, 1980; Еде!ЬгосК 1979; Ебе!Ъгоск апд Мс1.аидЫ(п, 1979; М11!!цап„!980) показано, что если степень полноты классификации уменьшается, то кластеризация по методу средней связи дает восстановление такое же, что и по методу Уорда.

Мнллиган и Иссак (1980), воспользовавшись данными с ультраметрикой, доказали, что в действительности метод средней связи может работать лучше метода Уорда даже в случае полной классификации. Вообще может показаться, что на работе расширяющих пространство методов неблагоприятно сказывается присутствие большого числа выбросов, но это утверждение еще требует проверки. Важно помнить, что выбросы — это не просто обособленные объекты; на самом деле они могут быть представителями подгрупп, о которых в выборке содержится мало данных, Следовательно, очевидное решение проблемы выбросов (отбросить эти данные) должно быть хорошо продуманным.

Независимо от их интерпретации выбросы необходимо тщательно исследовать еще до применения кластерного анализа. Для каждого выброса необходимо определить, почему он так отличен от других объектов. Проблема перекрытия кластеров аналогична проблемам степени полноты классификации и наличия выбросов в выборке данных.

Перекрытие кластеров в это просто степень, с которой кластеры занимают одно и то же пространство. Кластеры могут быть хорошо разделенными, но могут находиться и близко один к дру- гому, Кроме того, могут присутствовать шумовые точки, т. е. точки данных, лежащие между границами кластеров. Как было показано, все эти факторы оказывают сильное влияние на работу методов кластеризации, а также, в случае перекрытия кластеров метод Уорда работает лучше большинства других методов кластеризации (Ваупе е!. а!., 1980), тогда как метод средней связи работает плохо (Ваупе е!.

а!., 1980; МИИдап, 1980). Однако при прочих равных условиях метод средней связи дает классификацию такой же полноты, что и метод Уорда для хорошо разделенных кластеров. Если же требования к полноте классификации ослаблены и допускаются перекрытия кластеров, то этот метод опять будет эквивалентен методу Уорда (Ебе!Ьгосй, 1979; Ебе!- Ьгоск апб МсЬаиЯЬИп, 1979; МИИпап, 1980). И наконец, на работу методов кластеризации влияет выбор меры сходства. К сожалению, были изучены только две меры: евклидово расстояние и коэффициент смешанного момента корреляции.

Фактически во всех описанных выше исследованиях по методу Монте-Карло сравнивалась работа метода Уорда, использовавшего евклидово расстояние, и метода средней связи, применявшего коэффициент смешанного момента корреляции. Хотя, кажется, выбор меры все же приводит к некоторым различиям в результатах, его воздействие скрадывается воздействием характеристик кластерной структуры, требуемой степени полноты классификации и перекрытия кластеров. Надо еще очень много поработать с другими коэффициентами, прежде чем можно будет оценить влияние выбора меры сходства на работу методов кластеризации. БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ В этом разделе было рассмотрено лишь несколько различных методов кластеризации. Конечно, здесь не дается исчерпывающего обсуждения всего того, что известно о рассмотренных методах.

Для новичков, желающих ознакомиться с другими введениями в методы кластеризации, мы рекомендуем обратиться к работам: (ВаИеу, 1975; ЕчеПИ, 1980; и 1.огг, 1983). Все три работы вполне доступны и различаются лишь своей ианравлеиностью. Опытному пользователю мы посоветовали бы ознакомиться с обзором Кормака (1971), хотя он немного и устарел, а также с работой Эверитта (1979), являющейся сводом нерешенных задач кластерного анализа. Кроме того, имеется пять книг, которые содержат большое количество детальной информации о различных методах кластеризации и нх работе: (АпбегЬег8, 1973; СИ!!ого апб 5!ерЬепзоп, 1975; Наг!!дап, 1975; Мегз!сЬ апг( 5о1отоп, 1980; 5пеа!Ь апб 5оса!, 1973).

!У. МЕТОДЫ ПРОВЕРКИ ОБОСНОВАННОСТИ РЕШЕНИЙ В этом разделе обсуждаются пять методов проверки достоверности (обоснованности) решений кластерного анализа: 1) кофеиетическая корреляция; 2) тесты значимости для признаков, используемых при создании кластеров; 3) повторная выборка; 4) тесты значимости для независимых признаков и б) методы Монте-Карло. КОФЕИЕТИЧЕСКАЯ КОРРЕЛЯЦИЯ ВМЭ ВЖЭ 0,333 0,333 0,250 0,250 0,500 0,500 0,500 0,750 0,500 РМН РЖЭ ПМН ПЖЭ РМН вЂ” 0,250 О,ЗЗЗ 0,333 РЖЭ вЂ” 0,250 О,РО ПМН вЂ” О, 500 ПЖЭ ВМЭ ВЖЭ Каждый элемент матрицы представляет собой значение сходства для уровня, па котором определенная пара объектов была объединена в общий кластер.

Важно отметить, что эта матрица сходства имеет не более /Π— 1 различных элементов, так как для иерархического агломеративного метода всегда требуется У вЂ” 1 И02 Кофенетическая корреляция была впервые предложена Сокэлом и Рольфом в 1962 г. Она является главной мерой обоснованности решения, предлагаемой специалистами по численной таксономии (Ьпеа(п апб Бока1, 1973). Эта мера пспользуется только вместе с иерархическим агломератнвным методом. Кофенетическая корреляция необходима для определения, насколько хорошо характер отношений (сходство/несходство) между объектами представляется деревом или деидрограммой, полученными с помощью иерархического метода кластеризации. Решение для данных о шести захоронениях, полученное методом одиночной связи с использованием коэффициента Жаккарда, представлено в виде иерархического дерева (см.

рис. 3). Просмотрев дерево, можно получить представление о сходствах для любой пары объектов. Например, объект ПЖЭ (подросток, женский пол, элитарный) и ВЖЭ (взрослый, женский пол, элитарный) довольно похожи, поскольку они объединяются относительно «высокой» ветвью дерева. С другой стороны, объекты РЖЭ и ПЖЭ мало похожи, так как они не объединяются в единый кластер до самого последнего шага (т. е.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее