Главная » Просмотр файлов » И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 47

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 47 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 472019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 47)

точки данных, лежащие между границами кластеров. Как было показано, все эти факторы оказывают сильное влияние на работу методов кластеризации, а также, в случае перекрытия кластеров метод Уорда работает лучше большинства других методов кластеризации (Ваупе е!.

а!., 1980), тогда как метод средней связи работает плохо (Ваупе е!. а!., 1980; МИИдап, 1980). Однако при прочих равных условиях метод средней связи дает классификацию такой же полноты, что и метод Уорда для хорошо разделенных кластеров. Если же требования к полноте классификации ослаблены и допускаются перекрытия кластеров, то этот метод опять будет эквивалентен методу Уорда (Ебе!Ьгосй, 1979; Ебе!- Ьгоск апб МсЬаиЯЬИп, 1979; МИИпап, 1980). И наконец, на работу методов кластеризации влияет выбор меры сходства. К сожалению, были изучены только две меры: евклидово расстояние и коэффициент смешанного момента корреляции. Фактически во всех описанных выше исследованиях по методу Монте-Карло сравнивалась работа метода Уорда, использовавшего евклидово расстояние, и метода средней связи, применявшего коэффициент смешанного момента корреляции.

Хотя, кажется, выбор меры все же приводит к некоторым различиям в результатах, его воздействие скрадывается воздействием характеристик кластерной структуры, требуемой степени полноты классификации и перекрытия кластеров. Надо еще очень много поработать с другими коэффициентами, прежде чем можно будет оценить влияние выбора меры сходства на работу методов кластеризации. БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ В этом разделе было рассмотрено лишь несколько различных методов кластеризации. Конечно, здесь не дается исчерпывающего обсуждения всего того, что известно о рассмотренных методах.

Для новичков, желающих ознакомиться с другими введениями в методы кластеризации, мы рекомендуем обратиться к работам: (ВаИеу, 1975; ЕчеПИ, 1980; и 1.огг, 1983). Все три работы вполне доступны и различаются лишь своей ианравлеиностью. Опытному пользователю мы посоветовали бы ознакомиться с обзором Кормака (1971), хотя он немного и устарел, а также с работой Эверитта (1979), являющейся сводом нерешенных задач кластерного анализа. Кроме того, имеется пять книг, которые содержат большое количество детальной информации о различных методах кластеризации и нх работе: (АпбегЬег8, 1973; СИ!!ого апб 5!ерЬепзоп, 1975; Наг!!дап, 1975; Мегз!сЬ апг( 5о1отоп, 1980; 5пеа!Ь апб 5оса!, 1973). !У. МЕТОДЫ ПРОВЕРКИ ОБОСНОВАННОСТИ РЕШЕНИЙ В этом разделе обсуждаются пять методов проверки достоверности (обоснованности) решений кластерного анализа: 1) кофеиетическая корреляция; 2) тесты значимости для признаков, используемых при создании кластеров; 3) повторная выборка; 4) тесты значимости для независимых признаков и б) методы Монте-Карло.

КОФЕИЕТИЧЕСКАЯ КОРРЕЛЯЦИЯ ВМЭ ВЖЭ 0,333 0,333 0,250 0,250 0,500 0,500 0,500 0,750 0,500 РМН РЖЭ ПМН ПЖЭ РМН вЂ” 0,250 О,ЗЗЗ 0,333 РЖЭ вЂ” 0,250 О,РО ПМН вЂ” О, 500 ПЖЭ ВМЭ ВЖЭ Каждый элемент матрицы представляет собой значение сходства для уровня, па котором определенная пара объектов была объединена в общий кластер. Важно отметить, что эта матрица сходства имеет не более /Π— 1 различных элементов, так как для иерархического агломеративного метода всегда требуется У вЂ” 1 И02 Кофенетическая корреляция была впервые предложена Сокэлом и Рольфом в 1962 г.

Она является главной мерой обоснованности решения, предлагаемой специалистами по численной таксономии (Ьпеа(п апб Бока1, 1973). Эта мера пспользуется только вместе с иерархическим агломератнвным методом. Кофенетическая корреляция необходима для определения, насколько хорошо характер отношений (сходство/несходство) между объектами представляется деревом или деидрограммой, полученными с помощью иерархического метода кластеризации. Решение для данных о шести захоронениях, полученное методом одиночной связи с использованием коэффициента Жаккарда, представлено в виде иерархического дерева (см.

рис. 3). Просмотрев дерево, можно получить представление о сходствах для любой пары объектов. Например, объект ПЖЭ (подросток, женский пол, элитарный) и ВЖЭ (взрослый, женский пол, элитарный) довольно похожи, поскольку они объединяются относительно «высокой» ветвью дерева. С другой стороны, объекты РЖЭ и ПЖЭ мало похожи, так как они не объединяются в единый кластер до самого последнего шага (т. е. они объединяются лишь у основания дерева), С помощью дерева, приведенного на рпс.

3, можно построить вторичную матрицу сходства между всеми парами объектов, соответствующую рассматриваемому иерархическому решению: шагов объединения. Исходная матрица содержит до М(й( — 1)/2 различных элементов и имеет вид пжэ вмэ 0,250 О,ЗЗЗ 0,250 0,143 0',ЮО 0',500 — О,'500 РМН РЖЭ ПМИ вжэ РМН вЂ” 0,000 0,250 О,ЗОО РЖЭ вЂ” О,'ОО9 0,200 пмн — 0,167 пжэ о,'150 вмэ 0,429 вжэ Кофенетическая корреляция является корреляцией между значениями исходной матрицы сходства и вторичной матрицы сходства. Таким образом, кофенетическая корреляция для решения, полученного методом одиночной связи и показанного иа рис. 3, равна С=0,810.

Несмотря на довольно частое применение, кофенетическая корреляция имеет и явные недостатки. Во-первых, использование смешанного момента корреляции предполагает, что нормально распределенные значения в двух матрицах коррелировапы. Это предположение обычно не выполняется для значений вторичной матрицы сходства, так как кластерные методы в значительной степени определяют распределение значений сходства в этой матрице. Таким образом, применение коэффициента корреляции для оценки степени сходства между значениями двух матриц не является оптимальным. Во-вторых, поскольку число различных значений во вторичной матрице сходства меньше, чем в исходной матрице, то и количество информации, содержащейся в каждой из двух матриц, весьма различно. Холгерссон (1978) провел исследование с помощью метода Монте-Карло для того, чтобы проанализировать характеристики кофенетической корреляции, и обнаружил, что она является плохим индикатором качества кластерного решения. ТЕСТЫ ЗНАЧИМОСТИ ДЛЯ ПРИЗНАКОВ, НЕОБХОДИМЫЕ ПРИ СОЗДАНИИ КЛАСТЕРОВ 19З Другой процедурой, которая часто используется в прикладных исследованиях с применением кластерного анализа, является многомерный дисперсионный анализ (МАВ)ОУА) признаков, необходимых для получения решения.

Цель анализа — выяснить с помощью тестов для проверки гипотезы однородности, значимо ли разбиение данных на кластеры'. В отличие от кофенетической корреляции, применяемой для анализа правильности иерархического дерева„выполнение стандартных тестов значимости связано с качеством кластерного решения, представляющего собой разбиение множества данных. Таким образом, процедуру МА)эОЧА можно применять к решениям, полученным любым методом кластеризации, лишь бы ои порождал разбиения (например, итеративные методы группировки, иерархические методы, варианты факторного анализа). Ясно, что использование МАМО''»А для проверки гипотезы однородности кластеров вполне разумно. Более того, она становится весьма популярной процедурой, потому что ее результаты всегда имеют высокую значимость.

Так, при исследовании типов верующих (Г11з)ппег е1. а!., 1979), обсуждавшемся в равд. 1, были обнаружены значимые различия между кластерами после проведения дискриминантного анализа признаков, необходимых при создании кластеров. В действительности днскриминаитный анализ правильно классифицировал 967« субъектов. Эти результаты свидетельствуют, что кластерное решение, полученное Филсингером и другими, хорошо описывает типы верующих людей. Од. нако такое использование дискриминонтного анализа (или МАФОУА, или многократно АУО*тА) оказывается статистически неправомерным.

Чтобы понять это, рассмотрим следующий пример. Предпо* ложим, что группа исследователей проводит 1О-тест среди случайно отобранных детей из одного класса по всей школьной системе. Далее предположим, что в этом наборе данных на самом деле нет кластеров. После того как будет построена диаграмма вдоль оси 7!г-оценок, исследователи получат нормальное распределение со средним, равным 100 (именно такое значение можно было предсказать исходя из нормативных данных по этому признаку). Тем не менее допустим, что они все же решили провести кластерный анализ полученных данных, несмотря на унимодальное распределение по 71г-признакам.

Найденное кластерное решение делит выборку на две группы: с коэффициентом 1О, пре. вышающим 100, и с коэффициентом 1!г не выше 100. Если затем исследователи проведут дисперсионный анализ для сравнения групп по величине их 7(г-оценок, применение г"-теста покажет высокую значимость! Этот «высокозначимый» результат будет иметь место, несмотря на то, что в данных не существует ни одного кластера.

С помощью методов кластерного анализа (по определению) объекты разделяются на кластеры, которые фактически не перекрываются по признакам, применявшимся при создании кластеров. Проверки значимости различий между кластерами по этим признакам будут всегда давать положительные результаты, поскольку результаты таких проверок всегда положи. тельны независимо от того, есть в данных кластеры или нет.

Описанное использование тестов в лучшем случае бесполезно, в худшем — ведет к заблуждениям. ПОВТОРНАЯ ВЫБОРКА Первые два метода проверки достоверности результатов применяются часто, но они имеют серьезные недостатки. Специа. листы по методологии кластерного анализа не рассматривают эти методы в качестве методики обоснования результатов (Наг()дап, 1975а). 194 Третий метод позволяет оценить степень повторяемости кластерного решения в серии наборов данных, Если для различных выборок из одной и той же генеральной совокупности получается одинаковое кластерное решение, то напрашивается вывод, что это решение присуще всей совокупности.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6363
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее