Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 45

Файл №1185345 Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu) 45 страницаКим_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345) страница 452020-08-252020-08-25СтудИзба

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 45)

В той же степени не поддается решению задача о разделении смеси многомерных распределений в анализе реальных данных, Хотя многие вопросы м~ногомерных нормальных распределений хорошо разработаны, все же реальные данные не будут соответствовать этому стандарту; более того, м~ногне выборки реальных данных являются сложными смесями, имеющими различные многомерные выборочные распределения неизвестной структуры. Поскольку не существует статистической теории и теории распределений, которые помогли бы в разделении этих смесей, также неразумно ожидать появления формальных тестов для целей кластерного анализа.

Реакция на эти ограничения была различной. В некоторых отраслях, особенно в биологии, задача определения числа кластеров не имеет первостепенной важности просто потому, что целью анализа является предварительное исследование общей картины зависимостей между объектами, представленной в виде иерархического дерева.

Однако в социальных науках развиваются два основных подхода к определению числа присутствующих кластеров; эвристические процедуры и формальные тесты. Эвристические процедуры вЂ” несомненно наиболее часто испо льзуемые методы. На самом верхнем базисном уровне иерархическое дерево «обрезается» после субъективного просмотра р азличных уровней дерева. Для дендрограммы (рис. 8), изображаюгцей результаты обработки полного набора данных о захоронениях методом Уорда, применяемых евклидово расстояние, субъективная обрезка дерева приведет к выделению двух кластеров одногоуровня и, возможно, трех кластеров, если рассматривать различные уровни дерева.

Эту процедуру вряд ли можно назвать удовлетворительной, поскольку обычно ее результаты зависят от нужд и представлений исследователей о «правильной»-структуре данных. Более формальный, но все же эвристический подход к задаче состоит в том, чтобы графически изобразить число получаемых из иерархического дерева кластеров как функцию коэффициента слияния или смешения, равного числу способов объединения различных объектов в кластер. Значения коэффициентов слияния показаны вдоль оси У древовидной диаграммы. Этот тест, вариант 2.620 2 525 2 229 5934 1.ВЗВ 1.эаэ 0.152 0.451 оды Рис. В дендрограмма метода уорда для полного на- бора данных о захоронениях которого был предложен Торндайком в 1953 г., аналогичен критерию отсеивания факторного анализа, Заметное «уплощение» на этом графике говорит о том, что дальнейшее слияние кластеров не дает новой информации.

На рис. 9 показан такой график для пол~ного набора данных о захоронениях, полученный с помощью метода Уорда и евклидова расстояния. Уплощение кривой начинается вблизи решения из трех кластеров, и линия остается, по существу, плоской возле решения из двух кластеров. Отсюда следует, что в данных присутствуют три (но вероятнее всего два) кластера. Другая субъективная процедура, несколько более формализованная, заключается в том, чтобы прн новом просмотре значений коэффициента слияния найти значимые «скачки» значения коэффициента.

Скачок означает, что объединяются два довольно несхожих кластера. Таким образом, число кластеров, предшествую- 24 23 22 27 га 19 79 17 1б и !4 а 1з Ы 12 Е !1 ч 79 О .4 .б 1.2 !,б 2.9 2.4 2.В З.О коэффициент сяияиия Рис. 9. График зависимости между числом кластерон и величиной козффимнента слияния, полученный с помоптью метода Уорда для полного набора данных о захоронениях щее этому объединению, является наиболее вероятным решением. Ниже показаны коэффициенты слияния, соответствующие числу кластеров, которое для полного множества данных о захоронениях принимает значения от 10 до 1.

1О кластеров 0,312 5 кластеров 0,729 9» 0,333 4» 0,733 8» 0,354 3» 1,075 7» 0,458 2» 1,708 6» 0,642 1» 2,872 З1+т) З+ йэт где г вЂ” величина коэффициента слияния; гр+т вЂ” величина коэффициента 1на (/+1)-м этапе кластерного процесса; (с вЂ” стандартное отклонение, а г н з, вЂ” среднее и стандартное отклонение коэффициентов слияния. Невыполнение неравенства говорит о том, что в данных имеется только один кластер.

На практике ста~ндартное отклонение может быть вычислено на каждом этапе кластерного процесса, где Ф равно: й1= (з'+ з)/зтт Значения коэффициента слияния для полного набора данных о захоронениях, обработанного методом кластеризации Уорда с использованием евклидова расстояния, были рассмотрены выше. Теперь приведем значения стандартного отклонения для решений, содержащих от 1 до 4 кластеров: Коаффиииенты тлитиии Стандартное отилонение 0,458 0,974 1,929 3,684 0,472 1,074 1,707 2,871 4 кластера 3» 2» 1» В этом случае согласно правилу остановки оптимальным считается решение из трех кластеров. Уишарт (!982) отметил, что можно оценить статистическую значимость результатов, полученных с помощью этого правила, используя 1-статистику с и вЂ” 2 степе- 187 Как видим, между решениями из четырех и трех кластеров есть скачок, что приводит к выводу о допустимости решения из четырех кластеров. Одна из трудностей, связанная с этой процедурой, состоит в том, что можно найти много малых скачков значения коэффициента слияния, но совершенно невозможно исходя лишь из простого визуального обследования указать, какой из этих скачков «правильный».

Этот тест был обобщен в работах (Мо)епа, 1977, Мо)епа апб %(зЬаг1, 1980). Там же была разработана эвристическая процедура, позволтнощая лучше определить «значимый скачок» коэффициента. «Правило остановки № 1», как его определил Мойена, предписывн:т, что групповой уровень или оптимальное разбиение нерархическото кластерного решения получается, если удовлетворяется неравенство нями свободы, где и вЂ” число коэффициентов слияния, Процедура заключается в перемножении квадратного корня из и вЂ” 1 и значения стандартного отклонения й. В данном примере значения 4,79 (квадратный корень из 23) умножается на 9,74, в результате получаем 4,67.

Значение значимо с уровнем 0,01 при 22 степенях свободы. Сейчас этот метод вместе с более сложным правилом встроен в процедуру СШЬТАМ2. Трудности, связанные с составными многомерными выборочными распределениями, мало сказались на разработке формальных статистических тестов, но широкое распространение получило лишь небольшое число этих тестов. Нулевая гипотеза, наиболее часто применяемая в статистических тестах, предполагает, что исследуемые данные являются случай~ной выборкой из гекеральной совокупности с многомерным нормальным распределением. Вульф (1971), считая, что это предположение верно, предложил тест отношения правдоподобия для проверки гипотезы, что имеется г, а не г' групп.

Альтернативная гипотеза, разработанная Ли (!979), заключается в следующем; да~нные вЂ” это выборка из генеральной совокупности с равномерным распределением. Тест, основанный на альтернативной гипотезе, использует критерий внутрнгрупповой суммы квадратов. Он является полезной отправной точкой в определении возможных различий между кластерами. К сожалению, тест может работать только с одним признаком. Какая бы процедура ни была выбрана, пользовагель должен постоянно сознавать, что лишь малая часть этих тестов подверглась широкому изучению. Таким образом, поскольку большинство тестов плохо изучено и эвристично, то результаты их использования должны приниматься с большой осторожностью. В идеале правила определения числа имеющихся в наличии кластеров должны использоваться совместно с подходящей процедурой проверки достоверности результатов (см.

разд. 1У), так как может случиться, что правило остановки рекомендует такое число кластеров, которое не подтверждается результатами измерений по другим критериям. срдвнпнив мвтодов илдстпвиздции Как мы уже говорили, с помощью разных методов кластеризации можно получить различные результаты для одних и тех же данных, Теперь попробуем разобраться, почему так происходит. Мы постоянно отмечали, что некоторые методы имеют присущие только им особенности и свойства.

Например, метод одиночной связи имеет тенденцию к образованию длинных цепочек кластеров, в то время как метод Уорда склонен к образованию плотных гиперсферических кластеров. Понимание того, что различные методы кластеризации будут порождать заметно различающиеся результаты, имеет более чем просто академический интерес, поскольку эти методы применяются к исследованию реальных данных без особых раздумий, рутин~но. Лучше еще до исчерпывающего анализа данных знать сильные и слабые стороны различных методов, чем 1ев внезапно обнаружить, что результаты анализа во многом обязаны свойствам самого метода, а не внутренней структуре данных. Многие сравнения кластерных методов сводятся к оценке, насколько хорошо различные методы кластеризации восстанавливают известную структуру данных.

Хотя в некоторых из этих исследований были использовамы реальные данные с такими же характеристиками, в большинстве случаев применялись искусственные данные, полученные с помощью моделирования методом Монте-Карло и выборочного метода, которые специально создавались для имитации особенностей реальных данных (например, данные, имитирующие результаты ММР1-теста (В!азЫ!е!б апб Могеу, 1980). Чаще всего наборы данных подбирались в соответствии со свойствами важных видов распределений, таких, как двумерное нормальное, многомерное нормальное и многомерное гамма-распределения.

В зависимости от цели сравнения эти наборы данных изменялись в размерах (число объектов на кластер), форме кластеров, числе кластеров в данных, степени перекрытия кластеров, наличии выбросов и степени полноты классификации (должна ли классификация быть исчерпывающей). Некоторые сравнения проводились на наборах данных, удовлетворяюших ультраметрическому неравенству вЂ” более строгому варианту неравенства треугольника, описанному в равд. !1 (М)1!!пап апб 1ззас, 1980).

Характеристики

Тип файла

DJVU-файл

Размер

2,35 Mb

Материал

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

kim_-mjuller-i-dr-faktornyj_-diskriminantnyj-i-klasternyj-analizy.djvu.rar

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.