Главная » Просмотр файлов » И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 43

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 43 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 432019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 43)

7), ясно показывает, что найденное решение состоит из трех кластеров. Как и вслучае метода средней связи, здесь имеется взаимосвязь между кластерами и диагностическими классами. Однако и метод Уорда не порождает точного решения. Нише приводится таблица распределения объектов по кластерам н классам: кластер ! П !!! Н ж ! О диагнозы П 1 !6 13 РЛ О ЗО О Обычная трудность, связанная с использованием метода Уорда, заключается в том, что найденные с его помощью кластеры можно упорядочить по величине профильного сдвига. Так, в приведенном решении профили кластера 111 являются наиболее приподнятыми, тогда как кластер 11 содержит наименее приподнятые кластеры.

Практическое применение метода Уорда в социологических исследованиях показало, что он порождает решения, которые находятся под сильным воздействием величины профильного сдвига. Имеется несколько способов сравнения различных иерархических агломеративных методов. С помощью одного из ннх можно проанализировать, как зти методы преобразуют соотношения между точками в многомерном пространстве. Сжимающие пространство методы изменяют эти соотношения, «уменьшая» пространство между любыми группами в данных. Когда очередная точка подвергается обработке таким методом, она скорее всего будет присоединена к уже существующей группе, а ие послужит началом нового кластера. Расширяющие пространство методы действуют противоположным образом. Здесь кластеры как бы «расступаются»; таким образом в пространстве образуются мелкие, более «отчетливые» кластеры.

Этот способ группировки также склонен к созданию кластеров гиперсферической формы и приблизительно равных размеров. Методы Уорда и полных связей являются методами, расширяющими пространство. И ~наконец, сохраняющие пространство методы, такие, как метод средней связи, оставляют без изменения свойства исходного пространства.

Уильямс и др. (1971) рассматривают свойства сужающих пространство методов как недостатки, особенно в прикладном анализе данных, тогда как, по мнению других авторов, — среди них наиболее известны Джардайн и Сибсон (1988) — эти методы предпочтительнее ввиду их хороших математических свойств, невзирая на результаты их практического использования. Эверитт (1980) уравновешивает зти две крайности замечанием, что успех применения рассматриваемых методов в анализе данных в большой степени зависит от априорных представлений об ожидаемом виде класте- 175 ров и действительной структуре данных, Проблема, которая будет подробно обсуждаться в одном из последующих разделов, состо- ит в том, чтобы определить, когда один из этих методов привносит в данные не свойственную им структуру.

ИТЕРАТИВНЫЕ МЕТОДЫ ГРУППИРОВКИ В отличие от иерархических агломератнвных методов итеративные методы группировки кластерного анализа не имели широкого применения, и специфика использования этих методов не до конца понимается их потенциальными пользователями. Большинство итеративных методов группировки работает следующим образом: 1. Начать с исходного разбиения данных на некоторое заданное число кластеров; вычислить центры тяжести этих кластеров. 2. Поместить каждую точку данных в кластер с ближайшим центром тяжести. 3.

Вычислить новые центры тяжести кластеров; кластеры не заменяются на новые до тех пор, пока не будут просмотрены полностью все данные. 4. Шаги 2 и 3 повторяются до тех пор, пока не перестанут меняться кластеры. Данные ММР1-теста были подвергнуты кластеризации с помощью процедуры к-средних процедурой С(.118ТАб) (УУ(з)1аг1, 1982) для того, чтобы продемонстрировать основные черты итеративных методов. Первый шаг состоит в формировании исходного разбиения данных, Процедура С( 118ТАг) произвольно распределяет 90 объектов по трем кластерам (й=3).

Значение й задается пользователем. Затем вычисляются центры тяжести кластеров. После этого определяются евклидовы расстояния между всеми объектами и центрами тяжести трех кластеров н объекты приписываются к ближайшему центру тяжести. Для данных ММР1-теста это означает, что 51 объект перемещается из кластера, в котором они Находились первоначально, в кластер с ближайшим центром тяжести. После всех перемещений вычисляются центры тяжести новых кластеров. Эти центры тяжести уже совсем другие и приближаются к реальным центрам трех групп в данных ММР1-теста. На втором шаге все повторяется, но на этот раз производится восемь перемещений.

Находятся поные центры тяжести и переходим к следующему шагу. На третьем шаге никаких перемещений не происходит. Все объекты приписываются к ближайшим центрам тяжести кластеров. В отличие от иерархических агломеративных методов, которые требуют вычисления и хранения матрицы сходств между объектами размерностью ЖХА7„ итеративные методы работают непосредственно с первичными дамными. Поэтому с их помощью возможно обрабатывать довольно большие множества данных. Более того, итеративные методы делают несколько просмотров данных и могут компенсировать последствия плохого исходного разбиения дан- 176 иых, тем самым устраняя самый главный недостаток иерархических агломеративных методов.

Эти методы порождают кластеры одного ранга, которые не являются вложенными, и поэтому не могут быть частью иерархии. Большинство итеративных методов не допускает перекрытия кластеров. Несмотря на свои привлекательные черты, итеративные методы группировки имеют существенное ограничение. Наиболее простой способ отыскать оптимальное разбиение множества данных с помощью итеративного метода заключается в образовании всевозможных разбиений этого множества данных. Но такое, казалось бы, простое с точки зрения математических вычислений решение возможно лишь для очень небольших и тривиальных задач. Для 15 объектов и 3 кластеров этот подход требует рассмотрения 217945?28000 конкретных разбиений, что, очевидно, за пределами возможностей современных вычислительных машин.

Поскольку все допустимые разбиения даже для маленькихиаборов данных не могут быть рассмотрены, исследователи разработали широкий круг эвристических процедур которые можно использовать для выбора небольшого подмножества из всех разбиений данных, чтобы найти или хотя бы приблизиться к оптимальному разбиению набора данных. Эта ситуация подобна той, с которой сталкиваются при эвристическом подходе к разработке правил объединения для иерархических агломеративных методов.

Процедуры выбора разумны и правдоподобны, но только малая часть из них имеет достаточное статистическое обоснование. Большинство эвристических, вычислительных и статистических свойств итеративных методов группировки могут быть описаны с помощью трех основных факторов: 1) выбора исходного разбиения; 2) типа итерации и 3) статистического критерия. Эти факторы могут сочетаться огромным количеством способов образуя алгоритмы отбора данных прн определении оптимального разбиения. Не удивительно, что их различные комбвнации ведут к разработке методов, порождающих разные результаты при работе с одними и теми же данными. Исходное разбиение.

Есть два основных способа начать итеративный процесс: определить начальные точки или подобрать подходящее начальное разбиение. Начальные точки определяют центры тяжести кластеров (АпбегЬегд, 1973). Когда используются начальные точки, то при первом просмотре точки данных приписываются к ближайшим центрам тяжести кластеров. Задание начального разбиения требует детального распределения данных по кластерам. В этой процедуре центр тяжести каждого кластера определяется как многомерное среднее объектов кластера. Начальные разбиения могут выбираться случайным образом (как это было в примере с данными ММР1-теста) или же задаваться каким-либо образом самим пользователем (например, пользователь может взять в качестве исходного разбиения решение, полученное иерархической кластеризацией).

177 Тил итерации. Данный момент итерационного процесса связан со способом распределения объектов по кластерам. И опять имеются два основных вида итераций: по принципу Ьсредних и по принципу «восхождения на холм». Итерации по принципу й-средних (они называются также «итерациями по принципу ближайшего центра» и «перемещающими итерациями») заключаются просто в перемещении объектов в кластер с ближайшим центром тяжести. Итерации по принципу й-средних могут быть либо комбииаторными, либо некомбинаторными. В первом случае перевычисление центра тяжести кластера производится после каждого изменения его состава, а во втором случае — лишь после того, как будет завершен просмотр всех данных.

Кроме того, итерации по принципу л-средних подразделяются на исключающие и включающие. В итерациях исключающего типа после вычисления центра тяжести кластера рассматриваемый объект удаляется нз кластера, а в итерациях включающего типа — помещается в кластер. В итерациях, работающих по принципу «восхождения на холм», вместо присоединения объектов к кластеру в зависимости от расстояния между объектом и центром тяжести кластера, перемещение объектов производится исходя нз того, будет или нет предполагаемое перемещение оптимизировать значение некоторого статистического критерия. Статистический критерий.

Методы, основанные иа принципе «восхождения на холм», используют один или несколько следующих критериев (функций качества кластеризации): 1гЯ7, 1г%'-' В, г(е1 Я7 и наибольшее собственное значение матрицы ((7-'В, где %'— объединенная внутригрупповая ковариацнонная матрица, в В— объединенная межгрупповая ковариационная матрица. Каждая из этих статистик часто рассматривается в многомерном дисперсионном анализе (МАг(ОУА); их применение выводится из статистической теории, заложенной в МАИОЧА. Фактически все четыре критерия связаны с обнаружением однородности кластеров в многомерном пространстве.

Хотя в явном виде итерации по принципу й-средних не применяют статистический критерий прн перемещении объектов, неявно они оптимизируют критерий (г%'. Таким образом, процедура л-средних минимизирует дисперсию внутри каждого кластера. Важно отметить, однако, что итерации по принципам й-средннх и «восхождсння на холм», используя критерий (г%', приведут к различным результатам при одних и тех же исходных данных.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6363
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее