Главная » Просмотр файлов » Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 42

Файл №1185345 Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu) 42 страницаКим_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345) страница 422020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 42)

Первый кластер (1) содержит почти половину профилей больных психозами, Второй кластер (11) довольно мал и поровну разделен на профили больных неврозами и психозами. Третий кластер (1П) содержит фактически все случаи неврозов, тогда как в четвертый (1Ч) самый большой кластер входят профили больных расстройствами личности и значительное число профилей больных психозами. В какой степени совпадают кластеры и диагностические классы, показывает следующая таблица: 173 кластеры И !11 2 26 з о о о 1 1Ч н о 2 П 1З 14 РЛ О зо диагнозы 154 007 137 891 121 Л5 105 559 69.544 73.428 57 312 41 196 25 080 8,954 Рнс.

7. Дендрограмма метода Уорда длн данных ММР1- теста 174 Метод Уорда. Данный метод построен таким образом, чтобы оптимизировать минимальную дисперсию внутри кластеров. Эта целевая функция известна как внутригрупповая сумма квадратов или сумма квадратов отклонений (СКО). Формула суммы квадратов отклонений имеет вид С КО= х,з — Цп 1Ххт) 3 где х, — значение признака )ьго объекта. На первом шаге, когда каждый кластер состоит из одного объекта, СКО равна О. По методу Уорда объединяются те группы или объекты, для которых СКО получает минимальное прирашение. Метод имеет тенденцию к нахождению (илн созданию) кластеров приблизительно равных размеров и имеющих гиперсферическую форму, Метод Уордафактически не,нашел применения в биологии, но широко используется во многих социальных науках (В!азЫеЫ, 1980).

Дерево„порожденное методом Уорда (рис. 7), ясно показывает, что найденное решение состоит из трех кластеров. Как и вслучае метода средней связи, здесь имеется взаимосвязь между кластерами и диагностическими классами. Однако и метод Уорда не порождает точного решения. Нише приводится таблица распределения объектов по кластерам н классам: кластер ! П !!! Н ж ! О диагнозы П 1 !6 13 РЛ О ЗО О Обычная трудность, связанная с использованием метода Уорда, заключается в том, что найденные с его помощью кластеры можно упорядочить по величине профильного сдвига.

Так, в приведенном решении профили кластера 111 являются наиболее приподнятыми, тогда как кластер 11 содержит наименее приподнятые кластеры. Практическое применение метода Уорда в социологических исследованиях показало, что он порождает решения, которые находятся под сильным воздействием величины профильного сдвига.

Имеется несколько способов сравнения различных иерархических агломеративных методов. С помощью одного из ннх можно проанализировать, как зти методы преобразуют соотношения между точками в многомерном пространстве. Сжимающие пространство методы изменяют эти соотношения, «уменьшая» пространство между любыми группами в данных. Когда очередная точка подвергается обработке таким методом, она скорее всего будет присоединена к уже существующей группе, а ие послужит началом нового кластера. Расширяющие пространство методы действуют противоположным образом.

Здесь кластеры как бы «расступаются»; таким образом в пространстве образуются мелкие, более «отчетливые» кластеры. Этот способ группировки также склонен к созданию кластеров гиперсферической формы и приблизительно равных размеров. Методы Уорда и полных связей являются методами, расширяющими пространство. И ~наконец, сохраняющие пространство методы, такие, как метод средней связи, оставляют без изменения свойства исходного пространства. Уильямс и др. (1971) рассматривают свойства сужающих пространство методов как недостатки, особенно в прикладном анализе данных, тогда как, по мнению других авторов, — среди них наиболее известны Джардайн и Сибсон (1988) — эти методы предпочтительнее ввиду их хороших математических свойств, невзирая на результаты их практического использования.

Эверитт (1980) уравновешивает зти две крайности замечанием, что успех применения рассматриваемых методов в анализе данных в большой степени зависит от априорных представлений об ожидаемом виде класте- 175 ров и действительной структуре данных, Проблема, которая будет подробно обсуждаться в одном из последующих разделов, состо- ит в том, чтобы определить, когда один из этих методов привносит в данные не свойственную им структуру. ИТЕРАТИВНЫЕ МЕТОДЫ ГРУППИРОВКИ В отличие от иерархических агломератнвных методов итеративные методы группировки кластерного анализа не имели широкого применения, и специфика использования этих методов не до конца понимается их потенциальными пользователями.

Большинство итеративных методов группировки работает следующим образом: 1. Начать с исходного разбиения данных на некоторое заданное число кластеров; вычислить центры тяжести этих кластеров. 2. Поместить каждую точку данных в кластер с ближайшим центром тяжести. 3. Вычислить новые центры тяжести кластеров; кластеры не заменяются на новые до тех пор, пока не будут просмотрены полностью все данные.

4. Шаги 2 и 3 повторяются до тех пор, пока не перестанут меняться кластеры. Данные ММР1-теста были подвергнуты кластеризации с помощью процедуры к-средних процедурой С(.118ТАб) (УУ(з)1аг1, 1982) для того, чтобы продемонстрировать основные черты итеративных методов. Первый шаг состоит в формировании исходного разбиения данных, Процедура С( 118ТАг) произвольно распределяет 90 объектов по трем кластерам (й=3). Значение й задается пользователем. Затем вычисляются центры тяжести кластеров. После этого определяются евклидовы расстояния между всеми объектами и центрами тяжести трех кластеров н объекты приписываются к ближайшему центру тяжести. Для данных ММР1-теста это означает, что 51 объект перемещается из кластера, в котором они Находились первоначально, в кластер с ближайшим центром тяжести. После всех перемещений вычисляются центры тяжести новых кластеров.

Эти центры тяжести уже совсем другие и приближаются к реальным центрам трех групп в данных ММР1-теста. На втором шаге все повторяется, но на этот раз производится восемь перемещений. Находятся поные центры тяжести и переходим к следующему шагу. На третьем шаге никаких перемещений не происходит. Все объекты приписываются к ближайшим центрам тяжести кластеров. В отличие от иерархических агломеративных методов, которые требуют вычисления и хранения матрицы сходств между объектами размерностью ЖХА7„ итеративные методы работают непосредственно с первичными дамными.

Поэтому с их помощью возможно обрабатывать довольно большие множества данных. Более того, итеративные методы делают несколько просмотров данных и могут компенсировать последствия плохого исходного разбиения дан- 176 иых, тем самым устраняя самый главный недостаток иерархических агломеративных методов. Эти методы порождают кластеры одного ранга, которые не являются вложенными, и поэтому не могут быть частью иерархии. Большинство итеративных методов не допускает перекрытия кластеров. Несмотря на свои привлекательные черты, итеративные методы группировки имеют существенное ограничение.

Наиболее простой способ отыскать оптимальное разбиение множества данных с помощью итеративного метода заключается в образовании всевозможных разбиений этого множества данных. Но такое, казалось бы, простое с точки зрения математических вычислений решение возможно лишь для очень небольших и тривиальных задач. Для 15 объектов и 3 кластеров этот подход требует рассмотрения 217945?28000 конкретных разбиений, что, очевидно, за пределами возможностей современных вычислительных машин. Поскольку все допустимые разбиения даже для маленькихиаборов данных не могут быть рассмотрены, исследователи разработали широкий круг эвристических процедур которые можно использовать для выбора небольшого подмножества из всех разбиений данных, чтобы найти или хотя бы приблизиться к оптимальному разбиению набора данных. Эта ситуация подобна той, с которой сталкиваются при эвристическом подходе к разработке правил объединения для иерархических агломеративных методов.

Процедуры выбора разумны и правдоподобны, но только малая часть из них имеет достаточное статистическое обоснование. Большинство эвристических, вычислительных и статистических свойств итеративных методов группировки могут быть описаны с помощью трех основных факторов: 1) выбора исходного разбиения; 2) типа итерации и 3) статистического критерия. Эти факторы могут сочетаться огромным количеством способов образуя алгоритмы отбора данных прн определении оптимального разбиения. Не удивительно, что их различные комбвнации ведут к разработке методов, порождающих разные результаты при работе с одними и теми же данными.

Исходное разбиение. Есть два основных способа начать итеративный процесс: определить начальные точки или подобрать подходящее начальное разбиение. Начальные точки определяют центры тяжести кластеров (АпбегЬегд, 1973). Когда используются начальные точки, то при первом просмотре точки данных приписываются к ближайшим центрам тяжести кластеров.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее