И.Д. Мандель - Кластерный анализ (1185344), страница 16

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 16 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 162020-08-252020-08-25СтудИзба

И.Д. Мандель - Кластерный анализ.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 16)

41). Затем определяют наличие ближайших соседей (среди классов) так: 2 класса называются ближайшими соседями, если среднее значение их объединения ближе к одному из классов, чем .к любому из других кластерных средних. Очевидно, число таких соседей может оказаться существенно меньше, чем число всех пар в~. Строится матрица расстояний, в которой конечные расстояния ставятся только между соседями, а для других пар с(!;=оо. К этой матрице применяется метод единственной связи (алг. 2).

Самое интересное здесь вЂ” элиминация больших расстояний. В [154] эта идея особенно не эксплуатируется, так как внимание уделяется в основном вероятностной проблематике, но с вычислительной точки зрения она представляется привлекательной и скорее всего может служить основой для создания быстрых процедур.

67. Для каждого объекта задан )сь который определяет гиперсферу. Областью взаимного поглощения называется такое пересечение гиперсфер, при котором их центры также находятся в этом пересечении. Все объекты в областях поглощения составляют классы. На рис. 2.20 заштрихованы области поглощения: !!! вЂ” 2, 3; ЩвЂ” 2, 1; = вЂ” 5, 6. Эти группы объектов и составляют классы, причем, как видно, объект 3 попадает сразу в 2 класса, а объект 4 не попадает никуда. При )т!=сонэ( для всех 1 алгоритм превращается в процедуру типа [35].

Рекомендации выбора Я! носят эвристический характер как среднее расстояние данного объекта до всех остальных или, в общем случае, как некий настроечный параметр. Могут быть сильные пересечения классов. 68. У каждого объекта упорядочиваются все расстояния от него до других объектов; затем вводится на этих порядках некая новая мера близости объектов, например, коэффициент ран- 4 говой корреляции, после чего данные обрабатываются какими-либо алгоритмами. Вариант: для каждого объекта отыскивается а ближайших к нему, пос- ! ле чего между этими векторами определяется мера близости (по Хеммингу и пр. [21[), либо класс формируется из Рис.

2.20. 68 тех объектов, которые пересекаются в в-окрестностях (зто похоже на алг. 67). В целом меры такого типа (часто используемые в многомерном шкалировании) весьма интересны, так как позволяют ~скрыть более точно топологию пространства (см. 1.2), но изучены они недостаточно. 2.2.4.ОВСРЖДЕНИЕ ОСНОВНЫХ ТИПОВ ПРОЦЕДУР Иерархические алгоритмы. Как можно было заметить, почти все иерархические алгоритмы (особенно агломеративные) отличаются друг от друга фактически только методом расчета расстояний между классами. Оказывается, многие способы пересчета можно задать по единой формуле с изменяющимися значениями параметров, предложенной Г.

Лансом и У. Уильямсом [5, 33, 34 и др.] и обобщенной М. Жамбю [135; 85, с. 124 вЂ” !37]. Формула имеет вид: 55Ш52 ! 55~+ 2 552+ 3 5152+ + 4(5+ 615,+ 615 + (2.)) где 54[)52 вЂ” класс, полученный объединением двух классов на предыдущей итерации и объединяемый на данной итерации с 5, 6(„з вЂ” РасстоЯние междУ множествами А и В; 1„вЂ” РасстоЯние, при котором произошло образование кластера А (т.

е. его уровень на дендрограмме); а4 вЂ” ат вЂ” коэффициенты, с помощью которых можно вести рекурсивный подсчет расстояний между кластерами на любом уровне. В формуле Ланса вЂ” Уильямса а4 вЂ” аз отсутствуют. Значения а~ вЂ” аз определяют различные функции расстояния между классами или величины, подобные расстояниям, которые имеет смысл минимизировать на каждом шаге алгоритма. В табл.

2.4, составленной на основе [123, 124, 137], приведены основные варианты значений параметров, которые определяют соответствуюшие алгоритмы. При анализе дендрограмм естественно считать, что объединение объектов на позднем шаге алгоритма осуществляется при более высоком значении расстояния, чем на раннем шаге, т. е. соблюдается монотонность. Однако в некоторых алгоритмах появляется немонотонность, что затрудняет анализ. Внимание исследователей привлекла задача: при каких значениях а~ вЂ” аз (ранее а2 вЂ” аз, ат) монотонность не будет нарушаться, т. е.

в дереве не будет инверсий. Решения ее В. Коппом [137], Г. Миллиганом, В. Батажеличем [115] были обобшены в 1984 г. Е. Диде и В. Моро в [123]. Показано, что инверсии отсутствуют, если справедливы неравенства: ат) вЂ” ш)п(аь аз); а4+аз)0, а,+аз+аз)1; а4)0, 1=4, 5, 6. (2.2) В частности, для алгоритмов «медиана» и «центроид» третье условие не выполнено, т. е. зти алгоритмы могут давать немонотонные деревья. 69 сч О Р О о ! о о о о о о о о о О о р р ь о о о о о р о р сс о о с~ ~с. ! ! сч Ю сс 1» сс сс сС 1» сч + - + й 66 » ъ ~н 66 сс вЂ” ~сс Ф й ч й й.

сЕ сс 3 й й о с "с а о Ф Ец й $ вс $ а» ,„з й й ч й ч й Ф й. й с ч й ч» й й а й ч .с В сс й а й а й К й й о » ч ф а» й й ч чс сс1 сС е ш сЛ щ 6 й» Е Е а '" с с о о ч й й й В л с й й й Е В й й а о ч й Е И й й ча с.с ЛЛ оо оо Х с Х о. ь а о у оо оо а а а Х о с О Оо а щ о а М о Х ОО Ю а а ь ЙЛ оо о Х с Х СЧ щ сч о ЛО о ас о Х щ ь щ ь а щ ой 'щ Х о .а уаа Х2щ а3 о ь 'Ххь, Я а»й Х Х Ф аыа и х И оо Хсб Х ХХ а ХО ыс йа ащь у с. щ ь Зо ~о~ ос йР ..Я' ..й а а 1~ у а а о С а о ~ ос ,. х" со а ь а ай Х ь», о щи и и х и \ ь ы ь а а з ХО Х С'3 щ а щ ыс х.|о со ~й а ао а а оу о.

Х Х о о. с щ и 1 с щ о а Х о. щ Х с щ с о щ ь о Х а Х Х о щ О + ~! и ш 1 ь с~ !». о о Х Х щ 'щ а ы а и а Х р щ у ИЙ й ь х о с у о а о щ й а о а о И+ Х~ Й+ ас ~~ Х 1! ы о. ь ! 'х и .Иь .!! ао ~.й Х Д Ф а о у а х й~ о. а с О О а ау х ь' о ы ! о ~" О) ХЖ с о) а о Х Н а о Х о а а щ с Х ь ( Х о ь а 71 Наличие условий (2.2) позволило авторам [123] сформулировать интересную постановку задачи классификации.

Пусть имеются некоторые иерархии или разбиения с известными межклассовыми расстояниями. В [123] для этой цели предлагается брать некоторые искусственные данные, в которых отражены предполагаемые свойства реального разбиения (например, наличие вытянутых кластеров и т. д.). Тогда (2.1) можно рассматривать как некоторое уравнение регрессии, в котором а~ вЂ” аг неизвестны, а остальные величины даны по обучающей выборке. Неравенство (2.2) следует рассматривать как ограничения и решать соответствующую регрессионную задачу с ограничениями (см., например, методы решения в [3, т.

2]). Найденные оптимальные значения параметров используются в классификации «большого» массива. Конечно, здесь возникает ряд вопросов, связанных с формированием обучающей выборки, но в целом идея частичного обучения выглядит многообещающей. В табл. 2.4 (алг. 13) приведены расчетные значения, полученные при двух обучающих примерах: первая строка вЂ” два плотных кластера с соединяющей цепочкой, вторая вЂ” два плоских параллельных кластера с цепочкой. По этим значениям параметров успешно распознались семь (из 1!) остальных фигур в [123] (полуторы с центром, вложенные полукольца и т. д.). Поскольку этот результат наилучший, параметры можно использовать непосредственно в других расчетах.

Данные первой строки напоминают по результатам значения, полученные методом ближнего соседа, второй вЂ” дальнего. Особый интерес представляют алг. 10 вЂ” 12. Их показатели удовлетворяют условию редуктивности (алг. 16) и используются в быстрых процедурах. В [85, с. !30 вЂ” !37] М. Жамбю названы еще несколько показателей такого типа, а Е. Диде приводит особые требования, при которых расстояния в (2.1) удовлетворяют этому условию (неравенства несколько отличны от (2.2) ).

Так что в целом можно сказать, что вопрос о быстрых иерархических процедурах теоретически решен достаточно полно. Что касается практики, то обычные алгоритмы требуют О(п') объема памяти, а редуктивные сокращают эти параметры на порядок. Так, в [!35] приводится пример обработки 5000 объектов за 7 мин. на 1ВМ-370. Другой путь ускорения процедур заключается не в полной кластеризации всего набора объектов, а в случайной классификации некоторых выборок исходных данных с тем, чтобы общие свойства разбиения с определенной вероятностью гарантировались для всего множества.

Разные схемы такого рода описаны в [1!3, 136] и обобщены О. Матулой [59, с. 83 вЂ” !11] (см. также [65] и алг. 51). Очень быстрый алгоритм со скоростью О(1ояп) описан; он тоже опирается на предварительное обучение, как и схемы вычислений в [123]. Вообще процедуры с частичным обучением представля- ' Мис1ег Д., 0азоиа гн. Арргохппапае 1аа1 пеагеа1 вЂ” пе1яьопг гесояпиюп// Раг.

гесояп. 1е11ега.вЂ” 1983.вЂ” Ч. 1.вЂ” р. 277 вЂ” 288. ,от собой промежуточное звено между «чистой кластеризацией» н классическим методом распознавания образов (см. также [145[ и р4. в 2.3). Точный ответ на вопрос о сферах применимости того или иного метода отсутствует. Общепризнано, что метод ближнего соседа имеет тенденцию к выделению цепочечно расположенных кластеров (см. рис. 2.2); метод дальнего соседа может на раннем этапе объединить довольно несхожие группы. В силу этих крайностей часто подчеркивают преимущество «умеренных» г-связывающнх процедур [84, с.

112 вЂ” 128[, но вопрос о выборе «хорошего» г остается открытым. У советских исследователей г-связывающие методы пока практически не нашли применения, хотя «обычные» алгоритмы используются широко ( [5, 34, 47, 74 и др.[, см. 4.2). В целом по иерархическим процедурам накоплена чрезвычайно богатая литература, что связано, видимо, с четкостью, изяществом и математической строгостью конструкций, позволяющих использовать развитой аппарат теории графов, ранговой статистики и т. д. для анализа алгоритмов. С точки зрения экспериментального сравнения этим алгоритмам также повезло вЂ” именно они чаще всего используются в искусственных полигонах (см.

2.4). Существенно то, что многие методы при своей внешней «непосредственности» на самом деле доставляют локальный экстремум какому-либо критерию (алг. 8, 16 и др., см. 2.3), так что они вполне вписываются и в рамки оптимизационного подхода. Важным достоинством иерархических алгоритмов является наглядность результатов работы, позволяющая тщательно изучить дендрограмму н сделать по ней выводы, причем желательно сравнивать несколько дендрограмм, полученных разными методами. Примеры использования алгоритмов даны в 4.3, 4.4.

Характеристики

Тип файла

DJVU-файл

Размер

2,38 Mb

Материал

И.Д. Мандель - Кластерный анализ.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.d.-mandel-klasternyj-analiz.djvu.rar

И.Д. Мандель - Кластерный анализ.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.