И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 8

DJVU-файл И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 8 (ПМСА) Прикладной многомерный статистический анализ (3367): Книга - 10 семестр (2 семестр магистратуры)И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) - DJVU, страница 8 (3367) - СтудИзба2020-08-252020-08-25KoalaСтудИзба

И.Д. Мандель - Кластерный анализ.djvu1242

Описание файла

DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр DJVU-файла онлайн

Распознанный текст из DJVU-файла, 8 - страница

Дело в том, что при росте корреляции нормировочный эффект не пропадает, а приобретает новые усложненные формы. А именно, если корреляции близки к единичным и дисперсии почти равны друг другу, определитель Ковариационной матрицы приближается к нулю, т. е. матрица становится близка к вырожденной. Обратная матрица Ф' ' приобретает крайне неустойчивый вид, что„конечно, способствует произвольному упорядочению расстояний Махаланобиса. 1 Другая особенность расстояния заключается в его «контекстном» характере.

Наличие в формуле матрицы ковариаций делает расстояние между двумя точками зависимыми от расстояний между другими точками. Поэтому наличие аномальных наблюдений может исказить 2 Заа ом зз всю матрицу расстояний, что вообще свойственно для дисперснонных статистик. Известно, что расстояние Махаланобиса превращается в евклидова в пространстве главных компонент [92]. Специфика перехода к такому новому пространству рассмотрена в 3.1. Рассмотрим вкратце метрики для качественных шкал. Выбор конкретного измерителя должен осуществляться прежде всего из содержательных соображений: если предполагается равная значимость совпадения единичных и нулевых свойств, то следует применять расстояние Хемминга; если важно только наличие свойства, а не его отсутствие вЂ” использовать коэффициента Рао или Роджерса вЂ” Танимото.

Расстояние Хемминга используется для сравнения объектов в смешанных шкалах наименований и порядка [62[; для порядковых шкал можно, по-видимому, использовать качественный вариант метрики Хемминга и количественный типа линейного расстояния. Особый интерес представляют специфические измерители для произвольных шкал. Наиболее прозрачен смысл меры близости Журавлева; если считать объекты близкими по данному признаку, то следует использовать ненулевое значение порога близости и дальнейшую процедуру осуществлять формально. Явное преимущество е~ заключается в возможности твердого содержательного обоснования уровня порога, так как он выведен за пределы многомерных условностей.

При таком подходе неизбежна определенная потеря информации; фактически осуществляется переход от количественных шкал к качественным «близко-далеко». Но в целом представляется, что подобные коэффициенты должны использоваться во всех случаях, где развитые содержательные представления позволяют сформировать ясную характеристику близости объектов. Мера близости Воронина позволяет повысить содержательную обоснованность расчетов (вводятся веса признаков и др.). Представляет интерес, например, учет неравнозначности областей признакового пространства: возрасты людей в 60 и 65 лет естественнее считать куда более близкими, чем в 10 и !5, хотя все метрики покажут здесь одинаковые расстояния.

В связи с этим целесообразно где-либо использовать логарифмическое преобразование шкалы и т. д. Мера близости Миркина отличается от других коэффициентов тем, что получена не просто как содержательная экспликация понятия близости, а как результат определенных теоретических предпосылок процесса классификации в целом (см. 2.3.4). Все рассмотренные характеристики близости объектов являются первичными, исчисляемыми непосредственно по значениям исходных признаков.

Существует другой класс мер близости, определяемых на основе рассчитанных показателей расстояния. В [19, с. 377; 23, с. 29[ описаны «контекстные» показатели близости, рассчитываемые определенным образом по зонам пересечения некоторых е-окрестностей каждой точки. Анализ такой вторичной 34 матрицы расстояний представляется весьма интересным, но детального изучения подобных мер не произведено. Набор расстояний одного объекта для всех остальных называется профилем данного объекта; можно считать измерение близости между профилями своеобразной контекстной мерой, получаемой, если в е-окрестность входят все объекты, а не определенная часть ближайших. Профили часто рассматриваются в многомерном шкалировании ~93). В заключение отметим, что матрица расстояний или близостей нередко задается непосредственно: либо как таблица экспертных оценок близости, либо как матрица прямых измерений сходства: межотраслевого баланса, степеней соседства географических регионов, взаимной цитируемости авторов и т.

д. В таких случаях все поставленные выше проблемы адекватности расстояний и выбора мер сходства снимаются. Конкретные рекомендации по выбору метрики приведены в 4.2. 2. ПРОЦЕДУРЫ КЛАСТЕРНОГО АНАЛИЗА 2.1 КЛАССИФИКАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ хлл. типы матодов кластер.анализа В настоящее время существует огромное количество алгоритмов кластер-анализа. Они отражают разнообразие не только вычислительных приемов, но и концепций, стоящих за ними. Попробуем разобраться в этих концепциях и на их основе проклассифицировать алгоритмы. Вся трудность заключается в том, что точной постановки задачи кластерного аналнива нет. Рассмотрим рис.

2.1. Из него видны большие сложности создания единой теории, позволяющей четко разделять приведенные сочетания классов. Эта теория должна учитывать разнообразные обстоятельства: расстояния между некоторыми точками класса С больше, чем межклассовые расстояния ряда точек в классах В и С; средние значения признаков в классах Е и Е, К игл' одинаковы; классы Р и Я соединены цепочкой, которую надо выделить, и т. д. Прежде чем строить теорию, учитывающую подобные конфигурации точек, надо ясно сознавать природу предъявленных к разбиениям требований.

Почему на рис. 2.1 границы классов проведены именно таким образом? Очевидно, Рнс. Т.К Различные формы кластеров в соответствии с интуитивным представлением о том, что кластер вЂ”. скопление точек вЂ” представляет собой некоторую целостность (образ), чем-то отличающийся от другого скопления точек, причем, вообще говоря, геометрически разные кластеры могут даже касаться друг друга (В и С, В и М) или пересекаться (К и Н). Различать кластеры, подобные изображенным на рис. 2.1, единым формальным способом чрезвычайно трудно вЂ” это и означало бы машинную реализацию чисто человеческого процесса распознавания образов.

Многолетние (с конца 50-х годов) попытки решить задачу «структурной классификации» привели к тому, что традиционную для статистики проблему выделения однородных групп объектов многие ученые стали трактовать как проблему распознавания образов без учения (самообучения). Наиболее естественный путь нахождения образов заключается в том, что дается точное определение образа и отыскивается скопление точек, обладающее соответствующими свойствами.

Например, образ (кластер) можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных (см. 2.2.2). Поэтому будем считать, что основой первого направления решения задачи структурной классификации является формулировка понятия кластера и разбиение совокупности на части, каждая из которых представляет собой кластер в данном смысле.

Такой подход часто называется эвристическим [5, 30 и др.[. Однако многие свойства этих процедур изучены достаточно хорошо, а некоторые из алгоритмов, как оказалось, находят локальный экстремум определенному функционалу. Поэтому назовем группу алгоритмов, ориентированных на выделение кластеров с заранее заданными свойствами, процедурами прямой классификации (см. 2.2) . Основной чертой таких процедур является использование ими только одного понятия кластера. Скажем, в группе методов й-средних объекты попадают в тот класс, расстояния до центра которого минимальны, т.

е. реализуется одно из определений кластера (см. 2.2.2). Это означает, что все классы разбиения будут удовлетворять именно этому определению. Если предположить, что некоторые исходные данные в самом деле имеют такой причудливый вид, как на рис. 2.1, то алгоритмы этого типа не смогут их разделить. Поэтому крайне интересно создать процедуры комбинированной прямой классификации, которые бы выделяли классы в смысле нескольких определений, т. е. подыскивали бы для каждого скопления свойственное ему определение кластера. Требования к хорошей классификации предъявляют не только в терминах определений отдельных кластеров. Часто общие представления о качестве классификации формулируются в виде неко-орого функционала, экстремальное значение которого соответствует наилучшей классификации.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.