И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 8
Описание файла
DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 8 - страница
Дело в том, что при росте корреляции нормировочный эффект не пропадает, а приобретает новые усложненные формы. А именно, если корреляции близки к единичным и дисперсии почти равны друг другу, определитель Ковариационной матрицы приближается к нулю, т. е. матрица становится близка к вырожденной. Обратная матрица Ф' ' приобретает крайне неустойчивый вид, что„конечно, способствует произвольному упорядочению расстояний Махаланобиса. 1 Другая особенность расстояния заключается в его «контекстном» характере.
Наличие в формуле матрицы ковариаций делает расстояние между двумя точками зависимыми от расстояний между другими точками. Поэтому наличие аномальных наблюдений может исказить 2 Заа ом зз всю матрицу расстояний, что вообще свойственно для дисперснонных статистик. Известно, что расстояние Махаланобиса превращается в евклидова в пространстве главных компонент [92]. Специфика перехода к такому новому пространству рассмотрена в 3.1. Рассмотрим вкратце метрики для качественных шкал. Выбор конкретного измерителя должен осуществляться прежде всего из содержательных соображений: если предполагается равная значимость совпадения единичных и нулевых свойств, то следует применять расстояние Хемминга; если важно только наличие свойства, а не его отсутствие — использовать коэффициента Рао или Роджерса — Танимото.
Расстояние Хемминга используется для сравнения объектов в смешанных шкалах наименований и порядка [62[; для порядковых шкал можно, по-видимому, использовать качественный вариант метрики Хемминга и количественный типа линейного расстояния. Особый интерес представляют специфические измерители для произвольных шкал. Наиболее прозрачен смысл меры близости Журавлева; если считать объекты близкими по данному признаку, то следует использовать ненулевое значение порога близости и дальнейшую процедуру осуществлять формально. Явное преимущество е~ заключается в возможности твердого содержательного обоснования уровня порога, так как он выведен за пределы многомерных условностей.
При таком подходе неизбежна определенная потеря информации; фактически осуществляется переход от количественных шкал к качественным «близко-далеко». Но в целом представляется, что подобные коэффициенты должны использоваться во всех случаях, где развитые содержательные представления позволяют сформировать ясную характеристику близости объектов. Мера близости Воронина позволяет повысить содержательную обоснованность расчетов (вводятся веса признаков и др.). Представляет интерес, например, учет неравнозначности областей признакового пространства: возрасты людей в 60 и 65 лет естественнее считать куда более близкими, чем в 10 и !5, хотя все метрики покажут здесь одинаковые расстояния.
В связи с этим целесообразно где-либо использовать логарифмическое преобразование шкалы и т. д. Мера близости Миркина отличается от других коэффициентов тем, что получена не просто как содержательная экспликация понятия близости, а как результат определенных теоретических предпосылок процесса классификации в целом (см. 2.3.4). Все рассмотренные характеристики близости объектов являются первичными, исчисляемыми непосредственно по значениям исходных признаков.
Существует другой класс мер близости, определяемых на основе рассчитанных показателей расстояния. В [19, с. 377; 23, с. 29[ описаны «контекстные» показатели близости, рассчитываемые определенным образом по зонам пересечения некоторых е-окрестностей каждой точки. Анализ такой вторичной 34 матрицы расстояний представляется весьма интересным, но детального изучения подобных мер не произведено. Набор расстояний одного объекта для всех остальных называется профилем данного объекта; можно считать измерение близости между профилями своеобразной контекстной мерой, получаемой, если в е-окрестность входят все объекты, а не определенная часть ближайших. Профили часто рассматриваются в многомерном шкалировании ~93). В заключение отметим, что матрица расстояний или близостей нередко задается непосредственно: либо как таблица экспертных оценок близости, либо как матрица прямых измерений сходства: межотраслевого баланса, степеней соседства географических регионов, взаимной цитируемости авторов и т.
д. В таких случаях все поставленные выше проблемы адекватности расстояний и выбора мер сходства снимаются. Конкретные рекомендации по выбору метрики приведены в 4.2. 2. ПРОЦЕДУРЫ КЛАСТЕРНОГО АНАЛИЗА 2.1 КЛАССИФИКАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ хлл. типы матодов кластер.анализа В настоящее время существует огромное количество алгоритмов кластер-анализа. Они отражают разнообразие не только вычислительных приемов, но и концепций, стоящих за ними. Попробуем разобраться в этих концепциях и на их основе проклассифицировать алгоритмы. Вся трудность заключается в том, что точной постановки задачи кластерного аналнива нет. Рассмотрим рис.
2.1. Из него видны большие сложности создания единой теории, позволяющей четко разделять приведенные сочетания классов. Эта теория должна учитывать разнообразные обстоятельства: расстояния между некоторыми точками класса С больше, чем межклассовые расстояния ряда точек в классах В и С; средние значения признаков в классах Е и Е, К игл' одинаковы; классы Р и Я соединены цепочкой, которую надо выделить, и т. д. Прежде чем строить теорию, учитывающую подобные конфигурации точек, надо ясно сознавать природу предъявленных к разбиениям требований.
Почему на рис. 2.1 границы классов проведены именно таким образом? Очевидно, Рнс. Т.К Различные формы кластеров в соответствии с интуитивным представлением о том, что кластер —. скопление точек — представляет собой некоторую целостность (образ), чем-то отличающийся от другого скопления точек, причем, вообще говоря, геометрически разные кластеры могут даже касаться друг друга (В и С, В и М) или пересекаться (К и Н). Различать кластеры, подобные изображенным на рис. 2.1, единым формальным способом чрезвычайно трудно — это и означало бы машинную реализацию чисто человеческого процесса распознавания образов.
Многолетние (с конца 50-х годов) попытки решить задачу «структурной классификации» привели к тому, что традиционную для статистики проблему выделения однородных групп объектов многие ученые стали трактовать как проблему распознавания образов без учения (самообучения). Наиболее естественный путь нахождения образов заключается в том, что дается точное определение образа и отыскивается скопление точек, обладающее соответствующими свойствами.
Например, образ (кластер) можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных (см. 2.2.2). Поэтому будем считать, что основой первого направления решения задачи структурной классификации является формулировка понятия кластера и разбиение совокупности на части, каждая из которых представляет собой кластер в данном смысле.
Такой подход часто называется эвристическим [5, 30 и др.[. Однако многие свойства этих процедур изучены достаточно хорошо, а некоторые из алгоритмов, как оказалось, находят локальный экстремум определенному функционалу. Поэтому назовем группу алгоритмов, ориентированных на выделение кластеров с заранее заданными свойствами, процедурами прямой классификации (см. 2.2) . Основной чертой таких процедур является использование ими только одного понятия кластера. Скажем, в группе методов й-средних объекты попадают в тот класс, расстояния до центра которого минимальны, т.
е. реализуется одно из определений кластера (см. 2.2.2). Это означает, что все классы разбиения будут удовлетворять именно этому определению. Если предположить, что некоторые исходные данные в самом деле имеют такой причудливый вид, как на рис. 2.1, то алгоритмы этого типа не смогут их разделить. Поэтому крайне интересно создать процедуры комбинированной прямой классификации, которые бы выделяли классы в смысле нескольких определений, т. е. подыскивали бы для каждого скопления свойственное ему определение кластера. Требования к хорошей классификации предъявляют не только в терминах определений отдельных кластеров. Часто общие представления о качестве классификации формулируются в виде неко-орого функционала, экстремальное значение которого соответствует наилучшей классификации.