И.Д. Мандель - Кластерный анализ (1185344), страница 24

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 24 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 242020-08-252020-08-25СтудИзба

И.Д. Мандель - Кластерный анализ.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 24)

4) г,! ! где я=Л/2+)ь вЂ” некоторый порог для величины связей. Тогда, пере- ходя к внутриклассовым связям (для которых ги=1), имеем: й(й)= ~~„~~р~ (ав вЂ” я)-ьшах, (2л) г=! ь мл, где 1=1,й вЂ” номер класса. Как видно, полученный критерий совпадает (с точностью до зна- ка) с Рзв, который тем самым получает новое обоснование.

При этом величина я может быть задана и из содержательных, и из формаль- ных соображений. Так, если считать, что 14 зафиксировано, то для оптимального разбиения Л вЂ” средняя .внутриклассовая связь, а )х вЂ” средняя межкластерная связь, т. е. оптимальное я равно полу- ' На самом деле в [бэ и др.) рассматриваются не только разбиения, но структуры более общего вида, но для наших целей достаточно результирующим отношением выбрать зквивалеитность. )Оз сумме этих величин, а оптимальное 1 вЂ” разнице между средними внутренними н внешними связями (характеристика контрастности связей).

Критерий (2.5) имеет другие привлекательные особенности ]63, с. 100 вЂ 1]: все кластеры полученного оптимального разбиения являются классами в смысле С4 (см. 2:1), т. е. средняя связь между объектами в каждом классе больше средней связи этих объектов до всех остальных; критерий удовлетворяет обычным требованиям к хорошей классификации: в оптимальном разбиении сумма внутри- кластерных связей велика, межкластерных мала, причем для каждого фиксированного числа классов величина порога и регулирует соотношение между требованиями компактности разбиения и равно- ' наполненностью классов (последнее требование иногда выдвигается в качестве желательного). Таким образом, (2.5) обладает теоретическими свойствами, позволяющими рекомендовать его к использованию во многих ситуациях, когда важны не индивидуальные отличия объектов, а сводные характеристики совокупности (напомним, везде в формулах (2.3)вЂ” (2.5) производится усреднение).

На его основе разработана целая теория качественного факторного анализа, основная идея которого заключается в следующем 162]. Используя оптимальные уровни Х и 1», определяют матрицу )г (алгоритмы оптимизации (2.5) сводятся к перечисленным выше в параграфе процедурам) и затем отыскивают остаточную матрицу связей; А'=А вЂ” ХР вЂ” 1х. Для нее снова отыскивают оптимальное разбиение и т.

д. до исчерпания всей дисперсии А (вообще говоря, за неизвестное число шагов). Каждое оптимальное разбиение трактуется как некоторый номинальный фактор, в полной аналогии с количественным «обычным» факторным анализом (правда, понятия, соответствующего ортогональности у количественных факторов, в качественном варианте не найдено). Такой подход вводит эвристическую методологию кластерного анализа в рамки строгой аналитической теории и уже поэтому представляется очень плодотворным. Задана аппроксимации матриц «объект-признак». В этой задаче непосредственное приближение исходных данных результирующим отношением, как в (2.3), уже невозможно вЂ” матрицы имеют различные размерности. Поэтому фактически для аппроксимации надо решить две задачи: сначала привести все используемые конструкции в сопоставимую форму, а затем построить соответствующий функционал качества приближения.

Первая задача решается в ]63] следующим образом. Каждый признак Х задается М-мерной матрицей, где М вЂ” число объектов, р=1 для количественного признака, р=т для качественного (твЂ” число градаций), признак задан в виде набора дихотомических величин [62]. Признаку можно поставить в соответствие множество векторов Цх)=ах, где а вЂ” произвольный р-мерный вектор, и убедиться, что 1.(х) вЂ” линейное пространство (в смысле обычных акси- 104 и я (л)= ~~~ (« вЂ” Р к ( -«ппп (=3 (2.6) ~,(г) =,У, ( г вЂ” л, г ~ -~ пни, (=! (2.7) гле Р, «х (х к ) х т ' т Анализ этих выражений в разных ситуациях [63, с. 86 вЂ” 95] приводит к нескольким выводам.

Если все признаки (х и г) количественные, а также стандартно центрированные и нормированные (см. 1.3), то Р~=Рм а г представляет собой собственный вектор матрицы ххг=р, отвечающий ее максимальному собственному числу, т. е. г совпадает с первой главной компонентой множества признаков х. Если все признаки номинальные, то минимизация Р, и Р« превра- !06 ом).

Оказывается, а имеет четкую содержательную окраску: это множество коэффициентов масштаба для шкалы отношений и для шкалы интервалов (если в ней условно зафиксировать точку отсчета, например, центрировать переменную), а также множество числовых «переименований» для номинальной шкалы (см. !.2). Здесь проявляется, вообще говоря, неортодоксальный подход авторов к определению шкал (шкала наименований определена с точностью до масштаба), но он выглядит вполне приемлемым и позволяет единым образом описать разные шкалы. Теперь можно пользоваться хорошо известным аппаратом линейной алгебры.

Близость между векторами х (исходным) и у (результатным), имеющими в общем случае разную размерность, может пониматься в трех смыслах [63, с. 85): как близость х и х„=Р„х, где х вЂ” проекция х на пространство Цу), Р„вЂ” оператор перехода; как близость у„и у, где у,=Р„у вЂ” проекция у на пространство Цх); как близость элементов (векторов) пространств Цх), Цу). Последний вариант сравнения сводится к задаче оцифровки качественных переменных и прямого отношения к проблеме классификации не имеет [3, т. 2). А первые два способа, оказывается, порождают интересные постановки. Они возникают, если рассматривается не один, а несколько признаков.

Пусть имеются признаки хь..., хи разной размерности и требуется найти признак, заданный матрицей Е, самый близкий в среднем ко всем исходным признакам. Задача построения отношения, ближайшего к набору имеющихся отношений, типична для экспертного оценивания, группового выбора, анализа данных [25, 48 и др.). В зависимости от вида используемой проекции формируются два критерия аппроксимации: щается в максимизацию с,(г)= ~~ К( !уг), с~а)=~ к( 1 ), где КвЂ” ! определенный коэффициент связи двух номинальных признаков, показывающий долю правильных предсказаний значений одного признака на основе значений другого (см. [63, с. 72]).

Заметим, что с! и с! аналогичны другим конструкциям, возникающим в анализе данных: известно, что максимальная сумма коэффициентов ранговой корреляции Спирмена с каким-то показателем достигается, если его ранги равны средним из исходных; при стандартизованных количественных переменных признак со средними значениями обеспечивает максимальную сумму линейных корреляций [25].

Правда, в отличие от приведенных прймеров вид разбиения в с! и сд не определяется так просто по известным разбиениям. Если все исходные признаки х количественные, а г вЂ” качественный, то Р!(г) эквивалентен критерию минимизации средневзвешенных внутриклассовых дисперсий (модификация Рм Рз, Рм). В общем случае если г вЂ” разбиение Я, то Р!(г) при!юимает аид: с,(!!)=~ ~~Р (р . й, где рп вЂ” элемент матрицы Р, р=т/)т'вЂ” ! 1ммг среднее значение Р. Как видно, этот функционал является частным случаем полученного выше критерия (2.5).

Если все х количественные, то р„=~ х!х!, что является своеобразной мерой близости !=! объектов, особенности которой в [63] подробно разбираются. Если рассматривать с более широких позиций задачу нахождения разбиения, максимально коррелирующего с исходным набором признаков, то ее удобнее всего решать в терминах матричных корреляций (аналогично матричным расстояниям в 1.2). Оказывается, это равносильно максимизации суммы коэффициентов Чупрова (если все признаки номинальные) или коэффициентов детерминации (если все признаки количественные).

Если из Ф' признаков первые Ф'! являются номинальными, а остальные вЂ” количественными, причем каждый номинальный имеет и!! градаций, то в терминах близости ! 1 объектов критерий приобретет вид: сз(Л)= ~ вЂ” ~', р„, 4)ь ! ч~к где РО определено в табл. 1.3.

В этом функционале число классов й заранее не задается. Из рассмотрения видно, что аппроксимационный подход порождает весьма общие конструкции, часть из которых раньше предлагалась из эвристических соображений. Более того, он позволяет органически увязывать функционалы качества, меры близости объектов, способы нормировки признаков и коэффициенты близости при!Об знаков (это особенно заметно в с»(й)). Все эти обстоятельства позволяют считать такое направление теоретически оправданным и методологически наиболее стройным из числа имеющихся подходов. Однако и ему присущи определенные ограничения, часть из которых отмечается авторами.

Так, мера р„устроена весьма специфично вЂ” чем ближе значения признаков к среднему значению, тем меньше их близость, что приемлемо, видимо, не всегда. Далее, не во всех случаях может быть справедлива гипотеза о кластерах, характеризуемых только средними расстояниями, которые типичны для задач квадратичной аппроксимации. Наконец, концепция, лежащая в основе построения критериев (2.6) и (2.7), как и другие связанные с ней конструкции, обсуждаемые выше, должна использоваться с некоторыми оговорками. Дело в том, что построение, скажем, признака, максимально коррелнрующего с имеющимися, целесообразно главным образом тогда, когда эти признаки достаточно сильно коррелнруют друг с другом. В противном случае искомый признак, как и обычная «фиктивная средняя» в статистике, будет «оптимально» описывать некоторое несуществующее состояние.

Характеристики

Тип файла

DJVU-файл

Размер

2,38 Mb

Материал

И.Д. Мандель - Кластерный анализ.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.d.-mandel-klasternyj-analiz.djvu.rar

И.Д. Мандель - Кластерный анализ.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.