Дюран Б._ Оделл П. - Кластерный анализ (1977) (Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu), страница 11

DJVU-файл Дюран Б._ Оделл П. - Кластерный анализ (1977) (Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu), страница 11 (ПМСА) Прикладной многомерный статистический анализ (3366): Книга - 10 семестр (2 семестр магистратуры)Дюран Б._ Оделл П. - Кластерный анализ (1977) (Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu) - DJVU, страница 11 (3366) - СтудИзба2020-08-252020-08-25KoalaСтудИзба

Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu753

Описание файла

DJVU-файл из архива "Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр DJVU-файла онлайн

Распознанный текст из DJVU-файла, 11 - страница

Ограничение (3) можно. переписать следующим образом: 3)' иу;Р-.Хаев(=1,2, ..., и. ! 1 Приведенная формулировка может быть применена и для случая, когда каждый объект имеет р измере. ний, т. е. т Х! = (х!!, хм,...,х„!). В этом случае в качестве издержек может выступать любая метрика расстояния из главы 1. Порядок матри. цы С при этом не меняется; задача заключается в минимизации С с учетом его нового определения. Во второй формулировке Вайнода издержки см определяются в терминах ВСК.

Значении х!, ха, ..., х для и объектов располагаются в возрастающем порядке г!, гм..., г„, т. е. г!«»г!«» ° ° ° »«ги Проблема заключается в разбиении г!, гм ..., г . Обо- 66 значим чеРез й', группу, минимальное значение и равно гь Элемент г~ назовем ведущим элементом гр ние которой пы дь Матрица А определяется так же, как и в пред . том групдущем случае, т. е. ам=1 или 0 в зависимости от того, принадлежит ли г, к л; или нет. Поскольку г упорядочены, г~ не может принадлежать к дг ьь "° Л„это означает, что элементы матрицы А, которые лежат™выше диагонали, равны нулю, или ам=О.

1 $з ьм Задачу теперь можно представить как минимизацию а а ам(г;-г;)з, (3.17) 1=! з 1 где г; есть среднее 1-й группы г;=,'~ амг;/п~ в=1 Для, того чтобы (3.17) обращалось в минимум, необходимо выполнение так называемого условия цепи (з(г)пд ргорег1у). Условие цепи означает, что не существует группы, содержащей г; и. г~ (1(1) и не содержащей все г, значения которых лежат между ними.

Это означает, что матрица А=(ан) не может содержать прерывающихся цепочек из единиц, расположенных ниже главной диагонали, т. е: ам~~а~+с;>... >а„;,/=1,2,..., п. Максимальная цепочка содержит гпо членов, поскольку максимальное число элементов, которое может содержать группа, равно гни. Лемма 3.1. Условие цепи ан>аььь; =- ... >а ~ является необходимым условием минимальности. Д о к а з а т е л ь с т в о. При объединении объектов гь гньь ..., г;+ь-1 с 1~+ь увеличение ВСК равно следу матрицы (1.10), т. е.

э !»»-,! вЂ”:(г»»»- вЂ” Е г»+!)' ' й+! ' й То же происходит при "объединеиии гь г»+», ..., г»+а-! с г»»-ь+»,' увеличение равно а !»»-! (г'+ь» вЂ” вЂ” Е гьь!)'. э+! э Однако г!+ь»!)г;+м что и доказывает необходимый результат. »»»» Минимизация ХХ а»;(г» вЂ” г!)' эквивалентна миними. »»» э»»-! зации . ХЕацсц при .соответствующем выборе А » »,/ ! (а!») и С=(сц): »» . Т» »» т» -~:,' ацсц= ~ Д,' ац (г»-г;)з ° »=! »=! ».! »=! Значения сц необходимо определить только для !)), т. е. для элементов ниже главной диагонали.

Значение сц численйо равно приращению ИСК при включении элемента г; в группу,, состоящую из элементов г,, ..., г! !. Принимая во внимание (1.10), имеем: » вЂ” ! ! ' сц = вЂ”.вЂ”, (г! вЂ” вЂ”.. ~", 'гь) з ° - (3.18) »-»+! . ' ! вЂ” ! »»=» При таком определении сц можно показать, что ~ ацсц= ~ ~', ац(г»-г!)э, ! ! ! ! ! ! 5! с помощью которого первоначальную задачу квадратичного программирования можно свести к задаче линейного программирования. Окончательно задачу можно сформулировать следующим образом: и и минимизировать »', 2 ',.ац сц »=!» ! при условии: 1) ац)а!+! »~ ...

)а»»ч 1=1,2, ..., а; ! 1 У ' ! !- хз 2) со= вЂ”.. [ а вЂ” вЂ” Еах! ! вЂ !+1 ! вЂ” 1 ь=! Обобщение второй формулировки Вайнода на.много- мерный случай более затруднительно, чем первой. Пусть имеется Хь Хм ..., Х„точек в р-мерном прост- ранстве. Поскольку условие цепи нельзя непосредствен- но обобщить с одномерного случая на многомерный,. Вайнод [3801 предлагает обобщенное условие цепи, которое можно применить и в многомерном случае. Им также установлено, что условие цепи вЂ” это необходимое условие минимума ВСК. Рао [2911 приводит контрпри- мер и предлагает альтернативную форму обобщенного условия цепи, которое также представляет'собой необ- ходимое условие минимума ВСК.

Мы приведем оба определения после чего коротко обсудим два соответствующие им варианта проблемы (Рао и Вайнода). Пусть 0 (А!) обозначает матрицу пХп парных евклидовых расстояний. Элементы 1-го столбца перегруппируем в порядке возрастания, т. е. А!«Ап !«... А„„!, что совпадает с одномерным случаем для г. В терминах матрицы А обобщенное условие цепи означает, чтоцепь из единиц должна проходить через 1!,(з, ..., („ь Мак- симальная длина цепи для любого столбца равна шмПриведем теперь два определения обобщенного ус- ловия цепи.

1. (Вайнод). Цепь из единиц для !'-го столбца мат- рицы А проходит через й, !м ..., 1„ !, причем Аз=0<А,я<А.л<... <А„,л 2. (Рао). Каждая группа содержит хотя бы один объект (ведущнй группы), такой, что расстояние между этим объектом и любым другим объектом, не входящим в эту группу, не меньше, чем расстояние между этим объектом н любым объектом из этой группы. с;„„(1д~/) Вайнод определяет как приращение ВСК при включении Х!„в группу из объектов 1, 1!, ..., (ь !. Значение с;„,; аналогично (3.18) и в многомерном слу- чае равно: 1 ! з ! 2 т=! Пользуясь матрицей издержек, соответствующей урав- нению (3.19), и матрицей А, элементы которой удовле- вв творяют неравенству а»» а»„»>а»„»>.».>а»„» ь задачу минимизации ВСК можно свести к минимизации л и Е Хапссь »-» »=1 При формулировке задачи линейного целочисленного программирования Рао [291] гребует выполнения условия цепи 2. Задача, таким образом, заключается в том, чтобы найти пц'п Сту (3.20) при условии АУ=Ьт, где у»=О или 1 (за исключением последнего элемента); А вЂ” матрица (и+1) Х 1и(п вЂ” 1)+21; У вЂ” вектор-столбец порядка и(п вЂ” 1)+2; Ь вЂ” вектор-столбец порядка и+1, равный (1 ! 1 п»)т.

Ст вЂ” вектор-строка порядка п(и вЂ” 1)+2. Заметим, что минимизируемая величина (3.20) снова является линейной функцией переменных, состоящих из О и 1. Каждый элемент У служит индикатором группы, т. е. у»=О илн 1 в зависимости от того, пользуются ли »-й группой в окончательном решении или' нет. Вектор С" является вектором значений целевой функции; с» представляет собой значение целевой функции »-й груп- пы.

Например, если в качестве целевой функции рас. сматривается ВСК, то с» имеет вид: а» Р с»-вЂ” ~, '~; (х;» вЂ” х;)' »=»»=» Вектор У содержит и» единиц и и(и вЂ” 1)+2 вЂ” и» нулей. Выражение Сту определяет значение целевой функции для данной альтернативы разбиения. Матрица А аналогична соответствующей матрице из (3.17); однаКо теперь ее порядок равен (и+1)1п(ив вЂ” 1)+2!. Матрица А удовлетворяет следующим условиям: 1) последняя строка А состоит из единиц, т. е.

а„+»;=1,1=1, 2,..., и(п вЂ” 1) +2; 2) каждая строка А, за исключением последней, соответствует одному объекту и содержит только одну единицу; все остальные п(и вЂ” 1)+1 элементы равны нулю; 70 3) каждый столбец А, за исключением последнего, представляет собой коэффициенты группы, т. е. и ~.",' ам=ля /=1, 2,..., п(л вЂ” 1)+1; (=г 4) последний столбец А состоит из нулей, за исключением последнего элемента, который равен 1. Последний элемент в векторе б равен общему числу кластеров, т.

е. гп. Будем предполагать, что г(м~Аа, если /~й. Из уело. вия цепи следует, что существует а вЂ” 1 групп, в которых !-й объект является ведущим, Для демонстрации этого факта рассмотрим неравенство г(я=0<А,л<йи,з«... А„,п ° При условии, что /-й объект является ведущим, возможны следующие разбиения на группы: (1,'~) (! !ь(з), (1, !ь|м, ! ~). Число таких групп равно а вЂ” 1. Поскольку всего имеется и объектов, то отсюда следует, что общее число возможных групп равно п(а вЂ” !)+1, включая и ту группу, которая содержит все объекты. Число элементов в векторе У соответствует общему числу возможных кластеров с тем ограничением, что общее число возможных кластеров равно гп.

Задача (3.20) вместе с соответствующими ограничениями может быть решена различными методами, описанными в работе 1127). Рао приводит другие критерии минимизации, которыми также можно пользоваться и которые приводят к задаче математического программирования.

Это ! ) минимизация суммы средних квадратов внутригрупповых расстояний; 2) минимизация общей суммы внутригрупповыхрасстояний; 3) минимизация максимума внутригрупповых расстояний. С вычислительной точки зрения эти критерии неудобны, за исключением случаев небольших значений л и т. Если число групп т=2, то они более удобны. Это значение т довольно популярно, если иметь в виду метод Эдвардса и Кавалли-Сфорца [93), который делит все объекты на две компактные группы, и процедура повторяется.

7! ГЛАВА 4 ПРЕДСТАВЛЕНИЯ МАТРИЦ СХОДСТВ Как было отмечено в предыдуших главах, задачи кластерного анализа можно решать как в терминах матрицы расстояний О, так и в терминах матрицы сходства 5. В этой главе мы рассмотрим:различные аспекты представления результатов кластеризации, матриц сходства и расстояния. Параграфы 4.1 и 4,2 служат неформальным введением в более строгое изложение соответствующих вопросов с точными формулировками (Хартиген), которые читатель найдет в параграфе.4.3.

4Л. Дендограммы Последовательный процесс кластеризации начинается с рассмотрения п объектов; затем два наименее удаленных (ближайших) объекта объединяются в один кластер и число кластеров становится равным, и вЂ” 1. Процесс повторяется до тех пор, пока все п объектов . не попадут в один кластер, содержащий все объекты. Идеи, изложенные в этой главе, имеют л виду применение методов последовательной (стратифицированной) кластеризации. Наиболее известный метод представления матрицы расстояний (разнородности) или сходства основан на идее «деидограммы», или «диаграммы-дерезам Дендограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, который осуществляется в терминах матрицы расстояний или сходства. В дальнейшем процесс такой кластеризации будем рассматривать, как процедуру с матрицей расстояний или сходства.

Таким образом, с помощью дендограммы можно графически 22 или геометрически изображать процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства. Существует много способов построения диаграмм- деревьев, соответствующих данной дендограмме. В диаграмме-дереве объекты располагаются вертикально слева, а результаты кластеризации справа. Значения расстояний или сходства, отвечающие построению но.

вых кластеров, -изображаются на горизонтальной пря. мой поверх дендограммы. Имея и объектов, можно по. строить большое количество диаграмм-деревьев, кото. рые соответствуют данной процедуре кластеризации, однако для данной 'конкретной матрицы расстояний или сходства существует только одна диаграмма-дерево. т,а В,В О,В ат аб О,б бтодотдо о О, т дг 03 во об роеотоннов нонтер б ровен та Рис в' На рис.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.