И.Д. Мандель - Кластерный анализ (1185344), страница 12
Текст из файла (страница 12)
,6 Х хо Ха уД ХФ О 'О 3ФФХЕО О ь ю т с *тост охта „, а Фаа «с ядттавав а а в дт В а . ° 5:-.- ФЬФЦде2 а $ вод х р т в в Ф с в Еа »ОХаьФ Ех о а х о О. йс т лсл О а т о Ф ь о а т Ою тос» до в т о о М 2 т 3 в Е в оо а ь в в о .Ф» то а с о а ~а в ы а, о ды ы ово О В ОХ Е о т Я О. Ф Во $» о а 0 о. в О.
М ( о а т х Ы о а Ф а в а О Ц СЧ Е т а ~о ь т в в О, с д 1 т т ФЕ В О Е а а О. О, оИ ~б ьЕ о о 2 2 % 2' о а л д а х 1= х а О." в о о в 2 х О. х л О. ь Етв»ЕФОФ т»ЕО«т 2 т в ьо т ОФ52 тав ьОтв ь а ВО а»ДФ Х~ Ов ЕОЬФ аЬ Ов аа са са ОО,Е ЕОЕ»О. оов 22»Е хата тате ВФЕ5 в"ь2» . Фхт о о тсовь втооао ыты в да а састтастае ОООО»ОЕ одо" асыЕ,д~т с о с « „"2 д о 'о т Хс»- вхьВОФ о ОЕО я о а О. «~ о сл во в 2 О со с ха то «Ытт во ь ыо ФЕФЫ т а в в т Й«ЙЕО в 2 2 т О. » в О.
в о х о в д о,, о х а о х в а в т ФВ до от дт а Ф 2 Я О. 2 свб х тов » о. т вх и ы рсоы $ ао ~р», д .Й .в аО . уча л»« .ар о. дю д'о 1о а в»р Д 'тдва о-1 хй д т ух а О т*фс~ » де) в »О ~О 2' о. та а » а,т Ь х т в со 2 2 т о.„т 5 т л2 а дв дт Е,сюх о. о в т .т о о О т в а ы а %2 ОЫ в Ес~ ц Ода» 2 д~ ФЕ Я в с а ь. т т О л 5 а а Оа о а ы вь т ь 2 ь т о с (о со 3 в Ь Ф х а о т 2 О. а Е Е т х в Ф тво ст в айр ФЕ »о о а авв *Ев 51 5 а а о.
с «с а с с а о с о о о.«Ч О« о.а оф 1 Ф1 Ф«» СЧ С ° ««о .с и 6« '- *".. Я а о С« Фй ., --»о$я "«,«оа а а ос« а «о о 3х Й З о -Л 8 Ф СЧ .-Ох ассах о. н о «о 'о. Ф о о м а Ф Ф а а о л 'С с х С х на а Ф Н С а а н с н Ю й Р н а "« с Б о а а « х х 8" Ф ~ аас н и н он а а с а Ф С о а С С о» с « » а нс « о о. 3 с Ф а 3 Ф с о. о о о ««Ф н,", а 53 С а «» и а а « а о о о. с о а н а Ф Ф о Ф а о « о н о. » с « а Ф н ». с л'С о с о- а ~ с=О н а Ф а а Ф о а о Ф ФВФ нс О н я С схо о ч' о« СЬ «о СЧ а н .С,О о СС см "а « а н Ф с 2 о. с о о. Цй а о.
"' а ФИ о. » о «а а «,» ССЧ Ф «с М х »,Ф и Ф о [ он о. Ф н С) Й О э 2 дх о О а Ф ичйс '33 Ф ч Е ХОФФ Ф ос Ох сь б Ф сч о о~ *сч Содой с Ф Й со 3О о Ои х й. ФФ .р х р х Ф ФСЮ о со р х, ФФМ Я Х' Ф чс ~ д 3 О 'Ф р Ф 3- й-" ~ я сы со Ф,33 со ххй Ф О3 х р о Ф Е „33 Ф Ф ЕФС й Х 3- СО Ф сй Ф С- Ь ~ щ. с, ф. !О йс 4 'Ф (ь х Ф .Ф ,ь Ф с 'ь ь мм МЫ Х ~С !=. Ф! Ф! Ф %! Ф! аа а а' а Ы %' $,: а а а Ф % о а о ххах Ф 3 Ф ЕЬФ Ф Ф ох йи Ф О й О ФФ И о х и Ф о Ф Ф О О. х о х х х с с с с.
с о о 3 3- 3 С о о 63 33 Ейй хйх рои Ч а ° ФЕ! Ф Ф сй ~ х Ф 2 3 Ф Е Ф о О *Ф Л й О. О3 х Сй С'3 '3' айх м О3 со .3О О"- О 3О "сь со й О3 '- О3 х" о ~х ФХ х Ф дй ~Хсо Я Ф *33 О, о о Е о р Ф ОФ* Ф о3 Ф Ф 3 х Ф о й Ф Е 3 х й х о Ф ЕФ ох со . — й ОО 3 .О сй Ю о р й," О3 о Х 33 ° 333 о Х х о х~.. со О3,, Я Ф х -ихсо 33О, ЬО сй о д о о й д 3 0 и 3 но й 33 о Ф х 33 о х й Ф О Ео э Ф д3 Ф 3 ~ \с о н Р 3:3 Ф Е о ех М ~, х х Д о Фр Еххй Е дсс о й Ф о > е О ХФ О о !! ы д 0 й Ф х Ф х е х Фьй ФХФ ди, р Фо аГ ООФ Ф Ф Ф Е х й ФХФ 3.3 Ф Ф 8 Ф Ф ° О.
Ф й й Е 3 о -Е м Х Ф Е о о х о Ф 3" 33 ь 33 о й. сй Ф Ф Е О о х о с 3 Ф Ф х Ф Б с'сч СО- С х е е о с Ф Е \' Ф х С С' ч », о а о д о С» л Е Ф С» о с х ВВе а Э х а л 3 Е' О. о н .й Ф д С3 Е О. О л Сй С Ос а Ф О. а со х а~~ Ф„, с О а х с с м о о о О фЯ х г .Ф ОС Сд О ФЖ о с и Ф ФФ .д сха Р,И Б ФД с ахсоо-и о ос Х СС с о Е С'4 $.' „Ю о о» а О.— Ю Е со Ф Сй Сй Ю СЧ О> Ф х и Ф о О. Ю с1 Ю С Ос Ф о СО й О.
СС о с ь Ф со Ф Ф д~ с 'й Ю а о Ф ~ОŠ—" Ф СЧ хо м Л; Е; а а о. $ %,' а а о.' ф Б Ю Фс о Юо~ с О2е с ь Е С а С .Ф с 'х " Е Ю ОХ О С О. о С с ЕФ Ф а о „ Е Ф О Сс Ф й о с ь' Фо о ~со х х а Е о с С О о Ф д Ф О С Ы М Ф о с Е ас Ф С й Йо Ю С С Е Ф Ф $" о д СС с Е э 3 С.С ФСО Е Е Ф й О х се а о й С" х о х Ф .С о Ф О Ф Е Е д о О Ф о фас ОСФ а Е О, Е со с Ф СС % й е о. о о СО Ю Ос Ф О О, С Ю Ю О Ф с Е х» р а Й х: с д о Ф а Фа Ф Ф С С С сс а 5! Ф .Я а-- -3„ Д О о а о. а Лс С ОФО а адсС о О.
а о Е О м с %' й: 1= а а Ф а Ф Ф Е сй с й Е О Е О С с о асс о оса до ~ Д о ах й о,р Е с С Ф С сХО С Ф с Ф а с н и Ф Ф~ о Е Ф о ах Ф ЕЦФЗ Ю О С ах хС ОФМ В С м Ф ,Ы„, а ФСС О.~ Д о а Е Оса Ф х О а»аа ь»,ь ь О С й а Е а м Х 1= %.' а а 2.2.3Л. Иерархические алгоритмы 1. На первом шаге каждый объект считается отдельным кластером.
На следуюшем шаге объединяются два ближайших объекта, которые образуют новый класс, определяются расстояния от этого класса до всех остальных объектов, и размерность матрицы расстояний О сокрашается на единицу. На р-м шаге повторяется та же процедура на матрице 0м м,м,ь пока все объекты не объединятся в один класс. Если сразу несколько объектов (классов) имеют минимальное расстояние, то возможны две стратегии: выбрать одну случайную пару или объединить сразу все пары.
Первый способ является классическим и реализован во всех описанных далее процедурах (иногда его называют восходящей иерархической классификацией [85, с. 124 — 130, ! 23[ ). Второй способ называют методом ближайших соседей [не путать с алг. 2) [1231 и используется реже. Общая схема классификации имеет сильно развитую теорию, которая частично изложена в 2.2.4, поэтому описание конкретных алгоритмов, особенно 2 — 9, !6, !7, 20, сделано кратко, с учетом последующих разъяснений. Результаты работы всех иерархических процедур обычно оформляются в виде так называемой деидрограммы (см.
рис. 2.2 — 2.4): по горизонтали показаны номера объектов, а по вертикали значения межклассовых расстояний рм, при которых произошло объединение двух данных классов. 2. Первый шаг алг. 2 †совпадает с первым шагом алг. 1. Рм равно расстоянию между двумя ближайшими объектами классов. На дендрограмме виден цепочечный эффект метода: когда незави- 6 5 4 3 7 8 1 2 Рис. 2.3. Рис. 2.2. Рис. 2ХЬ симо от общей формы кластера к нему присоединяются ближайшие к границам объекты. 3. рм равно расстоянию между самыми далекими объектами двух классов. На дендрограмме по данным предыдущего примера видно, что результаты двух методов сильно различаются. 4. р~р равно расстоянию между центрами тяжести классов (точек со средними значениями всех показателей). 5.
р~ равно средневзвешенному расстоянию между объектами двух классов. 6. р~4 равно простому среднему расстоянию между объектами классов. 7. рм равно расстоянию между точками с медианными значениями признаков в классах. 8. Объединение двух классов минимизирует приращение общей в~П4 — — т— дисперсии: (х~ — х,) (х~ — х„), где х, — вектор средних значе- ' п~+и, ний 1-го класса. Процедура носит, таким образом, пошагово-оптимальный характер (см. 2.3). 9. рм равно сумме межклассовых расстояний.
1О. р — объединяются кластеры р~ и р„, такие, что рм(р, повышается величина порога. КΠ— все объекты в одном классе. 11. р — объединяются классы 5~ и 5,, такие, что 5~ Ц5, обладает минимальным г-диаметром; КΠ— все объекты в одном классе. Поясним, г-диаметром множества называется число С, при котором выполняется условие: обязательно найдется такая последовательность пар объектов длиной не больше г — 1, что все соседние расстояния в парах будут не больше С.
Рассмотрим рис. 2.5: 1-диаметр множества всегда равен максимальному расстоянию, т. е. у нас 6. Чтобы найти 2-диаметр, построим различные цепочки для пар самых удаленных объектов 1 — 4 и 1 — 5. Количество промежуточных объектов в цепях не больше одного (2 — 1). Для пары ! — 4 строятся цепи: 1) 1 — 2, 2 — 4 с расстояниями 2, 4,8; 2) ! — 3, 3 — 4 (5,1); 3) 1 — 5, 5 — 4 (5,2; 4,8). Максимальное из максимальных расстояний в этих цепочках равно 4,8.