Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 59
Текст из файла (страница 59)
Расстояние в этон метрике определяется как и с( (Х„Х„) = ~' ос ( хссс! — хсс> ~, с=- ! ь Потребуем, чтобы П ос — — 1. с=! Алгоритм снова состоит из двух фаз, как и в и. 11.3.1, но имеются следующие отличия: 1) центр с-го класса Х, определяется как вектор, компо- ненты которого суть медианные значения признаков в с-м классе; 2) внутриклассовый разброс находится по формуле яс ()с) = ~ ~ч'„с((Х, Х,). (1 1.13) с=! хеа, На фазе 2 вектор весов )с, минимизирующий Ф' ()с), опреде. ляется (см. [106, п. 12.4.2.21) из следующего выражения ' ссь П ~ ~ч', ~~'~ ~ к! ! — кс! ! ~ ~ ь ! с-! хво (11.14) ~ к!у! ксс! ~ с= ! ха о! 308 Заметим, что в П06) приведены выражения для о„т.
е. метрика считается разнои в разных классах. Здесь приве- ден вариант весов, полученный в предположении одинако- вости весов во всех классах. Оценка метрики с помощью частично обучающих выборок Понятие частично обучающей выборки (ЧОВ) введено в работе!9, гл.1).
ЧОВ определяется как множество пар объектов, таких, что относительно двух объектов, составляющих некоторую пару, известно, что они принадлежат одному и тому же классу. Более детальная информация, вообще говоря, отсутствует. Например, неизвестно, принадлежат ли некоторые пары, составленные из непересекающихся пар объектов, одному и тому же классу или нет. Таким образом, фактически исследователь на примерах определяет, какие объекты считать близкими, если исходить из неформалнзованных содержательных представлений. Пусть дальше и„— число пар в ЧОВ, а и„— число независимых объектов, входящих в множество пар из ЧОВ.
Рассмотрим теперь следующий способ оценки метрики, основываясь на ЧОВ. Предположим, что неизвестная нам р метрика является взвешенной евклидовой ~(зы = — ~' о) (х~',.)— ь=1 — х~'о)', причем все веса о3 ~ 0 (ненулевые). Без ограничения близости можно считать, что выполняется условие л П о)=1. (11.151 Ю=- 3 Выполнения зтого условия можно добиться, умножая все веса о; на одно и то же положительное число сс, т.
е. одновременно и одинаково изменяя масштаб по всем переменным. Это, естественно, не влияет на результаты применения кластер-процедур. Суммируя расстояния между всеми парами, из ЧОВ получаем (а'(Ч) = Зр 1ЧЧ, (11.16) где Ч=.Жал(о*„..., ор); 'чав %= ч1, (Хы — Хм) (Хм — Хм) (Хм, Хм — 1-я пара из ЧОВ).
с- и Так как слагаемые в (11.16) суть расстояния между парами точек из одного и того же класса, т. е. близкими между собой точками, нужно стремиться получить Ч, такую, чтобы значение (11.16) было как можно меньше (при выполнении условия (11.15)). Итак, веса Ч вЂ” зто решение минимизационной задачи Бр %Ч=ь пн(п У (11. 17) Р при условии П оь = 1. ь=ч Решением задачи (11.17) будут следующие значения весов (см. п.
11.3.3); и~ =ашВ', (11.18) где значение параметра и ) 0 выбирается так, чтобы удовлетворялось условие (11.15). Впрочем, выбор а несуществен, поскольку задача кластер-анализа инвариантна относительно изотропного одновременного изменения масштаба переменных. Если объем ЧОВ достаточно велик, чтобы матрица % была иевырождена, то можно построить и оценку махаланобисовой метрики, решая задачу (11.17), но уже не считая матрицу Ч диагональной. Решением будет матрица Ч = я% а метрика будет задаваться выражением ~('г = (Х, — Х;)' Ч (Х; — Х;).
ВЫВОДЫ 1. В случае когда у исследователя отсутствует априорная информация о том, как измерять расстояния между объектами в пространстве переменных, н шкалы, в которых измерены переменные, количественные, полезными могут оказаться предварительное сокращение размерности пространства с помощью методов целенаправленного проецирования (подробнее см. гл, 19) и конструирование метрики в пространстве сокращенной размерности. Этот подход не следует использовать, когда объем выборки невелик (и( 100 или р(и ~ 0,5).
2. В случае неколичественных переменных можно сконструировать метрики, являющиеся взвешенными вариантами метрики Хзмминга. Среди них особого внимания заслуживает метрика Х' (см. !7,4). 3!О 3. Целесообразно использование алгоритмов с адаптивной метрикой (2 11.3). 4. При наличии некоторого типа априорной информации о близостях между объектами частично обучающих выборок оказывается возможным оценить весовые коэффициенты для адекватной взвешенной евклидовой метрики, а при достаточном объеме информации — и матрицу метрики махаланобисова типа. Используя эти оценки как стартовые, можно затем применить для их уточнения алгоритмы с адаптивной метрикой.
Г л а в а 12. СРЕДСТВА ПРЕДСТАВЛЕНИЯ И И НТЕРП РЕТАЦИ И РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ 12.1. Некоторые средства оценки результатов кластер-анализа 12.1.1. Оценка качества классификации с помощью критериев классификации. Предположим, что, используя некоторую процедуру кластер-анализа (классификации), получили разбиение объектов из нескольких групп. Один из важных вопросов, который возникает у исследователя: насколько удачно полученное разбиение.
Основным критерием качества и обоснованности полученного разбиения является содержательный анализ результатов, основанный на осмыслении исследователем возможных причинных механизмов осуществления и обособления полученных групп объектов. Чисто статистические критерии оказывают лишь помощь в этом процессе. С одной стороны, они позволяют отбраковывать плохие группировки, но, с другой стороны, группировка, удачная по этим критериям, может и не иметь содержательной ценности. Известны десятки критериальных величин, используемых в кластер-анализе (см. гл. 5, 7, 10, 11). В работе [273) тридцать из них подвергнуто изучению методом статистического моделирования.
В результате эти критерии были упорядочены по степени согласованности их величины с удачностью применения кластерного анализа (использовалось 15 различных процедур) к массивам данных, кластерная структура которых была заранее известна. Две величины, которые рассматриваются далыпе, входили в шестерку лучших. Следует отметить, однако, что при проведении моделирования использовалась только евклидова метрика. В част- 311 ности, возможно, поэтому ннвариантные критерии не «проявили» себя в должной мере и не попали в шестерку лучших.
Пусть совокупность объектов разбита на й групп сг„.... сга. Рассмотрим здесь следующие две величины, полезные для оценки качества разбиения: величина объясненнон доли общего разброса Т и точечно-бисериальный коэффициент корреляции )сь. Некоторые другие величины приведены также в й 12.2. Чтобы определить величину Т, введем следующие три характеристики степени рассеивания объектов из Х: г общее рассеивание 3= Ъ' г(в(Хг, Х)' ! — — 1 а межклассовый разброс В =- ~' ну с(а(Хп Х); г=! внутриклассовый разброс В'= ч', йгп )Р'у= (12.1) (12.2) г ! Х с(с(Хг, Х), х,еа (12.3) и — 1 ! где Х вЂ” — ~ Х, — общий центр тяжести, Ху = — „~Х!— ~.=1 гА ы! центр тяжести 1чй группы', и, — число объектов в группе бп Есяи используется евклидово нли взвешенное евклидово расстояние, то имеет место известное равенство о=(р т!о.
(12.4) Рассмотрим величину Т=1 — (1У!о. (12.5) ' Если входной является матрица расстояний, то в качестве центра группы выбирается объект (строка матрицы 0)Хг, такой, что если Х -- Х!, величина 3 принимает минимальное аначенне. Из аналогичных соображений выбираюгся центры групп. 3!2 Чем больше величина Т, тем большая доля общего разброса точек «объясняется» межклассовым разбросом и можно считать, с определенным основанием, тем лучпте качество разделения. Очевидно, О ~ Т ~ 1. Точечно-бисериальный коэффициент корреляции )сь определяется следующим образом. Каждой паре объектов Х, и Х! поставим в соответствие две величины — расстояние между ними в выбранной метрике и индекс эквивалентности [1, если Х, и Хт принадлежат одному классу; бы ),0 — в противном случае.
Коэффициент )с„ подсчитывается как обычный коэффициент корреляции между йы и бинарной величиной б„. по всем парам объектов, что дает Яь = (4 — Аь) (Ь )ь!пл)'/'!зг (12.6) где Йь — среднее расстояние между точками из разных кластеров; и' — среднее расстояние между точками из одного кластера; — число расстояний между точками, попавшими в одну группу; [ь — число расстояний между точками ив разных кластеров; лг — общее число расстояний; зл — стандартное отклонение расстояний. 12.1.2. Оценка компактности выделенных групп.
Другие полезные для оценки качества разбиения характеристики можно ввести с помощью следующих определений [110). Кластером называется группа объектов 6„такая, что выполняется неравенство с~,' == %,,'и ( 5!и, т. е. средний квадрат внутригруппового расстояния до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности.