И.Д. Мандель - Кластерный анализ (1185344), страница 24
Текст из файла (страница 24)
4) г,! ! где я=Л/2+)ь — некоторый порог для величины связей. Тогда, пере- ходя к внутриклассовым связям (для которых ги=1), имеем: й(й)= ~~„~~р~ (ав — я)-ьшах, (2л) г=! ь мл, где 1=1,й — номер класса. Как видно, полученный критерий совпадает (с точностью до зна- ка) с Рзв, который тем самым получает новое обоснование.
При этом величина я может быть задана и из содержательных, и из формаль- ных соображений. Так, если считать, что 14 зафиксировано, то для оптимального разбиения Л вЂ” средняя .внутриклассовая связь, а )х — средняя межкластерная связь, т. е. оптимальное я равно полу- ' На самом деле в [бэ и др.) рассматриваются не только разбиения, но структуры более общего вида, но для наших целей достаточно результирующим отношением выбрать зквивалеитность. )Оз сумме этих величин, а оптимальное 1 — разнице между средними внутренними н внешними связями (характеристика контрастности связей).
Критерий (2.5) имеет другие привлекательные особенности ]63, с. 100 †1]: все кластеры полученного оптимального разбиения являются классами в смысле С4 (см. 2:1), т. е. средняя связь между объектами в каждом классе больше средней связи этих объектов до всех остальных; критерий удовлетворяет обычным требованиям к хорошей классификации: в оптимальном разбиении сумма внутри- кластерных связей велика, межкластерных мала, причем для каждого фиксированного числа классов величина порога и регулирует соотношение между требованиями компактности разбиения и равно- ' наполненностью классов (последнее требование иногда выдвигается в качестве желательного). Таким образом, (2.5) обладает теоретическими свойствами, позволяющими рекомендовать его к использованию во многих ситуациях, когда важны не индивидуальные отличия объектов, а сводные характеристики совокупности (напомним, везде в формулах (2.3)— (2.5) производится усреднение).
На его основе разработана целая теория качественного факторного анализа, основная идея которого заключается в следующем 162]. Используя оптимальные уровни Х и 1», определяют матрицу )г (алгоритмы оптимизации (2.5) сводятся к перечисленным выше в параграфе процедурам) и затем отыскивают остаточную матрицу связей; А'=А — ХР— 1х. Для нее снова отыскивают оптимальное разбиение и т.
д. до исчерпания всей дисперсии А (вообще говоря, за неизвестное число шагов). Каждое оптимальное разбиение трактуется как некоторый номинальный фактор, в полной аналогии с количественным «обычным» факторным анализом (правда, понятия, соответствующего ортогональности у количественных факторов, в качественном варианте не найдено). Такой подход вводит эвристическую методологию кластерного анализа в рамки строгой аналитической теории и уже поэтому представляется очень плодотворным. Задана аппроксимации матриц «объект-признак». В этой задаче непосредственное приближение исходных данных результирующим отношением, как в (2.3), уже невозможно — матрицы имеют различные размерности. Поэтому фактически для аппроксимации надо решить две задачи: сначала привести все используемые конструкции в сопоставимую форму, а затем построить соответствующий функционал качества приближения.
Первая задача решается в ]63] следующим образом. Каждый признак Х задается М-мерной матрицей, где М вЂ” число объектов, р=1 для количественного признака, р=т для качественного (т— число градаций), признак задан в виде набора дихотомических величин [62]. Признаку можно поставить в соответствие множество векторов Цх)=ах, где а — произвольный р-мерный вектор, и убедиться, что 1.(х) — линейное пространство (в смысле обычных акси- 104 и я (л)= ~~~ (« — Р к ( -«ппп (=3 (2.6) ~,(г) =,У, ( г — л, г ~ -~ пни, (=! (2.7) гле Р, «х (х к ) х т ' т Анализ этих выражений в разных ситуациях [63, с. 86 — 95] приводит к нескольким выводам.
Если все признаки (х и г) количественные, а также стандартно центрированные и нормированные (см. 1.3), то Р~=Рм а г представляет собой собственный вектор матрицы ххг=р, отвечающий ее максимальному собственному числу, т. е. г совпадает с первой главной компонентой множества признаков х. Если все признаки номинальные, то минимизация Р, и Р« превра- !06 ом).
Оказывается, а имеет четкую содержательную окраску: это множество коэффициентов масштаба для шкалы отношений и для шкалы интервалов (если в ней условно зафиксировать точку отсчета, например, центрировать переменную), а также множество числовых «переименований» для номинальной шкалы (см. !.2). Здесь проявляется, вообще говоря, неортодоксальный подход авторов к определению шкал (шкала наименований определена с точностью до масштаба), но он выглядит вполне приемлемым и позволяет единым образом описать разные шкалы. Теперь можно пользоваться хорошо известным аппаратом линейной алгебры.
Близость между векторами х (исходным) и у (результатным), имеющими в общем случае разную размерность, может пониматься в трех смыслах [63, с. 85): как близость х и х„=Р„х, где х — проекция х на пространство Цу), Є— оператор перехода; как близость у„и у, где у,=Р„у — проекция у на пространство Цх); как близость элементов (векторов) пространств Цх), Цу). Последний вариант сравнения сводится к задаче оцифровки качественных переменных и прямого отношения к проблеме классификации не имеет [3, т. 2). А первые два способа, оказывается, порождают интересные постановки. Они возникают, если рассматривается не один, а несколько признаков.
Пусть имеются признаки хь..., хи разной размерности и требуется найти признак, заданный матрицей Е, самый близкий в среднем ко всем исходным признакам. Задача построения отношения, ближайшего к набору имеющихся отношений, типична для экспертного оценивания, группового выбора, анализа данных [25, 48 и др.). В зависимости от вида используемой проекции формируются два критерия аппроксимации: щается в максимизацию с,(г)= ~~ К( !уг), с~а)=~ к( 1 ), где К— ! определенный коэффициент связи двух номинальных признаков, показывающий долю правильных предсказаний значений одного признака на основе значений другого (см. [63, с. 72]).
Заметим, что с! и с! аналогичны другим конструкциям, возникающим в анализе данных: известно, что максимальная сумма коэффициентов ранговой корреляции Спирмена с каким-то показателем достигается, если его ранги равны средним из исходных; при стандартизованных количественных переменных признак со средними значениями обеспечивает максимальную сумму линейных корреляций [25].
Правда, в отличие от приведенных прймеров вид разбиения в с! и сд не определяется так просто по известным разбиениям. Если все исходные признаки х количественные, а г — качественный, то Р!(г) эквивалентен критерию минимизации средневзвешенных внутриклассовых дисперсий (модификация Рм Рз, Рм). В общем случае если г — разбиение Я, то Р!(г) при!юимает аид: с,(!!)=~ ~~Р (р . й, где рп — элемент матрицы Р, р=т/)т'— ! 1ммг среднее значение Р. Как видно, этот функционал является частным случаем полученного выше критерия (2.5).
Если все х количественные, то р„=~ х!х!, что является своеобразной мерой близости !=! объектов, особенности которой в [63] подробно разбираются. Если рассматривать с более широких позиций задачу нахождения разбиения, максимально коррелирующего с исходным набором признаков, то ее удобнее всего решать в терминах матричных корреляций (аналогично матричным расстояниям в 1.2). Оказывается, это равносильно максимизации суммы коэффициентов Чупрова (если все признаки номинальные) или коэффициентов детерминации (если все признаки количественные).
Если из Ф' признаков первые Ф'! являются номинальными, а остальные — количественными, причем каждый номинальный имеет и!! градаций, то в терминах близости ! 1 объектов критерий приобретет вид: сз(Л)= ~ — ~', р„, 4)ь ! ч~к где РО определено в табл. 1.3.
В этом функционале число классов й заранее не задается. Из рассмотрения видно, что аппроксимационный подход порождает весьма общие конструкции, часть из которых раньше предлагалась из эвристических соображений. Более того, он позволяет органически увязывать функционалы качества, меры близости объектов, способы нормировки признаков и коэффициенты близости при!Об знаков (это особенно заметно в с»(й)). Все эти обстоятельства позволяют считать такое направление теоретически оправданным и методологически наиболее стройным из числа имеющихся подходов. Однако и ему присущи определенные ограничения, часть из которых отмечается авторами.
Так, мера р„устроена весьма специфично — чем ближе значения признаков к среднему значению, тем меньше их близость, что приемлемо, видимо, не всегда. Далее, не во всех случаях может быть справедлива гипотеза о кластерах, характеризуемых только средними расстояниями, которые типичны для задач квадратичной аппроксимации. Наконец, концепция, лежащая в основе построения критериев (2.6) и (2.7), как и другие связанные с ней конструкции, обсуждаемые выше, должна использоваться с некоторыми оговорками. Дело в том, что построение, скажем, признака, максимально коррелнрующего с имеющимися, целесообразно главным образом тогда, когда эти признаки достаточно сильно коррелнруют друг с другом. В противном случае искомый признак, как и обычная «фиктивная средняя» в статистике, будет «оптимально» описывать некоторое несуществующее состояние.