Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 62
Текст из файла (страница 62)
Поэтому реальное значение критерия даваемой процедурами классификации обычно существенно больше К',р,„„(12.17). С другой стороны, известно, что наилучшее разбиение (в смысле любого нз критериев (12.7)— (12.14) достигается в подклассе разбиений, получаемых с помощью линейных дискриминантных плоскостей [56, 601. Естественно попробовать найти некоторое относительно просто вычисляемое линейное разбиение имеющейся матрицы данных Х. Одна из возможных кластер-процедур такого рода получается при использовании метода я-средних в предположении, что центры классов лежат на одной прямой.
Получаемое таким образом значение критериальной величины обозначим через К',„„„„. Очевидно, что Кс ы я„„"- ~ К',р,,„у„и в отличие от К',р,~у„является величиной, зависящей от имеющейся матрицй Х, т. е. К' „„„„= = К',„„„(Х). Верхняя граница для значения критерия. Для получения этой границы обратимся к представлению К' в виде (!2.10). Векторы х, „..., х,. р взаимно ортогональны, и норма вектора Ц2.уЦз = — ль Используя экстремальные свойства собственных векторов (см. гл.
13), получаем после некоторых преобразований, что К' ч;~с Л„где Л, рЛ,~в...>˄— собственг-с ные числа матрицы О, упорядоченные в порядке убывания. Р Р+~ Так как ~), = ~~.",Х; = Зр(1 при любом 1 ) О (поскольку ~.=! Ф ! имеется только р ненулевых собственных чисел), имеем Ц, если й(р; в=! Яр(1, если й)р. (12.!8) 3аметим далее, что ненулевые собственные числа матрицы 0 совпадают с собственными числами матрицы корреляций бр(1 = Яр8.
12.2.3. Случай, когда центры классов лежат иа одной црямой. В этом случае следует использовать метрику Махаланобиса. Расположение центров классов на одной прямой можно рассматривать как простую модель упорядоченной классификации. Лействительно, вектор средних значений 1-го класса в этом случае можно представить в виде М, = Мр+ +д,1, (1 = 1/г), где М, — общий центр тяжести; 1, — некоторый вектор, задающий направление прямой. Естественно, классы можно рассматривать упорядоченными в соответствии со значением параметра а. Если данные центрированы, то М, = О, и, следовательно„ ~~~~~ а~А= О. Я ! Этот случай и будем рассматривать далыне.
Бев ограниче- ния общности можно также считать, что рз (у, г) =~ щах. (12.19) 3десь у — новый признак, линейная комбинация исходных данных у =- а~к, + ... + архр — — (А'Х). Значение критерия (12.19) не зависит от длины вектора А. Пусть теперь классификация Х фиксирована. Определим вектор А, дающий критерию (12.19) максимальное значение. При этом потребуем выполнения следующего условия нормировки А'ЗА =1 (9 — ковариационная матрица х), т. е. будем требовать, чтобы проекция у = А'Х имела единичную диспер- 326 Критерий для выбора вектора направления А и разбиения з запишем в виде сию. Корреляционное отношение при выполнении условия нормировки А'ЗА = 1 можно представить в виде (12.20) После дифференцирования по А с учетом условия нормировки с помощью множителя Лагранжа получаем уравнение, которому должен удовлетворять искомый вектор А (12.21) ( — Р!3)А=О, и л где В = ~ ...
Х7Х>' — матрица межклассового разброса. >=! Зто хорошо известное в дискрнмннантном анализе уравнение, определяющее канонический базис дискриминантного подпространства (см. гл. 19), В махаланобисовой метрике $ =- 1 Используя вышесказанное, можно сформулировать следующий алгоритм направленной кластеризации. Схема алгоритма 1. Переходим к метрике Махаланобиса и центрируем данные. 2.
Задаем некоторое начальное направление А = А<>Ч. 3. Производим группировку проекций обьектов на А г, = (А'Х>) ... (>, = 1, л). Подсчитываем центры Х,, ..., Х„и матрицу В. Проверяем условие остановки (стабилизацию центров). 4. Пересчитываем А ВА — ЛБА= О, здесь  — матрица межгруппового рассеивания по центрам. Переходим на шаг 3. На каждом шаге значение функционала качества не убывает, а так как он ограничен, то отсюда следует сходимость за конечное число шагов (если следить за критерием оптимизации как условием остановки). 327 12.3.
Некоторые методические рекомендации Использование априорной информации. Успех применения процедур классификации во многом зависит от информации, которой обладает исследователь относительно ожидаемого разделения объектов на классы. Возможно использование априорной информации з одной из следующих форм: задание метрики в пространстве, т. е. функции расстояния между объектами (подробнее см. гл. 5, 11); частично обучающие выборки (ЧОВ) (см.
гл. 11); неполные обучающие выборки (см, гл. 9). Эффективность применения ОВ весьма высока. Часто ОВ суммарного объема, составляющего 5 — 10% общего числа объектов, позволяют получить содержательно осмысленную классификацию, трудно реализуемую при их отсутствии. Итеративное использование процедур классификации. Как правило, использование процедур классификации носит итеративный характер, в особенности если априорная информация отсутствует. Для получения содержательно осмысленной классификации (если она вообще потенциально возможна) полезны следующие методические приемы: применение к данным нескольких алгоритмов классификации с последующим сравнением результатов; применение для анализа данных нескольких метрик и нескольких вариантов параметров, управляющих работой алгоритма, с последующим сравнением результатов; прн этом выбирается вариант классификации, наиболее устойчивый к вариации параметров.
Визуализация данных. Подчеркнем еще раз пользу применения средств визуализации, т. е. отображения на плоскость главных компонент я нелинейных проекций, построения гистограмм на направлениях проектирования и т. д. Визуализация может быть использована как для выделения сгущений объектов до применения процедур классификации (тогда некоторые точки из сгущений можно попытаться использовать как ЧОВ), так и для отображения результатов работы процедуры классификации.
Результаты классификации тем устойчивее, чем больше объем выборки л и меньше соотношение р!п. В частности, поэтому полезно провести классификацию объектов, спроектированных в пространство небольшой размерности, напри. мер использовать нескольколинейных или нелинейных главных компонент (см. гл. )3) н целенаправленное проецирование (см. гл. 19). 328 Использование дополнительных (иллюстративных) переменных. Применение иллюстративных переменных в интерпретации и оценке устойчивости разбиения описано в $ 12.4. Удаление аномальных наблюдений. Наличие аномальных наблюдении, как правило, ухудшает результаты классификации, «сжимая» имеющиеся классы. Поэтому проверка наличия таких наблюдений (см., например, 4!9.5) и их удаление являются необходимым этапом перед проведением автоматической классификации.
Средства, помогающие интерпретации результатов Предположим теперь, что в результате применения той или иной процедуры кластер-анализа илн разделения смесей получена группировка исходных объектов на й групп. На дальнейшем этапе задачей исследователя является интерпретация (объяснение) полученного разделения на группы в терминах некоторого причинно-следственного механизма. При интерпретации применяются обычно следующие средства. Анализ состава объектов, полови«их в одну группу. Изучение статистических характеристик распределений переменных для объектов внутри каждой иэ групп. Для количественных переменных такими характеристиками для каждой переменной являются характеристики положения (медиана, мода, средняя величина) и рассеивания вокруг выбранной характеристики положения (обычно внутригрупповое стандартное отклонение, но может использоваться, например, и абсолютное отклонение).
В качестве характеристики совместного распределения переменных внутри группы используется корреляционная матрица. В качестве переменных-индикаторов, полезных для интерпретации группы, в первую очередь ищут такие, для которых их внутригрупповое стандартное отклонение или дисперсия много меньше стандартного отклонения (дисперсин) по всей совокупности объектов. Некоторую интерпретирующую информацию можно получить из сравнения коэффициентов корреляции между переменными для разных групп. Вспомогательным, но полезным простым средством для одновременного анализа разброса значений какой-либо переменной вокруг средних значений в каждой группе и их взаимного расположения служит линейная диаграмма.
Это прямая линия, на которой расположены координаты центров групп по данной переменной с указанием интервала раз- броса этой переменной вокруг каждого из центров (обычно ~ о — одно внутригрупповое стандартное отклонение). Если среди переменных имеются неколичественные, то как индикаторы используются частоты градаций этих переменных.
Если для некоторой переменной х частота ее )ъй градации в у-й группе существенно выше, чем по всей выборке в среднем, то она может использоваться для интерпретации. Использование дополнительных (иллюстративных) переменных, Кроме переменных, которые непосредственно использовались при получении классификации (активных переменных), полезно включать в рассмотрение и переменные, которые будут использованы только на этапе интерпретации. Для этих переменных в целях интерпретации оцениваются внутригрупповые статистические характеристики аналогично тому, как это делается для активных. Другое возможное их применение состоит в проведении дискриминантного анализа. Использование дискриминантного анализа.
Полученные группы объектов можно использовать как обучающие выборки для дискриминантного анализа в пространстве активных илн иллюстративных переменных. Проведение ДА в пространстве активных переменных можно использовать, с одной стороны, для целей оценки устойчивости классификации, для чего, например, подсчитывается такая характеристика, как частота ошибочной классификации (полная и попарные частоты) при применении метода скользящего экзамена. С другой стороны, для целей интерпретации можно выделить информативные переменные (пошаговый дискриминантный анализ) и использовать в интерпретации коэффициенты линейных дискриминантных функций. Проведение ДА в пространстве иллюстративных переменных добавляет еще один аспект. Если в этом случае результаты ДА будут хорошими (низкая частота ошибок), то это будет служить дополнительным доводом в пользу предположения, что полученная группировка не случайна, а отражает некоторые существенные свойства структуры данных.