И.Д. Мандель - Кластерный анализ (1185344), страница 33
Текст из файла (страница 33)
Анапизируютсн тонька змпиричаскиа обьакты наг 19. Доказана устойчивость кпаосифика. ции во времени и (ипи) в пространства, если зто возможно? 17. Кпастар — анализ ипи разда. ление смесей нат 21. Рабочая (вспомагатань. ная) кпассификация 1б. Естественная -2 кпассифика. ция Рис 4.2. Классификации разных типов !42 . Учитываатсн сущность объакта, 7. Учитываатсн касто наиболее важные «ачастванныа кая-та сторона, а чартм? наг пакт объакта б. маатсн творе. тичаскан модапь даннога аапакта функционирование? 13.
Анапизиру. ютая тонька, змпиричаскма обьакты 14. Кусачная аппроксимация, интансионапь. ный анализ расслоения классы ЕК-1 должны быть и достаточно удалены друг от друга, т. е. реализовывать структурный подход к анализу. Конечно, тезис является эвристическим и не имеет достаточного экспериментального подтверждения, которое было бы чрезвычайно интересным. Например, в [2!] приводится три варианта построения периодической таблицы химических элементов в защиту того утверждения, что любой из них (в том числе вариант Д.
И. Менделеева) имеет лишь относительный, аспектный характер. Думается, что кластеризация элементов в разных признаковых пространствах позволила бы убедиться в разной степени структурности в данных и, возможно, выявила бы наиболее естественный — 2 вариант. А наличие ЕК-2 могло бы стать дополнительным аргументом для признания именно этого варианта «наиболее естественным» в смысле ЕК-!. Возможно, справедлив и второй тезис: чем более естественна классификация в структурном отношении, тем более она естественна в качественном отношении.
Интересное подтверждение первого тезиса содержится в [17, с. 62 — 83). Иерархическая классификация губерний России в пространстве 19 агроэкономических показателей дала почти точно такие же результаты, какие получил в свое время В. И. Ленин, используя, конечно, лишь несколько важнейших типообразующих признаков.
С одной стороны, это говорит о явной предпочтительности качественных представлений об объекте, о желательности теоретических представлений и необходимости умело пользоваться этими представлениями, что В. И. Ленин убедительно и продемонстрировал. С другой стороны, оказывается, можно и «формальными методами» кластер-анализа, не располагая информацией об узловых, наиболее важных признаках объекта, получить тем не менее теоретически оправданные результаты. В данном случае индуктивный (от фактов и методов) путь познания привел к тому же выводу, что и дедуктивный путь (от фактов и теории), что представляется глубоко закономерным.
Так что у кластер-анализа нельзя отнимать способность в других, куда менее понятных ситуациях отыскивать такие «скопления», которые впоследствии могут не просто объясняться некоторой теорией, но и давать изначальный толчок для ее создания. Эвристическая роль методов кластеризации в современных условиях интенсивного «наступления на многомерность» во всех областях науки очень значительна. 4.2.
ОБЩАЯ СХЕМА ИСПОЛЬЗОВАНИЯ МЕТОДОВ КЛАССИФИКАЦИИ Рассмотрим здесь методические вопросы, неизбежно возникающие в каждом исследовании: о выборе способа классификации, об используемых параметрах алгоритмов, о сферах применимости тех или иных процедур и т. д. Многие из этих проблем обсуждались по тексту, однако целесообразно провести сводку даваемых ранее рекомендаций и дополнить ее новыми соображениями. В известной мере настоящий параграф является путеводителем по всей книге и коротко отвечает на основные вопросы о практическом применении кластерного анализа.
Поэтому изложение носит в ряде мест очень сжатый характер, ссылки даются не на источники, а на параграфы книги. При решении конкретной задачи обычно приходится выполнять следующие этапы: обосновать общую стратегию обработки данных (выбрать тип метода классификации); при применении кластерного анализа решить вопрос-о способе измерения близости между объектами; выбрать конкретную группу алгоритмов, пригодных для данной задачи; определить значения задаваемых для алгоритмов параметров; провести расчеты и проинтерпретировать результат.
Все эти этапы рассмотрены ниже. 42.4. ВЫБОР ТИПА МЕТОДА КЛАССИФИКАЦИИ Об этом подробно говорилось в !.1, 3.1 и 3.2. Результаты обсуждения можно резюмировать в схеме на рис. 4.3. На схеме не везде проставлены разделительные вопросы, поскольку в некоторых случаях они носят достаточно сложный характер. Так, в правом нижнем углу приведено три типа методов сокращения пространства и дальнейшей кластеризации по осям. В принципе все они оправданы и вполне допускают параллельное использование (хотя нам представляется, что содержательно выгоднее всего выбирать информативные признаки, а не их сочетания — факторы или компоненты). В правом верхнем углу — три способа построения аппроксимирующих функццй, которые подробно рассмотрены в 3.2 и также могут использоваться в параллельном режиме. 4.2.2.
ОБОСНОВАНИЕ СПОСОБА ИЗМЕРЕНИЯ БЛИЗОСТИ ОБЪЕКТОВ Прежде чем рассмотреть особенности выбора меры близости, сделаем два общих замечания, резюмирующих содержание 1.3. 1. Первым этапом работы после выявления состава используемых признаков является четкая фиксация признакового пространства. Следует твердо помнить, что оно является единственным. Поэтому к выбору пространства следует подходить с максимальной тщательностью. Если из содержательных соображений не следует предпочтительность той или иной шкалы для каждого признака, надо переходить к нормированным данным.
При этом необходимо максимально учитывать качественную специфику признаков и выбирать соответствующий способ нормировки. Если имеется возможность, нормировку !44 х м о Ю э' и \ С О $ о й 63 Х ж е й с~ и 6$ О. о 'О и х о о и а 6 Зак 11!5 145 производить только по величинам, не зависящим от выборки (теоретическим или эталонным) (109]. 2.
После формирования признакового пространства следует выбрать меру близости объектов. При этом надо учитывать формальные свойства мер, рассмотренные в 1.3, и сопоставлять их с содержательными особенностями задачи. При использовании коэффициента типа меры Журавлева предварительная нормировка показателей не нужна, что еще раз подчеркивает выгоду ясных содержательных представлений об объекте. Надо помнить, что выбранная метрика, как и выбранное пространство, является единственной, и никакая другая такого же результата не гарантирует.
Поэтому очень полезно сделать расчеты несколько раз с разными метриками и найти устойчивые общие черты в разбиениях. Окончательный критерий кластер-анализа — критерий практической полезности результата; в случае успеха одноиременно считаются удачными и расстояние, и алгоритм. Подробные рекомендации см. на рис. 4.4. В 1.3 пояснены встречающиеся на рис. 4.4 конструкции.
В некоторых случаях задача измерения близости выходит за пределы непосредственного расчета какой-либо метрики илн меры сходства и включается в более общий контекст обоснования метода обработки данных. Это видно из блоков 8 и !2 на схеме, содержание которых разъясняется соответственно в 2.3 и 2.2. Целесообразность аппроксимационного подхода (блок 8) в ситуации, приводящей к мере близости Миркина (т. е. при аппроксимации таблиц «объект-признак»), определяется главным образом двумя обстоятельствами: 1) удобством для исследователя критериев дисперсионного типа (к которым сводятся критерии аппроксимации, см.
4.2.3) и 2) степенью коррелированности исходных показателей. Дивизимная процедура Чаудари (блок 12) является единственным алгоритмом, использующим понятие связности непосредственно в многомерном пространстве, без перехода к каким-то мерам близости. Поэтому процедуру можно рекомендовать для использования как метод, наиболее свободный от дополнительных предположений.
Вопрос ! 1 лишь подчеркивает, что, если искусственное измерение близости очень нежелательно (например, эксперты вообще не в состоянии соизмерить значимость некоторых переменных в парах), надо использовать именно этот алгоритм. Легко видеть, что для шкал разностей, интервалов и отношений результат его работы не зависит от допустимых преобразований.
Что же касается так называемых инвариантных критериев Фридмана и Рубина (Рн — г"ы в табл. 2.5) или инвариантной статистики Махаланобиса (1.3) и других подобных величин, то они действительно не меняются при допустимых преобразованиях шкал, но и лишены содержательного смысла без предварительной нормировки переменных. Ковариация, лежащая в их основе, оправдана лишь для заранее соизмеримых переменных (см.
подробнее 1.3). 146 й Ф Ю о «( > % й Й ~О к О о с м 3 О о ~О л Ф Ф % х и Ф Ф Когда исследователь находится в ситуации отсутствия априорной информации (вопросы 18, 21), ничего не остается, как применить испытанное евклидово расстояние. Кроме тех его особенностей, которые обсуждались в 1.3, укажем еще на две: квадрат евклидова расстояния тесно связан с дисперснонными критериями (см. обсуждение Р, в 2.3); эксперименты показали, что искажения евклидова расстояния не очень сильно влияют на результаты работы некоторых распространенных алгоритмов (иерархических и й-средних) [134[. 4ДЬЗ.
ВЫВОР АЛГОРИТМОВ КЛАСТЕР-АНАЛИЗА В табл. 2.3 и 2.5 приведено 110 алгоритмов; в комментариях к ним названо еще 30 модификаций. Некоторые строки таблиц фактически описывают не алгоритм, а целое семейство конкретных процедур (например, метод динамических сгущений — Р4о и др.).