И.Д. Мандель - Кластерный анализ (1185344), страница 32
Текст из файла (страница 32)
ИК-1 может работать либо только ~зв с эмпирическими объектами, либо с эмпирическими н теоретическими. Рассмотрим теперь, каким образом соотносятся понятия естественной и искусственной классификации с кластерным анализом. Понятие естественности много раз возникало в процессе обсуждения методологии выделения однородных групп. Собственно говоря, не будь понятий «естественная структура», «естественный образ», не было бы и самого кластер-анализа как методологии выделения этих образов. Другое дело, что конкретные определения естественности имеют самый различный характер (требования к кластерам, описания алгоритмов, задание критерия качества классификации и др.). Но это уже другие трудности.
Главное же — в стремлении измерить «естественные представления» о структурности множества объектов. Совпадает ли это понятие естественности с ЕК-1? Очевидно, нет. Назовем естественной классификацией второго типа (ЕК-2) классификацию, в которой реализованы принципы структурного подхода к выделению однородных групп (главные из них — объекты одного класса близки друг к другу, объекты разных классов удалены). В отличие от принципов построения ЕК-1 для ЕК-2 свойственна куда ббльшая определенность методики. Если в первом случае не существует ни одного формализованного приема и приходится опираться на достаточно нечеткие представления о сущности объектов и трудно проверяемые критерии естественности, то во втором — в распоряжении исследователя целый арсенал в разной степени математизированиых алгоритмов.
Основное содержание книги и посвящено их описанию. Меняется и представление об объективности классификации. Субъективизм классификации кончается там, где признаковое пространство выбрано и метрика введена. После этого можно говорить о поиске естественного разбиения с точностью до ошибок метода. Наличие субъективизма только в процессе выбора исходных признаков является принципиальным. Рассмотрим это обстоятельство на примере, который призван демонстрировать обратное. Речь идет об известном рисунке М.
М. Бонгарда, обсуждаемом также в [37]: он воспроизведен на рис. 4.1. Требуется разбить эти фигуры на некоторые группы. Считается, что эта задача полностью находится в руках исследователя: по принципу «малые — большие» выделяются классы 1, 2, 3 и 4, 5, 6, по другому признаку — другие клас- сы и т.
д. Н. Г. Загоруико по этому поводу пишет: «Нетрудно заметить, что все эти варианты таксономии существуют объективно, но выбор того или иного варианта является процедурой чисто субъек- ОЛ Рис. 4.1. Миожество фигур, подлежа щик классификации 139 тивной и определяется исследователем в зависимости от цели работы, т. е. от «суперзадачи» (37, с. 1!0). По нашему мнению, приведенный пример следует интерпретировать несколько иным образом. Вся субъективность классификации фигур обусловлена исключительно субъективностью выбора признакового пространства. В каждом же пространстве группировка происходит практически однозначно и носит не только объективный, ио и естественный характер.
Если описать фигуры градациями всех измеряемых на них признаков, то получится следующий набор свойств: число углов (3, 4, со); размер фигур (малые, большие); штриховка (штрихованные, нештрихованные). Поскольку первый признак имеет три градации, представим его в виде сочетания трех дихотомических признаков; тогда каждый объект полностью описывается пятью бинарными признаками.
В этом пятимерном пространстве введем простейшую метрику типа Хемминга — количество попарных несовпадений в булевских векторах. Ниже изображена упорядоченная матрица расстояний. Как видно, в этом пространстве естественно и объективно выделяются группы похожих объектов: 2 — 6, 1 — 4, 3 — 5, причем объекты 2, 6 наиболее близки. Естественно, что если сократить пространство, то и результаты будут иными. Весь интерес этого примера в том и заключается, что фактически выбор постоянно происходит в разных пространствах признаков, но это удачно маскируется якобы произвольностью используемых отношений деления. Таким образом, можно сказать, что понятие «естественность-2» классификации определено с точностью до выбора пространства признаков и метрики при условии, что сам процесс классификации в этом пространстве осуществляется исходя из общих принципов структурного подхода, в частности кластерного анализа.
4ЛДЬ ВНУТРЕННИЕ И ВНЕШНИЕ ЦЕЛИ КЛАССИФИЦИРОВАНИЯ В перечисленных выше видах классификаций в классы объединяются объекты, похожие друг на друга, обладающие некоторыми близкими свойствами. Как уже подчеркивалось, вся разница между классификациями ЕК-1 и ИК-1 заключается в отличии используемых для разбиения признаков, а в ЕК-2 просто операционализируется базис- в " 4 ное понятие близости объектов или, более широко, структуры множества объектов. Но существует и принципиально другой подход к классификации, который был подробно изложен в 3.2. Если понятие близости, похожести объектов ассоциируется с представлением о внутренней цели классифи- з нации, то задание некоторых дополнительных требований (хорошего качества регрес- !40 сии в группах нли выполнения какой-либо статистической гипотезы) можно считать установлением внешней цели.
Назовем целевой классификацией, или искусственной классификацией второго типа (ИК-2), классификацию, удовлетворяюшую внешним целям, не связанным непосредственно с категориями близости объектов. Этим определением противопоставляются внутренние «устройства» классификаций: от принципа похожести объектов (всегда допускающего попарные сравнения) делается переход к принципу нахождения общности более высокого порядка — единообразия проявления закономерностей, которые можно выявить не на ларах объектов, а на какой-то целостной совокупности (скажем, наличие регрессии данного вида нельзя обнаружить на малом числе объектов, тем более на двух). Скорее всего эти два подхода на некотором уровне познания должны смыкаться; установление глубокой внутренней общности объектов (в смысле ЕК-1 или ИК-1) должно жестко вести к установлению подобия и во внешних проявлениях (в смысле ИК-2).
Но эта проблема является мало изученной, хотя важность ее не подлежит сомнению. На рис. 4.2 приведены взаимосвязи между основными рассмотренными категориями. Остановимся подробнее на некоторых аспектах схемы. В клетках 6, 8, 13 отмечено одно из существенных отличий кластерного н интенсионального анализа от традиционных классификаций — эти методы по своей природе работают только с фиксированными наборами эмпирических данных, тогда как естественные классификации обычно учитывают свойства теоретически допустимых объектов (классический пример — предсказание трех новых элементов Д.
И. Менделеевым). Другая отличительная черта формальных методов классификации, в том числе кластер-анализа, заключается в том, что они могут работать в условиях отсутствия разработанной теории или модели объекта (клетки 4, 8). Многократно подчеркивалась польза этих методов именно в мало изученных, поисковых ситуациях; само обилие параметров, используемых для классификации, чаще всего говорит не о глубоком понимании сушности объекта, а о неуверенности исследователя, его желании «иа всякий случай» отразить самые различные стороны функционирования. Однако отсутствие теоретических проработок отнюдь не обязательно.
Теоретические представления могут н предшествовать кластеризации, будучи подкрепленными ею (см. 1.1), и следовать за формальным разбиением. Это отражено в клетках 19 и 20, из которых следует, что ЕК-2 может превратиться при соответствуюших условиях в ЕК-1. Очень существенным является доказательство устойчивости результата, которое вообще должно играть решающую роль в статистическом анализе [55[. ьм Относительно связи двух классификаций можно вообще выдвинуть следующий тезис: любая естественная-1 классификация является естественной-2, но обратное справедливо не всегда. В его пользу говорит тот факт, что в ЕК-1 всегда в классах содержатся близкие объекты, как и в ЕК-2, а при наличии глубоких качественных причин 1. Коночная цель кпассифицираванин 11.
Кпаасифмкацин на группы на обнзатапьно покажнх объектов, удав. патворнюаюн накотарым специальным внащним трабованням 2. Кпассификацин на группы похожих обьактав 12. Формированиа внащ. них трабаваний (цапай) 4. Извастны ойрадапяющиа объ. акт осмовныа авойства, мадапь объактат наг наг да з. у б. Учитыааютсн на танька змпиричаскиа, на и возможныа таоратнчасниа абьакты 16. Искусстаанная-2 (цапа. вая) кпассифи. кацин б. Естастваннзн — 1 «пассификация 20. Провадано таора- тичаскоа осмыспаниа «пассификации? 1б.