И.Д. Мандель - Кластерный анализ (1185344), страница 29
Текст из файла (страница 29)
Например, А. Эндрюс разработал способ кодирования каждой многомерной точки некоторой кривой, которая выдается на печать. Оригинален метод Г. Чернова (1973), предлагающего ставить в соответствие объекту черты человеческого лица. «Портреты» затем классифицируются экспертами или ЭВМ. Метод получает дальнейшее развитие и обобщается [!32[. Весьма эффективен метод, излагаемый в [! 30]: каждому числу матрицы расстояний ставится в соответствие клетка на дисплее или листинге.
Затем- осуществляется штриховка клетки, интенсивность которой монотонно меняется в зависимости от величины расстояния. Матрица с клетками разной затененности приводится к почти выпуклому виду (см. 2.2), после чего легко выделяются блоки тесно связанных объектов. Вышла монография [27[, посвященная методам образного анализа.
Поскольку это уже довольно далеко от нашего предмета, 125 отметим лишь, что сопоставление такого рода процедур с результатами кластер-анализа было бы очень интересным. Все рассмотренные приемы визуализации базируются на одном фундаментальном положении: человек в состоянии сам принять решение о структуре данных при их удобном восприятии.
Иначе говоря, предполагается, что человек хорошо различает образы на плоскости. Эта гипотеза не раз проверялась экспериментально и в целом подтвердилась (хотя здесь много неясного). Методы визуализации, таким образом, внутренне парадоксальны — они используют точные алгоритмы с экстремальными свойствами лишь для того, чтобы впоследствии человек принял на их основе весьма приближенное, естественное в его понимании решение. Однако такая парадоксальность лежит в природе вещей и не тормозит познание, а способствует его успехам.
3.2. КЛАССИФИКАЦИЯ С УЧЕ1ОМ ВНЕШНЕЙ ЦЕЛН Очень часто исследователь не ограничивается разбиением совокупности, а идет дальше, анализируя другими методами полученные группы наблюдений: например, внутри каждой группы строится уравнение регрессии; в экономике такая задача неоднократно решалась в [46, 76 и др.]. Поставим вопрос следующим образом: раз в конечном счете требуются регрессионные модели в группах, то в какой мере эти группы должны быть однородны по традиционным внутренним критериям кластерного анализа; нужна ли такая однородность, если, скажем, и без нее ошибка регрессии в классах мала; не следует ли сразу отыскивать такие группы, в которых эта ошибка минимизируется? Если раньше предполагалось, что построение хорошей классификации является конечной целью исследования, то сейчас классификация выступает как некоторый промежуточный продукт, необходимый в той мере, в которой он помогает достижению внешней «суперцели».
В общем случае, следуя [37, с. 88, 53], можно сформулировать задачу следующим образом: надо разбить совокупность на такие группы, чтобы каждая из них обладала определенными фиксированными свойствами, не обязательно связанными с понятием геометрической близости объектов. Речь идет о сознательно формируемой искусственной классификации, ее ориентире на данную конкретную цель. На одних и тех же совокупностях реализация разных целевых установок может порождать совершенно различные разбиения.
Какие же цели обычно ставятся для проведения классификации? Одна из них (разбить совокупность на группы таким образом, чтобы суммарная ошибка прогноза по регрессионным уравнениям в группах была минимальной) была обсуждена выше. Эта постановка является наиболее популярной и носит общее название кусочно-простой апароксимаиии [46]. Чаще всего используют линейные модели в группах, получаемые методами кусочно-линейных аппроксимаций. 126 Теория кусочных аппроксимаций в работах А. Дорофеюка, Ю. Завьялова, В.
Котюкова, Д. Пуарье и многих других авторов довольно сильно развита. Хороший обзор типовых методов приведен в Нб). Заметим, что при поиске требуемых разбиений в методах кусочной аппроксимации используют результаты решения задачи кластеризации, после чего идет корректировка в сторону минимизации ошибки. В (53] нами предложен подход к анализу данных, который в известном отношении дополняет методологию кусочно-простой аппроксимации, синтезируя ее идеи с общей направленностью теории устойчивого оценивания [824. Он назван интемсиомальным анализом от французского тптелйоп — намерение, замысел. Задача ставится следующим образом: требуется найти такое максимальное подмножество исходного множества объектов, которое обладает свойствами, интересующими исследователя.
Свойства могут быть самыми разнообразными. Приведем несколько примеров постановки задач такого типа. 1. Пусть требуется построить уравнение регрессии с точностью, не ниже заданной. Эта точность в виде критического значения коэффициента детерминации и будет оптимизируемым параметром. 2. Пусть требуется построить кусочно-линейный прогноз с точностью, заданной заранее. Тогда будет выделена зона, в которой такой прогноз возможен. Этот пример показывает отличие интенсионального подхода от кусочно-линейной аппроксимации, где разбиение отыскивается непосредственно на всем множестве точек. Но на самом деле совокупность может быть сильно засорена различными нетипичными наблюдениями, и предлагаемый метод очистит ее до использования собственно аппроксимационных процедур. 3.
Пусть требуется выделить множество объектов, такое, что матрица корреляций признаков в нем удалена от заданной матрицы корреляций не дальше, чем на определенную величину. Такая задача может возникнуть в экономике при анализе сбалансированности планов, в системах оптимизации технологических процессов и т. д. Тогда критерий будет иметь вид нормы разности матриц. 4. Пусть требуется разбить' совокупность на классы так, чтобы средние значения признаков в классах отличались между собой на величину, не ниже заданной. На всем множестве такое разбиение может отсутствовать, а после удаления аномальных в данном отношении объектов его можно будет получить.
5. Пусть требуется простейшим способом сгладить динамический ряд. Тогда будет найден самый длинный отрезок ряда, на котором справедлив с определенной точностью линейный тренд. б. Пусть требуется в данной совокупности проверить некоторую статистическую гипотезу на данном уровне значимости. Будет найдено подмножество максимальной мощности, в котором эта гипотеза не отвергается. Этот пример особенно характерен; он открывает новые возможности в статистическом оценивании в том отношении, что можно иначе смотреть на типичность любой выборки.. 1227 Приведенных примеров достаточно, чтобы представить себе характер предлагаемого подхода.
Его основной пафос заключается в целенаправленном очищении исходной совокупности от объектов, которые с точки зрения данного качества выглядят лишними. Этим он сродни теории устойчивого оценивания, но там отбрасывание объектов происходит из чисто вероятностных соображений, которые носят, так сказать, внутренний характер, не связанный с целью исследования, как здесь. К тому же и отбрасывание объектов не предполагается окончательным: на них также можно проверить какую-либо гипотезу с другими параметрами точности. Безусловно, в случае явной неоднородности совокупности, когда, например, динамический ряд имеет выраженные точки измене.ния тенденции, лучше всего использовать кусочные методы. Но если данные представить в виде аморфного облака со слабыми сгущениями, предлагаемый подход может оказаться более предпочтительным, что показано на рис.
3.6. Известны и некоторые другие постановки, напоминающие интенсиональный подход. В [66[ формулируется задача такого разбиения множества, чтобы в группах были максимально различные корреляции между признаками; это напоминает пример 3 (как и поиск экстремальных областей в [46] ). Внутренним критерием качества аппроксимации может служить следующий показатель: гн — Я„ а= (3.2) ! где к„— значение максимизируемого критерия качества аппроксимации на исходном множестве из М объектов; тс„, — значение показателя качества после окончания процедуры; а — удельное изменение качества приближения на одну отбрасываемую точку. 128 Рис.
3.6. Два способа аппроксимации линейной зависимости: а— кусочно. линейная аппроксимация; б — интенсиональный статистический анализ Приведем общую схему алгоритма, позволяющего «в пожирающем» режиме решать задачу выбора наилучшего подмножества точек, на котором произвольный максимизируемый функционал принимает значение не ниже порогового /х. Задается шаг погружения 6 — количество отбрасываемых точек и число )у/ — минимальное количество точек, которое может быть оставлено в совокупности (например, 2). Если на исходном множестве )с//(К то отыскивается У вЂ” 1 значений )г/ на всех подмножествах мощностью )У вЂ” 1. Если /пах/с/(/г, / отбрасывается 6 точек, обеспечивающих наибольшие значения )«/. Если после этого Их а~)К то к оставшимся точкам добавляется половина отброшенных, снова идет проверка н т.
д. Если Р// а(К процесс погружения продолжается. Можно установить, что в самом неблагоприятном случае — погружении вплоть до й1/, трудоемкость расчетов оценивается сверху так; А < — +/у, х/ где А — количество вычислений функционала Я. Задавая 6 в пределах О,1 —:0,2й1, а /У/ — около 0,5))/', получим для А оценку А(3/э', что не так уж плохо. Сложность вычислений может быть облегчена, если в отдельных случаях использовать конкретные свойства функционалов. Так, при анализе корреляций пересчет матриц быстрее производить не по всей совокупности, а с применением переходных формул.
В частности, можно прямыми выкладками показать, что .. /=("-М'",) ~4 -Л,"1)(1-М"1) где ㄠ— коэффициент линейной корреляции по всей совокупности, г , — коэффициент после отбрасывания одного объекта со стандартными координатами г/ и гь х — х Интересно отметить, что статистика г= — в (3.3), в о случае х=гпах (ппп)хь есть не что иное, как статистика Граббса, которая функционально связана с показателем Смирнова — Граббса [82]. Зависимость (3.3) указывает не только на способ оценивания коэффициента корреляции, но и на связь интенсионального подхода с устойчивым оцениваннем. Приведем пример использования интенсиональных процедур. Была поставлена задача оценки сбалансированности планового задания предприятий отрасли.
Ее суть в том, что по большому количеству планируемых показателей определяются характеристики выполнения плана, между которыми затем определяются корреляции. Слабая связь между показателями свидетельствует о дисбалансе, несоответствии одних показателей плана другим. 5 зак ///5 !29 Подробный анализ деятельности крупного строительного главка, проведенный нами за ряд лет, показал наличие существенной и постоянной несбалансированности отдельных позиций плана.