И.Д. Мандель - Кластерный анализ (1185344), страница 37
Текст из файла (страница 37)
Все разбиения трестов за один год тесно связаны друг с другом. Это свидетельствует об устойчивости структуры к методу классификации. 2. Разбиения за разные годы отличаются в большей степени, чем варианты классификации за один год, но все же достаточно близки, чтобы не считать полученную связь случайной. Это обстоятельство позволяет сделать вывод об относительной устойчивости во времени классификаций трестов по отобранным показателям.
Все варианты классификации удовлетворяют требованиям, ' Программное обеспечение принадлежит Т. К. Аскарову. 162 предъявляемым к хорошей структуре: внутриклассовые средние расстояния меньше других межклассовых средних расстояний данного класса. Приведем для иллюстрации одну матрицу средних расстояний (табл. 4.5). Видно, что средние расстояния достаточно сильно различаются (1 означает существенное (на уровне 5 ~) превышение среднего межклассового расстояния среднего внутриклассового). Рассмотрим теперь содержательное различие между классами, проявляемое в средних значениях показателей, по которым проводилась группировка.
Поскольку попарное сравнение всех средних значений в классах по всем разбиениям очень громоздко, производилось сравнение внутриклассовых средних с общей средней по !- критерию. Это позволяет каждый класс описать вектором, где 1 означает суШественное превышение среднего значения данного признака в классе средней по всей совокупности, 0 — несущественную разницу,-!†существенное меньшее значение. Такой набор нулей и единиц определяет «лицо класса» и дает возможность сравнивать его с другими классами независимо от изменения состава сравниваемых выборок. 1. За каждый год выделяется большая группа предприятий с примерно одинаковыми соотношениями всех пяти показателей первой системы: классы (порядок показателей см, выше) ( — 1, — 1, — 1, О, — 1), ( — 1, — 1, 0 — 1, 0), ( — 1, — 1, — 1, Π— 1), ( — 1, — 1, — 1, — 1), ( — 1, — 1, — 1, О, 0).
Для предприятий этого типа характерны невысокие значения всех показателей, кроме оборачиваемости (которая обычно на среднем уровне). В группе требуется стимулирование всех направлений роста эффективности производства, ее составляют в основном отстаюшие предприятия. 2. Соавнительно устойчиво выделяется группа предприятий с высокими значениями производительности труда и рентабельности при различном уровне других показателей: (1, О, — 1, — 1, 1), (1, — 1, — 1, 1, !), (1, — 1, 1, О, 1), (О, О, — 1, О, 1), (1, 1, О, 1, 1). Характерны невысокие или средние значения материалоотдачн и оборачиваемости.
Организации такого типа, видимо, следят за директивно утвержденными показателями, оставляя без специального внимания прочие характеристики отдачи ресурсов и затрат. 3. Выделяются в основном немногочисленные классы преимущественно с высоким уровнем оборачиваемости и материалоотдачи, средним или высоким уровнем рентабельности и производительности труда, обычно низким уровнем фондоотдачи: (О, — 1, 1„0, 1), (О, О, 1, 1, 1), ( — 1, — 1, 1, 1, 0), (1, — 1, 1, О, 0), (1, О, 1, 1, 0). Предприятия этих классов можно назвать лидерами в рассматриваемой совокупности. Для дифференцированного управления ростом эффективности полученная с помощью кластер-анализа группировка предприятий имеет большое значение.
Во-первых, она показывает, на какие именно показатели надо обращать особое внимание в разных груп- !63 пах с учетом их отличия от средних уровней. Во-вторых, в выделенных естественных группах разные корреляции отличаются от общеотраслевых, что позволяет более точно принимать управленческие решения. Более подробно поднятые здесь и близкие вопросы рассматриваются в работе'. 4А. ЭКОНОМИКО-ГЕОЛОГИЧЕСКОЕ РАЙОНИРОВАНИЕ ТЕРРИТОРИИ' Районирование крупных неоднородных территорий является одной из базовых операций металлогении и прогнозирования ископаемых. Оно позволяет упростить реальную чрезвычайно сложную картину геологического строения территории и сделать ее доступной для анализа (в частности, металлогенического); выделение оптимально однородных областей повышает качество и эффективность прогноза полезных ископаемых, так как позволяет использовать специфические прогнозируемые характеристики и основывать прогноз на более устойчивых и «тонких» закономерностях локализации оруденения (в более неоднородном пространстве эти закономерности становились бы неустойчивыми и даже просто затушевались).
Формально задача районирования (на данных Восточной части Казахстана) сводится к кластерному анализу. Однако стандартный подход к ее решению будет малопригодным. Это обусловлено тем, что имеются априорные предположения о наличии «размытости» структурных данных, вызванной сложностью форм кластеров, возможностью их пересечения и соответственно неоднозначностью отнесения объектов к тому нли иному кластеру. Практически точное число кластеров заранее неизвестно, по различным наборам признаков границы кластеров могут существенно изменяться. Это усугубляется большим количеством объектов точек территории с измеренными параметрами — около 900. Поэтому целесообразно проделывать двухэтапную группировку типа описанной в алг. 59 из 2.2.
На предварительном этапе выделяются заведомо компактные группы точек в разных признаковых пространствах, г. е. могут пересекаться. Каждый сгусток заменяется точкой, являющейся его центром. Число объектов, таким образом, резко сокращается, что позволяет использовать удобные алгоритмы для средних размерностей. Эта методика и была применена для районирования территории Восточной части Казахстана для целей прогноза ископаемых (поли- металлов и меди) [12). ' Мандель И. Д. Экономико-статистическое моделирование сбалансированности плановых заданий//Модели предприятия в экономическом анализе и управлении производством. — Новосибирск: Наука, !986. — С.
68 — 75. ' Параграф написан совместно с Т. К. Аскаровым (программное обеспечение, проведение расчетов) н В. Л. Лосем (интерпретация расчетов). Исходя из содержательных соображений были намечены прогнозирующие характеристики геологического пространства, которые связаны с типом и интенсивностью свинцово-цинковой и медной минерализации изучаемой территории. Информацию о них можно получить в имеющихся фондовых материалах, Для всей изучаемой территории были построены модели пространственного распределения выбранных прогнозирующих характеристик, а также модели плотности свинцово-цинкового и медного оруденения', которые служили целевой характеристикой [12]...Модельные значения характеристик измерены в узлах координатной сети, покрывающей территорию Восточной части Казахстана; координаты узлов были записаны на магнитную ленту и послужили базой данных для кластерного анализа и районирования.
Список использованных для районирования 24 характеристик подробно описывается в ]12]. Первоначально была сделана попытка снижения размерности признакового пространства. Для этого использовался метод главных компонент и корреляционный анализ. Относительно тесная линейная связь выявилась между шестью характеристиками, т. е. снижение размерности оказалось незначительным (на 25ог'). Применение иерархических алгоритмов на первых этапах решения задачи нерационально нз-за большого числа объектов-узлов координатной сети (894). Поэтому был применен алгоритм типа корреляционных плеяд, просматривающий последовательно попарные расстояния объектов в сравнении с некоторой пороговой величиной.
Матрицу расстояний хранить в памяти ЭВМ при этом не требуется. Введение порога в данном случае не накладывает извне структуру на данные, так как выделяются пары точек, расстояние между которыми меньше этой пороговой величины. Здесь возможно выявление кластеров сложной формы и т.
д. Основная задача данного этапа— выявление групп точек, устойчиво близких по разным наборам признаков, затем, заменив эти группы эталонами, можно использовать иерархические алгоритмы. По нескольким наборам признаков (наборы на 50 — 70ог' перекрывали друг друга), составленным на основе содержательных соображений, было выявлено 89 относительно устойчивых групп, содержащих от 3 до 138 точек.
Характерна вытянутость многих полученных кластеров, а также их пространственная локализация (точки, входящие в кластер, в пространстве создают компактную область, что отражает общую неоднородность геологического пространства). 167 точек не проявили устойчивой тенденции к вхождению в группы. После замены группы их центрами тяжести была получена совокупность,из 256 точек (89 центров тяжестей групп плюс !67 «незави- ' Под моделями распределения понимается восстановление непрерывной плотности изменения показателя в пространстве по его дискретным наблюдаемым значениям. !66 симых» точек).
Эта совокупность обрабатывалась несколькими кластер-алгоритмами (иерархическими н в-средними). Сравнение полученных по отдельным алгоритмам результатов позволило выделить 18 устойчивых кластеров. Подробная интерпретация классификации приведена в 112]; показано, что регионы существенно различаются по основным геологическим параметрам. Из приведенного анализа можно сделать несколько выводов. 1. Используемая схема кластеризации предусматривает итеративное общение специалистов-геологов с «вычислителями», изменение параметров классификации и ее методов, варьирование используемых признаков и т. д. и является наиболее адекватной данному очень сложному и громоздкому материалу.
Только в таком человеко-машинном варианте и можно решать серьезные поисковые задачи. 2. Выделенные кластеры вряд ли могут быть строго описаны н терминах исходных определений (см. 2.1) или подобных им. Это, однако, не мешает им быть ценным подспорьем в решении экономико- геологических задач. 3. В классах удалось добиться куда более высоких связей между целевыми и влияющими показателями, чем во всей совокупности, что свидетельствует о необходимости предварительного выделения однородных групп с тем, чтобы с ними вести дальнейший анализ (см, целевой подход в 3.2).
Надежные прогнозные модели в группах (вообще большая редкость в геологии) могут помочь экономично использовать средства на разведку полезных ископаемых. В настоящее время методы кластерного анализа во многих случаях стали неотъемлемой частью статистического изучения многомерной информации. Как видно из содержания книги, они дают большие возможности для использования различных содержательных предположений о структуре данных и учете вычислительных особенностей процедур. Однако ясно также, что многие проблемы ждут своего решения. Назовем некоторые из них.