И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 48
Текст из файла (страница 48)
Маловероятно, что неустойчивое кластерное решение может отражать свойства генеральной совокупности. Эта методика уже рассматривалась в качестве примера в равд. 1. Голдстейн и Линден (1969), проводя исследование больных алкоголизмом, разделили всю полученную выборку на две части, к которым затем применили один и тот же метод кластерного анализа. В результате в обоих решениях были обнаружены те же самые четыре кластера.
Методика повторных выборок фактически предназначена для проверки соответствия кластерного решения внутренней структуре генеральной совокупности. То, что одни и те же кластеры обнаруживаются в различных подмножествах, когда к ним применяются одинаковые кластерные методы, не доказывают обоснованность решения. Другими словами, при неудачной попытке повторить кластерное решение оно отвергается, но успешное повторение не дает гарантии достоверности этого решения.
ТЕСТЫ ЗНАЧИМОСТИ ДЛЯ ВНЕШНИХ ПРИЗНАКОВ Процедуры, включенные в данную категорию, вероятно, считаются лучшими среди способов обоснования достоверности кластерного решения, но, к сожалению, этот подход мало использовался, несмотря на его потенциальные возможности. По существу, процедура заключается в проведении теста значимости, с помощью которого сравниваются кластеры по признакам, не применявшимся при получении кластерного решения.
Этой методикой пользовались прн исследовании верующих Филзингер и др. (1979), Они сопоставили полученные кластеры по семи демографическим признакам, не участвовавшим при формировании кластеров. В результате были обнаружены значимые различия по четырем из этих семи признаков. Интересное исследование, в котором использовался более сложный тест внешней обоснованности кластерного решения, было проведено Финни и Мусом (1979). Эти исследователи, подобно Голдстейну и Линдену (1979) (см. равд.
1), хотели определить, возможно ли выделить подтипы больных алкоголизмом. Проанализировав данные вопросников о 429 больных, они нашли восемь кластеров. Для этих же больных в течение шести месяцев были собраны данные по пяти признакам: 1) самоотчет о потреблении алкоголя; 2) отказ от спиртного; 3) физические повреждения; 4) реабилитация и 5) выполнение профессиональных функций. Финни и Мус нашли, что восемь кластеров различались по этим пяти признакам.
Это было показано Р-тестом значимости с помощью процедуры А(ЧОуА. Кроме того, исследователи обнаружили значимые связи между участием больных в лечебных программах и их принадлежностью к кластерам, Сила внешнего обоснования заключается в том, что оно непосредственно проверяет достоверность кластерного решения по отношению к подходящему критерию. Одной из причин, почему зтот подход к проверке достоверности решения редко используется в исследованиях с кластерным анализом, является высокая стоимость методологического планирования сбора данных для рассматриваемого критерия. Другая вероятная причина заключается в чисто исследовательском (поисковом) характере работ, где необходим кластерный анализ. Отсутствие разработанной теории, сопровождающей весь процесс создания классификации, не позволяет выделить группу внешних критериев, соответствующих целям исследования.
Однако кластерные решения, успешно прошедшие проверку на достоверность, по сравнению с прочими решениями намного ценнее. ПРОЦЕДУРЫ МОНТЕ-КАРЛО Последний подход к обоснованию достоверности решений используется сравнительно мало и в некоторой степени труден для изложения. В сущности, этот подход заключается в применении процедур Монте-Карло, применяющих генераторы случайных чисел, для создания наборов данных с основными характеристиками, соответствующими характеристикам реальных данных, но не содержащих кластеров.
Одни и те же методы кластеризации употребляются как к реальным данным, так и к искусственным, а полученные решения сравниваются с помощью подходящих методов. Пример такого процесса, использующий данные ММР1- теста, возможно лучший способ проиллюстрировать этот подход. Шаг 1. Создание рандомизироеанного набора данных. С помощью генератора случайных чисел создается множество искусственных данных, которое не имеет кластеров, но обладает теми же характеристиками, что и реальный набор данных, Чтобы сделать зто, мы вычислили общие средние, стандартные отклонения и матрицу корреляций между признаками для исходного множества данных ММР1-теста о 90 больных.
Далее для создания рандомизированного набора данных мы написали короткую программу на Фортране, которая использует генератор случайных чисел нз пакета программ 1МВЬ. Этот генератор порождает данные, являющиеся выборкой из генеральной совокупности с многомерным нормальным распределением с заданным вектором средних и заданной ковариационной матрицей. Первый шаг может показаться труднопреодолимым для пользователя, но в действительности такую программу довольно легко написать: требуется лишь 36 операторов Фортрана.
В результате получаем рандомизированное множество данных о 90 гипотетических больных, которое не содержит кластеров. Шаг 2. Применение одного и того же метода кластерного ана- лиза к обоим наборам данных. Для сравнения результатов кластерного анализа каждый из наборов данных подвергся обработке по итерационному методу й-средних (мы воспользовались процедурой ВМЭРКМ). Программа начала свою работу с создания начального разбиения, а затем последовательно применяла метод Й-средних, описанный в равд, П1, для формирования заданного числа кластеров.
Поскольку известно, что реальные данные состоят из трех групп, то мы решили рассмотреть только решение, в которое входят три кластера. Средние, найденные по рандомнзированным данным, сильно отличаются от средних, найденных по реальным данным. Кроме того, отметим, что средние этих групп можно упорядочить по возрастанию. Другими словами, один кластер содержит сильно приподнятые профили, другой — умеренно приподнятые, а средние третьего кластера довольно малы. Наш опыт применения кластер.
ного анализа к рандомизированным данным свидетельствует, что многие методы кластеризации формируют такие кластеры из случайных данных, которые можно упорядочить по возрастанию их средних. Шаг 3. Сравнение кластерных решений. Последний шаг заключается в сравнении выходных статистик кластерных решений, полученных по реальному и искусственному наборам данных. В этом случае мы воспользуемая мерой достоверности, основанной иа Р-отношении, которая имеется в пакете программ ВМРРКМ. Значения Г-отношения, вычисленные с помощью однофакторной АНОЕТА по кластерам для всех 13 признаков, приводятся ниже: Р К и 17 Нв РЛ 9,4 М! 1,5 69,7 Ра 63,7 10,6 Р1 26,4 47,7 Яс 69,З 27,6 Ма 27,7 21,1 Л! 27,9 38,5 !97 Обратите внимание, что большинство значений довольно велико.
Действительно, за исключением значения признака М1, г-отношение принимает значения от 9,4 до 69,7. Если применить тесты значимости к этим 13 признакам, то 12 из них окажутся значимыми. Однако, как было показано выше, такое использование тестов значимости неправомерно. Следующее множество значений представляет собой соответствующие Р-отношения трехкластерного решения в случае раидомизированных данных.
Поскольку в рандомизированных данных кластеров нет, то эти значения являются одноточечными оценками нулевых значений Р-отношений. Вообще говоря, значения Р-отношений трехкластерного решения не меньше значений Р-отношений реальных данных. Действительно, эти Р-отношения имеют значения от 11,9 до 77,4 1опять, исключая признак М1): 1З,7 К 52,4 22,6 Нэ 18,8 557 Р1 77,4 11,9 Яс 67,4 14,9 Ма 19,8 81 81,2 36,4 к и Ня Ра м1 Ра 198 О чем же говорит результат сравнения? Р-отношение, вычисленное с помощью программы ВМРРКМ, дает пользователю представление об однородности кластеров.
Когда рассматриваются абсолютные значения первого множества Г-отношений, оии кажутся разумно большими и, по всей видимости, говорят о том, что кластеры в какой-то степени однородны. Однако Р-отношения для данных, не имеющих кластеров, столь же велики. Это доказывает, что первое множество Р-отношений недостаточно велико для того, чтобы пользователь мог отвергать нулевую гипотезу об отсутствии кластеров. Графический вывод программы ВМРРКМ можно использовать для наглядного представления структуры результатов.
На рис, 10 показана схема расположения трех кластеров, представленных в двумерном пространстве основных комцонеит. На этой схеме очень хорошо видны три кластера. Однако если также изобразить кластеры раидомизированных данных (рис, 11), то три «кластера» кажутся непересекающимися, но не столь плотными, как реальные кластеры. Заметьте, что на схемах между кластерами нет очевидных границ.
Вместо этого графическое отображение обоих решений показывает, что кластеры могут быть просто произвольным разбиением полного набора данных. Сравнивая графическое изображение реальных данных с изображением рандомизированных данных, видно, что пользователю будет трудно отбросить нулевую гипотезу об отсутствии кластеров. Следовательно, по результатам работы программы можно заключить, что решение из трех кластеров соответствует структуре реальных данных и что сформированные кластеры однородны и хорошо разделены. Использование метода Монте-Карло позволяет формализовать проведение сравнительного анализа результатов вычислительных программ кластеризации. Рассмотрим еще один набор данных ММР!-теста для 90 больных. Этот набор данных был выбран таким образом, чтобы имеющиеся в нем три группы больных 1с психозами, неврозами и расстройствами личности) были очень плотными и хорошо выраженными. Вновь выполним три шага: 1) формирование рандомизированного множества данных; 2) проведение кластерного анализа реальных и рандомизироваиных данных; 3) сравнение результатов.