Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 47
Текст из файла (страница 47)
они объединяются лишь у основания дерева), С помощью дерева, приведенного на рпс. 3, можно построить вторичную матрицу сходства между всеми парами объектов, соответствующую рассматриваемому иерархическому решению: шагов объединения. Исходная матрица содержит до М(й( — 1)/2 различных элементов и имеет вид пжэ вмэ 0,250 О,ЗЗЗ 0,250 0,143 0',ЮО 0',500 — О,'500 РМН РЖЭ ПМИ вжэ РМН вЂ” 0,000 0,250 О,ЗОО РЖЭ вЂ” О,'ОО9 0,200 пмн — 0,167 пжэ о,'150 вмэ 0,429 вжэ Кофенетическая корреляция является корреляцией между значениями исходной матрицы сходства и вторичной матрицы сходства. Таким образом, кофенетическая корреляция для решения, полученного методом одиночной связи и показанного иа рис. 3, равна С=0,810.
Несмотря на довольно частое применение, кофенетическая корреляция имеет и явные недостатки. Во-первых, использование смешанного момента корреляции предполагает, что нормально распределенные значения в двух матрицах коррелировапы. Это предположение обычно не выполняется для значений вторичной матрицы сходства, так как кластерные методы в значительной степени определяют распределение значений сходства в этой матрице. Таким образом, применение коэффициента корреляции для оценки степени сходства между значениями двух матриц не является оптимальным.
Во-вторых, поскольку число различных значений во вторичной матрице сходства меньше, чем в исходной матрице, то и количество информации, содержащейся в каждой из двух матриц, весьма различно. Холгерссон (1978) провел исследование с помощью метода Монте-Карло для того, чтобы проанализировать характеристики кофенетической корреляции, и обнаружил, что она является плохим индикатором качества кластерного решения.
ТЕСТЫ ЗНАЧИМОСТИ ДЛЯ ПРИЗНАКОВ, НЕОБХОДИМЫЕ ПРИ СОЗДАНИИ КЛАСТЕРОВ 19З Другой процедурой, которая часто используется в прикладных исследованиях с применением кластерного анализа, является многомерный дисперсионный анализ (МАВ)ОУА) признаков, необходимых для получения решения. Цель анализа — выяснить с помощью тестов для проверки гипотезы однородности, значимо ли разбиение данных на кластеры'. В отличие от кофенетической корреляции, применяемой для анализа правильности иерархического дерева„выполнение стандартных тестов значимости связано с качеством кластерного решения, представляющего собой разбиение множества данных.
Таким образом, процедуру МА)эОЧА можно применять к решениям, полученным любым методом кластеризации, лишь бы ои порождал разбиения (например, итеративные методы группировки, иерархические методы, варианты факторного анализа). Ясно, что использование МАМО''»А для проверки гипотезы однородности кластеров вполне разумно. Более того, она становится весьма популярной процедурой, потому что ее результаты всегда имеют высокую значимость. Так, при исследовании типов верующих (Г11з)ппег е1.
а!., 1979), обсуждавшемся в равд. 1, были обнаружены значимые различия между кластерами после проведения дискриминантного анализа признаков, необходимых при создании кластеров. В действительности днскриминаитный анализ правильно классифицировал 967« субъектов. Эти результаты свидетельствуют, что кластерное решение, полученное Филсингером и другими, хорошо описывает типы верующих людей.
Од. нако такое использование дискриминонтного анализа (или МАФОУА, или многократно АУО*тА) оказывается статистически неправомерным. Чтобы понять это, рассмотрим следующий пример. Предпо* ложим, что группа исследователей проводит 1О-тест среди случайно отобранных детей из одного класса по всей школьной системе. Далее предположим, что в этом наборе данных на самом деле нет кластеров. После того как будет построена диаграмма вдоль оси 7!г-оценок, исследователи получат нормальное распределение со средним, равным 100 (именно такое значение можно было предсказать исходя из нормативных данных по этому признаку).
Тем не менее допустим, что они все же решили провести кластерный анализ полученных данных, несмотря на унимодальное распределение по 71г-признакам. Найденное кластерное решение делит выборку на две группы: с коэффициентом 1О, пре. вышающим 100, и с коэффициентом 1!г не выше 100. Если затем исследователи проведут дисперсионный анализ для сравнения групп по величине их 7(г-оценок, применение г"-теста покажет высокую значимость! Этот «высокозначимый» результат будет иметь место, несмотря на то, что в данных не существует ни одного кластера. С помощью методов кластерного анализа (по определению) объекты разделяются на кластеры, которые фактически не перекрываются по признакам, применявшимся при создании кластеров. Проверки значимости различий между кластерами по этим признакам будут всегда давать положительные результаты, поскольку результаты таких проверок всегда положи.
тельны независимо от того, есть в данных кластеры или нет. Описанное использование тестов в лучшем случае бесполезно, в худшем — ведет к заблуждениям. ПОВТОРНАЯ ВЫБОРКА Первые два метода проверки достоверности результатов применяются часто, но они имеют серьезные недостатки. Специа. листы по методологии кластерного анализа не рассматривают эти методы в качестве методики обоснования результатов (Наг()дап, 1975а). 194 Третий метод позволяет оценить степень повторяемости кластерного решения в серии наборов данных, Если для различных выборок из одной и той же генеральной совокупности получается одинаковое кластерное решение, то напрашивается вывод, что это решение присуще всей совокупности. Маловероятно, что неустойчивое кластерное решение может отражать свойства генеральной совокупности.
Эта методика уже рассматривалась в качестве примера в равд. 1. Голдстейн и Линден (1969), проводя исследование больных алкоголизмом, разделили всю полученную выборку на две части, к которым затем применили один и тот же метод кластерного анализа. В результате в обоих решениях были обнаружены те же самые четыре кластера. Методика повторных выборок фактически предназначена для проверки соответствия кластерного решения внутренней структуре генеральной совокупности. То, что одни и те же кластеры обнаруживаются в различных подмножествах, когда к ним применяются одинаковые кластерные методы, не доказывают обоснованность решения. Другими словами, при неудачной попытке повторить кластерное решение оно отвергается, но успешное повторение не дает гарантии достоверности этого решения.
ТЕСТЫ ЗНАЧИМОСТИ ДЛЯ ВНЕШНИХ ПРИЗНАКОВ Процедуры, включенные в данную категорию, вероятно, считаются лучшими среди способов обоснования достоверности кластерного решения, но, к сожалению, этот подход мало использовался, несмотря на его потенциальные возможности. По существу, процедура заключается в проведении теста значимости, с помощью которого сравниваются кластеры по признакам, не применявшимся при получении кластерного решения. Этой методикой пользовались прн исследовании верующих Филзингер и др. (1979), Они сопоставили полученные кластеры по семи демографическим признакам, не участвовавшим при формировании кластеров. В результате были обнаружены значимые различия по четырем из этих семи признаков.
Интересное исследование, в котором использовался более сложный тест внешней обоснованности кластерного решения, было проведено Финни и Мусом (1979). Эти исследователи, подобно Голдстейну и Линдену (1979) (см. равд. 1), хотели определить, возможно ли выделить подтипы больных алкоголизмом.
Проанализировав данные вопросников о 429 больных, они нашли восемь кластеров. Для этих же больных в течение шести месяцев были собраны данные по пяти признакам: 1) самоотчет о потреблении алкоголя; 2) отказ от спиртного; 3) физические повреждения; 4) реабилитация и 5) выполнение профессиональных функций. Финни и Мус нашли, что восемь кластеров различались по этим пяти признакам. Это было показано Р-тестом значимости с помощью процедуры А(ЧОуА.
Кроме того, исследователи обнаружили значимые связи между участием больных в лечебных программах и их принадлежностью к кластерам, Сила внешнего обоснования заключается в том, что оно непосредственно проверяет достоверность кластерного решения по отношению к подходящему критерию. Одной из причин, почему зтот подход к проверке достоверности решения редко используется в исследованиях с кластерным анализом, является высокая стоимость методологического планирования сбора данных для рассматриваемого критерия.
Другая вероятная причина заключается в чисто исследовательском (поисковом) характере работ, где необходим кластерный анализ. Отсутствие разработанной теории, сопровождающей весь процесс создания классификации, не позволяет выделить группу внешних критериев, соответствующих целям исследования. Однако кластерные решения, успешно прошедшие проверку на достоверность, по сравнению с прочими решениями намного ценнее. ПРОЦЕДУРЫ МОНТЕ-КАРЛО Последний подход к обоснованию достоверности решений используется сравнительно мало и в некоторой степени труден для изложения.
В сущности, этот подход заключается в применении процедур Монте-Карло, применяющих генераторы случайных чисел, для создания наборов данных с основными характеристиками, соответствующими характеристикам реальных данных, но не содержащих кластеров. Одни и те же методы кластеризации употребляются как к реальным данным, так и к искусственным, а полученные решения сравниваются с помощью подходящих методов. Пример такого процесса, использующий данные ММР1- теста, возможно лучший способ проиллюстрировать этот подход.
Шаг 1. Создание рандомизироеанного набора данных. С помощью генератора случайных чисел создается множество искусственных данных, которое не имеет кластеров, но обладает теми же характеристиками, что и реальный набор данных, Чтобы сделать зто, мы вычислили общие средние, стандартные отклонения и матрицу корреляций между признаками для исходного множества данных ММР1-теста о 90 больных. Далее для создания рандомизированного набора данных мы написали короткую программу на Фортране, которая использует генератор случайных чисел нз пакета программ 1МВЬ. Этот генератор порождает данные, являющиеся выборкой из генеральной совокупности с многомерным нормальным распределением с заданным вектором средних и заданной ковариационной матрицей.