Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 34
Текст из файла (страница 34)
двумя биологами — Робертом Сокэлом и Петером Спитом. Сокэл и Спит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных да|нных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды.
Фактически Сокэл и Спит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса. 141 После выхода книги Сокэла и Снита объем литературы по кластерному анализу резко возрастает.
Число публикаций о приложениях кластерного анализа во всех отраслях науки удваивается каждые три года (В!азЫ!е!б апдА!депбег!ег, 1978 Ь). На наш взгляд, существуют две причины для такого возросшего интереса к кластерному анализу: 1) появление высокоскоростных компьютеров н 2) фундаментальное значение классификации как научного метода.
До появления вычислительных машин применение кластерных методов для обработки больших объемов данных практически было невозможно. Для кластеризации множества данных из 200 объектов необходимо определить матрицу сходства, имеющую 19900 уникальных значений. Определение матрицы такого размера без вычислительных машин столь утомительно и требует так много времени, что найдется мало исследователей !или их несчастных помощников), которые отважились бы на это. С широким распространением вычислительной техники стала возможной и обработка больших матриц. Второй причиной повышенного интереса к кластеризации является то, что наука строится на классификациях, которые привносят порядок в исследования.
Она содержит основные понятия, используемые наукой, Например, классификация химических элементов лежит в основе неорганической химии и атомной теории материи; классификация болезней является структурной основой медицины. Поскольку кластерные методы рассматриваются как объективные, легко воспроизводимые способы создания классификаций, то они пользуются широкой популярностью. Ученые давно применяют кластерный анализ. Среди самых ранних из этих исследований были работы а~нтропологов, которые определяли однородные культурные области, используя матричные методы (см, Сгекаповзк), 1911; Ог!чег, 1965;,)оЬпз!оп, 1972).
В психологии кластерный анализ рассматривался как «факторный анализ бедняка» (Тгуоп, 1939). Специалисты других дисциплин, особенно государственного права, также участвовали в ранних разработках методов кластеризации для общественных наук. Хотя многие теории и приложения, служившие основой кластеризации в прошлом, были отвергнуты последующими поколениями,все социальные науки и сейчас сохраняют некоторые традиции использования кластерных методов. Несмотря на их популярность, кластерные методы все еще понимаются хуже, чем такие многомерные статистические процедуры, как факторный анализ, днскримимантный анализ и многомерное шкалирование.
Литература по социальным наукам содержит ошеломляющее количество часто несовместимых терминов, методов и предпочитаемых подходов. Недостаток опубликованных руководств для начинающих в сочетании с разнобоем в терминологии и методологии затрудняют изучение кластер~ного анализа. Цель ~нашей работы — провести новичка через этот «лабиринт» кластерного анализа. Ввиду большого разнообразия методов, предложенных за последние двадцать лет„мы не сможем исчерпывающе рас- смотреть все или даже часть методов.
Поэтому мы остановимся на тех, которые сравнительно хорошо известны в области социаль- ных наук, и, как мы полагаем, имеют достоинства, позволяющие использовать их в прикладных исследованиях. ИСПОЛЬЗОВАНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ Как мы уже отмечали, методы кластеризации конструируются для создания од~породных групп объектов или единиц, которые называются кластерами. Различные приложения кластерного анализа можно свести к четырем основным задачам: 1) разработка типологии или классификации; 2) исследование полезных концептуальных схем группнрования объектов; 3) порождение гипотез на основе исследования данмых; 4) проверка гипотез илн исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Как правило, кластерный анализ используется для создания классификаций, яо в большинстве случаев прикладного а~налива данных в основе исследования лежит комбинация этих задач. Чтобы лучше нх понять, рассмотрим следую1ций пример применения кластерного анализа.
Алкоголизм — главная проблема в области психиатрии США, однако классификация больных алкоголизмом до недавнего времени не получала широкого распространения среди профессиональных психиатров. Голдстейн н Линден (1969), психологи-клиницисты, построили такую классификацию на основе кластерного анализа. Они с помощью психологического теста ММР1 (миннесотское многофазовое обследование личности — М1ппезо1а Мп)1)р)1аз1с Регзопа)1(у 1пчеп1огу) собрали данные о 5!3 больных алкоголизмом, проходивших лечение в госпитале в Индианаполисе, штат Индиана. Тест содержал 566 вопросов (типа да/нет), которые суммировались по 13 диагностическим шкалам (например, шкала шизофрении, шкала истерии). Голдстейн и Линден разделили полученные данные на две части; основная подвыборка (239 больных) и контрольная подвыборка (251 больной).
Используя основную подвыборку, они сформнровалв корреляционную матрицу размерностью 239Х239, которая представляла сходства для ММР1-профилей этих больных, и применили кластерный метод, изобретенный Лорром (1966). Из больных основной подгруппы 114 были распределены по четырем кластерам, а оставшиеся 125 не были приписаны ни к какому кластеру.
Когда такой же обработке подверглась контрольная подвыборка, снова были выделены четыре кластера, которые содержали 106 (нз 251) больных алкоголизмом. Главные профили кластеров для обоих подвыборок были в основном одинаковые. Голдстейн и Линден назвали эти четыре кластера следующим образом: 1) эмоционально-неустойчивые личности; 2) пснхоневротикн с бес- 143 покойством7депрессией; 3) психопатические личности и 4) больные алкоголизмом, употребляющие наркотики и обладающие параноидальными чертами. Исследование Голдстейна и Линдена сыграло важную роль, поскольку послужило моделью для более 15 последующих работ, в которых применялся кластерный анализ для классификации больных алкоголизмом.
Большинство из этих работ в основном подтвердили обоснованность выделения первых двух кластеров (типы 1 и 11) . Другая работа была выполнена двумя антропологами Бертоном и Ромин (1975). Они решили исследовать, как в а~нглийском языке можно классифицировать термины, соответствующие статусу и роли индивидов в системе человеческих отношений. Данные, использованные в работе, были получены в результате классификацн 58 наиболее общих терминов, среди которых типичными были: «художник», «босс», «друг», «человек», «владелец», «поэт» и «шпнон». Участвовавшим в исследовании были розданы карточки с этими словами и затем было предложено произвольным образом разложить их по группам.
На число и размеры групп никаких ограничений не накладывалось. Сходство между группами терминов определялось с помощью Я-оценки (Мц!1ег, 1989). Исследуя данные о сходстве с помощью кеметрического многомерного шкалироваиия, авторы пытались выявить наличие некой латентной структуры для описания сходства (различия) данных терминов, Были выделены три шкалы: оценочная шкала, в соответствии с которой такие термины, как «игрок», «бандит» и «шпион», противопоставляются терминам «друг» и «компаньон»; шкала иерархии, по которой выявляется различие между терминами «босс» нли «бригадир» и понятиями родственных н дружеских отношений, например «друг»; шкала профессиональной принадлежности, позволяющая выделить роли и соответствующие термины, связанные с работой.