Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 35
Текст из файла (страница 35)
Затем они провели иерархический кластерный анализ, применив два различных метода к одним и тем же данным о близости. Для каждого из этих методов авторы выбралн решение, состоящее нз восьми кластеров. При этом они отметили, что результаты применения методов, хотя и различаются во многих отношениях, все же имеют четыре общих кластера: 1) кластер, включающий семь терминов родства; 2) кластер дружеских отношений; 3) кластер тсрмииов принадлсжностн к социальным группам и 4) кластер управленческих ролей.
Бертон и Ромин пришли к выводу, что результаты, полученные с помощью обоих методов, дополняют друг друга. Они полагают, что лица, классифицировавшие термины, принимали решения на основе двух критериев отбора. Первый, упрощенный критерий подобен полученному с помощью многомерного шкалнровання (оценочная шкала, шкалы иерархии и профессиональной принадлежности). Второй, более тонкий критерий подсказан результатами кластеризации н подобен четкой структуре английских терминов родственных отношений, основанной на степени родства между индивидами, не за- висящей от половых различий.
Результаты, полученные с помощью кластерного анализа, подтверждают неоднозначность поло- ролевых критериев в западном обществе, отмеченных социологами, н, кроме того, проясняют, как в английском языке классифицируются термины родства. Последний пример — социологическое исследование Филсингера, Фолкнера и Уорленда (1969) — предназначался для создания классификации верующих. Данные были собраны с помощью шкалы религиозности (Ре)опй е! а!., !970) в форме вопросника, который был предложен 547 старшекуроникам университета штата Пенсильвания, Было выбрано 37 вопросов, а план измерений был разработан на оанове предыдущего факторного анализа этих данных (Ре)опд е!.
а1., !9?0). Поскольку выборка из 547 студентов слишком велика н требует для обработки больших затрат, для исследования была использована выборка из 220 студентов. Матрица сходства между парами индивидов размерностью 220Х220 подверглась кластеризации. Для а~излива было выбрано решение, состоявшее из семи кластеров, соответствующих семи типам верующих: тип 1 — неверующие; тнп П вЂ” консерваторы; тип П1 — нигилисты; тип 1У вЂ” умеренно религиозные; тип У вЂ” крайне религиозные; тип т'1 — ортодоксы; тнп И1 — поклонники культа и обрядности. Фнлсингер и другие сделали также попытку проверить обоснованность классификации верующих.
Сначала они провели дискриминантный анализ кластеров и, как было сказано, результаты имели высокую значимость~. Затем сравнили объекты из разных кластеров по семи демографическим признакам, По четырем признакам (размер общины; политические взгляды; процент студентов, ие связанных с церковью; принадлежность к той или иной религии) кластеры имели значимые различия. Авторы пришли к заключению, что перекрывающиеся результаты подтверждают их эмпирическую типологию верующих. В приведенных примерах можно найти любую из основных задач кластерного анализа.
Целью Голдстейна, Лнндена, Филсиигера и других было построение классификации, но заметную роль играет н исследование классификационных схем (ММР1 и шкалы религиозности). Работа Бертона н Ромин в первую очередь была посвящена анализу данных и проверке гипотез, а построение формальной классификации было второстепенной задачей. В этом случае еще до проведения проверки гипотез авторы заметили, что их результаты подтверждаются данными, полученными с помощью более традиционных антропологических методов.
Эти примеры показывают, что, несмотря на различия в целях, типах данных н примененных методах, все исследования, исполь- зующие кластерный анализ, характеризуют следующие пять основных шагов: 1) отбор выборки для кластеризации; 2) определение множества признаков, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения. Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных.
множествА дАнных, используемых В пРимеРАх Мы воспользуемся только одним набором данных, чтобы показать, как применяют кластерные методы, Еще один набор приводится в приложении для того, чтобы заинтересованный читатель мог поэкспериментировать с процедурами, которые мы описываем; наши результаты могут служить ориентирами для сравнения. Первое множество данных, используемое в качестве примера, представляет собой гипотетические данные об археологических раскопках древних захоронений. Эти данные могут содержать важную для археологов информацию о социальном статусе или положении, занимаемом в обществе индивидами, найденными в могилах.
Тщательно анализируя содержимое захоронений, археологи могут сделать выводы о различиях в общественном положении индивидов, что в свою очередь может помочь определить природу социального ~расслоения и уровень развития общества, к которому они принадлежали. Данные изменяются в зависимости от трех измерений: возраста, пола и статуса. На участке наших археологических раскопок были «захоронены» 25 человек, которые были разделены на три возрастные группы: дети, подростки и взрослые. Представлены два статуса: элитарный и неэлитарный.
Во всех захоронениях содержится до восьми различных видов объектов, найденных в них: местная керамика, наконечники стрел, обломки браслетов, обработанные камни, костяные иглы, костяные шилья, привозная керамика и металлические изделия. Каждый из этих видов объектов соответствует определенному статусу и полу; возрастные различия объектов не были включены в данные, чтобы структура набора данных оставалась относительно простой. Данные были закодированы а двоичной форме с помощью регистрации наличия или отсутствия объекта. Второй набор данных, также искусственного происхождения, был специально создан в качестве модели классификационной задачи, с которой часто сталкиваются в психопатологии.
Основное множество даннгях содержит информацию о 90 гипотетических больных с тремя типами психических расстройств: психозы (П) неврозы (Н) и расстройства личности (РЛ), В каждую общую группу входило по тридцать больных. Более подробно о процессе генерации данных можно прочесть у Блзшфилда и Мори (1980). Характер заболевания больных определялся по 13 стандартным шкалам, взятым из психологического теста ММР1, описанного ранее в работе Голдстейна и Линдена (1969), Эти шкалы имеют следующие названия и аббревиатуры: ° Шкалы достоверности данных; Ь вЂ” шкала лжи; Р— шкала фальсификаций; К вЂ” шкала поправок. ° Клинические шкалы: Нз — ипохондрия; Р— депрессия; Но — истерия; Рб — психопатические отклонения; М1 — шкала пола (мужской/женский); Ра — паранойя; Р1 — психастения; Зс — шизофрения; Ма — гипомания; 8! — социальная интроверсия. т Ь Р К На О НЧРды1 Ра Рт Зс Ма 5~ Ряс.
Ь Пример профиля дапаых ММР!.теста Ит Тест ММР1 состоит из 566 вопросов типа да/нет, ответы на которые даются от первого лица (например, «Я люблю читать технические журналы»). Эмпирическим путем эти 566 вопросов были сгруппированы в шкалы ММР1-теста. В ходе разработки данный тест предлагался как здоровым пациентам, так и больным с психическими заболеваниями. Вопрос относился к той или иной шкале, если он позволял отделить группу больных от здоровых.
Все десять «клинических» шкал были сформированы именно таким образом, а имена шкал представляют собой клинические названия групп больных, для диагностирования которых этн шкалы предназначались. Три другие стандартные шкалы являются шкалами достоверности ответов, т. е. определяют, в какой степени пациент может фальсифицировать свои симптомы. Результаты ММР1-теста интерпретировались с помощью профилей данных о больных.
На рис. ! приведены результаты ММР1-теста для одного из 90 больных, представленных множеством данных. Значения признака изображены на профиле для каждой шкалы, при этом число 50 — нормальное значение признака, а число 70 указывает на значимое отличие от нормы. Прифили различаются в первую очередь по «пикам» или шкалам, которые имеют наивысшие значения. Для рассматриваемого пациента наивысшие значения расположены в следующем порядке Ра, Зс, Р, Р1, 51 и Ма. Этот профиль довольно типичен для больного с диагнозом параноидальная шизофрения, НЕСКОЛЬКО ПРЕДОСТЕРЕЖЕНИЙ ОТНОСИТЕЛЬНО КЛАСТЕРНОГО АНАЛИЗА Прежде чем перейти к обсуждению основных методологических этапов проведения кластерного анализа, необходимо сделать несколько предостережений общего характера, 1) Многие методы кластерного анализа — довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования*.
Другими словами, большинство методов кластерного анализа являются эвристическими (подкрепленными лишь опытом разработчиков). Онн — не более чем правдоподобные алгоонтмы, используемые для создания кластеров объектов. Вэтом резкое отличие, например, от методов факторного анализа, который хорошо обоснован статистически. Хотя многие кластерные методы обладают важными, подробно исследованными математическими свойствами (см.
)агб(п апд 5(Ьзоп, 1971), все же важно сов~казать их простоту. В этом случае маловероятно, что пользователь допустит ошибку прн трактовке результата кластерного анализа. * Достяточно строгая теория, охватывающая большую часть постзновок задач кластер-анализа, была разработана французскими исследователями. Ев изложение можно изйти в книге ч. дндэ и др «Методы зизлизя дзниых» (Мс Финансы и статистика, 1988), — Примеч. дед. 148 2) Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин.