И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 36
Текст из файла (страница 36)
В приведенных примерах можно найти любую из основных задач кластерного анализа. Целью Голдстейна, Лнндена, Филсиигера и других было построение классификации, но заметную роль играет н исследование классификационных схем (ММР1 и шкалы религиозности). Работа Бертона н Ромин в первую очередь была посвящена анализу данных и проверке гипотез, а построение формальной классификации было второстепенной задачей.
В этом случае еще до проведения проверки гипотез авторы заметили, что их результаты подтверждаются данными, полученными с помощью более традиционных антропологических методов. Эти примеры показывают, что, несмотря на различия в целях, типах данных н примененных методах, все исследования, исполь- зующие кластерный анализ, характеризуют следующие пять основных шагов: 1) отбор выборки для кластеризации; 2) определение множества признаков, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения. Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных.
множествА дАнных, используемых В пРимеРАх Мы воспользуемся только одним набором данных, чтобы показать, как применяют кластерные методы, Еще один набор приводится в приложении для того, чтобы заинтересованный читатель мог поэкспериментировать с процедурами, которые мы описываем; наши результаты могут служить ориентирами для сравнения. Первое множество данных, используемое в качестве примера, представляет собой гипотетические данные об археологических раскопках древних захоронений.
Эти данные могут содержать важную для археологов информацию о социальном статусе или положении, занимаемом в обществе индивидами, найденными в могилах. Тщательно анализируя содержимое захоронений, археологи могут сделать выводы о различиях в общественном положении индивидов, что в свою очередь может помочь определить природу социального ~расслоения и уровень развития общества, к которому они принадлежали.
Данные изменяются в зависимости от трех измерений: возраста, пола и статуса. На участке наших археологических раскопок были «захоронены» 25 человек, которые были разделены на три возрастные группы: дети, подростки и взрослые. Представлены два статуса: элитарный и неэлитарный. Во всех захоронениях содержится до восьми различных видов объектов, найденных в них: местная керамика, наконечники стрел, обломки браслетов, обработанные камни, костяные иглы, костяные шилья, привозная керамика и металлические изделия. Каждый из этих видов объектов соответствует определенному статусу и полу; возрастные различия объектов не были включены в данные, чтобы структура набора данных оставалась относительно простой.
Данные были закодированы а двоичной форме с помощью регистрации наличия или отсутствия объекта. Второй набор данных, также искусственного происхождения, был специально создан в качестве модели классификационной задачи, с которой часто сталкиваются в психопатологии. Основное множество даннгях содержит информацию о 90 гипотетических больных с тремя типами психических расстройств: психозы (П) неврозы (Н) и расстройства личности (РЛ), В каждую общую группу входило по тридцать больных. Более подробно о процессе генерации данных можно прочесть у Блзшфилда и Мори (1980).
Характер заболевания больных определялся по 13 стандартным шкалам, взятым из психологического теста ММР1, описанного ранее в работе Голдстейна и Линдена (1969), Эти шкалы имеют следующие названия и аббревиатуры: ° Шкалы достоверности данных; Ь вЂ” шкала лжи; Р— шкала фальсификаций; К вЂ” шкала поправок. ° Клинические шкалы: Нз — ипохондрия; Р— депрессия; Но — истерия; Рб — психопатические отклонения; М1 — шкала пола (мужской/женский); Ра — паранойя; Р1 — психастения; Зс — шизофрения; Ма — гипомания; 8! — социальная интроверсия. т Ь Р К На О НЧРды1 Ра Рт Зс Ма 5~ Ряс.
Ь Пример профиля дапаых ММР!.теста Ит Тест ММР1 состоит из 566 вопросов типа да/нет, ответы на которые даются от первого лица (например, «Я люблю читать технические журналы»). Эмпирическим путем эти 566 вопросов были сгруппированы в шкалы ММР1-теста. В ходе разработки данный тест предлагался как здоровым пациентам, так и больным с психическими заболеваниями. Вопрос относился к той или иной шкале, если он позволял отделить группу больных от здоровых. Все десять «клинических» шкал были сформированы именно таким образом, а имена шкал представляют собой клинические названия групп больных, для диагностирования которых этн шкалы предназначались.
Три другие стандартные шкалы являются шкалами достоверности ответов, т. е. определяют, в какой степени пациент может фальсифицировать свои симптомы. Результаты ММР1-теста интерпретировались с помощью профилей данных о больных. На рис. ! приведены результаты ММР1-теста для одного из 90 больных, представленных множеством данных. Значения признака изображены на профиле для каждой шкалы, при этом число 50 — нормальное значение признака, а число 70 указывает на значимое отличие от нормы.
Прифили различаются в первую очередь по «пикам» или шкалам, которые имеют наивысшие значения. Для рассматриваемого пациента наивысшие значения расположены в следующем порядке Ра, Зс, Р, Р1, 51 и Ма. Этот профиль довольно типичен для больного с диагнозом параноидальная шизофрения, НЕСКОЛЬКО ПРЕДОСТЕРЕЖЕНИЙ ОТНОСИТЕЛЬНО КЛАСТЕРНОГО АНАЛИЗА Прежде чем перейти к обсуждению основных методологических этапов проведения кластерного анализа, необходимо сделать несколько предостережений общего характера, 1) Многие методы кластерного анализа — довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования*. Другими словами, большинство методов кластерного анализа являются эвристическими (подкрепленными лишь опытом разработчиков).
Онн — не более чем правдоподобные алгоонтмы, используемые для создания кластеров объектов. Вэтом резкое отличие, например, от методов факторного анализа, который хорошо обоснован статистически. Хотя многие кластерные методы обладают важными, подробно исследованными математическими свойствами (см. )агб(п апд 5(Ьзоп, 1971), все же важно сов~казать их простоту. В этом случае маловероятно, что пользователь допустит ошибку прн трактовке результата кластерного анализа.
* Достяточно строгая теория, охватывающая большую часть постзновок задач кластер-анализа, была разработана французскими исследователями. Ев изложение можно изйти в книге ч. дндэ и др «Методы зизлизя дзниых» (Мс Финансы и статистика, 1988), — Примеч. дед. 148 2) Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин. Это важно отметить, потому что каждая дисциплина предъявляет свои требования к отбору данных, к форме их представления, к предполагаемой структуре классификации.
Что может быть полезным в психологии, может оказатьси ненужным для биологов, а так как кластерные методы порой пе более чем правила для создания групп, то пользователь должен знать те особенности, которые часто сопровождают обсуждение и описание методов кластеризации. 3) Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных. Это обычное явление в большинстве прикладных исследований. Одной из причин неодинаковых решений является то, что кластерные методы получены нз разных источников, которые предопределяли использова~ние различных правил формирования групп.
Данная ситуация вносит в работу с кластерным анализом путаницу не только для начинающих, ио и для опытных пользователей. Кроме того, желательно иметь специальную методику, позволяющую проверить, насколько «естественны» группы, выделенные методом кластеризации в наборе данных. Было разработано несколько процедур, способных помочь в решении этой задачи. 4) Йель кластерного анализа заключается в поиске суи4ествуюи)их структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, т.
е. методы кластеризации необходимы для обнаружения структуры в данных, которую нелегко найти при визуальном обследовании или с помощью экспертов. Эта ситуация отличается от ситуации дискриминантного анализа, который более точно определяется как процедура идентификации.