И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 34
Текст из файла (страница 34)
ЛИТЕРАТУРА АХОЕКЯОХ,Т.%. (1958) Ап Ыгойпсйоп то Мп)Ичи(аш Ятайи(сз1 Апз1уиЬ. Хею Тою: 1оЬп %Псу. ВАКВЕЗ, В.А. (1976) "яепатойв1 имрротт Гог Гон(рт роИсу: в сошрипоп оГ з)шипа!Хе ехр1апаИопз." Ртевепшй а! Гое шеейп8 оГ тЬе МЫчюз! РоПЬса( Зсюпсе Аззостатюп. СЬквЗо, АртП 29-Мау 1. ВАКОЕБ, В.А. (1975) "Зепаиопа( юаИЮппипт сп Готе18п вЫ, 1953-1972: а йюсйпппапт апа1уйз оГ ают-рахову Гаси!опз." Рь.О. йивгтаиоп. Нпхетзьу оГ сйпсьтпаи. ВАКК, А.Г., !.Н. ООООХ1ОНТ, !.Р.
БАДАЛ., апй ЕТ. НЕ1Ж1С (1976) А Овею'и ОпЫе то БАБ-76. Ка1ещЬ, ХС: ЯратЬз Ргею. ВЕАГОСК, Н.М., Гп Н9 79) Босйй Зтайийси. Хею ТогЬт Мсбгаич-НШ, СООЕЕТ,%.%. апй Р.К. 1ОНХЕБ (1971) Мп)йчапа(е Оатй Апа1узЬ. Хею ТогЬт 1оЬп %Псу. О1ХОХ,%5. (ей.! (1973) ВЫО: В!ошойсв) РтоЗтапю. ВегЬе(еу: ()шчею!(у оГ СаПГопоа Ргеиз. Е1БЕХБТЕ)Х, 1. апй Н.
!АСОВ (! 977) Ре!опу Гпийсе. Воз!оп: Гйтйе, Вгоъп. РШНЕК, К.А. (!936) "ТЬе ше оГ птп!йр!е шеишептептз ш Шхопштйс ргоМешз." АппаЬ оГ Еп8ешсз 7:179-! 88. НЕХКЕ1., К.Е. (1976) Тезиз оГ Б!Яп!Нсапсе. Заве ()пХею!ту Рарег велев оп (Кюпйтайче АррПсайопз 1п гбе Яосю1 Бсюпсеи, 07-004. Вечег1У НШз апй 1опйоп: Яа8е РаЬИсапопи. НЕУСК, Т.%. ии! %.К.
КЬЕСКА (1973) "ВпйгЬ гаИсз1 М.Р.'з, 1874-1895: пею ечЫепсе Гтогп й!зспшшап! зев!У йз." Гошпа1 оГ ЬтипИис(РПпвгу Шиоту 4(Аптипп): 161-1 84. 1чЕКЗЕХ,О.К. апй Н. ХОКРОТН Н9761 Апа1упз оГ 3(апвесе. БаЗе Юпр!шйту Рарег зепи оп Опапйшйче АРРПсвйопз ш (Ье Яос!в) Яе1впсие, 07-001. Вези(у НШи апй Еопйоп: Яа8е РпЫЬайотют КИХОУЛ., М.С. (1968) А Сощие ш Мп(йчи(иш Апа1упз. Хем Тот84 Найти, КЬЕСКА, С.О. (1974) "ТЬе шеаппетпепт оГ сЬПйгеп'з пюиспПпИУ апй Гешйт)шту." РЬ.В. йеиеттайоп, Хогйтюштеш Опюегпту, ПЬЕСКА,%.К.
(1975) "ВВсптпюапт апв)ум," рр. 434-467 Ш Х. Хю е! а). ЯРББт Бтайийсв1 РасЬазе Гот йю Яосю1 Бс1епсез. Хоп ТогРс Мсбгаю-НШ. К!.ЕСКА,%.К. (1973) "ТЬе сиепте!е оГ АпптиИип риИеи: пею рииреоИчш (ЬтопЗЬ Шисппппап! апа(уйз," РоИйси 7: 301-308. КОКХВЕКО, А. апй К.С. РКАЯОКЕ (1971) "РойсУ йП(ешпсш ш ВпИиЬ рай)ашептату рийеи." Аптепсап РоПИса1 Бсюпсе Кечючч 65:694-703, 1.АСНЕХВ!Ц)СН, Р.А. (1975) ГИисппипвпт Апа1упз. Хею ТогРс Найюг. ЬЕ)т1ХЕ,М.Б. (!977) Сапошса! Апа1упз апй Рве!от Сошрвйеоп.
Заве (Ьйчетйгу Рарег иепеи оп Оаапйтайче АррПсаПопи ш Ше Зосйй Яс(евсее, 07-006. Вечейу НШз влй Гопйоп: Байе РпЬИсайопз. МАНА1.АХОВ15, Р.С. (1963) "Оп Иге зепетвИавй йиьпсе тп итвйвйси." Ртосееййпви оГ Ше Хапопа1 Гпийптм оГ Зсюпсе, 1пйю 12:49-55. МОКК1Я)Х, О.О. (1974) ГН!зспшшапт апа1уиИ," рр. 2.442-2.457 Ьт К. РетЬет (ей.), Напйбоо!т о(Майтейпй КезеатсЬ.
Хею Тою: 1оЬп%Шеу. МОКК1БОХ, О.О. (1969) "Оп тЬе штетрютайоп оГ йюсйшЬгвпт апа1упз." 1оппю1 оГ Майе йп8 КезеатсЬ 6: 156- ! 63. РПЕ, Х.Н., С.Н. Н(ЛЛ., Г.О. 1ЕХ((ГХБ, К. БТЕ!ХВКЕХХЕК, апй Г).Н. ВЕХТ (1975) ЯРББ: Ятайит!са1 РасЬаве Гаг тпе Босю! Бс!епсиз. Хею УогЬт Минзаги-НШ.
(37 М. С. Олдендерфер, Р. К, Блэ шфалд КЛАСТЕРНЫЙ АНАЛИЗ Маг!г Б. А 1 4 епг! ег1ег, йо дег К. В! а »1г1ге!4. С!аа!ег Апа!уаы !Бесопг! Рг!пнпд, 1985). ПРЕДИСЛОВИЕ Классификация объектов по осмысленным группам — кластеризация — является важной процедурой в области социологических исследований. Несмотря на широкое применение понятий кластеризации, кластерный анализ как формальная многомерная статистическая процедура понимается все еще плохо.
Отчасти это объясняется тем, что последние десять лет техника кластеризации разрабатывалась особенно быстро, поскольку стали доступны вычислительные машины, способные выполнить большое число необходимых операций. Данный метод разрабатывается и применяется археологами, психологами, специалистами по государственному праву н социологии, поэтому часто приходится пользоваться нестандартнзованной, приводящей к путанице терминологией. В связи с этим новые разработки медленно распространяются на другие дисциплины. Настоящая работа была задумана как введение в кластерный анализ для тех, кто ие имеет соответствующей подготовки н нуждается в современном и систематическом путеводителе по «лабири|нту» понятий, методов и алгоритмов, связанных с идеей кластеризации.
Вначале обсуждаются меры сходства — обязательная отправная точка любого анализа процесса кластеризации. Авторы отмечают расхождения в теоретических значениях этого понятия и рассматривают ряд эмпирических мер, чаще всего применяемых для измерения сходства. Затем описываются различные методы для фактической идентификации кластеров, а также процедуры обоснования и проверки адекватности результатов кластерного Соруг1дЬ! © 1984 Ьу Баде РоЬИсапопа, 1пс. 1БВ11Ч 0.8039-9376-7 139 анализа, ма что часто не обращается внимаяие.
В работе проводятся сравнение и оценка различных понятий и методов. Поскольку вычислительные машины почти всегда позволяют провести кластерный анализ больших множеств данных, авторы рассматривают ряд стандартных и специализированных программ. Кроме того, после каждого раздела помещены библиографические замечания. В приложении приводятся первичные данные, использованные в примерах, так что читатель может проверить, правильно лн он разобрался в описанных процедурах.
Поскольку книга сводит воедино сведения из очень обширного круга источников, читатель получит довольно полное руководство по современному применению статистических методов н вычислительных программ. Ричард Ними, редактор серии !. ВВЕДЕНИЕ Древняя китайская классификация животнзш Животные подразделяются на: (а) принадлежащих императору; б) набальзамированных; з) дрессированных; т) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включенных в данную классификацию; н) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; и) других; н) тех, которые только что разбилн цветочную вазу н о) тех, которые издалека напоминают мух (Хорхе Луис Борхес, Другие исследования: !937 — 1952). Классификация является основой человеческой умозрительной деятельности.
Дети очень рано начинают классифицировать объекты, окружающие их, и давать названия получаемым классам. Классификация является фундаментальным процессом научной практики, поскольку системы классификаций содержат понятия, необходимые для разработки теорий в науке.
«Кластерный анализ» вЂ” это общее название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются «кластеры» или группы очень похожих объектов. Более точно, кластерный метод — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.
Первые работы, упоминающие о кластерных методах, появились давно, но ббльшая часть литературы по кластерному анализу была написана в течение последних двух десятилетий, Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Спитом.
Сокэл и Спит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных да|нных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Спит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса.
141 После выхода книги Сокэла и Снита объем литературы по кластерному анализу резко возрастает. Число публикаций о приложениях кластерного анализа во всех отраслях науки удваивается каждые три года (В!азЫ!е!б апдА!депбег!ег, 1978 Ь). На наш взгляд, существуют две причины для такого возросшего интереса к кластерному анализу: 1) появление высокоскоростных компьютеров н 2) фундаментальное значение классификации как научного метода. До появления вычислительных машин применение кластерных методов для обработки больших объемов данных практически было невозможно. Для кластеризации множества данных из 200 объектов необходимо определить матрицу сходства, имеющую 19900 уникальных значений.
Определение матрицы такого размера без вычислительных машин столь утомительно и требует так много времени, что найдется мало исследователей !или их несчастных помощников), которые отважились бы на это. С широким распространением вычислительной техники стала возможной и обработка больших матриц.