И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 2
Описание файла
DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 2 - страница
Миркин 1. ОДНОРОДНОСТЬ И КЛАССИФИКАЦИЯ. ОБЩИЕ ПОНЯТИЯ 1Л. ОСНОВНЫЕ ПОДХОДЫ К ВЫДЕЛЕНИЮ ОДНОРОДНЫХ ГРХПП ОБЬЕКТОВ Статистическая однородность — понятие, базисное для статистики; общепринято, что какую-либо обработку статистических данных (усреднение, установление связей и т. д.) надо производить только в однородных группах наблюдений. Рассмотрим основные подходы к выделению однородных совокупностей.
1Л.1. КАЧЕСТВЕННЫЕ н колнчестееййые Аспекты и еппнвовин Традиционно проблема выделения однородных групп рассматривается в статистике как задача группировки исходных данных. При этом выделяются два вида группировок: типологические и структурные [68 и др.[.
Типологической группировкой называется разбиение совокупности на качественно однородные группы, характеризующие некоторые типы (классы) явлений, например группировка людей по полу, населения по социально-экономическим классам и др. Структурной группировкой называется расчленение качественно однородной совокупности на группы, характеризующие строение совокупности, ее структуру [82, с. 96[. Фактически под структурой понимается распределение частот по интервалам группировки, где интервалы и число групп выбираются различным образом.
Сопоставляя определения этих группировок, можно представить, что классификация объектов происходит так: сначала выделяются качественно однородные группы, а затем внутри них группы, количественно однородные, отражающие строение совокупности. В резкой форме такое противопоставление качества и количества проведено в [8! и др.].
Однако подобные рассуждения часто скрывают за собой упрощенную трактовку рассматриваемых категорий. Требование предварительной качественной определенности совокупности является весьма неоднозначным. Пусть, например, формулируется цель: изучить факторы, определяющие производительность труда в общестроительном министерстве. Для иллюстрации возможного пути решения задачи классификации рассмотрим схему на рис.
!.!. Рис. Ь!. Схема выделения качественно однородных групп общестроительных организаций Как видно, здесь перечислено б уровней, обеспечивающих по мере погружения все большую качественную однородность совокупности. Организации какого уровня можно считать качественно однородными с тем, чтобы в них можно определить такие количественные характеристики, как средняя, дисперсия и пр., и ставить задачу выделения количественно однородных групп. По нашему опыту, в данной схеме специалисты склонны считать однородными организации на любом из уровней 3 — 6. При этом если исследователь стремится повысить этот уровень до 3-го с целью увеличения объема совокупности, то хозяйственник может снизить его до б-го, считая несопоставимыми тресты с разной структурой строительно-монтажных работ.
И такое углубление качественной определенности можно вести и далее вплоть до отдельных объектов. В каком же смысле говорить в таких случаях о качественной однородности? Типологическая группировка с легкостью проводится, если в ее основании лежит качественный признак (измеренный в шкале наименований, см.
!.2): пол, профессия и т. д. Но в подавляющем большинстве случаев ее надо проводить по количественным признакам (таковы, например, почти все группировки, сделанные В. И. Лениным), и задача резко усложняется. Так, критикуя германскую !907 г. перепись, где выделялось 18 групп сельских хозяйств, В. И. Ленин писал, что это есть образец «научного хлама, бессмысленной игры в цифирки, ибо ыи тени разумных, рациональных, наукой и жизнью оправдываемых, оснований для признания типичными такого количества таких групп не имеется» [2). В.
И. Ленин основывался на марксистской теории, определившей наличие трех основных классов хозяйств с определенными свойствами. А если столь разработанная теория отсутствует? Тогда вопрос о типичности «такого-то количества таких-то групп» превращается в главный и ответ на него может быть найден только в непрерывном синтезе теоретических представлений и эмпирического статистического анализа. При этом говорить о какой-то действительно глубокой качественной однородности данных на начальном этапе не приходится.
Она может быть вскрыта только в результате анализа. »лць основныв ионцвпцим одноэодности Выбор интервалов в структурной группировке осуществляется почти независимо от характера распределения признака. Чаще всего используют равные интервалы, реже — равнонаполненные или прогрессивно меняющиеся. Понятно, что формальные основания группировки не могут дать представления о действительном расположении объектов даже на одной оси — интервалы искусственно разрезают скопления объектов или объединяют далеко удаленные объекты. Поэтому такого типа группировки лучше называть не структурными, а вариативными, ибо их главная цель состоит в агрегировании материала, в разложении общей вариации признака на вариации отдельных групп.
Стоит лишь поставить вопрос о рациональном обосновании величины интервала или количества групп — и задача фактически переходит в компетенцию кластерного анализа. Таково построение группировки с максимальной межгрупповой дисперсией (известны точные, хотя и трудоемкие способы ее решения [33 и др.]) или выделение однородных групп по «критической величине коэффициента вариации» для данного закона распределения [68, 81]. Например, для нормального распределения предполагается, что коэффициент вариации должен быть меньше 0,33 и т.
д. Однако у этого способа есть ряд ограничений: критические значения коэффициента вариации, как и любой случайной величины, не сводятся к одному числу, а зависят, в частности, от объема выборки [40, с. 240]; в рамках указанного критического значения могут находиться самые разные, в том числе полимодальные, распределения; метод не применим в многомерных ситуациях; коэффициент не имеет смысла в интервальных шкалах (см. 1.2). Так что,'несмотря на популяризацию этого способа в учебниках [68], его использование вряд ли оправдано и в тех пределах, о которых с некоторой осторожностью говорится в [45] и [77[. Подобные процедуры обоснования величины интервалов группировки носят своеобразный промежуточный характер.
Они соединяют в себе традиционные представления о структурной группировке как о более или менее удачном «разрезании» совокупности на части по одному признаку и структурные концепции однород- 9 ности. Идея структурности последовательно реализована в кластерном анализе. Термин «кластерный анализ» предложен К. Трноном в )939 г. 1!5)1 !с)нз)ег— гроздь, скопление, пучок — англ.). Синонимами !хотя с оговорками я не всегда) выступают выражения: автоматическая классификация, таксономня, распознавание без обученна, распознавание образов без учителя, самообучение н др.
Основная цель анализа — выделить в исходных многомерных данных такие однородные подмножества, чтобы объекты внутри групп были похожи в известном смысле друг на друга, а объекты из разных групп — не похожи. Под «похожестью» понимается близость объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений («гроздей») объектов, которые и считаются однородными группами. Выделенные с помощью кластерного анализа изолированные группы объектов часто могут трактоваться как качественно различные.
Действительно, если группы в пространстве сильно удалены друг от друга (типа изображенных на рис. 1.2 а), то можно предположить, что в основе такого разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как наблюдаемая качественная переменная. Тогда задача будет заключаться в отыскании этой переменной и ее интерпретации, чем кластерный анализ весьма приближается к факторному (см.
2.3.4). По этим причинам не будем различать методы выделения качественно и количественно однородных групп, считая целесообразным говорить только о непрерывном синтезе этих категорий в процессе классификации. Сформируем содержание основных подходов к выделению однородных групп объектов. А. Вероятностно-статистический подход предполагает выделение групп, каждая из которых представляет собой реализацию некоторой случайной величины.
В классическом виде подход называется методом разделения (расщепления) смесей, и формально задача ставится так: предполагается, что исходная совокупность представляет собой смесь нескольких выборок (обычно считается, что выборки представляют собой реализации нормальных случайных величин, отличающихся как минимум вектором средних) и требуется при некоторых предположениях (о числе классов, о матрице ковариаций и др.) эти выборки разделить.