И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 4
Описание файла
DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 4 - страница
Реализацию признаков на объектах замкнутых систем нельзя рассматривать как независимые величины. Объем продукции одного завода отрасли часто сильно связан с объемом других заводов, да 14 и вообще экономика в значительной мере занимается перераспределением ресурсов внутри отрасли, района и т.
д., что никак не согласовывается с положением о независимости значений. Гипотеза о нормальности распределения, лежащая в основе почти всех классических результатов, во-первых, не может быть надежно проверена по одной выборке, особенно в многомерном случае, во-вторых, очень часто просто неверна: есть много эмпирических доказательств негауссовости социально-экономических процессов [1ОО]. Непараметрические методы. свободные от этой гипотезы, практически не разработаны для многомерных ситуаций.
Есть много и других свидетельств того, что конкретная вероятностная техника очень часто применяется в неадекватных случаях (см. подробнее [55] ). Практическая значимость доверительных интервалов — конечного продукта оценивания — в сплошных совокупностях очень невелика. Использовать их для прогноза не удается — производственные условия будут меняться, причем так, что изменятся и сами параметры. По этим и другим причинам в'тех случаях, когда исследуются сплошные совокупности, с которыми нельзя проводить даже мысленный эксперимент многократного репродуцирования в силу их индивидуальности, необходимо использовать свободные от вероятностных посылок методы анализа данных, т.
е. в нашем случае, собственно, кластерный анализ (подход В). В других ситуациях при учете вышеизложенных замечаний можно попробовать применить методы подхода А при обязательной проверке вышеперечисленных посылок. Заметим, что некоторые зарубежные исследователи кластер-анализ рассматривают в расширительном смысле, включая в него и вероятностные процедуры разделения смесей [131, 154 и др.] . Однако мы будем придерживаться аналитического представления об этой группе методов. Теперь рассмотрим связь подходов А и В.
1. Примем для удобства, что в подходе А предполагается выделять только нормально распределенные совокупности. Тогда, если совокупность состоит, скажем, из двух выборок с резко различающимися средними — оба подхода выделяют их одинаково. Далее. Подход А мы описывали в предположении наличия параметрическн заданных семейств распределения. Но вероятностные концепции могут основываться и на непараметрических концепциях, в которых важно лишь общее предположение о характере распределения (например, наличие моды).
Такие постановки были независимо сделаны в начале семидесятых годов Дж. Брайеном [33, с. 89] и А. В. Беккером и М. А. Ягольницером [77]. Они опираются на предложенный Е. Парзеном ранее способ аппроксимации многомерных распределений некоторой эмпирической плотностью с ядрами определенного типа (нормального, экспоненциального и др.).
Получил некоторое распространение алгоритм «Рельеф», с помощью которого новосибирские ученые решили ряд серьезных социально-экономических задач !5 [76 и др] . Этот подход представляется типичным для синтеза вероятностных н кластерных представлений: выбор сглаживающей поверхности производится исходя из ориентира на некий закон распределения, каждому объекту приписывается вероятность попадания в класс, но фактически выделяются «холмы»,' окруженные «долинами», что характерно для многих постановок кластерного анализа (см.
«модальный анализ» Уишарта в 2.2 и др.). Конструктивным недостатком подхода выступает сложность в определении параметра аппроксимации. 2. Метод разработан Д. А. Родионовым [75] и подробно изложен с некоторыми эвристическими модификациями в [45]. Он заключается в поиске такого разбиения, которое максимизирует разницу средних значений признаков внутри классов.
Сам по себе такой подход вполне в духе кластер-анализа, но здесь разница средних проверяется вероятностно по Т~-статистике Хотеллинга, обобщающей 1-статистику Стьюдента в многомерном случае. Справедливость предположений, которые выдвигаются для оправдания подхода (многомерная нормальность в классах, отсутствие в них коррелнрованностн), вызывает сомнения в большинстве ситуаций. Алгоритмы группировки [45], при строгости функционала, не гарантируют даже локальный его экстремум. Есть и другие процедуры классификации, функционалы качества которых связаны неявно с вероятностными трактовками (см. 2.3), но сами доверительные оценки в алгоритмах не участвуют, что позволяет их считать находящимися в рамках анализа данных.
3. Метод был независимо сформулирован в [83, 73] и нашей работе [51].Методом предполагается рассматривать как случайные величины расстояния между объектами и группировку производить следующим образом: какой-либо кластер-процедурой выявить группы и проверить, значимо ли различаются внутриклассовые и межклассовые расстояния [51] или резко ли меняются внутриклассовые расстояния при объединении двух классов (для иерархической процедуры [73]). Главной привлекательной чертой такого подхода является переход от малореальных предположений о многомерных распределениях к более реалистичным посылкам об одномерном распределении расстояний. В [108] показано, что отдельно малые и средние расстояния распределены асимптотически нормально. В целом вопрос мало изучен, и лучше, видимо, использовать непараметрические критерии [73].
В принципе гистограммный анализ матрицы расстояний, в настоящее время практически не использующийся, может оказаться очень полезным в силу своей простоты и наглядности. Первый пример такого рода был дан П. В. Терентьевым еще в 20-х годах [см. 88]. Он строил гистограмму коэффициентов корреляции и при наличии явного бимодального распределения считал связи под одной вершиной «внутриплеядными», под другой — «межплеядными». Подобные соображения могут быть весьма полезными в кластерном анализе. Говоря в целом о связи вероятностного и структурного под- !6 ходов, отметим следукпцее. Каждый из них работает в свойственной ему области и ориентирует исследователя на разные конечные выводы. Если в самом деле есть основания считать совокупность смесью нормально распределенных выборок (хорошие одномерные примеры такого типа приводил Б.
С. Ястремский [112, с. 83 — 92] ), то, конечно, необходимо использовать методы разделения смесей и им подобные. При этом очень хотелось бы видеть такие методы модернизированными — чтобы онн не только опирались на предположения о нормальности (или о другом законе), но и проверяли это предположение в процессе классификации. Конечно, точная проверка гипотезы в многомерном случае крайне затруднена. Например, критерий Ю.
Н. Тюрина требует для выяснения суждения многих тысяч наблюдений [94]. Однако какая-то оценка справедливости первоначальной гипотезы возможна хотя бы на уровне одномерных законов. Несмотря на разницу в подходах, как показывает практика, результаты применения статистических процедур и собственно методов кластер-анализа часго довольно близки. Близость объясняется во многих случаях сходством посылок: одни и те же скопления объектов могут рассматриваться как кластеры и как модальные участки многомерной плотности (см.
рис. 1.2а). Но в ряде ситуаций и это сходство подходов пропадает; очевидно, что классы, выделяемые кластер-анализом на рис. 1.26, не могут быть выделены статистическими методами. И наоборот, если подход А выборку из нормально распределенной совокупности не станет разбивать дальше, то в подходе В крайние точки вполне могут выделиться из геометрических соображений в разные классы (из нормально распределенных по росту людей выделятся малочисленные группы лилипутов и великанов).
Наиболее общей концепцией, синтезирующей оба подхода, представляется следующая: отыскивается такое разбиение на изолированные классы, что каждому из них свойствен свой закон распределения вероятностей. Тогда многйе вопросы решались бы более естественно (в частности, на рис. 1.2. б можно было бы выделить статистически отличные классы: в двух классах имеет место равномерное распределение, а в двух других — распределение Цип' фа — Парето). Связь подходов А и С.
Даже если нормальные распределения есть по каждому признаку, это, конечно, отнюдь не гарантирует статистически однородных классов в целом (рис. !.2а, 6). Напротив, статистически однородная совокупность обязательно будет разделена на части при вариативном подходе (выделяются низкие и высокие люди, см. выше). Комбинированные методы типа А — С нам неизвестны, хотя их нетрудно представить. Например, если научиться выделять нормальные выборки по каждой оси, используя какие-либо статистические критерии (очень хорош для этой цели, по нашему мнению, критерий Дэвида — Хартли — Пирсона, представляю- 17 щий собой отношение размаха вариации к выборочному среднеквадратическому отклонению; он не связан с группировкой данных, как Х' и др., см, затабулированные значения в [40, с. 298 — 300]), то в ситуации, подобной изображенной на рис. !.2а, выделятся и многомерно-нормальные группы.