SAS CLUSTERIZATION HW (SAS-6task), страница 2
Описание файла
Файл "SAS CLUSTERIZATION HW" внутри архива находится в папке "Clasterization-Kazachuk". Документ из архива "SAS-6task", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Онлайн просмотр документа "SAS CLUSTERIZATION HW"
Текст 2 страницы из документа "SAS CLUSTERIZATION HW"
Задание №8. Hierarchical Clustering + Determining Number of Clusters
clus04d01.sas, clus05d01.sas, clus05d03.sas
Иерархическая кластеризация – самый математически строгий класс алгоритмов. В процессе построения модели мы можем определить оптимальное число кластеров на основе четких критериев и кардинально поменять поведение алгоритма одной лишь сменой используемой метрики для расчета расстояний. Однако эти алгоритмы тяжело справляются с большими объемами данных, и поэтому типичный workflow при кластеризации большого числа объектов выглядит следующим образом: 1) выделить ~1000-2000 маленьких кластеров с помощью K-Means, 2) сгруппировать их с помощью hierarchical clustering в финальную группировку (~10-100 кластеров).
А теперь вспомним, что «высокая» цель любого алгоритма кластеризации – минимизации внутрикластерного разброса объектов с одновременной максимизацией межкластерного. Причем эти две подцели можно скомбинировать в единой штрафной функции. Таким образом, кластерный анализ – это всегда решение задачи оптимизации. Если теперь взглянуть на вышеописанный комбинированный метод с этой точки зрения, то нам станет понятно, что первым шагом PROC FASTCLUS (K-Means) старается ограничить область глобального минимума штрафной функции, а уже затем внутри этой области иерархическая кластеризация отыскивает один из локальных минимумов. И это очень круто, потому что вероятность найти настоящий глобальный оптимум штрафной функции при таком раскладе существенно возрастает (а этот оптимум = идеальная кластеризация)
Все многообразие методов иерархической кластеризации в SAS/STAT упаковано в PROC CLUSTER (построение полной иерархии) и PROC TREE (усечение и визуализация иерархии; берет на вход результат PROC CLUSTER)
-
Запустите clus04d01.sas. Сравнение методов иерархической кластеризации (точнее, их метрик)
Задание: посмотреть на работу PROC CLUSTER с различными метриками расстояния. С помощью PROC MDS построить график распределения объектов на плоскости (и прислать его мне!). На основе таблицы ranking of hierarchical methods (самый низ отчета) выберите самую хорошую и самую плохую метрики и выясните (глядя на MDS Plot), почему они оказались таковыми? (ответ тоже прислать!)
Ответ:
Самая хорошая метрика — centroid.
Самая плохая метрика — single.
4картинки
Чем больше расстояние между кластерами и чем больше связанность внутри кластеров, тем лучше метрика.
-
Запустите clus05d01.sas. В этом примере определяется оптимальное число кластеров в финальной кластеризации.
Задание: посмотреть, как по мере создания иерархии кластеров можно параллельно оценивать оптимальность их количества. Какое число кластеров оптимально в этом примере? Исходя из каких критериев? (см. лекцию, слайды про CCC, PSEUDO-F и PSEUDO-T2)
Ответ:
CCC – 7 кластеров;
PSEUDO-F – 3 или 5 кластеров;
PSEUDO-T2 – 7 кластеров (11, 15, 17, 20, 23, 25, 28).
-
Запустите clus05d03.sas. В этом примере задача кластеризации решается в 2 шага: сначала начальное множество объектов группируется в большое число маленьких кластеров с помощью
K-Means (PROC FASTCLUS); а затем уже эти микро-кластеры группируются иерархическим алгоритмом.
Задание: посмотреть на работу программы и выходную статистику
Ответ:
Получено 7 кластеров.
Задание №9. Happy Household Survey
clus06d01.sas - clus06d05.sas
Зачастую кластеризация служит для решения каких-то реальных задач бизнеса, например разбиения покупателей магазина на группы в зависимости от их среднего чека и продуктовой корзины. В этом случае мало кластеризовать выборку – важно придать конечным сегментам бытовой смысл («в этой группе покупают мало, но всегда дорогие товары – наверное, это бизнесмены ходят за дорогим алкоголем»).
Процедура «осознания» этого смысла называется профилированием кластеров. При этом можно решать задачу в двух разных направлениях: 1) искать переменные, сильнее всего дифференцирующие кластеры одновременно (и затем найти «типичного» представителя кластера); 2) или же искать переменные, сильнее всего отделяющие данный кластер от всех остальных.
Демонстрации этих понятий, равно как и созданию у читателя целостного понимания процесса кластеризации (от подготовки данных до профилирирования итоговых кластеров) посвящён масштабный кейс «Happy Household Survey»
Сюжет кейса таков: команда маркетологов крупной сети американских супермаркетов с весомым присутствием в интернете проводит исследование, нацеленное на сегментацию клиентов и последующие маркетинговые действия в отношении каждой из групп. Эта процедура проводится на основе анкетных данных, собранных по итогам онлайн-опроса на на сайте компании. Всего анкет собрано около 40 000, для сегментации используется 200 из них. Анкета содержит 13 вопросов о качестве сервиса и интересах клиентов, ответ – число от 1 до 5 по 5-балльной шкале.
Задание: позапускать по очереди программы clus06d01.sas - clus06d05.sas, составить цельную картину о методологии кластеризации для решения реальных бизнес-задач. В чем она заключается? Опишите по пунктам.
Ответ:
1) С помощью VARCLUS произвели разбиение на 3 кластера и выбрали значимые переменные (оставили по одной на каждый кластер).
2)Исследуем зависимости - составляем корреляционную матрицу.
3)Подбираем необходимое количество кластеров на основе трех критериев: CCC, PSF, PST2.
4)С помощью TREE отображаем «дерево» кластеров.
5)С помощью DISCRIM пытаемся подобрать признаки, дифференцирующие кластеры, то есть рассматриваем, какой признак какому кластеру наиболее соответствует.
6) Придаем конечный бытовой смысл и формируем отчет.
Список программ:
-
clus00d01.sas
-
clus01d01.sas
-
clus02d01.sas
-
clus02d02.sas, clus02d03.sas
-
clus02d04.sas
-
clus02d05.sas
-
clus03d01.sas, clus03s01.sas
-
clus03d03.sas
-
clus04d01.sas, clus05d01.sas, clus05d03.sas
-
clus06d01.sas - clus06d05.sas