SAS CLUSTERIZATION HW (811388), страница 2

Файл №811388 SAS CLUSTERIZATION HW (SAS-6task) 2 страницаSAS CLUSTERIZATION HW (811388) страница 22020-08-252020-08-25СтудИзба

SAS-6task

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Задание №8. Hierarchical Clustering + Determining Number of Clusters
clus04d01.sas, clus05d01.sas, clus05d03.sas

Иерархическая кластеризация – самый математически строгий класс алгоритмов. В процессе построения модели мы можем определить оптимальное число кластеров на основе четких критериев и кардинально поменять поведение алгоритма одной лишь сменой используемой метрики для расчета расстояний. Однако эти алгоритмы тяжело справляются с большими объемами данных, и поэтому типичный workflow при кластеризации большого числа объектов выглядит следующим образом: 1) выделить ~1000-2000 маленьких кластеров с помощью K-Means, 2) сгруппировать их с помощью hierarchical clustering в финальную группировку (~10-100 кластеров).

А теперь вспомним, что «высокая» цель любого алгоритма кластеризации – минимизации внутрикластерного разброса объектов с одновременной максимизацией межкластерного. Причем эти две подцели можно скомбинировать в единой штрафной функции. Таким образом, кластерный анализ – это всегда решение задачи оптимизации. Если теперь взглянуть на вышеописанный комбинированный метод с этой точки зрения, то нам станет понятно, что первым шагом PROC FASTCLUS (K-Means) старается ограничить область глобального минимума штрафной функции, а уже затем внутри этой области иерархическая кластеризация отыскивает один из локальных минимумов. И это очень круто, потому что вероятность найти настоящий глобальный оптимум штрафной функции при таком раскладе существенно возрастает (а этот оптимум = идеальная кластеризация)

Все многообразие методов иерархической кластеризации в SAS/STAT упаковано в PROC CLUSTER (построение полной иерархии) и PROC TREE (усечение и визуализация иерархии; берет на вход результат PROC CLUSTER)

Запустите clus04d01.sas. Сравнение методов иерархической кластеризации (точнее, их метрик)
Задание: посмотреть на работу PROC CLUSTER с различными метриками расстояния. С помощью PROC MDS построить график распределения объектов на плоскости (и прислать его мне!). На основе таблицы ranking of hierarchical methods (самый низ отчета) выберите самую хорошую и самую плохую метрики и выясните (глядя на MDS Plot), почему они оказались таковыми? (ответ тоже прислать!)

Ответ:

Самая хорошая метрика — centroid.

Самая плохая метрика — single.

4картинки

Чем больше расстояние между кластерами и чем больше связанность внутри кластеров, тем лучше метрика.

Запустите clus05d01.sas. В этом примере определяется оптимальное число кластеров в финальной кластеризации.
Задание: посмотреть, как по мере создания иерархии кластеров можно параллельно оценивать оптимальность их количества. Какое число кластеров оптимально в этом примере? Исходя из каких критериев? (см. лекцию, слайды про CCC, PSEUDO-F и PSEUDO-T2)

Ответ:

CCC – 7 кластеров;

PSEUDO-F – 3 или 5 кластеров;

PSEUDO-T2 – 7 кластеров (11, 15, 17, 20, 23, 25, 28).

Запустите clus05d03.sas. В этом примере задача кластеризации решается в 2 шага: сначала начальное множество объектов группируется в большое число маленьких кластеров с помощью
K-Means (PROC FASTCLUS); а затем уже эти микро-кластеры группируются иерархическим алгоритмом.
Задание: посмотреть на работу программы и выходную статистику

Ответ:

Получено 7 кластеров.

Задание №9. Happy Household Survey
clus06d01.sas - clus06d05.sas

Зачастую кластеризация служит для решения каких-то реальных задач бизнеса, например разбиения покупателей магазина на группы в зависимости от их среднего чека и продуктовой корзины. В этом случае мало кластеризовать выборку – важно придать конечным сегментам бытовой смысл («в этой группе покупают мало, но всегда дорогие товары – наверное, это бизнесмены ходят за дорогим алкоголем»).

Процедура «осознания» этого смысла называется профилированием кластеров. При этом можно решать задачу в двух разных направлениях: 1) искать переменные, сильнее всего дифференцирующие кластеры одновременно (и затем найти «типичного» представителя кластера); 2) или же искать переменные, сильнее всего отделяющие данный кластер от всех остальных.

Демонстрации этих понятий, равно как и созданию у читателя целостного понимания процесса кластеризации (от подготовки данных до профилирирования итоговых кластеров) посвящён масштабный кейс «Happy Household Survey»

Сюжет кейса таков: команда маркетологов крупной сети американских супермаркетов с весомым присутствием в интернете проводит исследование, нацеленное на сегментацию клиентов и последующие маркетинговые действия в отношении каждой из групп. Эта процедура проводится на основе анкетных данных, собранных по итогам онлайн-опроса на на сайте компании. Всего анкет собрано около 40 000, для сегментации используется 200 из них. Анкета содержит 13 вопросов о качестве сервиса и интересах клиентов, ответ – число от 1 до 5 по 5-балльной шкале.

Задание: позапускать по очереди программы clus06d01.sas - clus06d05.sas, составить цельную картину о методологии кластеризации для решения реальных бизнес-задач. В чем она заключается? Опишите по пунктам.

Ответ:

1) С помощью VARCLUS произвели разбиение на 3 кластера и выбрали значимые переменные (оставили по одной на каждый кластер).

2)Исследуем зависимости - составляем корреляционную матрицу.

3)Подбираем необходимое количество кластеров на основе трех критериев: CCC, PSF, PST2.

4)С помощью TREE отображаем «дерево» кластеров.

5)С помощью DISCRIM пытаемся подобрать признаки, дифференцирующие кластеры, то есть рассматриваем, какой признак какому кластеру наиболее соответствует.

6) Придаем конечный бытовой смысл и формируем отчет.

Список программ:

clus00d01.sas
clus01d01.sas
clus02d01.sas
clus02d02.sas, clus02d03.sas
clus02d04.sas
clus02d05.sas
clus03d01.sas, clus03s01.sas
clus03d03.sas
clus04d01.sas, clus05d01.sas, clus05d03.sas
clus06d01.sas - clus06d05.sas

Характеристики

Тип файла

Документ

Размер

17,84 Kb

Материал

SAS-6task

Тип материала

Курсовая работа

Предмет

(ППП СОиАД) (SAS) Пакеты прикладных программ для статистической обработки и анализа данных

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов курсовой работы

sas-6task.rar

Clasterization-Kazachuk

Centroid-1.JPG

Centroid-2.JPG

SAS CLUSTERIZATION HW.docx

single-1.JPG

single-2.JPG

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.