Методические указания к выполнению ЛР8 - Разработка (анализ) данных (1033965), страница 3
Текст из файла (страница 3)
Рис. 1
Обобщенные ассоциативные правила
При поиске ассоциативных правил, мы предполагали, что все анализируемые элементы однородны. Возвращаясь к анализу рыночной корзины, это товары, имеющие совершенно одинаковые атрибуты, за исключением названия. Однако не составит большого труда дополнить транзакцию информацией о том, в какую товарную группу входит товар и построить иерархию товаров. Приведем пример такой группировки (таксономии) в виде иерархической модели.
Рис. 2
Пусть нам дана база транзакций D и известно, в какие группы (таксоны) входят элементы. Тогда можно извлекать из данных правила, связывающие группы с группами, отдельные элементы с группами и т.д. Например, если Покупатель купил товар из группы 'Безалкогольные напитки', то он купит и товар из группы 'Молочные продукты' или 'Сок' 'Молочные продукты'. Эти правила носят название обобщенных ассоциативных правил.
Обобщенным ассоциативным правилом называется импликация X Y, где X
I, Y
I и X
Y=
и где ни один из элементов, входящих в набор Y, не является предком ни одного элемента, входящего в X. Поддержка и достоверность подсчитываются так же, как и в случае ассоциативных правил.
Введение дополнительной информации о группировке элементов в виде иерархии даст следующие преимущества:
1. Это помогает установить ассоциативные правила не только между отдельными элементами, но и между различными уровнями иерархии (группами).
2. Отдельные элементы могут иметь недостаточную поддержку, но в целом группа может удовлетворять порогу minsupport.
Для нахождения таких правил нужно каждую транзакцию нужно дополнить всеми предками каждого элемента, входящего в транзакцию. Однако, применение этих алгоритмов напрямую неизбежно приведет к следующим проблемам:
1. Элементы на верхних уровнях иерархии стремятся к значительно большим значениям поддержки по сравнению с элементами на нижних уровнях.
2. С добавлением в транзакции групп увеличилось количество атрибутов и соответственно размерность входного пространства. Это усложняет задачу, а также ведет к генерации большего количества правил.
3. Появление избыточных правил, противоречащих определению обобщенного ассоциативного правила, например, 'Сок' 'Прохладительные напитки'. Очевидно, что практическая ценность такого 'открытия' нулевая при 100% достоверности. Следовательно, нужны специальные операторы, удаляющие подобные избыточные правила.
Группировать элементы можно не только по вхождению в определенную товарную группу, но и по другим характеристикам, например по цене (дешево, дорого), брэнду и т.д.
Определение 'интересных' правил
Для решения задачи, поиска 'излишних' обобщенных ассоциативных правил применяется такой параметр правила как уровень интереса.
Пусть Z – это предок Z, где Z и Z – множества элементов, входящих в иерархию (Z,Z I). Z является предком Z, только в том случае, если Z можно получить из Z путем подмены одного или нескольких элементов их предками. Если рассматривать иерархию на рис. 2, то примером могут быть эти два множества: Z={Сок, Кефир, Бумага}, Z={Напитки, Молочные продукты, Бумага}. Будем называть правила X
Y, X
Y, X
Y предками правила X
Y.
Правило X Y является ближайшим предком правила X
Y, если не существует такого правила X'
Y', что X'
Y' – это предок X
Y и X
Y – это предок X'
Y'.
Численные ассоциативные правила
При поиске ассоциативных правил задача была существенно упрощена. По сути все сводилось к тому, присутствует в транзакции элемент или нет. Т.е. если рассматривать случай рыночной корзины, то мы рассматривали два состояния: куплен товар или нет, проигнорировав, например, информацию о том, сколько было куплено, кто купил, характеристики покупателя и т.д. И можно сказать, что рассматривали 'булевские' ассоциативные правила. Если взять любую базу данных, каждая транзакция состоит из различных типов данных: числовых, категориальных и т.д. Для обработки таких записей и извлечения численных ассоциативных правил также были предложены алгоритм поиска.
Помимо описанных выше ассоциативных правил существуют косвенные ассоциативные правила, ассоциативные правила c отрицанием, временные ассоциативные правила для событий связанных во времени и другие.
Работа в MS BI Studio
Предварительные действия
-
Запустить среду SQL Server Server Business Intelligence Development Studio (или MS Visual Studio).
-
Создать новый проект типа Business Intelligence project -> Analysis Service project.
-
Подключиться к источнику данных (сервер = localhost, БД = AdwentureWorksDW).
-
Определить источник данных (тип авторизации = use the service account).
-
Создать Представление данных (data Source View), в которое включить все таблицы тестовой БД AdwentureWorks.
Классификация
Создание модели кластеризации
Создать модель классификации на основе данных в таблице покупателей велосипедов (vTargetMail). Построить дерево решений, которое покажет, как зависит решение о покупке велосипеда от сведений о человеке.
Классы объектов: «Покупатель», «НЕ покупатель» велосипедов.
Прогнозируемый атрибут: покупка велосипеда (ДА/НЕТ)
Исходные атрибуты: ФИО, образование, количество детей, семейный статус, количество автомобилей, пол, возраст и т.д.
ВНИМАНИЕ: при построении модели необходимо сменить тип regular на discrete для поля Покупатель велосипеда и всех полей, имеющих тип long (age и др.).
На панели Solution Explorer в контекстном меню Mining Structures выбрать New Mining Structure
В мастере создания модели нажать Next->
нажать Next-> Выбрать алгоритм Дерево решений, нажать Next-> Выбрать источник данных,
нажать Next->
нажать Next-> Выбрать таблицу для анализа данных (vTargetMail):
нажать Next-> Выбрать данные для тренировки (CustomerKey как ключевой, BikeBuyer как Входной и предсказываемый):
Нажать Suggest (Мотивация решения).
В результате анализа исходных данных будет показана связь между входными и предсказываемым столбцами.
Указать входные столбцы и нажать ОК:
В окне мастера нажать Next->
Сменить тип regular на discrete для поля Покупатель велосипеда и всех полей, имеющих тип long (age и др.):
Нажать Finish.
Переименовать модель и ее структуру и нажать finish:
Результат:
Развертывание модели
На панели Solution Explorer в контекстном меню Структуры анализа данных выбрать Process.
Если будет вопрос об обновлении данных, то ответить ДА.
В окне развертывания нажать Run:
В окне результатов будет показан ход процесса построения модели и го результат:
Закрыть все лишние окна (Close).
Просмотр модели
Двойным щелчком по структуре модели (На панели Solution Explorer ) открыть окно ее просмотра и редактирования:
Просмотреть и интерпретировать полученную модель. Дать пояснения по результатам построенной модели (кто покупает велосипеды) по вкладкам. Продемонстрировать работу с результатами модели.
Открыть вкладку Mining Model Viewer (Decision Tree) – показывает дерево решения:
Продемонстрировать приемы работы с моделью:
-
Изменить количество уровней;
-
увеличить/уменьшить;
-
изменить фон (покупатель/не покупатель);
-
просмотреть легенду:
Открыть вкладку Mining Model Viewer (Dependency Network) – показывает влияние входных параметров на результат:
Ползунком выявить самую сильную/слабую связь.
Кластеризация
Построение модели Кластеризации
-
Создать модель кластеризации на основе сведений о человеке.
-
Исходные атрибуты: ФИО, образование, количество детей, семейный статус, количество автомобилей, пол, возраст и т.д.
-
Для созданной ранее модели выбрать вкладку Mining Models:
-
В контекстном меню выбрать – Новая модель:
Указать название модели и алгоритм – Кластеризация и нажать ОК:
Будет создана вторая модель:
Развернуть модель
Подтвердить изменение; нажать Run
-
Закрыть лишние окна (Close).
Просмотр модели кластеризации
-
Просмотреть и интерпретировать полученную модель. Дать пояснения по результатам. Продемонстрировать работу с результатами модели.
-
Открыть вкладку Mining Model Viewer. Выбрать модель кластеризации. Откроется окно с результатами моделирования.
Продемонстрировать работу с моделью:
- поиск кластера,