Методические указания к выполнению ЛР8 - Разработка (анализ) данных (1033965), страница 3

Файл №1033965 Методические указания к выполнению ЛР8 - Разработка (анализ) данных (Методические указания к выполнению ЛР8 - Разработка (анализ) данных) 3 страницаМетодические указания к выполнению ЛР8 - Разработка (анализ) данных (1033965) страница 32017-12-222017-12-22СтудИзба

Методические указания к выполнению ЛР8 - Разработка (анализ) данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Рис. 1

Обобщенные ассоциативные правила

При поиске ассоциативных правил, мы предполагали, что все анализируемые элементы однородны. Возвращаясь к анализу рыночной корзины, это товары, имеющие совершенно одинаковые атрибуты, за исключением названия. Однако не составит большого труда дополнить транзакцию информацией о том, в какую товарную группу входит товар и построить иерархию товаров. Приведем пример такой группировки (таксономии) в виде иерархической модели.

Рис. 2

Пусть нам дана база транзакций D и известно, в какие группы (таксоны) входят элементы. Тогда можно извлекать из данных правила, связывающие группы с группами, отдельные элементы с группами и т.д. Например, если Покупатель купил товар из группы 'Безалкогольные напитки', то он купит и товар из группы 'Молочные продукты' или 'Сок' 'Молочные продукты'. Эти правила носят название обобщенных ассоциативных правил.

Обобщенным ассоциативным правилом называется импликация X Y, где X I, Y I и X Y= и где ни один из элементов, входящих в набор Y, не является предком ни одного элемента, входящего в X. Поддержка и достоверность подсчитываются так же, как и в случае ассоциативных правил.

Введение дополнительной информации о группировке элементов в виде иерархии даст следующие преимущества:

1. Это помогает установить ассоциативные правила не только между отдельными элементами, но и между различными уровнями иерархии (группами).

2. Отдельные элементы могут иметь недостаточную поддержку, но в целом группа может удовлетворять порогу minsupport.

Для нахождения таких правил нужно каждую транзакцию нужно дополнить всеми предками каждого элемента, входящего в транзакцию. Однако, применение этих алгоритмов напрямую неизбежно приведет к следующим проблемам:

1. Элементы на верхних уровнях иерархии стремятся к значительно большим значениям поддержки по сравнению с элементами на нижних уровнях.

2. С добавлением в транзакции групп увеличилось количество атрибутов и соответственно размерность входного пространства. Это усложняет задачу, а также ведет к генерации большего количества правил.

3. Появление избыточных правил, противоречащих определению обобщенного ассоциативного правила, например, 'Сок' 'Прохладительные напитки'. Очевидно, что практическая ценность такого 'открытия' нулевая при 100% достоверности. Следовательно, нужны специальные операторы, удаляющие подобные избыточные правила.

Группировать элементы можно не только по вхождению в определенную товарную группу, но и по другим характеристикам, например по цене (дешево, дорого), брэнду и т.д.

Определение 'интересных' правил

Для решения задачи, поиска 'излишних' обобщенных ассоциативных правил применяется такой параметр правила как уровень интереса.

Пусть Z – это предок Z, где Z и Z – множества элементов, входящих в иерархию (Z,Z I). Z является предком Z, только в том случае, если Z можно получить из Z путем подмены одного или нескольких элементов их предками. Если рассматривать иерархию на рис. 2, то примером могут быть эти два множества: Z={Сок, Кефир, Бумага}, Z={Напитки, Молочные продукты, Бумага}. Будем называть правила X Y, X Y, X Y предками правила X Y.

Правило X Y является ближайшим предком правила X Y, если не существует такого правила X' Y', что X' Y' – это предок X Y и X Y – это предок X' Y'.

Численные ассоциативные правила

При поиске ассоциативных правил задача была существенно упрощена. По сути все сводилось к тому, присутствует в транзакции элемент или нет. Т.е. если рассматривать случай рыночной корзины, то мы рассматривали два состояния: куплен товар или нет, проигнорировав, например, информацию о том, сколько было куплено, кто купил, характеристики покупателя и т.д. И можно сказать, что рассматривали 'булевские' ассоциативные правила. Если взять любую базу данных, каждая транзакция состоит из различных типов данных: числовых, категориальных и т.д. Для обработки таких записей и извлечения численных ассоциативных правил также были предложены алгоритм поиска.

Помимо описанных выше ассоциативных правил существуют косвенные ассоциативные правила, ассоциативные правила c отрицанием, временные ассоциативные правила для событий связанных во времени и другие.

Работа в MS BI Studio

Предварительные действия

Запустить среду SQL Server Server Business Intelligence Development Studio (или MS Visual Studio).
Создать новый проект типа Business Intelligence project -> Analysis Service project.
Подключиться к источнику данных (сервер = localhost, БД = AdwentureWorksDW).
Определить источник данных (тип авторизации = use the service account).
Создать Представление данных (data Source View), в которое включить все таблицы тестовой БД AdwentureWorks.

Классификация

Создание модели кластеризации

Создать модель классификации на основе данных в таблице покупателей велосипедов (vTargetMail). Построить дерево решений, которое покажет, как зависит решение о покупке велосипеда от сведений о человеке.

Классы объектов: «Покупатель», «НЕ покупатель» велосипедов.

Прогнозируемый атрибут: покупка велосипеда (ДА/НЕТ)

Исходные атрибуты: ФИО, образование, количество детей, семейный статус, количество автомобилей, пол, возраст и т.д.

ВНИМАНИЕ: при построении модели необходимо сменить тип regular на discrete для поля Покупатель велосипеда и всех полей, имеющих тип long (age и др.).

На панели Solution Explorer в контекстном меню Mining Structures выбрать New Mining Structure

В мастере создания модели нажать Next->

нажать Next-> Выбрать алгоритм Дерево решений, нажать Next-> Выбрать источник данных,

нажать Next->

нажать Next-> Выбрать таблицу для анализа данных (vTargetMail):

нажать Next-> Выбрать данные для тренировки (CustomerKey как ключевой, BikeBuyer как Входной и предсказываемый):

Нажать Suggest (Мотивация решения).

В результате анализа исходных данных будет показана связь между входными и предсказываемым столбцами.

Указать входные столбцы и нажать ОК:

В окне мастера нажать Next->

Сменить тип regular на discrete для поля Покупатель велосипеда и всех полей, имеющих тип long (age и др.):

Нажать Finish.

Переименовать модель и ее структуру и нажать finish:

Результат:

Развертывание модели

На панели Solution Explorer в контекстном меню Структуры анализа данных выбрать Process.

Если будет вопрос об обновлении данных, то ответить ДА.

В окне развертывания нажать Run:

В окне результатов будет показан ход процесса построения модели и го результат:

Закрыть все лишние окна (Close).

Просмотр модели

Двойным щелчком по структуре модели (На панели Solution Explorer ) открыть окно ее просмотра и редактирования:

Просмотреть и интерпретировать полученную модель. Дать пояснения по результатам построенной модели (кто покупает велосипеды) по вкладкам. Продемонстрировать работу с результатами модели.

Открыть вкладку Mining Model Viewer (Decision Tree) – показывает дерево решения:

Продемонстрировать приемы работы с моделью:

Изменить количество уровней;
увеличить/уменьшить;
изменить фон (покупатель/не покупатель);
просмотреть легенду:

Открыть вкладку Mining Model Viewer (Dependency Network) – показывает влияние входных параметров на результат:

Ползунком выявить самую сильную/слабую связь.

Кластеризация

Построение модели Кластеризации

Создать модель кластеризации на основе сведений о человеке.
Исходные атрибуты: ФИО, образование, количество детей, семейный статус, количество автомобилей, пол, возраст и т.д.
Для созданной ранее модели выбрать вкладку Mining Models:
В контекстном меню выбрать – Новая модель:

Указать название модели и алгоритм – Кластеризация и нажать ОК:

Будет создана вторая модель:

Развернуть модель

Подтвердить изменение; нажать Run

Закрыть лишние окна (Close).

Просмотр модели кластеризации

Просмотреть и интерпретировать полученную модель. Дать пояснения по результатам. Продемонстрировать работу с результатами модели.
Открыть вкладку Mining Model Viewer. Выбрать модель кластеризации. Откроется окно с результатами моделирования.

Вкладка Cluster Diagram – показывает кластеры и связи между ними:

Продемонстрировать работу с моделью:

- поиск кластера,

Характеристики

Тип файла

Документ

Размер

2,25 Mb

Материал

Методические указания к выполнению ЛР8 - Разработка (анализ) данных

Тип материала

Лабораторная работа

Предмет

Постреляционные базы данных

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов лабораторной работы

metodicheskie-ukazaniya-k-vypolneniyu-lr8-razrabotka-analiz-dannyh-129597539-1513949784.rar

Методические указания к выполнению ЛР8 - Разработка (анализ) данных.doc

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.