Методические указания к выполнению ЛР8 - Разработка (анализ) данных (1033965)

Файл №1033965 Методические указания к выполнению ЛР8 - Разработка (анализ) данных (Методические указания к выполнению ЛР8 - Разработка (анализ) данных)Методические указания к выполнению ЛР8 - Разработка (анализ) данных (1033965)2017-12-222017-12-22СтудИзба

Методические указания к выполнению ЛР8 - Разработка (анализ) данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Методические указания «Разработка данных »

по дисциплине «Постреляционные базы данных»

Виноградова М.В.

Учебно-методические материалы «Разработка данных » представляют собой методические указания к лабораторным по дисциплине «Постреляционные базы данных».

В материалах рассмотрены основные методы разработки данных. Изложены задачи классификации, кластеризации и ассоциативных правил. Приведено краткое описание технологии настройки моделей в среде MS SQL Analysis Services и MS BI Studio. Рассмотрены примеры анализа данных. В заключительной части методических указаний приведены контрольные вопросы, список рекомендуемой литературы и пример задания.

Ознакомившись с методическими указаниями и разобрав приведенные в нем примеры, студент может получить у преподавателя свой вариант задания и приступить к его выполнению.

Изучить возможности построения и интерпретации моделей Data Mining.
Освоить методы классификации, кластеризации и ассоциативных правил.
Получить навыки работы с инструментальными средствами среды MS SQL Server Business Intelligence Development Studio.

Время выполнения

Время выполнения лабораторной работы 2 часа.

Теоретическая часть

Задача кластеризации

Модели кластеризации определяют связи в наборе данных, который невозможно логически получить с помощью случайного наблюдения. Например, можно логически отличить, что люди, добирающиеся на работу на велосипеде, не обязательно живут далеко от работы. Алгоритм может найти другие не очевидные характеристики велосипедистов. На следующей диаграмме кластер А соответствует людям, добирающимся до работы на машине, а кластер Б — людям, добирающимся до работы на велосипеде.

Алгоритм кластеризации отличается от других алгоритмов интеллектуального анализа данных, например алгоритма дерева принятия решений (Майкрософт), в котором не требуется назначать прогнозируемый столбец, необходимый для создания модели кластеризации. Алгоритм кластеризации обучает модель строго на основе связей, существующих в данных и на основе кластеров, идентифицированных алгоритмом.

Рассмотрим группу людей, имеющих сходные демографические данные и покупающих подобные товары в компании Adventure Works. Эта группа людей представляет собой кластер данных. В базе данных может существовать несколько таких кластеров. Просматривая столбцы, образующие кластер, можно более точно просмотреть, как записи в наборе данных связаны друг с другом.

Алгоритм кластеризации (Майкрософт) сначала определяет связи в наборе данных и формирует ряд кластеров на основе этих связей. Точечная диаграмма является хорошим способом визуально представить, как алгоритм группирует данные (см. следующую диаграмму). Точечная диаграмма представляет все варианты в наборе данных, и каждый вариант является точкой на диаграмме. Группа кластеров указана на диаграмме точками и показывает связи, идентифицированные алгоритмом.

После первого определения кластеров алгоритм вычисляет, как кластеры представляют группирование точек, а затем пытается повторно определить группирования, чтобы создать кластеры, которые лучше представляют данные. Алгоритм последовательно выполняет этот процесс до тех пор, пока улучшить результаты, определяя кластеры, будет невозможно.

Можно настраивать работу данного алгоритма, выбирая конкретный метод объединения в кластеры, ограничивая максимальное количество кластеров или изменяя размер несущего множества, необходимый для создания кластера. Дополнительные сведения см. в разделе

При подготовке данных, предназначенных для использования в обучении модели кластеризации, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных, и то, как эти данные используются.

Требования для модели кластеризации являются следующими.

Единичный столбец key Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Применение составных ключей не допускается.
Входные столбцы Каждая модель должна содержать по меньшей мере один входной столбец, включающий значения, которые используются для формирования кластеров. Ограничения на количество входных столбцов не налагаются, но, в зависимости от количества значений в каждом столбце, введение дополнительных столбцов может привести к увеличению времени на обучение модели.
Необязательный прогнозируемый столбец Этому алгоритму не требуется прогнозируемый столбец для формирования модели, но предусмотрена возможность добавления прогнозируемого столбца с данными почти любого типа. Значения в прогнозируемом столбце могут рассматриваться как входные по отношению к модели кластеризации, или может быть указано, что эти данные используются только для прогноза. Например, если требуется предсказать доход заказчика путем кластеризации по таким демографическим показателям, как регион или возраст, то можно задать доход как PredictOnly и ввести все остальные столбцы, например с данными о регионе или возрасте, в качестве входных данных.

Чтобы исследовать модель, можно использовать Средство просмотра кластеров (Майкрософт). При просмотре модели кластеризации в службах Службы Analysis Services кластеры отображаются на диаграмме, которая показывает связи между кластерами, а также содержит подробный профиль каждого кластера, список атрибутов, по которым различаются кластеры, и характеристики всего набора данных для обучения. Дополнительные сведения см. в разделе

Задача классификации - дерево решений

Алгоритм дерева принятия решений (Майкрософт) представляет собой регрессивный алгоритм и алгоритм классификации, предоставляемый службами Microsoft SQL Server 2005 Analysis Services (SSAS) для использования в прогнозирующем моделировании как дискретных, так и непрерывных атрибутов.

Для дискретных атрибутов алгоритм осуществляет прогнозирования на основе связи между входными столбцами в наборе данных. Он использует значения или состояния этих столбцов для прогнозирования состояний столбца, который обозначается как прогнозируемый. Алгоритм идентифицирует входные столбцы, которые коррелированы с прогнозируемым столбцом. Например, в сценарии для прогнозирования того, какие заказчики, скорее всего, приобретут велосипед, если девять из десяти молодых заказчиков покупают велосипед, но только двое из более старших заказчиков делают это, то алгоритм заключает, что возраст является хорошим прогнозом приобретения велосипеда. Дерево решений осуществляет прогнозирование на основе этой тенденции в направлении конкретного результата.

Для непрерывных атрибутов алгоритм использует линейную регрессию для определения места разбиения дерева решений.

Если несколько столбцов установлены как прогнозируемые или если входные данные содержат вложенную таблицу, которая задана как прогнозируемая, то алгоритм строит отдельное дерево решений для каждого прогнозируемого столбца.

Пример

Отделу маркетинга компании по продаже велосипедов нужно идентифицировать характеристики предыдущих заказчиков, которые могут указывать на высокую вероятность приобретения этими заказчиками продукта в будущем. В базе данных компании хранятся демографические данные, описывающие предыдущих заказчиков. Используя алгоритм дерева принятия решений (Майкрософт) для анализа этих данных, маркетинговый отдел может построить модель, которая прогнозирует, будет ли конкретный заказчик покупать продукты, на основании состояний известных столбцов, содержащих данные об этом заказчике, например демографические данные и сведения о покупках в прошлом.

Принцип работы алгоритма

Алгоритм дерева принятия решений (Майкрософт) строит модель интеллектуального анализа данных путем создания ряда разбиений, также называемых узлами, в дереве. Алгоритм добавляет узел к модели каждый раз, когда выясняется, что входной столбец имеет значительную корреляцию с прогнозируемым столбцом. Способ, которым алгоритм определяет разбиение, отличается в зависимости от того, прогнозирует ли он непрерывный столбец или дискретный столбец.

Прогнозирование дискретных столбцов

Способ, которым алгоритм дерева принятия решений (Майкрософт) строит дерево для дискретного прогнозируемого столбца, можно продемонстрировать с использованием гистограммы. На следующей диаграмме показана гистограмма, на которой построен прогнозируемый столбец «Покупатели велосипедов» в сравнении с входным столбцом «Возраст». Гистограмма показывает, что возраст человека помогает определить, купит ли этот человек велосипед.

Корреляция, показанная на диаграмме, приведет к тому, что алгоритм дерева принятия решений (Майкрософт) создаст новый узел в модели.

Добавление алгоритмом новых узлов к модели приводит к созданию древовидной структуры. Верхний узел дерева описывает разбиение прогнозируемого столбца для всех заказчиков. При продолжении роста модели алгоритм рассматривает все столбцы.

Прогнозирование непрерывных столбцов

Когда алгоритм дерева принятия решений (Майкрософт) строит дерево, основанное на непрерывном прогнозируемом столбце, каждый узел содержит регрессионную формулу. Разбиение осуществляется в точке нелинейности в этой регрессионной формуле. Например, рассмотрим следующую диаграмму.

Диаграмма содержит данные, которые можно моделировать либо используя одиночную линию, либо используя две соединенные линии. Однако одиночная линия не обеспечит надлежащего представления данных. Вместо этого при использовании двух линий модель обеспечит гораздо более точное приближение данных. Точка соединения этих двух линий является точкой нелинейности и представляет собой точку, в которой разобьется узел в модели дерева решений. Например, узел, соответствующий точке нелинейности на предыдущем графике, может быть представлен следующей диаграммой. Эти два уравнения представляют регрессионные уравнения для этих двух линий.

Настройка параметров модели

Модель дерева решений должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец.

В следующей таблице перечислены конкретные типы содержимого входных столбцов, типы содержимого прогнозируемых столбцов и флаги моделирования, поддерживаемые алгоритмом дерева принятия решений (Майкрософт).

Типы содержимого входных столбцов	Непрерывные, циклические, дискретные, дискретизированные, ключевые, табличные и упорядоченные
Типы содержимого прогнозируемых столбцов	Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные
Флаги моделирования	MODEL_EXISTENCE_ONLY, NOT NULL и REGRESSOR

Все алгоритмы Майкрософт поддерживают общий набор функций. Однако алгоритм дерева принятия решений (Майкрософт) поддерживает дополнительные функции, перечисленные в следующей таблице.

Прогнозирующая функция	Использование
IsDescendant (расширения интеллектуального анализа данных)	Определяет, является ли узел дочерним для другого узла модели.
IsInNode (расширения интеллектуального анализа данных)	Указывает, содержит ли заданный узел текущий вариант.
PredictAdjustedProbability (расширения интеллектуального анализа данных)	Возвращает взвешенную вероятность.
PredictAssociation (расширения интеллектуального анализа данных)	Прогнозирует вхождение в ассоциативном наборе данных.
PredictHistogram (расширения интеллектуального анализа данных)	Возвращает таблицу значений, связанную с текущим прогнозируемым значением.
PredictNodeId (расширения интеллектуального анализа данных)	Возвращает параметр Node_ID для каждого случая.
PredictProbability (расширения интеллектуального анализа данных)	Возвращает вероятность для прогнозируемого значения.
PredictStdev (расширения интеллектуального анализа данных)	Возвращает прогнозируемое стандартное отклонение для заданного столбца.
PredictSupport (расширения интеллектуального анализа данных)	Возвращает опорное значение для указанного состояния.

Характеристики

Тип файла

Документ

Размер

2,25 Mb

Материал

Методические указания к выполнению ЛР8 - Разработка (анализ) данных

Тип материала

Лабораторная работа

Предмет

Постреляционные базы данных

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Тип файла документ

Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.

Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.

Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.

Список файлов лабораторной работы

metodicheskie-ukazaniya-k-vypolneniyu-lr8-razrabotka-analiz-dannyh-129597539-1513949784.rar

Методические указания к выполнению ЛР8 - Разработка (анализ) данных.doc

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.