1 - Пояснительная записка (1205414), страница 7
Текст из файла (страница 7)
Изучение данных в свете собственных представлений о бизнес-проблеме может привести к выводу о наличии ошибок в наборе данных, и затем можно выработать стратегию для устранения проблем или получить более глубокое представление о моделях поведения, характерных для бизнеса.
Для просмотра доступных источников данных и определения их доступности для интеллектуального анализа данных используются средства Master Data Services.
Для анализа распределения данных и устранения проблем, таких как неверные или отсутствующие данные, требуются такие средства, как SQL Server Data Quality Services, или профилировщики данных в службах Integration Services.
После определения источников их следует объединить в представлении источников данных с помощью конструктора представлений источников данных в SQL Server Data Tools. Конструктор содержит также ряд средств, которые можно использовать для просмотра данных и определения того, подходят ли они для создания модели.
Необходимо отметить, что во время создания модели службы Analysis Services автоматически создают статистические сводки по данным, содержащимся в модели, и эти сводки можно запрашивать для использования в отчетах или при дальнейшем анализе.
3.1.4 Построение моделей
Четвертым шагом процесса интеллектуального анализа данных, как видно из рисунка 3.5, является построение моделей интеллектуального анализа данных. Знания, полученные при выполнении предыдущего шага, помогут определить и создать модели.
Рисунок 3.5 ‒ Четвертый этап интеллектуального анализа данных: создание моделей интеллектуального анализа
Пользователь определяет столбцы данных, которые должны быть использованы, путем создания структуры интеллектуального анализа данных. Структура интеллектуального анализа связана с источником данных, но не содержит никаких данных до обработки. Во время обработки структуры интеллектуального анализа службы Analysis Services создают статистические выражения и другие статистические данные, которые могут использоваться в анализе. Эти данные могут использоваться любой моделью интеллектуального анализа данных, которая основана на этой структуре.
Модель интеллектуального анализа данных перед обработкой структуры и модели является просто контейнером, который задает столбцы, используемые для входных данных, прогнозируемый атрибут и параметры, управляющие алгоритмом обработки данных. Обработку модели часто называют обучением. Обучение обозначает процесс применения некоторого математического алгоритма к данным в структуре с целью выявить закономерности. Закономерности, обнаруженные в процессе обучения, зависят от выбора обучающих данных, выбранного алгоритма и его конфигурации. SQL Server 2016 содержит множество различных алгоритмов, каждый из которых предназначен для задач различных типов и создает модель, отличную от других.
Для настройки каждого алгоритма используются параметры, и кроме того, можно применить фильтры к обучающим данным, чтобы использовать только их подмножество, что приведет к получению других результатов. После прохождения данных через модель объект модели интеллектуального анализа данных будет содержать сводные данные и закономерности, которые можно запрашивать и использовать для прогнозирования.
Новую модель можно определить с помощью мастера интеллектуального анализа данных в среде SQL Server Data Tools или с помощью языка расширений интеллектуального анализа данных.
Важно помнить, что при любом изменении данных необходимо обновить и структуру, и модель интеллектуального анализа данных. Когда структура интеллектуального анализа данных обновляется путем повторной обработки, службы Analysis Services получают данные из источника, в том числе новые данные, если источник динамически обновляется, и повторно заполняет структуру интеллектуального анализа данных.
Если на этой структуре основаны существующие модели, можно обновить эти модели, что будет означать их повторное обучение с новыми данными, или оставить модели без изменений.
3.1.5 Исследование и проверка моделей
Пятым шагом процесса интеллектуального анализа данных, как видно из рисунка 3.6, является исследование построенных моделей интеллектуального анализа данных и проверка их эффективности.
Рисунок 3.6 ‒ Пятый этап интеллектуального анализа данных: проверка моделей интеллектуального анализа
Перед развертыванием модели в рабочей среде необходимо проверить эффективность работы модели. Кроме того, во время построения модели обычно создается несколько моделей с различной конфигурацией, а затем проверяются все модели, чтобы определить, какая из них обеспечивает лучшие результаты для поставленной задачи и имеющихся данных.
Службы Analysis Services предоставляют средства, упрощающие разделение данных на набор данных для обучения и проверочный набор данных, чтобы можно было точно оценить производительность всех моделей, основанных на одних и тех же данных. Набор данных для обучения используется в ходе построения модели, а набор проверочных данных — для проверки точности модели путем создания прогнозирующих запросов. В службах SQL Server 2016 Analysis Services (SSAS)такое секционирование можно выполнить автоматически во время построения модели интеллектуального анализа данных.
Тенденции и закономерности, обнаруживаемые алгоритмами, можно исследовать при помощи средств просмотра в конструкторе интеллектуального анализа данных в среде SQL Server Data Tools. Точность прогнозов, создаваемых моделями, можно проверить при помощи таких средств конструктора, как диаграмма точности прогнозов и матрица классификации. Чтобы проверить, ограничена применимость модели имеющимися данными или она может использоваться для совершения выводов относительно генеральной совокупности, можно применить статистический метод, называемый перекрестной проверкой, чтобы автоматически создать подмножества данных и проверить модель по каждому подмножеству.
Если ни одна из моделей, созданных на этапе построения моделей не обладает нужной эффективностью, может возникнуть необходимость вернуться к предыдущему шагу процесса и либо изменить постановку задачи, либо выполнить повторное изучение данных в исходном наборе данных.
3.1.6 Развертывание и обновление моделей.
Последним шагом процесса интеллектуального анализа данных, как видно из рисунка 3.7, является развертывание наиболее эффективных моделей в рабочей среде.
Рисунок 3.7 Шестой этап интеллектуального анализа данных: развертывание моделей интеллектуального анализа
После развертывания моделей интеллектуального анализа данных в рабочей среде можно выполнять множество задач, соответствующих потребностям пользователя. Ниже перечислены некоторые задачи, доступные для выполнения.
-
Использование моделей для создания прогнозов, которые можно затем использовать для принятия бизнес-решений. SQL Server предоставляет язык расширений интеллектуального анализа данных, который можно использовать для создания запросов прогнозирования, и построитель запросов прогнозирования, облегчающий процесс построения запросов.
-
Создание запросов содержимого для получения статистики, правил или формул из модели.
-
Внедрение функций интеллектуального анализа данных непосредственно в приложение. Можно включать объекты AMO, содержащие набор объектов, которые приложение может использовать для создания, изменения, обработки и удаления структур и моделей интеллектуального анализа данных. Кроме того, можно отправлять сообщения XML для аналитики (XMLA) напрямую в экземпляр служб Analysis Services.
-
Использование служб Integration Services для создания пакета, в котором модель интеллектуального анализа данных используется для интеллектуального распределения входящих данных по разным таблицам. Например, если база данных постоянно обновляется за счет добавления потенциальных клиентов, модель интеллектуального анализа данных может использоваться совместно со службами Integration Services для разбиения входящих данных на клиентов, которые с высокой долей вероятности купят товар, и клиентов, которые с высокой долей вероятности не купят товар.
-
Создание отчета, который позволит пользователям составлять прямые запросы к существующей модели интеллектуального анализа данных.
-
Обновление моделей после просмотра и анализа. После любого обновления необходимо выполнить повторную обработку моделей.
-
Динамическое обновление моделей по мере поступления в организацию новых данных и постоянные изменения, направленные на повышение эффективности решения, должны быть частью стратегии развертывания.
3.2 Построение OLAP-куба в Microsoft SQL Server Data Tools
3.2.1 Источник данных
Разработка Business Intelligence приложения в среде SQL Server начинается с создания проекта Analysis Services в SQL Server Data Tools. Внутри этого проекта предстоит определить все элементы данного решения, начиная с представления источника данных.
Источник данных добавляется с помощью соответствующего мастера, на первом шаге которого указывается подключение к созданной ранее базе данных (рисунок 3.8).
Рисунок 3.8 – Создание источника данных
Рекомендуется выбирать в качестве источника данных представления, а не таблицы. Это позволит делать любые изменения в источнике, не меняя сам OLAP-куб [10].
Результат представлен на рисунке 3.9
Рисунок 3.9 ‒ Добавленный источник данных
3.2.2 Представление
Представление источника данных (DSV) – это абстракция реляционного источника данных, которая становится основой кубов и измерений, создаваемых в многомерном проекте.
Цель представлений в том, чтобы предоставить пользователю контроль над используемыми в проекте структурами данных, и работать с лежащим в их основе источником данных независимо (например, есть возможность переименовать или связать колонки без прямого изменения исходного источника данных).
Можно построить множество представлений в проекте или базе данных Analysis Services на основе одного или нескольких источников данных, и настроить каждый под требования различных решений.
Представление также создается с помощью мастера за несколько простых шагов на которых выбираются таблицы и представления из подключенного источника данных.
Результатом данного шага является структура, представленная на рисунке 3.10.
Рисунок 3.10 ‒ Представление источника данных
Для улучшения восприятия структурно сложных и объемных схем, средство SQL Server Data Tools предоставляет возможность задать удобочитаемое имя таблицы на схеме (рисунок 3.11).
Рисунок 3.11 ‒ Удобочитаемое имя для таблицы в представлении
3.2.3 Измерения куба
Даже трехмерный куб сложно отобразить на экране компьютера так, чтобы были видны значения интересующих мер. Не говоря уже о кубах с количеством измерений, большим трех. Для визуализации данных, хранящихся в кубе, применяются, как правило, привычные двумерные, т. е. табличные представления, имеющие сложные иерархические заголовки строк и столбцов.
Двумерное представление куба можно получить, "разрезав" его поперек вдоль одной или нескольких осей (измерений): мы фиксируем значения всех измерений, кроме двух, ‒ и получаем обычную двумерную таблицу. В горизонтальной оси таблицы (заголовки столбцов) представлено одно измерение, в вертикальной (заголовки строк) ‒ другое, а в ячейках таблицы ‒ значения мер. При этом набор мер фактически рассматривается как одно из измерений: мы либо выбираем для показа одну меру (и тогда можем разместить в заголовках строк и столбцов два измерения), либо показываем несколько мер (и тогда одну из осей таблицы займут названия мер, а другую ‒ значения единственного "неразрезанного" измерения) (рисунок 3.11).
Рисунок 3.11 ‒ Мастер измерений
Первое, что требуется сделать ‒ определить измерение куба. Измерения имеют формат *.dim (dimension) (рисунок 3.12).















