1 - Пояснительная записка (1205414), страница 2
Текст из файла (страница 2)
Итак, в каких случаях применение OLAP-клиента для пользователей может оказаться эффективнее и выгоднее использования OLAP-сервера?
-
Экономическая целесообразность применения OLAP-сервера возникает, когда объемы данных очень велики и непосильны для OLAP-клиента, иначе более оправдано применение последнего. В этом случае OLAP-клиент сочетает в себе высокие характеристики производительности и низкую стоимость.
-
Мощные ПК аналитиков – еще один довод в пользу OLAP-клиентов. При применении OLAP-сервера эти мощности не используются.
Среди преимуществ OLAP-клиентов можно также назвать следующее:
-
Затраты на внедрение и сопровождение OLAP-клиента существенно ниже, чем затраты на OLAP-сервер.
-
При использовании OLAP-клиента со встроенной машиной передача данных по сети производится один раз. При выполнении OLAP-операций новых потоков данных не порождается.
1.3 Требования к OLAP-системам. FASMI
Основополагающей особенностью, требуемой от OLAP-системы, является скорость работы, которая позволяет использовать её в процессе работы аналитика с информацией в интерактивном режиме. Что выгодно отличает OLAP-системы от привычных РСУБД, в которых выборка с типовыми аналитическими запросами, использующими группировку и агрегирование данных, занимают значительно больше времени и расходуют больше ресурсов РСУБД, что делает интерактивную работу с ними при больших объемах данных затруднительной.
Кроме того, в традиционных электронных таблицах представление многомерных данных крайне проблематично в плане восприятия и внесения информации, операции по смене точки рассмотрения данных трудо- и времязатратны, что усложняет работу с данными в интерактивном режиме.
Термин OLAP, предложенный Эдгаром Коддом (Edgar Codd) для разграничения таких систем с OLTP-системами (от англ. OnLine Transaction Processing – обработка транзакций в реальном времени), некоторые эксперты считают слишком широким. Поэтому Найджел Пендс (Nigel Pendse) предложил использовать для описания этой концепции и взамен предложенных Коддом 12-ти правил OLAP так называемый тест FASMI (от англ. Fast Analysis of Shared Multidimensional Information – быстрый анализ доступной многомерной информации), более точно харакетеризующую требования к этим системам.
Fast (быстрый) отражает упомянутое выше требование к скорости реакции системы. По Пендсу, интервалы с момента инициации запроса до получения результата должен измеряться секундами. Важность этого требования возрастает при использовании таких систем в качестве инструмента оперативного представления данных для аналитика, так как длительное время ожидания может пагубно влиять на цепочку рассуждений аналитика.
Analysis (анализ) предполагает приспособленность системы к использованию в релевантной для задачи и пользователя бизнес-логике с сохранением доступной «обычному» пользователю легкости оперирования данными без использования низкоуровневого специального инструментария.
Shared (доступность, общедоступность) описывает очевидное требование к возможности одновременного многопользовательского доступа к информации с интегрированной системой разграничения прав доступа вплоть до уровня конкретной ячейки данных.
Multidimensional (многомерность) является ключевым требованием концепции. Предполагается, что система должна обеспечивать полную поддержку многомерного иерархического представления как «наиболее логичного пути анализа бизнеса и организаций». Отметим, что многомерность указывает на модель концептуального представления данных, то есть на то, как пользователь должен представлять организацию данных при формулировании запросов, а не на то, в каких структурах хранятся данные физически.
Многомерность в рамках OLAP предполагает концептуальное представление данных в виде многомерной структуры данных – гиперкуба (OLAP-куба), рёбрами в котором выступают измерения (dimension), а данные (facts – факты; measures – меры, показатели) расположены на пересечении осей измерений.
При этом измерение обычно представляет собой плоский или иерархический список. Например, измерение «Партнёры» может включать список партнёров компании, измерение «Время» – список филиалов с географической группировкой (регион мира, страна, регион, город, филиал). Если в качестве меры определён объём продаж, то на срезе по измерениям «Партнёры» и «Время» будем иметь таблицу с данными об изменении объема продажа по партнёрам во времени, в качестве заголовков строк и столбцов которой будут выступать наши измерения – «Время» и «Партнёры», а в ячейках на пересечении строк и столбцов будут расположены значения меры, т. е. данные об объеме продаж в конкретный период времени для конкретного партнёра.
Information (информация) – это все релевантные целям пользователя данные, при этом наличие «лишних» данных негативно сказывается на требовании к скорости реакции системы.
1.4 Этапы построения OLAP-системы
1.4.1 Хранилище данных
Хранилище данных является основой OLAP-системы. Процедуры загрузки с определённой периодичностью пополняют хранилище из различных источников (базы данных, документы Excel, Web и т.д.), выполняя проверку и предварительную обработку. Механизмы загрузки данных проектируются таким образом, чтобы хранилище содержало в хронологическом порядке в едином формате всю необходимую информацию о предметной области для поддержки принятия решений.
Иногда Хранилище имеет еще одну цель – интеграция всех данных предприятия, для поддержания целостности и актуальности информации в рамках всех информационных систем. Т.о. хранилище накапливает не только аналитическую, а почти всю информацию, и может ее выдавать в виде справочников обратно остальным системам.
Типичное хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные базы данных предназначены для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, – с помощью хранилища данных.
Во-вторых, обычные базы данных подвержены постоянным изменениям в процессе работы пользователей, а хранилище данных относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно – в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.
И, в-третьих, обычные базы данных чаще всего являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например, статистических отчетов.
Как строят хранилище?
ETL – базовое понятие: Extraction, Transformation, Loading. Три этапа:
– извлечение – извлечение данных из внешних источников в понятном формате;
– преобразование – преобразование структуры исходных данных в структуры, удобные для построения аналитической системы;
– загрузка – загрузка данных в хранилище.
Добавим еще один этап – очистка данных (Cleaning) – процесс отсеивания несущественных или исправления ошибочных данных на основании статистических или экспертных методов.
1.4.2 Многомерные OLAP-кубы
На основе хранилища данных строятся многомерные OLAP-кубы, позволяющие в реальном времени осуществлять анализ данных и формировать отчёты в различных разрезах и произвольной глубиной детализации.
При работе с OLAP-кубами пользователь оперирует привычными категориями и показателями: виды готовой продукции, материалы, регионы, время продаж, объём реализации, себестоимость, прибыль и т. п. Отчёты создаются сотрудниками в интерактивном режиме (нет необходимости прибегать к помощи программистов).
1.4.3 Система ключевых показателей (KPI)
Система ключевых показателей эффективности деятельности предприятия создаётся на базе OLAP-кубов для мониторинга и оценки бизнес-процессов, а также для оповещения ответственных сотрудников о фактах отклонения.
В бизнес-терминологии, система ключевых показателей – это количественная мера для оценки успеха бизнеса.
В рамках Microsoft Analysis Services, KPI – это набор вычислений, связанных с группой измерений в OLAP-кубе, впоследствии используемых для оценки успеха бизнеса. В общем случае, эти вычисления являются сочетанием языка запросов MDX и вычисленных составляющих. Ключевые показатели также содержат дополнительные метаданные, которые предоставляют информацию о том, как клиентские приложения должны отображать результаты вычислений KPI.
KPI обрабатывает информацию о наборе целей, действительной формуле производительности, записанной в OLAP-кубе, и измерениях, которые демонстрируют тенденции и статус выполнения.
Простейший объект KPI состоит из:
– основной информации;
– цели;
– фактического достигнутого результата;
– статуса;
– значения тренда;
– каталога, где отображается KPI.
Основная информация включает название и описание KPI. Цель – это выражение на языке MDX, которое приравнивается к числу. Фактический результат – это также MDX выражение, которое приравнивается к числу. Тем же являются статус и линия тренда. Каталог – это предлагаемое расположение KPI, в котором оно будет представлено клиенту.
1.4.4 Интеллектуальный анализ данных (Data Mining)
Модели интеллектуального анализ данных проектируются для автоматического прогнозирования наиболее важных показателей бизнеса, а также извлечения скрытых закономерностей из накопленной информации.
Задачи, решаемые Data Mining:
-
классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов;
-
кластеризация – разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга;
-
сокращение описания – для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации;
-
ассоциация – поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя»;
-
прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных);
-
анализ отклонений – например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы;
-
визуализация данных [6].
По своей сути, процесс Data Mining заключается в обработке данных и определении шаблонов и тенденций в этой информации, на основании чего могут приниматься решения. Принципы этого процесса использовались уже многие годы, но с открытием «больших данных» приобрели ещё большее распространение.
Большие данные вызвали прорыв в использовании расширенных технологий интеллектуального анализа данных, отчасти оттого, что объем информации стал гораздо больше и сама информация зачастую более разнообразна по своей природе и содержанию. При работе с большими объемами данных более недостаточно получить относительно простую и прямолинейную статистику из системы.
С подробной информацией о клиентах в количестве 30 или 40 миллионов записей знания того, что два миллиона из них живут в одном и том же месте – недостаточно. Необходимо также знать, принадлежат ли эти два миллиона к определенной возрастной группе и каков их средний заработок, чтобы таким образом лучше ориентироваться на этих клиентов.
Подобные бизнес-ориентированные потребности превратили простое получение данных в более сложный процесс интеллектуального анализа. Бизнес-проблема ведёт к изучению данных, которые помогают построить модель, описывающую информацию, которая в конечном итоге приводит к созданию итогового отчета (рисунок 1.2).
Процесс анализа данных, открытия данных и построения модели зачастую итеративный, по мере того как определяется различная информация, которую можно извлечь.
Также необходимо понимать, как связать эту информацию с остальными данными для получения результата.
Определение источника и форматов данных, затем сопоставление этой информации с результатом могут измениться после открытия различных элементов и аспектов этих данных.
Полученная структура данных














