Лекции ОАД 2 модуль (1069549), страница 2
Текст из файла (страница 2)
Как видно из табл. 2.1, требования к СГП1Р и ОМ Р системам существенно отличаются. Поэтому в СГП 1Р используются специализированные базы данных, которые называются хрннилишлми данных (ХД).
Основные особенности концепции ХД
Хранилище данных разновидность систем хранения,
ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивост ь и хронолог ию данных, а также высокую скорость выполнения аналитических запросов.
Важнейшим элементом ХД является семант ический слой механизм,
позволяющий аналитику оперировать данными посредст вом бизнес - терминов предметной области. Семантический слой дает пользователю возможность сосредоточиться на анализе и не задумываться о механизмах получения данных.
Базы данных в ОЬ ГР-системах характеризуются очень высокой динамикой изменения записей из-за повседневной работы большого числа пользователей (откуда, кстати, велика вероятность появления противоречий, ошибок, нарушения целостности Ночных иШ ()•)> Что касается ХД, то данные из него не удаляются, а пополнение происходит в соответствии с определенным регламентом (раз о час, день, неделю, в определенное время).
Основные требования к ХД
-
высокая скорость получения данных из хранилища;
-
автоматическая поддержка внутренней непротиворечивости данных;
-
возможность получения и сравнения срезов данных;
-
наличие удобных средств для просмотра данных в хранилище;
-
Основные концепции хранилищ данных Основные положения концепции ХД
В основе концепции ХД лежат следующие положения:
-
интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении;
-
разделение наборов данных, используемых системами выполнения транзакций и СППР.
Свойства ХД: предметно-ориентированный, интегрированный, неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений. Ориентированность -ХД должно разрабатываться с учетом специфики конкретной предметной области, а не аналитических приложений, с которыми его предполагается использовать. Структура ХД должна отражать представления аналитика об информации, с которой ему приходится работать.
Интегрированность означает, что должна быть обеспечена возможность загрузки в ХД информации из источников, поддерживающих различные форматы данных и созданных в различных приложениях — учетных системах, базах данных, электронных таблицах и других офисных приложениях, поддерживающих структурированность данных (например, текстовые файлы с разделителями).
Принцип не изменчивости предполагает, что, в отличие от обычных систем оперативной обработки данных, в ХД данные после загрузки не должны подвергаться каким-либо изменениям, за исключением добавления новых данных.
Поддержка хронологии означает соблюдение порядка следования записей, для этого в структуру ХД вводятся ключевые атрибуты Дата и Время. Физически упорядочить записи в хронологическом порядке возрастания атрибута Дата, можно уменьшить время выполнения аналитических запросов.
Использование концепции ХД в СППР и анализе данных способствует достижению таких целей, как:
-
своевременное обеспечение аналитиков и руководителей всей информацией, необходимой для выработки обоснованных и качественных управленческих решений;
-
создание единой модели представления данных в организации;
-
создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получение одинаковых ответов на одинаковые запросы из различных аналитических приложений.
Задачи, решаемые ХД
Основными задачами, которые требуется решить в процессе разработки
ХД, являются:
| выбор структуры хранения данных, обеспечивающей высокую скорость выполнения запросов и минимизацию объема оперативной памяти;
| первоначальное заполнение и последующее пополнение хранилища;
| обеспечение единой методики работы с разнородными данными и создание удобного интерфейса пользователя.
Обобщенная концептуальная схема ХД представлена на рис. 2.4.
Агрегированные данные
Детализированные
данные
Ь
Метаданные
Бизнес-метаданные
■
I . "~г~
Пользователь Рис. 2.4. Концептуальная схема ХД
Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.
Дггалширо ванные и агрег ированные данные
Данные в ХД хранятся как в детализированном, так и в агрегированном виде, Данные в легализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым 01Л Р- сислсмами. I акими данными могут быть ежедневные продажи, количество ВШКМДО/дошых изделий и т. д. Это неделимые значения, попытка дополнительно детализировать которые лишает их логического смысла. Многие задачи анализа (например, прогнозирование) требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые подиям, могут /гать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить гги данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным. Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными (иногда — агрегатами). Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.
11осколмсу один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения^ объем ХД возрастает, иногда существенно. Например, набор, содержащий данные о продажах по дням в течение года, помимо своих 360 значений, порождает 52 значения с обобщением по неделям и 12 — по месяцам. Если при этом вычисляются все виды агрегации — сумма, среднее, максимальное и минимальное значения за соответствующий период, — то количество хранящихся агрегированных значений составит уже (52 + 12) • 4 в 256. Иногда это приводит к «взрывному», неконтролируемому росту ХД и вызывает серьезные технические проблемы: хранилище «распухает», из-за того что непрерывный поток входных данных автоматически агрегируется в соответствии с настройками ХД. Однако с этим приходится мириться: если бы аг регированные данные не содержались в ХД, а вычислялись в процессе пыполпспия запросов, время выполнения запроса увеличилось бы в несколько раз.
Метаданные