1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 9
Текст из файла (страница 9)
Принципы, лежащие в основе систем поддержки принятия решений, не позволяют эффективно обрабатывать транзакции, поэтому данные, применяемые для анализа, стали выделять в отдельные базы данных. Впоследствии эти базы данных стали называть хранилищами данных (ХД) или информационными хранилищами. В литературс используется также англоязычный термин "0а~а Юагсйоцзе". Отцом концепции использования хранилищ данных в аналитических системах считают Билла Инмона (В1!! !ппюп), технического директора компании "Призм Сольюшнс" (Рпяп Бо!щюпя). В начале 90-х годов он опубликовал ряд работ, которые стали отправной точкой для последующих исследований в области аналитических систем.
Большое влияние на разработку концепции хранилищ данных оказала также американская корпорация "Ай Би Эм" (!ВМ). Концепция хранилищ данных — это концепция подготовки данных для последующего анализа. Она предполагает выполнение следующих положений: 1) интеграции и согласования данных из различных источников: традиционных систем операционной обработки данных, информации из внутренних и внешних по отношению к организации электронных архивов; 2) разделения наборов данных, используемых системами обработки транзакций и системами поддержки принятия решений.
В работе "Создание хранилища данных" ("Вш!Йпя йе Оа!а %агеЬоцзе") Билл Инмон определил хранилище данных как "предметно-ориентированный, интегрированный, неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений". Позднее мы вернемся к этому определению и подробнее рассмотрим черты ХД, указанные Инмоном. А пока попытаемся уяснить схему функционирования СППР, основанной на концепции хранилища данных, проведя аналогии с процессами производства и реализации промышлешюй продукции Производство и реализация товаров имеют много общего с анализом данных: на предприятии из сырья получается готовая продукция„ которая затем доставляется потребителю; в процессе анализа из накопленных данных добывается и предоставляется полезная специалистам информация, используемая для разработки решений.
Базы данных. Интеллектуальная обработка информации Максимально упрощенно процесс производства и реализации промышленных товаров может быть описан следующим образом 1см. рис. 3.1). Любая продукция, прежде чем быть доставленной потребителю, должна быть изготовлена. Этим занимаются заводы. Произведенная продукция отправляется на склад, откуда поступает в магазины. Именно там она находит своего потребителя. ааааа с Магазин С ! Магазин В Магазин А / Рис. 3.7.
'зпрогцеипая схема процесса промыиггеипого произеодстеа и реализации продукции Подобная схема обработки и снабжения справедлива и для аналитической системы ~см. рис. 3.2). Исходные данные для анализа производятся системами операционной обработки, поступают из электронных архивов и от поставщиков информации, например, онлайновых информационных агентств. Эти источники слабо связаны между собой, поэтому и данные, которые они предос- Глава 3. Принцины настроения систеи, ориентированных на анализ Данных 45 тавляют, имеют различную структуру и форматы представления. Необходимо произвести согласование данных разных источников, чтобы ими было удобно оперировать при анализе.
Это подразумевает приведение их к единому форма- ту, устранение дублирующихся и некорректных значений. Клиентское припоженне Клиентское приложение Клиентское приложение Рис. 3.2. Упрощенная логическая схема аналитической системы Подготовленные данные загружаются в хранилище. Пользователи-аналитики осуществляют доступ к нему через клиентские приложения. Эти прило- Базы данных. Интеллектуальная обработка информации жения могут осуществлять трансляцию запросов потребителей информации либо производить аналитическую обработку данных хранилища. В отличие от систем операционной обработки данных в СППР, использующих концепцию ХД, критерии поиска н состав выдаваемой в виде отчета информации не фиксируются при ее разработке, пользователи оперируют в основном заранее не регламентированными запросами (ай-Ьос оцегу).
Использование концепции хранилища данных в системе поддержки принятия решений преследует следующие цели: 1) своевременное обеспечение аналитиков всей информацией, необходимой для выработки решений; 2) создание единой модели данных организации; 3) создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получение одинаковых ответов на одинаковые запросы из различных аналитических подсистем (единый "источник истины"). Сейчас хранилища данных рассматриваются как "панацея", которая может обеспечить новое качество информационной системы.
Рост интереса к ним объясняется также и умелой рекламной политикой поставщиков аппаратнопрограммных решений основе этой концепции. Вернемся к определению, данному Инмоном, чтобы подробнее рассмотреть свойства, присущие хранилищам данных. Ориентация на предметную область. Хранилище должно разрабатываться с учетом специфики предметной области, а не приложений, оперирующих данными. Структура хранилища должна отражать представления аналитика об информации, с которой ему приходится работать. Например, если система операционной обработки поставщика товаров работает с понятиями "сделка" и "заявка", то хранилище должно использовать понятия "клиенты", '*товары" и "производители". Интегрированность.
Информация загружается в хранилище из приложений, созданных разными разработчиками. Необходимо объединить данные этих приложений, приведя их к единому синтаксическому и семантическому виду. Например, в таблицах БД, полученных из разных источников, могут встречаться атрибуты, которые определены на разных доменах, но обозначают те же понятия.
Например, месяц года может бьггь задан полным наименованием (январь, февраль и т.д.), сокращенным наименованием (янв, фев и т.д.) и номером (1, 2 и т.д.). В процессе загрузки хранилища требуется преобразовать эти атрибуты к единому представлению, Важно также провести проверку поступающих данных на целостность и непротиворечивость.
Характерный для информационных хранилищ прием — хранение агрегированных данных. Аналитика редко интересует информация о конкретных днях и часах„ему более важны данные о месяцах, кварталах и даже годах. Чтобы при выполнении аналити- Глава 3. Принципы построения систем, ориентированных на анализ Данных 47 Таблица 3.1. Свойства данных в СППР и системах операционной обработки (ОП'Р) СППР Свойство 01 ТР Аналитическая обработка, пропюзирование, моделирование Назначение данных Оперативный поиск, несложные виды обработки Уровень агрегации Детализированные Агрегированные данных Период хранения От нескольких месяцев От нескольких лет данных до одного года до десятков лет Частота обновления Высокая частота, Малая частота, обновление обновление большими порциями маленькими порциями ческих запросов избежать выполнения операций группирования, данные должны обобщаться (агрегироваться) при загрузке хранилища. Объем накопленных данных должен быть достаточным для решения аналитических задач с требуемым качеством.
Используемые в настоящее время ХД содержат информацию, накопленную за годы и даже десятилетия. Неизменяемость данньп. Важное отличие аналитических систем от систем операционной обработки данных состоит в том, что данные после загрузки в них остаются неизменными, внесения каких-либо изменений, кроме добавления записей, не предполагается. Именно поэтому для СППР не столь актуальны средства для обеспечения отката транзакций, борьбы с взаимными блокировками процессов — разработчики подобных систем сосредоточивают основные усилия на достижении высокой скорости доступа к данным. Важное условие неизменности информации в хранилище — использование для его реализации надежного оборудования, которое обеспечивает защиту от сбоев, Поддержка хронологии.
Для выполнения большинства аналитических запросов необходим анализ тенденций развития явлений или характера изменения значений переменных во времени. Учет хронологии достигается введением ключевых атрибутов типа "ДАТА" и~или "ВРЕМЯ" в структуры хранилища данных. Время выполнения аналитических запросов можно уменьшить, если физически упорядочить записи по времени, то есть расположить записи по возрастанию значений атрибута "ДАТА/ВРЕМЯ". Нельзя не заметить, что данные и принципы их хранения в СППР и системах операционной обработки различаются. Основные отличия перечислены в таблице 3.1.
Ьазы данньис. Интеллектуальная обработка информации В последнее время сформировался новый класс систем поддержки принятия решений — системы оперативной аналитической обработки (ОпЕ!пе Апа!уз!з Ргосеяз|пд — ОЕАР). Под ОЕАР-системой принято понимать СППР„основанную на концепции хранилища данных и обеспечивающую малое время выполнения аналитических запросов. К числу основных задач, которые требуется решать при создании ХД, относятся: )) выбор оптимальной структуры хранения данных с точки зрения обеспечения приемлемого времени отклика на аналитические запросы и требуемого объема памяти; 2) первоначальное заполнение и последующее пополнение хранилища данными; 3) обеспечение удобства доступа пользователей к данным.
Рассмотрим пути решения этих задач более детально. 3.2. Модели данных, используемые для построения хранилищ Задачи, решаемые ОЕТР и аналитическими системами„существенно различаются, поэтому их БД тоже построены на разных принципах. Критерием эффективности для систем операционной обработки данных служит число транзакций, которое они способны выполнить в единицу времени. Для аналитических систем важнее скорость выполнения сложных запросов и прозрачность структуры хранения информации для пользователей.