49412 (572332)
Текст из файла
СОДЕРЖАНИЕ
Введение
1 Вечное хранение данных
2 Важная терминология
3 Базы и хранилища данных
4 Неизменный спутник хранилищ данных
5 Некоторые аспекты хранения данных
5.1 Структуры хранения данных
5.2 Поставщики
6 Несколько советов по повышению производительности OLAP-кубов
Вывод
Литература
Введение
Тема контрольной работы «Хранилища данных и OLAP- средства».
Сегодня во многих организациях проблема использования большого объема собранных за многие годы данных ощущается все острее. В течение многих лет на предприятиях накапливаются и хранятся огромнейшие массивы информации, но при этом ее большая часть не может быть использована аналитиками и руководителями. Чаще всего эта информация доступна лишь тем подразделениям, в которых она накапливается. Поэтому и возникает потребность в системах, позволяющих получать необходимую «аналитику». Хотя в современных бизнес-приложениях все больше и больше появляется средств для аналитического анализа информации, тем не менее, достаточно много «аналитики» скрыто в данных предшествующих периодов деятельности, когда на предприятиях еще не было современных информационных систем.
1 Вечное хранение данных
Кроме оперативных баз данных (БД), источником информации в хранилищах данных (ХД) являются текстовые файлы. «Очищенные» данные, попадающие в ХД, не используются напрямую системами представления и анализа. Для этих целей используются витрины данных, позволяющих пользователям работать только с теми данными, которые им нужны. При этом повышается безопасность доступа к данным, а их структура отражает требования пользователя и снижается нагрузка на основное ХД.
Предметная ориентация - ключевое отличие оперативных БД от ХД. Разные приложения БД могут описывать одну и ту же предметную область с разных точек зрения и решение, принятое на основе данных, отражающих только одну сторону вопроса, могут быть неэффективными, а порой и просто неверными.
В оперативных БД информация может добавляться, удаляться и изменяться, а в ХД данные могут только загружаться и читаться. При этом все данные в ХД данных делятся на три основных категории:
2 Важная терминология
Хранилище данных (Data Warehouse). Предметно-ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений (по определению основателя хранилищ данных Б. Инмона). Более просто: это база данных, хранящая данные, агрегированные по многим измерениям.
Витрина (или киоск) данных (Data Mart). Небольшое хранилище, а конечные пользователи могут создавать собственные структуры данных в нем.
Информационная система руководителя (ИСР) (Executive Information System([EIS)). Приложения, созданные для использования руководителями.
Средства OLAP (On-line Analytical Processing). Инструментарий навигации по многомерным данным.
MOLAP (Multidimensional OLAP). Детальные данные и агрегаты хранятся в многомерной БД. В этом случае получается наибольшая избыточность, так как многомерные данные полностью содержат реляционные.
ROLAP (Relational OLAP). Детальные данные остаются на своем месте (в реляционной БД), агрегаты хранятся в той же БД в специально созданных служебных таблицах.
HOLAP (Hybrid OLAP). Детальные данные остаются на месте (в реляционной БД), а агрегаты хранятся в многомерной БД.
Оперативные БД. Этот термин обозначает традиционные БД и введен для того, чтобы подчеркнуть их существенное отличие от БД, используемых для реализации ХД.
Средства анализа. Приложения для конечного пользователя, включая средства принятия решений, средства OLAP и другие специализированные средства анализа, прогноза и представления данных.
3 Базы и хранилища данных
Ни для кого не секрет, что одним из основных факторов успеха в бизнесе и управлении является скорость и качество принимаемых решений. А вот в основе этих решений лежит имеющаяся информация. В эпоху глобальной компьютеризации информация получается из данных, которые хранятся в электронном виде в файлах различных форматов. Для эффективного хранения данных сегодня используются базы данных (БД), а точнее СУБД - системы управления базами данных. В составе любой базы данных имеются таблицы, между полями которой существуют связи (реляции, отношения). Отсюда и название «реляционные БД». Именно с их помощью можно структурировать информацию и обеспечивать быстрый и удобный доступ к ней.
Исходя из этого, до недавнего времени предприниматель, руководитель предприятия или любой другой человек, принимающий ответственные решения, получал сведения, не всегда удовлетворявшие его требования.
Во-первых, большая часть информации стандартизована и представляется в стандартных формах отчетности. Во-вторых, эта информация имеет разную степень детализации: от подробных сведений, например, о ежедневных продажах, до сводных квартальных отчетов. В-третьих, все данные поставляются по фиксированным датам: в конце дня, месяца, квартала, года. Но самое неприятное заключается в том, что такая регламентированность работы с информацией не позволяет обеспечить своевременное принятие нестандартных решений.
Несомненно, базы данных - это незаменимый источник информации. Кроме того, они используются как в локальных финансово-учетных системах, так и MRP- и ERP-системах. Но ведь обычная БД обслуживает не только руководителей, принимающих решения, но и других пользователей непосредственно работающих с данными, что сказывается на скорости обработки информационных потоков.
Частота запросов к БД связана с детализацией требуемых данных: для ускорения доступа к данным нужна отдельная БД, работающая только в режиме чтения и хранящая агрегированные (интегрированные) данные. Кроме того, сложные аналитические запросы к оперативной информации тормозят текущую работу информационной системы предприятия, блокируя таблицы БД и захватывая ресурсы сервера.
Вот поэтому все чаще взоры экспертов и аналитиков обращены к хранилищам данных (ХД) - оптимально организованной БД, хранящей данные, агрегированные по многим измерениям, и обеспечивающей максимально быстрый доступ к информации, необходимой для принятия управленческих решений. Данные в ХД попадают из оперативных БД и систем, которые предназначены для автоматизации бизнес-процессов. Кроме того, ХД может пополняться из внешних источников, например, статистических отчетов. Резонный вопрос: чем ХД лучше БД? Ведь они содержат заведомо избыточную информацию, которая хранится в БД или файлах оперативных систем? Анализировать данные оперативных систем непосредственно невозможно или, по крайней мере, весьма затруднительно, так как данные хранятся в форматах различных СУБД и на разных носителях в корпоративной сети.
Пополнение ХД происходит периодически, при этом автоматически формируются новые агрегаты данных, зависящие от старых, т. е. в одном месте и в простой структуре хранится «сырье» для анализа (рис. 1).
Если до недавнего времени для анализа имеющихся данных применялась схема: БД - Средство анализа, то в быстро развивающаяся концепция хранилищ данных (ХД) предлагает изменить эту схему: БД - объекты ХД - Средство анализа. Это и есть суть информационная система нового поколения.
Р
ис. 1. Архитектура интеллектуального извлечения данных из ХД
4 Неизменный спутник хранилищ данных
Централизация и удобное структурирование данных - это далеко не все, что нужно аналитику. Традиционные отчеты, даже построенные на основе единого хранилища, лишены гибкости. Они не позволяют
получать множество срезов и разрезов данных. Чем больше срезов и разрезов видит аналитик, тем больше у него идей. Для этих целей используется такой инструмент, как OLAP.
Не вдаваясь в сложную теорию определяющих принципов OLAP, сформулированных Е. Коддом - «изобретателем» реляционных БД, приведем следующее определение OLAP: Быстрый Анализ Разделяемой Многомерной Информации - FASMI (Fast Analysis of Shared Multidimensional Information). Fast означает, что система должна обеспечивать выдачу большинства ответов пользователям в пределах 5 секунд. Analysis означает, что система может справляться с любым логическим и статистическим анализом. Shared означает, что система осуществляет все требования конфиденциальности (возможно до уровня записи), а при доступе нескольких пользователей обеспечивает блокировку изменений на соответствующем уровне. Multidimensional - система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий данных. И, наконец, Information - это все, с чем мы работаем каждый день и пытаемся на ее основе получить прогнозируемые результаты.
OLAP предоставляет пользователю быстродействующие средства доступа, просмотра и анализа бизнес-информации. Пользователь получает интуитивно понятную модель данных, организуя их в виде многомерных кубов. Оси многомерной системы координат - основные атрибуты анализируемого бизнес-процесса. Например, для продаж это могут быть товар, населенный пункт, категория покупателей. В качестве одного из измерений используется время. На пересечениях осей-измерений находятся данные, количественно характеризующие процесс-меры. Это могут быть объемы продаж в штуках или в денежном выражении, остатки на складе и т. п. Пользователь, анализирующий информацию, может «разрезать» куб по разным направлениям, получать сводные (например, по годам) или, наоборот, детальные (по неделям) сведения и осуществлять прочие манипуляции.
5 Некоторые аспекты хранения данных
5.1 Структуры хранения данных
OLAP-серверы, или серверы многомерных БД, могут хранить свои многомерные данные по-разному. Дело в том, что в любом ХД наряду с детальными данными, извлекаемыми из оперативных систем, хранятся и суммарные (агрегированные) показатели (агрегаты), такие, как суммы объемов продаж по месяцам, по категориям товаров и т. п. Агрегаты хранятся в явном виде, чтобы ускорить выполнение запросов, так как аналитиков в большинстве случаев интересуют не детальные, а обобщенные данные. К тому, если каждый раз для вычисления суммы продаж за год пришлось бы суммировать десятки и сотни тысяч продаж, то скорость была бы абсолютно неприемлемой. Хотя при этом за скорость приходится «расплачиваться» объемом данных.
Как детальные данные, так и агрегаты могут храниться либо в реляционных, либо в многомерных структурах. Многомерное хранение позволяет обращаться с данными как с многомерным массивом, благодаря чему обеспечиваются одинаково быстрые вычисления агрегатов и различные многомерные преобразования по любому из измерений.
При хранении данных в многомерных структурах возникает потенциальная проблема «разбухания» за счет хранения пустых значений. Ведь если в многомерном массиве зарезервировано место под все возможные комбинации меток измерений, а реально заполнена лишь малая часть (например, ряд продуктов продается только в небольшом числе регионов), то большая часть куба будет пустовать, хотя место будет занято.
5.2 Поставщики
Прежде всего отметим принципиальные отличия OLAP-систем. Это программное обеспечение, предоставляющее пользователю возможность в режиме реального времени получать ответы на произвольные аналитические запросы. К классу OLAP-систем относят только те программы, которые в качестве внешнего интерфейса предоставляют пользователю многомерную изменяемую таблицу. Эта таблица позволяет пользователю менять местами столбцы и строки, задавать условия фильтрации и при этом она автоматически вычисляет промежуточные итоги в группах данных и окончательные итоги. Неотъемлемой частью OLAP-анализа является графическое отображение данных.
Программная реализация OLAP-решения предполагает наличие машины вычислений (OLAP-сервера) и многомерной базы данных (MO-LAP), к которой обращаются клиентские программы с запросами на получение данных и выполнение вычислений. Любое конечное решение содержит OLAP-компоненту, которая является интерфейсом пользователя. Эти компоненты похожи друг на друга. Их визуальная часть состоит из элементов управления и элементов отображения данных.
Среди поставщиков этого класса программного обеспечения - прежде всего, известные поставщики серверов баз данных. К их числу относятся Oracle (со своим OLAP-продуктом Express), IBM (DB2 OLAP Server), Microsoft (OLAP Services), Informix (MetaCube).
Кроме того, достаточно интересны и решения известных игроков смежных рынков - SAS Institute (MDDB и CFO CFO Vision), SAP (BW), Hyperion Solutions (Essbase), CA (InfoBeacon).
Еще недавно поставщики OLAP-серверов продавали свои продукты по очень высоким ценам. Например, приобретение Oracle Express обошлось бы в $95000 за рабочие места двух аналитиков и двух администраторов. Поэтому многие управленцы для решения таких аналитических задач использовали всем известное приложение Excel из состава офисного пакета от Microsoft. Хотя эта популярная программа годится только для одного пользователя, тем не менее, при правильной организации работы и интеграции с внешними приложениями можно достичь хороших результатов в получении «аналитики». По сути, появление OLAP-функциональности ознаменовало появление особого класса продуктов - настольных OLAP (DOLAP - Desktop OLAP).
По способу получения данных такие программы можно разделить на локальные и корпоративные:
- локальные манипулируют данными таблиц MS Excel или настольных СУБД, например Access, Paradox;
- корпоративные DOLAP имеют доступ к SQL-серверам или многомерным базам данных и, в свою очередь тоже делятся на две категории.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.