1 - Пояснительная записка (1205414)
Текст из файла
Содержание
Введение 3
1 Технология OLAP 6
1.1 Понятие OLAP-технологии 6
1.2 Классификация OLAP-продуктов 7
1.2.1 Классификация по способу хранения данных 7
1.2.2 Классификация по месту размещения OLAP-машины 8
1.2.3 Агрегированные/Предварительно агрегированные данные 10
1.3 Требования к OLAP-системам. FASMI 12
1.4 Этапы построения OLAP-системы 14
1.4.1 Хранилище данных 14
1.4.2 Многомерные OLAP-кубы 16
1.4.3 Система ключевых показателей (KPI) 16
1.4.4 Интеллектуальный анализ данных (Data Mining) 17
1.4.5 Доступ через web-интерфейс 19
2 Архитектура информационно-аналитической системы на базе технологии OLAP 25
2.1 Программное обеспечение автоматизированной библиотечной информационной системы (АБИС) 30
2.1.1 Проектирование одномерной БД для АБИС 33
2.2 Основные принципы компоновки визуальных средств представления информации 38
2.3 Инструментарий для разработки 40
2.3.1 Программный продукт Microsoft Analysis Services 40
2.3.1.1 Режим сервера 41
2.3.2 Microsoft SQL Server Management Studio 42
2.3.2.1 Возможности среды SQL Server Management Studio 43
2.3.3 SQL Server Management Studio для Analysis Services 45
3 Основные понятия интеллектуального анализа данных 49
3.1 Построение модели интеллектуального анализа данных 49
3.1.1 Постановка задачи 51
3.1.2 Подготовка данных 53
3.1.3 Просмотр данных 54
3.1.4 Построение моделей 56
3.1.5 Исследование и проверка моделей 58
3.1.6 Развертывание и обновление моделей. 60
3.2 Построение OLAP-куба в Microsoft SQL Server Data Tools 62
3.2.1 Источник данных 62
3.2.2 Представление 63
3.2.3 Измерения куба 65
3.2.4 Построение куба 67
3.2.5 Развертывание куба 70
3.2.6 Просмотр куба в браузере 74
Заключение 77
Список используемых источников 78
Введение
Современный уровень развития аппаратных и программных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.
В последние годы в мире оформился ряд новых концепций хранения и анализа корпоративных данных:
-
хранилища данных, или Склады данных (Data Warehouse);
-
оперативная аналитическая обработка (On-Line Analytical Processing, OLAP);
-
интеллектуальный анализ данных – ИАД (Data Mining).
Технологии OLAP тесно связаны с технологиями построения Data Warehouse и методами интеллектуальной обработки – Data Mining. Поэтому наилучшим вариантом является комплексный подход к их внедрению.
Если рассмотреть продукты, лидирующие на западных рынках учетных систем, то либо в их составе, либо в качестве отдельных продуктов присутствуют OLAP-модули. Достаточно вспомнить такие продукты, как Oracle OLAP, SAP OLAP Processor, OLAP-решения для Axapta, Hyperion BI.
C архитектурной точки зрения наиболее распространенным подходом является разделение данных между двумя базами: транзакционной (OLTP –online transaction processing) и аналитической (OLAP). При этом OLTP-база оптимизируется под быстрое внесение данных, а OLAP-база – под быстрое построение сложной отчетности. Фактически OLAP-база обычно строится по специальной архитектуре и содержит предварительно просчитанные агрегатные данные, что и обеспечивает высокую скорость выполнения запросов. Платой за эти удобства становится необходимость синхронизировать OLTP и OLAP. Т.к. подобный процесс, как правило, периодичен, то между появлением данных в оперативной базе и аналитическими данными имеется запаздывание. Вполне нормальной является практика, когда в OLAP присутствуют данные «на вчера».
Различные базы OLAP могут использовать для своего анализа одни и те же аналитические программы. Это связано с тем, что любая OLAP-база универсальным образом описывается как набор некоторых аналитик и таблиц фактов, представляемых в виде многомерных кубов, осями которых являются значения аналитик, а агрегируемыми значениями – числовые значения количеств, сумм и т.п. Аналитические программы для анализа называются «OLAP-клиентами». Примером такой программы является Microsoft Excel, который отображает куб OLAP-базы в виде сводной таблицы. Работа с такой таблицей для пользователя происходит обычным образом, однако все вычисления для отображения делает аналитический сервер.
Целью данной выпускной квалификационной работы является определение подходов и ключевых факторов для обеспечения хранения и аналитической обработки данных информационной системы библиотеки с использованием OLAP-технологии.
Для достижения поставленной цели, необходимо решить следующие задачи:
-
провести анализ источников информации, необходимой для определения текущего состояния вопроса применения технологии OLAP в сфере разработки информационных систем;
-
провести анализ процесса интеграции данных и его типов;
-
рассмотреть текущие подходы к решению данной задачи;
-
осуществить проектирование реляционной базы данных для информационной системы библиотеки;
-
провести анализ существующих многомерных хранилищ данных, их функциональных возможностей и подходов к реализации;
-
разработать многомерную базу данных для хранения и анализа данных информационной системы библиотеки.
1 Технология OLAP
1.1 Понятие OLAP-технологии
OLAP (online analytical processing) – набор технологий для оперативной обработки информации, включающих динамическое построение отчётов в различных разрезах, анализ данных, мониторинг и прогнозирование ключевых показателей бизнеса. В основе OLAP-технологий лежит представление информации в виде OLAP-кубов (рисунок 1.1) [1].
Рисунок 1.1 – Пример OLAP-куба
Если рассматривать OLAP-системы с пользовательской точки зрения, они представляют собой средства для изучения информации под различными углами, получения сгруппированных данных в автоматическом режиме, выполнения аналитики по времени, детализации, свёртки. Благодаря этим возможностям, OLAP системы обладают заметными преимуществами в подготовке данных для всех видов отчетности, требующих представления данных в различных разрезах и разных уровнях иерархии. Как следствие, подобное представление информации имеет очевидные плюсы и для других форм анализа данных, прогнозирования в том числе.
1.2 Классификация OLAP-продуктов
Итак, суть OLAP заключается в том, что исходная для анализа информация представляется в виде многомерного куба, и обеспечивается возможность произвольно манипулировать ею и получать нужные информационные разрезы – отчеты. При этом конечный пользователь видит куб как многомерную динамическую таблицу, которая автоматически суммирует данные (факты) в различных разрезах (измерениях), и позволяет интерактивно управлять вычислениями и формой отчета. Выполнение этих операций обеспечивается OLAP-машиной (или машиной OLAP-вычислений).
На данный момент существует огромное количество программных средств, построенных на основе технологии OLAP. Для более удобного их дифференцирования определена классификация OLAP-продуктов по следующим критериям:
-
по способу хранения данных для анализа;
-
по местонахождению OLAP-машины.
Далее вышеуказанные категории рассмотрены более подробно.
1.2.1 Классификация по способу хранения данных
Основой для многомерных кубов служат исходные и агрегатные данные. Оба вида данных для кубов могут храниться в реляционных и многомерных базах данных. В связи с этим, на данный момент способы хранения данных подразделяются на следующие:
-
MOLAP (Multidimensional OLAP);
-
ROLAP (Relational OLAP);
-
HOLAP (Hybrid OLAP).
Соответственно, согласно первому признаку классификации, OLAP-продукты по способу хранения данных делятся на три аналогичные категории:
-
в MOLAP-решениях, хранение исходных и агрегатных данных организовано в многомерной БД или в многомерном локальном кубе;
-
в ROLAP-продуктах исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства;
-
в случае использования HOLAP архитектуры исходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных.
1.2.2 Классификация по месту размещения OLAP-машины
По второму признаку OLAP-продукты делятся на OLAP-серверы и OLAP-клиенты.
В OLAP-серверах процессы вычисления, а также хранения агрегатных данных выполняет собственно сервер. Программе-клиенту отправляются обратно лишь результаты запросов, направляемых к хранящимся на сервере многомерным кубам. В зависимости от вида сервера OLAP, поддерживается хранение данных только в многомерных или, напротив, только в реляционных базах.
Однако, в большинстве современных решений возможны все три метода хранения данных: многомерный, реляционный и гибридный.
MOLAP – Multidimensional On-Line Analytical Processing, иначе многомерный OLAP. При таком подходе сервер для хранения данных использует многомерную базу данных (МБД). Ключевой особенностью МБД является способность эффективно хранить многомерные по своей природе данные, обеспечивая средства быстрого обслуживания запросов к базе данных. Данные передаются от источника данных в многомерную базу данных, а затем база данных подвергается агрегации. Предварительный расчет - это то, что ускоряет OLAP-запросы, поскольку расчет сводных данных уже произведен. Время запроса становится функцией исключительно времени, необходимого для доступа к отдельному фрагменту данных и выполнения расчета. Этот метод поддерживает концепцию, согласно которой работа производится единожды, а результаты затем используются снова и снова. Многомерные базы данных являются относительно новой технологией. Использование МБД имеет те же недостатки, что и большинство новых технологий. А именно – они не так устойчивы, как реляционные базы данных (РБД), и в той же мере не оптимизированы. Другое слабое место МБД заключается в невозможности использовать большинство многомерных баз в процессе агрегации данных, поэтому требуется время для того, чтобы новая информация стала доступна для анализа.
ROLAP – это Relational On-Line Analytical Processing, то есть Реляционный OLAP. Термин ROLAP обозначает, что OLAP-сервер базируется на реляционной базе данных. Исходные данные вводятся в реляционную базу данных, обычно по схеме "звезда" или схеме "снежинка", что способствует сокращению времени извлечения. Сервер обеспечивает многомерную модель данных с помощью оптимизированных SQL-запросов.
Существует ряд причин для выбора именно реляционной, а не многомерной базы данных. РБД – это хорошо отработанная технология, имеющая множество возможностей для оптимизации. Использование в реальных условиях дало в результате более проработанный продукт. К тому же, РБД поддерживают более крупные объемы данных, чем МБД. Они как раз и спроектированы для таких объемов. Основным аргументом против РБД является сложность запросов, необходимых для получения информации из большой базы данных с помощью SQL. Неопытный SQL-программист мог бы с легкостью обременить ценные системные ресурсы попытками выполнить какой-нибудь подобный запрос, который в МБД выполняется гораздо проще.
1.2.3 Агрегированные/Предварительно агрегированные данные
Быстрая реализация запросов является императивом для OLAP. Это один из базовых принципов OLAP – способность интуитивно манипулировать данными требует быстрого извлечения информации. В целом, чем больше вычислений необходимо произвести, чтобы получить фрагмент информации, тем медленнее происходит отклик. Поэтому, чтобы сохранить маленькое время реализации запросов, фрагменты информации, обращение к которым обычно происходит наиболее часто, но которые при этом требуют вычисления, подвергаются предварительной агрегации. То есть они подсчитываются и затем хранятся в базе данных в качестве новых данных. В качестве примера типа данных, который допустимо рассчитать заранее, можно привести сводные данные – например, показатели продаж по месяцам, кварталам или годам, для которых действительно введенными данными являются ежедневные показатели.
Различные поставщики придерживаются различных методов отбора параметров, требующих предварительной агрегации и числа предварительно вычисляемых величин. Подход к агрегации влияет одновременно и на базу данных и на время реализации запросов. Если вычисляется больше величин, вероятность того, что пользователь запросит уже вычисленную величину, возрастает, и поэтому время отклика сократиться, так как не придется запрашивать изначальную величину для вычисления. Однако, если вычислить все возможные величины – это не лучшее решение – в таком случае существенно возрастает размер базы данных, что сделает ее неуправляемой, да и время агрегации будет слишком большим. К тому же, когда в базу данных добавляются числовые значения, или если они изменяются, информация эта должна отражаться на предварительно вычисленных величинах, зависящих от новых данных. Таким образом, и обновление базы может также занять много времени в случае большого числа предварительно вычисляемых величин. Поскольку обычно во время агрегации база данных работает автономно, желательно, чтобы время агрегации было не слишком длительным.
OLAP-клиент устроен по-другому. Построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. OLAP-клиенты также делятся на ROLAP и MOLAP. А некоторые могут поддерживать оба варианта доступа к данным.
У каждого из этих подходов, есть свои "плюсы" и "минусы". Вопреки распространенному мнению о преимуществах серверных средств перед клиентскими, в целом ряде случаев применение OLAP-клиента для пользователей может оказаться эффективнее и выгоднее использования OLAP-сервера.
Разработка аналитических приложений с помощью клиентских OLAP-средств – процесс быстрый и не требующий специальной подготовки исполнителя. Пользователь, знающий физическую реализацию базы данных, может разработать аналитическое приложение самостоятельно, без привлечения ИТ-специалиста.
При использовании OLAP-сервера необходимо изучить 2 разные системы, иногда от различных поставщиков, – для создания кубов на сервере, и для разработки клиентского приложения.
OLAP-клиент предоставляет единый визуальный интерфейс для описания кубов и настройки к ним пользовательских интерфейсов.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.














