Лекция 2. OLAP (1185403)
Текст из файла
OnLine AnalyticalProcessing(OLAP)Лекция 2http://bigdata.cs.msu.ruВведениеКогда возникает потребность в оперативнойаналитической обработке данных?http://bigdata.cs.msu.ruИсходная предметная область● Банк● Автодилер● Интернет-магазин ~ Сетевой реселлерСущности●●●●●Товары/продуктыСкладыТочки продаж и ПерсоналКлиентыЗаказыhttp://bigdata.cs.msu.ruОбеспечение? OLTP-системыOLTP (Online Transaction Processing, транзакционнаясистема) — обработка транзакций в реальном времени● большой поток транзакций● минимальное время отклика● сильно нормализованная модель данныхhttp://bigdata.cs.msu.ruЗадачаПринятие управленческих решений,направленных на● рост продаж● сокращение издержек● ...Решение?http://bigdata.cs.msu.ruТривиальное решениеАнализ данных в БД● новые запросы● новые представленияНедостатки● сложно в связи с оптимальной схемой БД● недостаточно данных в БД○ возможно, потребуется восстановить данныеиз резервных копий● запросы длительные, дополнительная нагрузкаhttp://bigdata.cs.msu.ruХранилища данных(Data Warehouse)ХД — предметно-ориентированнаяинформационная база данных, специальноразработанная и предназначенная дляподготовки отчётов и бизнес-анализа сцелью поддержки принятия решений ворганизацииhttp://bigdata.cs.msu.ruСхема обработки данныхХДhttp://bigdata.cs.msu.ruПринципы организации ХД●●●●Проблемно-предметная ориентацияИнтегрированностьНеизменяемостьЗависимость от времениhttp://bigdata.cs.msu.ruХранилища vs.
OLTP (1 / 3)Характеристика14Требование к ХДСтепень детализациихранимых данныхХранение толькодетализированных данныхХранение и детализированных, иобобщенных данныхКачество данныхДопускаются неверныеданные из-за ошибок вводаОшибки данных недопустимыФормат храненияданныхМожет содержать данные вразных форматах взависимости от приложенийЕдиный согласованный форматхранения данныхДопущениеизбыточных данныхДолжна обеспечиватьсямаксимальная нормализацияДопускается контролируемаяденормализация (избыточность)для эффективного извлеченияданных23Требование к OLTPhttp://bigdata.cs.msu.ruХранилища vs.
OLTP (2 / 3)Характеристика7Требование к ХДУправление даннымиДолжна быть возможность влюбое время добавлять,удалять и изменять данныеДолжна быть возможностьпериодически добавлять данныеКоличество хранимыхданныхДолжны быть доступны всеоперативные данные,требующиеся в данныймоментДолжны быть доступны вседанные, накопленные в течениепродолжительного интервалавремениХарактер запросов кданнымДоступ к даннымпользователейосуществляется по заранеесоставленным запросамЗапросы к данным могут бытьпроизвольными и заранее неоформлены56Требование к OLTPhttp://bigdata.cs.msu.ruХранилища vs.
OLTP (3 / 3)Характеристика8910Требование к OLTPТребование к ХДВремя обработкиобращений к даннымВремя отклика системыизмеряется в секундахВремя отклика системы можетсоставлять несколько минутХарактервычислительнойнагрузки на системуПостоянно средняя загрузкапроцессораЗагрузка процессораформируется только привыполнении запроса, но на 100%ПриоритетностьхарактеристиксистемыОсновными приоритетамиявляются высокаяпроизводительность идоступностьПриоритетными являютсяобеспечение гибкости системы инезависимости работыпользователейhttp://bigdata.cs.msu.ruАрхитектурные направления ХД● Нормализованные ХД● ХД с измерениями○ “Звезда”○ “Снежинка”http://bigdata.cs.msu.ruОрганизация ХД. Категории данных● Детальные данные○ Факты - сущность события○ Измерения - описание событий● Агрегированные данные○ аддитивные - возможно суммирование по всемизмерениям○ полуаддитивные - суммирование по некоторымизмерениям○ неаддитивные - не суммируются● Метаданныеhttp://bigdata.cs.msu.ruОсновные понятия OLAP●●●●ИзмерениеМногомерное представлениеМераКубhttp://bigdata.cs.msu.ruОсновные понятия OLAP● Измерение - последовательность значений одногоиз анализируемых параметров (в т.ч.
время)● Многомерное представление - множественнаяперспектива, состоящая из нескольких независимыхизмерений, вдоль которых могут бытьпроанализированы определенные совокупностиданных [Кодд]● Меры - данные, количественно характеризующиеанализируемые фактыhttp://bigdata.cs.msu.ruОсновные понятия OLAPКуб (гиперкуб)http://bigdata.cs.msu.ruОперации с кубом●●●●Срез (Slice)Вращение (Rotation)Свертка (Drill Up/Roll Up)Детализация (Drill Down)http://bigdata.cs.msu.ruСрез (Slice)http://bigdata.cs.msu.ruВращение (Rotation)http://bigdata.cs.msu.ruДетализация (Drill Down)http://bigdata.cs.msu.ruСвертка (Drill Up/Roll Up)http://bigdata.cs.msu.ruТребования к OLAP-системам● 12 правил Кодда○ Многомерность○ Прозрачность○ ...● Тест FASMI○○○○○FastAnalysisSharedMultidimensionalInformationhttp://bigdata.cs.msu.ruМодели реализации● Multidimensional OLAP — MOLAP● Relational OLAP — ROLAP● Hybrid OLAP — HOLAPhttp://bigdata.cs.msu.ruФормирование запросов● Посредством графического интерфейса● Пользовательские запросы — MDXhttp://bigdata.cs.msu.ruПредставление результатов● Таблицы● Диаграммы и графикиhttp://bigdata.cs.msu.ruПримерMicrosoft SQL Server 2014● Получение лицензии на СУБД○ SQL Server Database Engine○ SQL Server Analysis Services● Скачивание резервных копий БДсемейства AdventureWorks● Самостоятельный разбор сценариев○ Analysis Services Tutorial Scenario http://msdn.microsoft.com/en-us/library/ms166713.aspxhttp://bigdata.cs.msu.ruИспользуемые источники1.
Барсегян А. Анализ данных и процессов.3 изд. – БХВ-Петербург, 2009.2. Документация Microsoft SQL Server 2014http://bigdata.cs.msu.ru.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.