Лекции ОАД 2 модуль (Лекции)

2017-12-28СтудИзба

Описание файла

Файл "Лекции ОАД 2 модуль" внутри архива находится в папке "Лекции". Документ из архива "Лекции", который расположен в категории "". Всё это находится в предмете "операционный анализ данных" из 5 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .

Онлайн просмотр документа "Лекции ОАД 2 модуль"

Текст из документа "Лекции ОАД 2 модуль"

Задача консолидации

Консолидация Данных

Введение

Ценность и достоверность знаний, полученных в результате интеллектуального анализа данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа.

Обычно руководителям проектов по бизнес-аналитике с нуля приходится сталкиваться со следующими ситуациями:

  • Данные на предприятии расположены в различных источниках самых разнообразных форматов и типов в отдельных файлах офисных документов (Ехсеl, Word, обычных текстовых файлах), в учетных системах (1С, Парус и др.), в базах данных (Oracle, Access, dBase и др.)

  • Данные могут быть избыточными или, наоборот, недостаточными

  • Данные являются связными – содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия)

Поэтому, прежде чем приступить к анализу данных, необходимо :

  • Доведение данных до приемлемого уровня качества и информативности

  • Организовать их интегрирование в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполняемых аналитических запросов.

Консолидация —- комплекс методов, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены хранилище данных – аналитическую систему.

Основные критерии оптимальности с точки зрения консолидации данных:

  • Обеспечение высокой скорости доступа к данным

  • Компактность хранения

  • Автоматическая поддержка целостности структуры данных;

  • Контроль непротиворечивости данных.

Источники данных

Ключевым понятием консолидации является источник данных — объект, содержащий структурированные данные и используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат.

Основные задачи консолидации данных:

  • выбор источников данных;

  • разработка стратегии консолидации;

  • оценка качества данных;

  • обогащение;

  • очистка;

  • перенос в хранилище данных.

Выбор источников данных - можно выделить три основных подхода к организации хранения данных.

  • Данные, хранящиеся в отдельных (локальных) файлах, например, в текстовых файлах с разделителями, документах Word, Ехсеl данные в котором организованы в виде столбцов и записей. Преимущество данные создаваться и редактироваться с помощью простых офисных приложений. К недостаткам не всегда оптимальны, компактности представления данных и поддержки их структурной целостности.

  • Базы данных (БД) различных СУБД, таких как Огас1е, SQL Server, Firebird, dBase, FохРго, Ассезз и т. д. Файлы БД лучше поддерживают целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако требуются специалисты с более высоким уровнем подготовки.

  • Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Главное преимущество ХД перед остальными типами источников данных — наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу.

Очистка данных – комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.

Обогащение - процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач. Его необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа.

Обобщенная схема процесса консолидации

Место консолидации в общем процессе анализа данных может быть

представлено в виде структурной схемы (рис 2.1)



Рис. 2.1. Процесс консолидации данных

В основе процедуры консолидации лежит процесс ЕТL (ехtraction, transformation, loading), Процесс ЕТL решает задачи извлечения данных из разнотипных источников, их преобразования к виду, пригодному для хранения в определенной структуре, а также загрузки в соответствующую базу или хранилище данных

Процесс сбора, хранения и оперативной обработки данных на типичном предприятии обычно содержит несколько уровней. На верхнем уровне располагаются реляционные SQL-ориентированные СУБД типа SQL-Server, Оrас1е и т. д. На втором серверы с некоторой системой оперативной обработки данных OLТР. И наконец, на самом нижнем уровне расположены локальные ПК отдельных пользователей с персональными источниками данных.

Из источников данных всех перечисленных уровней информация в соответствии с некоторым регламентом должна перемещаться в ХД. Для этого необходимо обеспечить выгрузку данных из источников, провести их преобразование к виду, соответствующему структуре ХД, а при необходимости выполнить их обогащение и очистку.

Таким образом, консолидация данных является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений.



Введение в хранилища данных Введение

С появлением персональных компьютеров корпоративные системы, предназначенные для оперативной обработки информации, стали доступными для множества мелких и средних фирм, предприятий. Системы оперативной обработки информации получили название ОLТР (On-line Transaction Processing — оперативная, то есть в режиме реального времени, обработка транзакций).

Транзакция — некоторый набор операций над базой данных, который рассматривается как единое завершенное, сточки зрения пользователя, действие над некоторой информацией, обычно связанное с обращением к базе данных.

О бобщенная структура системы ОLТР представлена на рис. 2.2.



























Типичным примером применения OLTP-систем является массовое обслуживание клиентов, например, бронирование авиабилетов или оплата услуг телефонных компаний. Обе эти ситуации имеют два общих свойства: очень большое число клиентов и непрерывное поступление информации.

В данной задаче транзакция включает в себя набор таких действий, как:

  • запрос оператора о наличии свободных мест на тот или иной рейс;

  • отклик ВЦ с предоставлением соответствующей информации;

  • ввод оператором информации о клиенте, номере заказанного места и оплаченной сумме (возможно, будет присутствовать еще какая-либо служебная вспомогательная информация);

  • передача новой информации в базу данных и внесение в нее соответствующих изменений;

  • передача оператору подтверждения о том, что операция выполнена успешно.

Такие транзакции выполняются тысячи раз в день в сотнях пунктов продаж. Очевидно, что основным приоритетом в данном случае является обеспечение минимального времени отклика при максимальной загрузке системы.

Рассмотрим характерные черты данного процесса, свойственные в той или иной мере всем OLTP-системам.

  • Запросы и отчеты полностью регламентированы. Оператор не может сформировать собственный запрос, чтобы уточнить или проанализировать какую-либо информацию.

  • Как только перелет завершился, информация об обслуживании данного клиента теряет смысл, становится неактуальной и подлежит удалению по прошествии определенного времени (то есть исторические данные не поддерживаются).

  • Операции производятся над данными с максимальным уровнем детализации, то есть по каждому клиенту в отдельности.

Анализ пассажиропотоков с целью их оптимизации, в случаи нехватки или низкого уровни спроса билетов на определенные маршруты позволяет сделать предположение о целесообразности увеличении или сокращении рейсов.

Для проведения таких исследований необходимы как минимум три вещи:




* необходима дополнительная информация о би знес- среде: о конкурентах, рыночных тенденциях, ценах на топливо н пр. Очевидно, что типичная 01ЛТ-система не может обеспечить ничего из перечисленного. Следовательно, необходимо использовать более развитые систем хранения данных, ориентированных на анализ.

Предпосылки появления ХД

Появление потребности в информационных системах, которые позволяли бы проводить глубокую аналитическую обработку, поиск скрытых структур и закономерностей в массивах данных, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование.

Понимание преимуществ, которые способен дать интеллектуальный анализ, привело к появлению нового класса систем — информационных систем поддержки принятия решений (СППР), ориентированных на аналитическую обработку данных с целью получения знаний,

Обобщенная структурная схема информационной СППР представлена на рис. 2.3.

Оператор Аналитик

Рис. 2.3. Структура информационной СППР Для эффективного функционирования СППР системы должны быть организованы несколько иным способом, чем в ОЬТР-системах, что обусловлено следующими причинами.




  • Для выполнения сложных аналитических запросов необходима обработка больших массивов данных из разнообразных источников.

  • Для выполнения запросов, связанных с анализом тенденций, прогнозированием протяженных во времени процессов, необходимы исторические данные, накопленные за достаточно длительный период, что не обеспечивается обычными ОЬТР- системами.

  • При аналитической обработке предпочтение отдается не детальным данным, а обобщенным (агрегированным). Очевидно, что для анализа продаж крупного супермаркета интерес представляет не информация об отдельных покупках, а о продажах за период день, неделя, месяц, год.

В связи с этим можно выделить ряд принципиальных отличии СПИР и

ОЬТР- систем. Эти отличия представлены в табл. 2.1.

Таблица 2.1. Отличия СППР и ОЬТР-систем

Свойство

ОЫР-система

СППР

Цели использования данных

Быстрый поиск, простей­шие алгоритмы обработки

Аналитическая обработка с целью поиска скрытых закономерностей,

Уровень обобщения (детализации) данных

Детализированные

Как детализированные, так и обобщенные

Требования к каче­ству данных

Возможны некорректные данные (ошибки регистра­ции, ввода и т. д.)

Ошибки в данных не допускаются, поскольку могут привести к не-

Формат хранения данных

Данные могут храниться в различных форматах в зависимости от при-

Данные хранятся и обрабатываются в едином формате

Время хранения данных

Как правило, не более года (в пределах отчетного

Г оды, десятилетия

Изменение данных

Данные могут добавляться, изменяться и удаляться

Допускается только пополнение; ранее

Периодичность

Часто, но в небольших

Редко, но в больших



Должен бы 11.» обеспечен [Должен бы/ь ЫнМШЧИН

(Доступ к данным

Характер выполня-

емых запросов Время выполнения

доступ ко всем текущим 1/ннлун к не/орич#сяим По

(опоратинным) данным рсть н'шмм&шшм ш

Стандартные, настроенные I кре! тши I ирошиняе*

заранее [формируемые ЬИШШ / ИМ0М

Несколько секунд [До нескольких мину/



Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5304
Авторов
на СтудИзбе
416
Средний доход
с одного платного файла
Обучение Подробнее