Лекции ОАД 2 модуль (1069549)
Текст из файла
Задача консолидации
Консолидация Данных
Введение
Ценность и достоверность знаний, полученных в результате интеллектуального анализа данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа.
Обычно руководителям проектов по бизнес-аналитике с нуля приходится сталкиваться со следующими ситуациями:
-
Данные на предприятии расположены в различных источниках самых разнообразных форматов и типов в отдельных файлах офисных документов (Ехсеl, Word, обычных текстовых файлах), в учетных системах (1С, Парус и др.), в базах данных (Oracle, Access, dBase и др.)
-
Данные могут быть избыточными или, наоборот, недостаточными
-
Данные являются связными – содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия)
Поэтому, прежде чем приступить к анализу данных, необходимо :
-
Доведение данных до приемлемого уровня качества и информативности
-
Организовать их интегрирование в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполняемых аналитических запросов.
Консолидация —- комплекс методов, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены хранилище данных – аналитическую систему.
Основные критерии оптимальности с точки зрения консолидации данных:
-
Обеспечение высокой скорости доступа к данным
-
Компактность хранения
-
Автоматическая поддержка целостности структуры данных;
-
Контроль непротиворечивости данных.
Источники данных
Ключевым понятием консолидации является источник данных — объект, содержащий структурированные данные и используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат.
Основные задачи консолидации данных:
-
выбор источников данных;
-
разработка стратегии консолидации;
-
оценка качества данных;
-
обогащение;
-
очистка;
-
перенос в хранилище данных.
Выбор источников данных - можно выделить три основных подхода к организации хранения данных.
-
Данные, хранящиеся в отдельных (локальных) файлах, например, в текстовых файлах с разделителями, документах Word, Ехсеl данные в котором организованы в виде столбцов и записей. Преимущество данные создаваться и редактироваться с помощью простых офисных приложений. К недостаткам не всегда оптимальны, компактности представления данных и поддержки их структурной целостности.
-
Базы данных (БД) различных СУБД, таких как Огас1е, SQL Server, Firebird, dBase, FохРго, Ассезз и т. д. Файлы БД лучше поддерживают целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако требуются специалисты с более высоким уровнем подготовки.
-
Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Главное преимущество ХД перед остальными типами источников данных — наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу.
Очистка данных – комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.
Обогащение - процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач. Его необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа.
Обобщенная схема процесса консолидации
Место консолидации в общем процессе анализа данных может быть
представлено в виде структурной схемы (рис 2.1)
Рис. 2.1. Процесс консолидации данных
В основе процедуры консолидации лежит процесс ЕТL (ехtraction, transformation, loading), Процесс ЕТL решает задачи извлечения данных из разнотипных источников, их преобразования к виду, пригодному для хранения в определенной структуре, а также загрузки в соответствующую базу или хранилище данных
Процесс сбора, хранения и оперативной обработки данных на типичном предприятии обычно содержит несколько уровней. На верхнем уровне располагаются реляционные SQL-ориентированные СУБД типа SQL-Server, Оrас1е и т. д. На втором серверы с некоторой системой оперативной обработки данных OLТР. И наконец, на самом нижнем уровне расположены локальные ПК отдельных пользователей с персональными источниками данных.
Из источников данных всех перечисленных уровней информация в соответствии с некоторым регламентом должна перемещаться в ХД. Для этого необходимо обеспечить выгрузку данных из источников, провести их преобразование к виду, соответствующему структуре ХД, а при необходимости выполнить их обогащение и очистку.
Таким образом, консолидация данных является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений.
Введение в хранилища данных Введение
С появлением персональных компьютеров корпоративные системы, предназначенные для оперативной обработки информации, стали доступными для множества мелких и средних фирм, предприятий. Системы оперативной обработки информации получили название ОLТР (On-line Transaction Processing — оперативная, то есть в режиме реального времени, обработка транзакций).
Транзакция — некоторый набор операций над базой данных, который рассматривается как единое завершенное, сточки зрения пользователя, действие над некоторой информацией, обычно связанное с обращением к базе данных.
О бобщенная структура системы ОLТР представлена на рис. 2.2.
Типичным примером применения OLTP-систем является массовое обслуживание клиентов, например, бронирование авиабилетов или оплата услуг телефонных компаний. Обе эти ситуации имеют два общих свойства: очень большое число клиентов и непрерывное поступление информации.
В данной задаче транзакция включает в себя набор таких действий, как:
-
запрос оператора о наличии свободных мест на тот или иной рейс;
-
отклик ВЦ с предоставлением соответствующей информации;
-
ввод оператором информации о клиенте, номере заказанного места и оплаченной сумме (возможно, будет присутствовать еще какая-либо служебная вспомогательная информация);
-
передача новой информации в базу данных и внесение в нее соответствующих изменений;
-
передача оператору подтверждения о том, что операция выполнена успешно.
Такие транзакции выполняются тысячи раз в день в сотнях пунктов продаж. Очевидно, что основным приоритетом в данном случае является обеспечение минимального времени отклика при максимальной загрузке системы.
Рассмотрим характерные черты данного процесса, свойственные в той или иной мере всем OLTP-системам.
-
Запросы и отчеты полностью регламентированы. Оператор не может сформировать собственный запрос, чтобы уточнить или проанализировать какую-либо информацию.
-
Как только перелет завершился, информация об обслуживании данного клиента теряет смысл, становится неактуальной и подлежит удалению по прошествии определенного времени (то есть исторические данные не поддерживаются).
-
Операции производятся над данными с максимальным уровнем детализации, то есть по каждому клиенту в отдельности.
Анализ пассажиропотоков с целью их оптимизации, в случаи нехватки или низкого уровни спроса билетов на определенные маршруты позволяет сделать предположение о целесообразности увеличении или сокращении рейсов.
Для проведения таких исследований необходимы как минимум три вещи:
* необходима дополнительная информация о би знес- среде: о конкурентах, рыночных тенденциях, ценах на топливо н пр. Очевидно, что типичная 01ЛТ-система не может обеспечить ничего из перечисленного. Следовательно, необходимо использовать более развитые систем хранения данных, ориентированных на анализ.
Предпосылки появления ХД
Появление потребности в информационных системах, которые позволяли бы проводить глубокую аналитическую обработку, поиск скрытых структур и закономерностей в массивах данных, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование.
Понимание преимуществ, которые способен дать интеллектуальный анализ, привело к появлению нового класса систем — информационных систем поддержки принятия решений (СППР), ориентированных на аналитическую обработку данных с целью получения знаний,
Обобщенная структурная схема информационной СППР представлена на рис. 2.3.
Оператор Аналитик
Рис. 2.3. Структура информационной СППР Для эффективного функционирования СППР системы должны быть организованы несколько иным способом, чем в ОЬТР-системах, что обусловлено следующими причинами.
-
Для выполнения сложных аналитических запросов необходима обработка больших массивов данных из разнообразных источников.
-
Для выполнения запросов, связанных с анализом тенденций, прогнозированием протяженных во времени процессов, необходимы исторические данные, накопленные за достаточно длительный период, что не обеспечивается обычными ОЬТР- системами.
-
При аналитической обработке предпочтение отдается не детальным данным, а обобщенным (агрегированным). Очевидно, что для анализа продаж крупного супермаркета интерес представляет не информация об отдельных покупках, а о продажах за период день, неделя, месяц, год.
В связи с этим можно выделить ряд принципиальных отличии СПИР и
ОЬТР- систем. Эти отличия представлены в табл. 2.1.
Таблица 2.1. Отличия СППР и ОЬТР-систем
Свойство | ОЫР-система | СППР |
Цели использования данных | Быстрый поиск, простейшие алгоритмы обработки | Аналитическая обработка с целью поиска скрытых закономерностей, |
Уровень обобщения (детализации) данных | Детализированные | Как детализированные, так и обобщенные |
Требования к качеству данных | Возможны некорректные данные (ошибки регистрации, ввода и т. д.) | Ошибки в данных не допускаются, поскольку могут привести к не- |
Формат хранения данных | Данные могут храниться в различных форматах в зависимости от при- | Данные хранятся и обрабатываются в едином формате |
Время хранения данных | Как правило, не более года (в пределах отчетного | Г оды, десятилетия |
Изменение данных | Данные могут добавляться, изменяться и удаляться | Допускается только пополнение; ранее |
Периодичность | Часто, но в небольших | Редко, но в больших |
Должен бы 11.» обеспечен [Должен бы/ь ЫнМШЧИН
(Доступ к данным
Характер выполня-
емых запросов Время выполнения
доступ ко всем текущим 1/ннлун к не/орич#сяим По(опоратинным) данным рсть н'шмм&шшм ш
Стандартные, настроенные I кре! тши I ирошиняе*
заранее [формируемые ЬИШШ / ИМ0М
Несколько секунд [До нескольких мину/
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.