Средства работы с данными
Средства работы с данными
В связи с увеличением масштабов хранения и обработки данных система управления данными становится в ряд центральных ресурсов информационной системы. Формирование структур данных уже давно осуществляется в среде той или иной стандартной системы управления базами данных (СУБД). В развитых и масштабных ИС выбор СУБД является задачей примерно той же значимости, что и выбор ОС, а переход системы на другую СУБД может быть столь же трудным.
Идеальных СУБД нет и быть не может: все они имеют как сильные стороны, так и слабые. Крупная база данных создается не на один год, поэтому выбор СУБД серьезными заказчиками осуществляется, как правило, в результате тестирования различных вариантов с учетом характера задач формирования структур и обработки данных, требований защищенности и т.п.
Одной из важнейших характеристик СУБД является модели данных. Теоретически любую информацию можно представить в виде реляционной модели. Эта модель имеет наиболее проработанные математическое основание и стандарты. Кроме того, реляционная модель данных отличается большой гибкостью относительно изменения структуры данных. Это. безусловно, наиболее распространенная сейчас модель данных. С другой стороны. существует немало задач, которые более эффективно решаются средствами других моделей. В частности, автоматизация новых областей бизнеса уже поставила задачу поддержки объектно-ориентированного подхода.
Существует уже достаточно широкий набор объектно-ориентированных систем. Одной из основных является OracleS компании Oracle. Компания Informix утверждает, что по функциональным возможностям ее Dynamic Server ненамного отличается от Oracle. В свою очередь, Sybase реализует объектно-ориентированные возможности в своей схеме баз данных, хотя ее Adaptive Server Enterprise предлагает лишь некоторые из функций, имеющихся в Oracle». Компания IBM обеспечивает те же функциональные возможности в версии своей DB2 и перенесла эту новую версию СУБД и на самый массовый бизнес-компьютер AS/400.
Microsoft SQL Server по уровню объектно-реляционной поддержки явно отстает от других ведущих реляционных баз данных. Computer Associates предлагает Jasmine, объектно-ориентированную базу данных, призванную свести на нет противоречия между реляционными данными и объектно-ориентированными приложениями.
Бесплатная лекция: "Доказать необходимое условие экстремума дифференцируемой функции" также доступна.
Непрерывно совершенствуясь, системы хранения данных становятся все более емкими, дешевыми и надежными. Клиенты становятся все более требовательными в отношении как данных» так и технологий работы с ними. Им нужны средства для доступа к большим объемам данных, а также возможность быстрого поиска в сверхбольших объемах данных, содержащих, например, все сведения о деятельности компании за добрый десяток лет. Как следствие, возникла технология хранилищ информации (Data Warehouse), которая представляет собой самостоятельную область ИТ. В ее основе лежит идея создания централизованной и всеобъемлющей корпоративной базы данных, главное предназначение которой - информационное обеспечение систем поддержки принятия решений руководителями предприятий.
По замыслу автора идеи создания хранилищ У. Инмона (W. Inmon) [42], такая база данных должна отвечать следующим требованиям. Во-первых, ориентироваться на предметную область, а не на приложения, которые будут работать с данными. Во-вторых, хранилище должно содержать интегрированную информацию, полученную на основе данных из множества источников;
необходимо проводить проверки на непротиворечивость, целостность и т. д. В-третьих, база данных хранилища должна быть оптимизирована прежде всего для операций поиска и чтения: данные, пройдя обработку и попав однажды в хранилище, остаются там на долгие годы, причем изменения в данных не предполагаются. В-четвертых, оборудование, предназначенное для хранения данных, должно иметь высокую надежность.
На основе концепции хранилищ данных строится схема их включения в корпоративную ИС. По одну сторону от хранилищ данных остаются источники информации, в качестве которых обычно выступают стандартные системы оперативной обработки транзакций (On-Line Transaction Processing, OLTP). По другую - приложения-потребители, прежде всего системы оперативной аналитической обработки данных (On-Line Analytical processing, OLAP). Потребителями информации являются в основном OLAP-системы. Для оптимизации работы, как хранилищ данных, так и OLAP-систем создаются так называемые витрины (или киоски) данных (Data Marts) - промежуточные базы данных, содержащие выборку из хранилища, создаваемую специально для конкретных приложений. Полно размерная работа в структуре хранилища называется Data Mining (разработка данных -по аналогии с разработкой полезных ископаемых).
Функционирование собственно хранилища данных обеспечивается на основе достаточно мощных СУБД компаний Oracle, Informix, Sybase, NCR, IBM и др. Реализация хранилищ данных представляет собой достаточно сложную технологию: это естественно, когда приходится оперировать сотнями гигабайтов и терабайтами данных. Они обычно строятся следующим образом. Для сбора и предварительной обработки данных от систем-источников выделяют один или несколько относительно небольших серверов на базе ОС ,UNIX или NT. В качестве главного сервера СУБД хранилища используются мощные ПК (менее 3 Гбайт), мощные UNIX-компьютеры (3-25 Гбайт), мейнфреймы (25 - 400 Гбайт) или даже суперЭВМ при объеме данных более 400 Гбайт, которые считаются уже уникально большими. Собственно данные хранятся в избыточных массивах дисковых накопителей RAID, соединенных с сервером СУБД с помощью высокопроизводительной шины (SCSI, Fibre Channel, Gigabit Ethernet, ATM). Для реализации витрин данных применяют машины на базе ОС UNIX или NT с собственными массивами накопителей.
Как любая технология, хранилища данных имеют специфические проблемы создания, эксплуатации, оценки эффективности, а также согласования с различными задачами и требованиями. Тем не менее целесообразность их применения уже не подвергается сомнению, все владельцы больших и сверхбольших объемов информации создают такие технологии в своих ИС. Так, по оценкам специалистов, к 1999 г. объем хранимых в глобальных сетях данных достиг 1000 петабайт (1 млн Тбайт). Размер многих крупных хранилищ данных уже измеряется десятками терабайт и продолжает непрерывно увеличиваться, за ближайшие три года средний размер хранилищ данных увеличится в 36 раз.