Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 22
Текст из файла (страница 22)
Инмон определил хранилища данных (Data Warehouse) [45] как“предметно-ориентированный, интегрированный, неизменчивый, поддерживающийхронологию набор данных, организованный для целей поддержки управления”.За последние пятнадцать лет метод хранилищ данных и связанные с ними ETLтехнологии (Extract, Transform, Load – извлечение, трансформация, загрузка) добилисьпризнания и теперь широко используются для интеграции и анализа больших объемовразнородных данных. Эти технологии прошли успешный путь от загрузкиежемесячныхдамповтрансформированныхоперативныхпакетнымиданных,программами,слегкадоочищенныхсистемисложногонемногоуровня,управляемых метаданными, которые перемещают огромные массивы информации отмест их первоначального сбора до операционных хранилищ данных или витрин данных[46].Потребность в снижении цен на готовые ИТ-решения и необходимостьобработки запросов в режиме реального времени приводит к разработке и апробацииметодов интеграции информации согласно требованиям конкретных проектов.Например, анализ и составление отчетов в режиме реального времени являетсянеобходимым для получения конкурентных преимуществ на рынке при управлениипредприятием.
Именно эта задача, в конечном счете, привела к подходу “виртуальныххранилищ данных”, которые позволили объединить разрозненные данные. Такого родаинтегрированные системы и явились предвестниками EII. Сейчас на рынке появилосьнесколько EII-технологий, способных по требованию (on-demand) объединитьразрозненные источники данных без их полного перемещения (репликации) ипредоставляющих единый SQL- или XQuery-интерфейс к этим множественнымисточникам.При появлении новой технологии часто считается, что она автоматически делаетсуществующие методы устаревшими, и несмотря на то, что метод EII находится лишь в112начале своего развития, он должна заменить хранилища данных. Следует отметить, чтоэто мнение ошибочно, и привести два аргумента против него:Для того чтобы быть жизнеспособными, технологии EII должны быть настолько жепроизводительными и масштабируемыми, какими, например, являются насегодняшний день технологии РСУБД.
Поэтому для того, чтобы адекватно иобъективно измерить производительность, необходим стандартный тест напроизводительность, подобный тестам TPC для СУБД [47].Даже если EII-технологии будут полностью доработаны, они все же не заменятхранилищ данных. В зависимости от задач, которые нужно решить, интегрируемыеданные будут перемещаться либо в хранилище данных, либо к ним будетосуществлен виртуальный доступ с использованием EII-технологий [46].Таким образом, предположение о том, что EII заменит хранилища данных,поверхностно и неверно.
Хранилища данных будут продолжать использоваться дляпостроения больших систем и решения сложных аналитических задач. Метод EIIпредназначен для быстрой и гибкой интеграции “по требованию”. Следовательно,вопрос заключается в том, в каких случаях целесообразно хранить интегрируемуюинформацию в одном месте, а в каких - осуществлять доступ ко многим источникамдля организации виртуального хранилища. Можно предложить несколько простыхправил, которые можно применять при принятии решения.Правила централизованного хранения данных в рамках хранилищданных [46]:Сохраняйте данные, чтобы хранить историю. Хранилища данных хранятисторические (архивные) данные в том смысле, что они передаются из источниковданных через определенные интервалы времени. Поскольку история больше нигдене хранится – хранилища данных должны использоваться для хранения архивныхданных.Сохраняйте данные централизованно, когда доступ к источникам информациизатруднен или запрещен.
По многим причинам (организация работы, безопасностьи т.п.) технологиям объединения БД может быть запрещен доступ к источникамданных. В этом случае данные из этих источников должны извлекаться в некотороепостоянное хранилище, такое как хранилище данных.Правила виртуализации данных (объединения).
Эти правила должныиспользоватьсятолькотогда,когданецентрализованного сохранения данных [46]:срабатываетниодноизправил113Виртуализировать необходимо данные, находящиеся за пределами границхранилищ данных, а также новые витрины данных. Вместо избыточногокопированияданныхпонесколькимхранилищамданныхнеобходимовиртуализовать совместное использование данных несколькими хранилищами. Поопределению, подобные измерения могут совместно использоваться несколькимивитринами данных. Другим сценарием, в котором виртуальная витрина данныхбудет хорошим решением, является интеграция нового внешнего источника данных,который не был включен в начальную структуру данных хранилища с этимхранилищем или витриной данных.Виртуализируйте данные для особых проектов и для того, чтобы построитьпрототипы систем.
Данные можно довольно быстро собрать для одноразовыхотчетов или для апробации прототипов новых приложений посредством построениявиртуальной схемы требуемых данных.Виртуализируйте данные, которые должны отражать текущие факты. Вприложениях, таких как инструментальные панели или порталы, данные должныотражать сиюминутное состояние операций. Для приложений подобного классаинтеграция с использованием EII является необходимой и единственно возможной,в отличие от хранилищ данных, отражающих данные с различной степеньюзадержки.Следует подчеркнуть, что главным отличием между EII и методом хранилищданных (ETL) является то, что EII – метод интеграции данных “по требованию” (илитехнология “вытягивания” данных из источников в режиме реального времени), в товремя как ETL – метод, при котором разрозненные данные помещаются в единоеинформационное хранилище данных заранее и, фактически, полностью готовы кзапросам [48].
Таким образом, одним из главных преимуществ EII над ETL является то,что пользователь, вследствие гибкости технологии EII, получает доступ к текущемусостоянию данных (так называемые, “live data” – живые данные). Существуетмножество сценариев, когда это действительно необходимо, например, резервированиетоваров на складах и оформление заказа.Если учесть, что новые источники данных, удовлетворяющие общей схеме,могут быть динамически обнаружены интегрированной системой и подключены к ней,то у EII появляется еще одно преимущество по сравнению с ETL – способностьдинамической интеграции с источниками данных. Следует отметить, что в ETL данныеиз нескольких заданных (и тем самым фиксированных) информационных источниковпо определенным правилам помещаются в централизованное хранилище данных.114Со стороны стоимости решения, преимуществом EII является то, что нетнеобходимости в хранилище или другом виде репозитория для скопированных данных,как в ETL.
Но с другой стороны, объем хранилища, его стоимость и время обработкиинформации, необходимое, чтобы наполнить его, предсказуемы. В то время как прииспользовании EII возникает масса вопросов, например, непредсказуемость временизагрузки и общей производительности интегрированной информационной системы.Однако, необходимо учитывать, что в этом случае ETL-подход не является панацеей,так как подчас просто невозможно загрузить все релевантные данные в однохранилище данных.Необходимо подчеркнуть, что потенциально EII предлагает большую гибкость иболее содержательный подход к интеграции данных, чем метод хранилищ данных.Однако для того, чтобы работать достаточно быстро, аппаратные платформы, накоторых функционирует EII, должны быть основаны на высокопроизводительныхсерверах БД с параллельной обработкой потоков информации, а не пытаться заменитьих.
Трансляция схемы и декомпозиция объединенных запросов должны быть нацеленына генерирование компонентных запросов, которые могут быть переадресованыдостаточно высокопроизводительным серверам баз данных для эффективногоисполнения. Следует отметить, что проблема выбора метода интеграции – этопроблема постановки задачи. Каждый из рассмотренных выше методов (EII, ETL, EAI)эффективен для решения различных классов задач, поэтому только в редких случаяхэти методы могут заменять друг друга.3.1.4.
Проблемы при интеграции гетерогенных источников информацииОтвет на запросы при создании интегрированных систем влечет за собоймножество различных конфликтов, которые, в общем, могут быть названыконфликтами гетерогенности. Конфликты можно условно разделить на следующиеклассы [62]:платформенныеисистемные–интегрируемыесистемыиспользуютнесовместимые аппаратные платформы, операционные системы, СУБД и другоепрограммное обеспечение для их функционирования.синтаксические и структурные – интегрируемые системы используют разные посинтаксическому описанию (XML, RDF, реляционные таблицы) и по структуре(реляционные данные, объекты) данные, т.е. отличия в моделях данных и их схемах.семантические – разные источники данных для обозначения одной и той жесущности могут использовать различные значения. Например, для обозначения типа115кристаллическойструктурыперовскитавразличныхисточникахмогутиспользоваться: “перовскит”, “CaTiO3”, “perovskite” и т.д.
В дополнении кконфликтам обозначений (naming conflicts), могут встречаться и конфликты шкал иточности (scaling & precision conflicts). Так, например, значения температуры могутбыть указаны в градусах по Цельсию и Фаренгейту в разных источниках данных сразной точностью;Для того чтобы согласовать гетерогенные представления интегрируемыхданных, необходимо задать соответствующие правила отображения (mapping rules).При этом следует отметить, что знание предметной области интегрированной системыявляется необходимым для успешного решения конфликтов гетерогенности иоптимизации работы системы (оптимизация запросов).При этом нужно учитывать, что при построении интегрированной системывсегда необходимо искать компромисс между требованиями, предъявляемыми кинтегрированной системе, ибо никакая система не может одинаково хорошообеспечивать следующее:поддержку часто обновляемых источников данных;частое изменение потребностей пользователей в предоставляемой информации;использование неопубликованных данных в исходных источниках данных.Таким образом, разработка интегрированной системы – это всегда компромиссмеждуеепростотой,функциональностьюистоимостью.Приразработкеинтегрированной ИС по свойствам неорганических веществ требуется успешноразрешить все три класса конфликтов гетерогенности.3.2.
Системный анализ методов интеграции3.2.1. Базовые информационные процессы в локальных ИСТиповая структура ИС включает в себя ряд подсистем, реализующих базовыеинформационные процессы сбора, хранения, передачи, обработки и представленияинформации. На рис. 3.2.1 представлены информационные процессы, протекающие влокальной ИС. В ней реализуются все основные процессы (кроме информационногообмена с внешними ИС).116Рис.
3.2.1. Информационные процессы в локальной ИСЗапрос от пользователя, сформированный при помощи интерфейса (1) поступаетв модуль управления, который на основе метаданных (2) обращается к подсистемехранения данных. Далее выполняется непосредственное извлечение (3) и обработкаданных (4).
Результаты отображаются пользователю при помощи интерфейса (5).Переход от локальной БД к распределенной, но однородной БД требуетминимальных изменений в схеме обработки информации. Метабаза должна бытьдополнена сведениями о распределении данных по множественным источникам.Наличие гетерогенных ИС, обладающих различными форматами хранения данных иразличными процессами их обработки, обуславливает необходимость модификациипроцессов обмена информацией и требует применения того или иного методаинтеграции ИС.Создание централизованной информационной системы, как правило, являетсясложной задачей даже в рамках одной крупной научно-исследовательской организации.Это обусловлено использованием различных информационных комплексов для сбора ирегистрации данных, а также спецификой и разнообразием исследований. Поэтомупроблема создания систем интеграции информации, которые бы были способныобъединить всю важную информацию, накопленную исследователями даннойорганизации, является актуальной при создании практически любой централизованнойинформационной системы.При переходе к интегрированным ИС необходимо в первую очередь ответить наследующие вопросы:Какие подсистемы интегрированной ИС будут распределенными, а какиеостанутся локальными?117Какие подсистемы интегрированной ИС станут (изначально или в перспективе)гетерогенными, а какие останутся однородными?Каков будет баланс между централизацией и периферийностью в системеуправления интегрированной ИС?В первом приближении можно сказать, что методы EII и ETL основаны наиспользовании источников данных, а метод EAI предполагает распределеннуюобработку сообщений.Выбор метода интеграции определяет характеристики, которыми будет обладатьинтегрированнаясистема.Вконтекстеконкретнойзадачипоинтеграции,характеристики могут являться как недостатками, так и положительными свойствами,позволяющими решить данную задачу наиболее оптимально и эффективно.Основной задачей при разработке централизованных систем является задачастандартизации.