Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 21
Текст из файла (страница 21)
При этом возникает сразудве проблемы с точки зрения производительности. Первая заключается в том, чтоогромный объем информации будет постоянно передаваться по сети. Втораязаключается в том, что операция соединения пока еще остается не оптимизированной вразработанных XQuery-процессорах. Вместо этого следует применять технологиипараллельной обработки и оптимизации запросов.Так как источники данных располагаются на компьютерах, имеющих различныеаппаратные платформы, операционные системы и СУБД, необходимо произвестидекомпозицию поступающего к EII единого запроса на составные части, которые ибудут пересылаться к источникам данных. Затем результаты этих подзапросов должны108быть “собраны” с помощью специализированного ПО.
В некоторых EII-продуктах рольэтого специализированного ПО выполняет специальная РСУБД (например, IBMInformation Integrator) или XQuery-обработчик. Компонентные запросы обычновыполняются через адаптеры данных (data wrappers) и направляются непосредственно кэтому источнику. Адаптеры данных представляют собой специализированное ПО,учитывающее особенности конкретного источника данных. Характер компонентныхзапросов зависит от свойств схемы интеграции данных, которая участвует в переводеинтегрированной схемы в схемы источников данных, и от оптимизатора запросов EII.Критические аспекты производительности EII-систем связаны с распределеннойархитектурой программного обеспечения EII. А именно, производительность будетзависеть от следующих параметров: (a) максимизации параллельности обработкизапросов и (b) минимизации объемов данных, необходимых для сборки ответа назапрос и выбора наилучшего по производительности места для сборки этого ответа.Эти проблемы уже были достаточно хорошо решены разработчиками параллельныхсерверов баз данных, и схожие методы могут быть использованы и архитекторами EIIсистем.Следует отметить, что оптимизация запросов для EII – сложная проблема.
Ксожалению, вследствие конкуренции, производители вынуждены выпускать на рынокПО EII в крайне сжатые сроки, что часто приводит к упрощенным решениям, которыене способны масштабироваться и давать высокую производительность.В настоящее время некоторые компании начинают построение систем сиспользованием модели данных XML и языка запросов XML.
Эти компаниивынуждены решать проблемы интеграции в двойном объеме, так как исследования поэффективной обработке запросов и интеграции для XML еще только начинаются.Следует отметить, что в настоящее время XQuery находится только в стадиистановления, т.к. W3C выпустила окончательную версию спецификации XQuery 1.0лишь в январе 2007 года [44]. Консорциумом W3C стандартизованы XPath 2.0 и XSLT2.0, активно используемые при разработке информационных систем, но их пока явнонедостаточно, чтобы вывести системы EII на качественно новый уровень.Самыми первыми системами, в которых успешно были применены методыинтеграции данных, были CRM-системы (Customer Relationship Management).Основной задачей подобных систем являлось предоставление специалистам компаниитак называемого глобального отображения клиента, то есть всей сводной информациипо конкретному клиенту, которая находилась во множестве различных источников.Такие системы были предназначены для обеспечения актуальной информацией о109клиенте, и, как следствие, подобные системы вынуждены были строить запросы кразличным источникам и отслеживать все их изменения в режиме реального времени.Как и любая новая отрасль индустрии, EII столкнулась со многими задачами,некоторые из которых до сих пор серьезно препятствуют росту данной технологии.
Вотнаиболее значимые из данных задач:масштабирование и производительность;горизонтальный или вертикальный рост;интеграция со средствами EAI и другим ПО промежуточного уровня;управление метаданными и семантической гетерогенностью.Рассмотрим кратко эти основные задачи.Масштабирование и производительность.
Обеспечение масштабируемости ипроизводительности информационных систем всегда является взаимосвязаннойзадачей. Необходимо обеспечить приемлемое время отклика системы при ростеколичества интегрируемых источников информации. Проблема состоит в следующем –насколько эффективно обработчик запросов может разбить запрос пользователя наподзапросы в режиме реального времени, опрашивая при этом распределенныеисточникиданныхиобеспечиваяадекватныйответ?Вэтомконтекстеинструментальные средства EII часто значительно уступают уже зрелому методухранилищ данных. Метод EII изначально рассматривался как технология полученияответов на запросы в режиме реального времени. Тем не менее, с увеличениеммощности современных компьютеров пока еще более медленные методы EIIстановятся более конкурентоспособными, а при грамотном построении EII-системразница в скорости может быть практически нивелирована уже сейчас.Горизонтальный или вертикальный рост.
При разработке программногообеспечения EII необходимо изначально определить стратегию разработки. С однойстороны,можнопостроитьгоризонтальнуюплатформу,котораядостаточноуниверсальна и может быть использована в любом приложении. С другой стороны,можно разрабатывать специализированное ПО, предназначенное для удовлетворенияпотребностей определенной вертикали, т.е. максимально полно обеспечить решениезадач одного класса. Аргументом для выбора вертикальной модели роста является то,что можно получить полное решение всей задачи, пусть и достаточно узкой.Аргументом для выбора модели горизонтального роста является то, что получаемаяинформационная система является наиболее общей, и, следовательно, можетиспользоваться для решения более широкого класса задач.
Следует отметить, чтогоризонтальный подход выбирают также и при невозможности точного выбора110вертикальной разработки. В конечном счете, решение вопроса о выборе подходасводится к тому, как оптимально разделить ресурсы (то есть речь идет о принятиирешений при ограниченности ресурсов в условиях неопределенности).Интеграция со средствами EAI и другим ПО промежуточного уровня.Следует отметить, что промежуточное программное обеспечение (middleware) являетсядостаточно сложным, так как взаимодействует с несколькими уровнями другогопрограммного обеспечения (ПО). К тому же разработчики подходят по-разному крешению задач, и зачастую трудно определить какую именно часть задачи решает тоили иное ПО. Появление множества EII-инструментов от различных компаний ещеболее усугубляет положение.
Гораздо более зрелым сектором является EAI (EnterpriseApplication Integration – интеграция приложений на уровне предприятия), где ПОпредназначено для подключения к другим приложениям с целью эффективноговзаимодействия.Такимобразом,EAIфокусируетсянаприложениях,аEIIконцентрируется на данных и запросах к ним. При этом при обработке запросовиспользуются инструменты EII, а при обновлении данных - инструменты EAI. Отсюдаследует, что разделение между инструментами EII и EAI может являться лишьвременным явлением, и в будущем эти методы будут объединены.
Прочиепрограммные продукты, связанные с этими отраслями, обеспечивают инструменты дляочистки данных (перед их помещением в хранилище данных), составления отчетов ианализа информации. Интеграция таких инструментов с EII и EAI стала бызначительным усовершенствованием указанных технологий.Управление метаданными и семантической гетерогенностью. Одними изключевых вопросов, возникающих при выполнении проектов по интеграции данных,является определение местонахождения (locating) и понимание (understanding)интегрируемых данных.
Зачастую обнаруживается, что данные, необходимые длякакого-либо приложения интегрированной системы, вовсе не содержатся ни в одномисточнике данных организации. В других случаях требуются значительные усилия длятого, чтобы понять семантическую взаимосвязь между источниками и выработатьсхему их подключения к централизованной системе. Инструментальные средства,позволяющие решать подобные задачи, находятся в зачаточном состоянии. Имнеобходимы как структуры для хранения и работы с метаданными на уровнепредприятия, так и инструменты, которые смогли бы облегчить преодолениепрепятствий семантической гетерогенности между источниками информации иподдерживать эту инфраструктуру в режиме реального времени.111Следует отметить, что, несмотря на сложности становления, индустрия EIIдействительно существует.
Так по данным [43] в 2005 году ожидается, что доходыиндустрии EII составят, по меньшей мере, 0,5 млрд. долларов США. Вместе с темочевидно, что те продукты, которые используются в настоящее время, уже в скоромбудущем претерпят значительные изменения, что позволит реализовать полныйпотенциал EII-подхода к интеграции.У находящейся фактически в зачаточном состоянии EII существует ужедостаточно зрелая альтернатива в лице метода хранилищ данных (ETL). Еще в начале90-х годов У.