Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 20
Текст из файла (страница 20)
Для простоты приводится схема использования трех указанных подходовв организации, имеющей две информационные системы, которые необходимоинтегрировать.Рис. 3.1.3. Способы интеграции двух информационных систем с использованиемметодов интеграции EII, ETL, EAI [42].104На рис.
3.1.3 показано, как каждый из этих методов может быть использованнаилучшим образом. Метод EAI интегрирует транзакции двух или более приложений,метод ETL интегрирует данные операционных систем и компонентов поддержкипринятия решений, а метод EII осуществляет виртуальную интеграцию данных изразличных источников.Рассмотрим более подробно сценарии использования каждого из указанныхметодовинтеграции.МетодEAIиспользуется,когданеобходимосвязатьинформационные системы в реальном времени.
Раньше для обозначения подобногорода интеграции часто использовался термин Business Process Integration (интеграциябизнес-процессов – BPI). Если же речь идет об интеграции ИС разных организаций, тотакую интеграцию часто называют B2B-интеграцией (Business-To-Business). Метод EAIприменяется также в ситуации, когда необходимо, чтобы изменения, внесенные в однуИС (обычно это небольшой набор записей), были отражены во всех других ИС. Этотметод используется при решении задач фиксации изменений и их переноса всоответствующие ИС и часто применяется, например, в банковской сфере.Интеграционный метод ETL оказывается наиболее полезным в том случае, когданеобходимо создать хранилище данных (ХД), содержащее хорошо документированныеи надежные данные для исторического анализа, например, для анализа временныхрядов или многомерных запросов.
Этот метод также используется для интеграцииключевых справочных данных. ETL- метод незаменим для таких задач, как удалениедублирующихся данных, осуществление процессов проверки качества данных и т.п.ETL-инструменты также используются для создания отдельных витрин данных,обслуживающих конкретное подразделение организации или предназначенных длякаких-либо долгосрочных целей. Инструменты ETL предоставляют пользователювозможность запустить повторяющиеся процессы для большей слаженности действий ивозможности их многократного использования.
Такие процессы включают созданиеточных технических метаданных, поддерживающих общую целостность среды BusinessIntelligence (BI).Метод интеграции EII предназначен для случаев, когда необходимо создатьобщий шлюз (gateway) с едиными языком и точкой доступа к несогласованнымисточникам данных. Такие инструменты предоставляют приложениям и конечнымпользователям возможности более гибкого, а также незапланированного доступа кданным. Стоит отметить, что при этом не требуется постоянного использованияданныхилидолговременныхцелей дляполученияэтогодоступа. Помимотрадиционных реляционных баз данных, инструменты EII могут работать с XML и105LDAP-источниками, плоскими файлами (ASCII flat-file) и другими нереляционнымиисточниками информации.
Инструменты EII являются особенно полезными, если естьнеобходимость добавить к справочным данным хранилища данных дополнительныедетали, например, детальную информацию в режиме реального времени (например,сопоставление исторических данных с текущей ситуацией).Следует отметить, что кроме понимания того, когда необходимо использоватьэти методы, нужно также знать и проблемы, которые им присущи. Во-первых,внедрение этих методов интеграции требует от ИТ-персонала глубокого понимания техтребований, которые предъявляются к данным для принятия как тактических, так истратегических решений. Применительно к методу ETL это означает, что необходимыеданные извлекаются, преобразуются и загружаются в виде, пригодном дляиспользованиянепосредственноаналитиками,системамиподдержкипринятиярешений (СППР) или EII-сервером. В случае EII-интеграции способы представленияданных должны удовлетворять требованиям аналитиков, предъявляемым к построениюотчетов, т.е.
данные должны быть пригодны для использования в аналитическихотчетах. Во всех случаях понимание структур источников данных и требований,предъявляемых к данным, является необходимым шагом при внедрении этих методовинтеграции и, безусловно, оправдывает то время, которое приходится тратить, чтобыдостичь этого понимания.Кроме того, необходимо понимать, что внедрение этих инструментов в ужесложившуюся архитектуру требует от ИТ-персонала разработки такой стратегииуправления данными и ИС, которая будет постоянно поддерживать этот процесс вактивном состоянии. Обязательной составляющей такой стратегии должно бытьосознание того, что повышается важность механизмов архивирования, а также того, чтос самого начала должны быть созданы контрольные журналы.
Это необходимо дляобеспечения слаженности и надежности интегрированных данных и приложений.Следует отметить, что очень важен мониторинг производительности иэффективностиописанныхметодовинтеграциивусловияхконкретнойинфраструктуры. Их производительность в значительной степени будет зависеть отскорости архивирования данных, объемов и детальности данных, а также отэффективности функционирования ИС в условиях полной нагрузки.
При определениипроизводительности также следует оценить влияние, которые эти инструменты могутоказывать на операционные приложения и системы. Поэтому необходим постоянныймониторинг и этого влияния.106Учитывая то, что одной их основных целей, которые ставились при разработкеинтегрированной ИС по свойствам неорганических веществ, являлось использованиеинтегрированной ИС для систем поддержки принятия решений (СППР), необходимаинтеграция информационных источников по свойствам неорганических веществ.
Изприведенного выше краткого обзора методов интеграции очевидно, что в качестветаких интеграционных подходов на уровне данных целесообразно использовать EII иETL, которые позволяют извлекать требуемые данные из информационных источниковпри создании интегрированной ИС.EII (Enterprise Information Integration – Интеграция Информации на уровнеПредприятия или интеграция корпоративной информации) как термин был предложенв мае 2002 года Aberdeen Group. Информационные системы, построенные сприменением принципов EII, обеспечивают универсальный доступ к множествуисточников данных без предварительной их загрузки в хранилище данных. Такиесистемы были названы системами интеграции данных.
С момента появления этогометода, как технологии, на рынке были созданы несколько EII-продуктов и накоплензначительный опыт применения [43].В настоящее время можно выделить несколько факторов, стимулирующихразвитие EII-индустрии:технологии управления и обработки информации, разработанные исследователями,находятся уже в достаточно зрелом состоянии и могут реализовываться длядальнейшего использования в информационных системах;изменилось отношение и потребности организаций к управлению своими данными.Например, появилась необходимость создавать Web-сайты, требующие интеграцииданных из множества различных источников.
Помимо этого, тесная интеграцияисследований и экономики вынуждает организации взаимодействовать друг сдругом различными способами, интегрируясь в общие процессы, что невозможнобез обеспечения единого информационного пространства;появлениеXMLкакуниверсальногомеханизмапредставленияданныхподталкивает к обмену информацией;решения, основанные на методе хранилищ данных, кажутся неподходящими длярешения поставленных задач, так как стоимость разработки специализированныхсистем постоянно возрастает и становится непозволительной (в частности,разработка программных посредников и адаптеров данных).107Следует отметить, что архитектура, использующаяся во всех программныхпродуктах, основана на схожих технологических принципах.
Сценарий интеграцииинформации условно состоит их нескольких этапов [43]:выявление источников информации, которые будут интегрированы;разработка виртуальной схемы (также часто называемой медиаторной схемой),которая будет использована конечными пользователями для построения запросов кинтегрированной информации;программная реализация интегрированной ИС с учетом принятых ранее решений.Обработка запросов начинается с так называемого переформулированиязапросов к виртуальной схеме в запросы к исходным источникам данных.
Затемследует процесс выполнения запросов с помощью специального обработчика, которыйсоздает план для выполнения отдельных подзапросов и последующего объединения ихрезультатов с учетом возможностей и ограничений каждого источника.Рассмотрим этот процесс более подробно. Метод EII использует запросы длясбора и интеграции данных и контента из многочисленных источников.
EII-запросявляется интегрированным, так как он сформулирован на основании интегрированногоотображения источников данных. Для того чтобы выполнить такой запрос, EII-серверопрашивает источники данных, находит релевантные данные и обрабатывает их вконтексте приложения. Ранее создатели EII использовали упрощенный подход – всерелевантные данные извлекались из источников данных в XQuery-процессор иполностью там обрабатывались. Для того чтобы понять, почему данный подход непозволяет достичь оптимальной производительности, рассмотрим пример запроса,требующего выполнения операции соединения (join query) двух очень больших таблициз двух разных источников данных. Каждая таблица должна быть сначалапреобразована в XML-формат (при этом ее размер возрастает примерно втрое),перемещена по сети, а затем соединена с другой таблицей.