Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 33
Текст из файла (страница 33)
Сами значения хранятся в таблице Values, а составной ключ IDp, IDs,IDc, IDm указывает на описываемое свойство из таблицы Propeties и химическуюсущность, определяемую тройкой (IDs, IDc, IDm). Это позволяет сохранять в ХДзначения свойств для химических сущностей на уровне систем, веществ имодификаций.
Так, при описании значения свойства для неорганического вещества IDcсодержит идентификатор соответствующего химического соединения (IDs – указываетна соответствующую химическую систему), а IDm=0, т.е. указывает на отсутствиеинформациипомодификациихимическойсущности(использованиеNULLнедопустимо, в силу вхождения поля IDm в состав первичного ключа) [215].При использовании ХД в качестве источника информации для системпрогнозирования значение свойства необходимой химической сущности может бытьполучено двумя способами: 1) путем наложения на XML–документ специальногоXSLT–преобразования [70] (XML + XSLT => требуемый формат данных); 2) путемпрограммной обработки XML документа с использованием средств организациизапросов к XML–документу на языках XPath и/или XQuery.
Важной особенностьюявляется возможность выполнения данных преобразований как на стороне ХД сиспользованием хранимых процедур на SQL CLR (SQL Common Language Runtime –реализация размещения и запуска управляемого кода на .Net Framework в рамках СУБДMicrosoft SQL Server), так и на стороне сервера приложений (например, Microsoft IIS),что улучшает масштабируемость ИС.Преобразованиеквышеуказаннымформатампроводитсяспомощьюподпрограмм, написанных с использованием среды разработки Microsoft Visual Studio2008.4.5.3. Процедура загрузкиВ простейшем случае загрузка данных в хранилище может осуществляться черезиспользование ADO.Net и SQL–операторов типа:INSERT INTO DW_Systems (SystemID, SystemName, SystemXML)SELECT SystemID, SystemName, SystemXMLFROM IMET.dbo.Crystal.DW_SystemsWHERESystemIDNOTIN(selectSystemIDfromDW_Systems)Однако использование таких простых приемов, конечно, возможно только врамках одной организации, при наличии непосредственного доступа к связанному174серверу БД, имеющим информацию, подготовленную для загрузки в хранилище исогласованную по значениям идентификаторов.В подавляющем большинстве случаев, такая простая загрузка данных вхранилище не может быть осуществлена, поэтому пишутся программы для загрузкиXML-документов, полученных после этапа очистки преобразования данных.Традиционная работа с данными в ADO.NET строится по следующей схеме: 1)создается соединение Connection и открывается методом Open, 2) создается объектCommand, инкапсулирующий SQL-оператор, 3) выполняется SQL-оператор, 4)соединение закрывается.Использование метода интеграции на основе хранилищ данных (ETL) дляконсолидации материаловедческих данных в рамках одной организации или дляобъединения информационных ресурсов с общей политикой доступа являетсяобщепринятой практикой.
Это позволяет не только сократить временные затраты наизвлечение данных из единого ХД по сравнению с разрозненными информационнымиисточниками, но и открывает богатые возможности многомерного анализа данных.Применительно к компьютерному конструированию неорганических соединенийможно рассматривать интегрированной хранилище как информационную основу дляпоиска новых материалов обладающих заданными свойствами.Краткие выводыВ главе получены следующие результаты:Разработаны диаграммы потоков данных (DFD) и функциональные модели методовинтеграции данных (IDEF0).На основе полученной ER-модели разработана реляционная структура хранилищаданных по свойствам неорганических веществ.Описаны форматы данных для представления химических сущностей и их свойств вразработанном хранилище данных.Разработаны и реализованы алгоритмы для извлечения, преобразования и загрузкиинформации по свойствам неорганических веществ в хранилище данных.175ГЛАВА 5.
ИСПОЛЬЗОВАНИЕ ВИРТУАЛЬНОЙ ИНТЕГРАЦИИДАННЫХ ПРИ ПРОГНОЗИРОВАНИИ СВОЙСТВНЕОРГАНИЧЕСКИХ ВЕЩЕСТВ5.1. Подходы к интеграции информации средствами EIIПри интеграции информационных систем в различных предметных областяхглавной задачей становится задача стандартизации. Все концепции предметной областинеобходимо привести к единому виду, создав некую общую схему работы. Все частиинтегрированной системы должны быть стандартизованы, и между всеми частямидолжно быть задано соответствие, и существовать отображение между ними.В настоящее время существует ряд подходов к интеграции информации врамках EII и множество их модификаций. Все подходы основываются на схемах сучастием так называемого предметного посредника или медиатора (рис.
5.1.1).Рис. 5.1.1. Схема интеграции источников данных на основе схемы с участиемпредметного посредника (медиаторная схема).Предметный посредник отвечает за предоставление пользователям некоторогоунифицированного представления предметной области, для которой он создан. Так всезапросы пользователей поступают в предметный посредник, который отвечает за ихобработку и предоставление результатов пользователям.
Предметный посредник, какправило, имеет каталог источников данных, в котором содержатся сведения обинтегрируемых источниках, к которым он может обращаться для получения ответов назапросы. Предметный посредник осуществляет доступ к информации в интегрируемых176источниках, как правило, через специальные программные оболочки, служащие дляпрограммного согласования и называемые программными адаптерами.Следует выделить два основных подхода к интеграции источников данных,основанных на архитектуре предметных посредников или медиаторов:Global-As-View (GAV) – данный подход описывает глобальную схему предметнойобласти в терминах представлений (views) локальных схем источников данных;Local-As-View (LAV) – этот подход рассматривает схемы локальных источниковданных как материализованные представления (materialized views) в терминахобщей глобальной схемы предметной области.Следует отметить, что существует также множество гибридных подходов,сочетающих в себе GAV и LAV (например, GLAV, BAV и др.).Рассмотримболееподробнодваосновныхподходакинтеграцииинформационных источников с использованием EII.
Начнем с Global-As-View. Как ужеотмечалось, данный подход описывает глобальную схему в терминах представлений(views) локальных источников. На рис. 5.1.2 глобальная схема X определена какотображение источников Y и Z. Следовательно, структура локальных источников уже“жестко” заложена в предметный посредник и активно используется им для построенияответов на запросы.Рис. 5.1.2. Интеграция на основе принципа Global-As-View.Определения отображений используются для переформулирования запросов надглобальной схемой в последовательность запросов к локальным отображениям,заданным с помощью локальных схем. Этот подход использует относительно простыеметоды переопределения (переформулирования) запросов, при которых ответ на запрос177к общей схеме означает его развертывание (query unfolding) и переадресацию кконкретным источникам.
Примерами этого подхода являются COIN [49], MOMIS[50] иIBIS [52].При подходе Local-As-View [53, 54, 55] все конструкции локальной схемыопределены как представления глобальной схемы. Каждый источник данныхописывается одним или несколькими представлениями согласно общей схемепредметного посредника (рис. 5.1.3). Для этих преобразований поверх каждогоисточника создается специальный программный адаптер (wrapper) – специальнаяоболочка,учитывающаяпредоставляющаявнутреннеепредметномупредставлениепосредникуданныхвунифицированноеисточникеипредставлениеисточника согласно общей схеме.Рис. 5.1.3.
Интеграция на основе принципа Local-As-View.При этом подходе представления могут быть неполными, то есть они могут и несодержать записей (кортежей, если придерживаться терминов реляционных БД),удовлетворяющих определению представления, что происходит в том случае, еслиисточник не содержит информации, соответствующей данному представлению. Такойслучай встречается довольно часто, т.к. в интегрируемых источниках данных можетсодержаться неполная информация, предусмотренная рамками общей глобальнойсхемы.В этом случае обработка запросов над глобальной схемой сводится к перезаписизапросовсиспользованиемотображений.Цельюявляетсяпереформулировкапользовательских запросов (в терминах общей схемы) в запрос, ссылающийсянепосредственно на отображения всех интегрируемых источников данных, и178последующий поиск ответа на него. Этот подход был, например, применен в системахInformation Manifold, Agora [56].Следует отметить, что основная проблема интеграции источников данныхзаключается в неразрешимости интеграции на основе отображений в общем инедостижимости интеграции на основе отображений в большинстве случаев [57].
Этосвязано с тем, что в источниках информации данные могут оказаться либо неполными,либо противоречивыми. В настоящее время ведется ряд работ, направленных нарассмотрение частных случаев, при которых все же можно найти ответы на запрос приналичии неполных данных. Однако следует отметить, что эти ответы могут бытьразными в зависимости от гипотез, примененных к информационным источникам [58,59, 60, 61].
Преимущество же указанных выше подходов интеграции заключается в том,что они обеспечивают общее решение, если, конечно же, оно, вообще, существует.Рис. 5.1.4. Сравнение Local-As-View и Global-As-View.Рассмотрим кратко плюсы и минусы подходов LAV и GAV (рис. 5.1.4).LAV LAV-системы могут быть легко расширены за счет подключения новыхисточников данных, удовлетворяющих общей схеме (масштабируемость). Обработка запросов в LAV сложнее, чем в GAV и требует рассуждений.GAV Любое добавление или изменение источника ведет к изменению всейсхемы работы.179 С другой стороны, обработка запросов более проста, чем в LAV(простота реализации).Таким образом, построение интегрированной ИС на основе принципа LAVявляется более трудоемким, так как требует выработки общей глобальной схемы, втерминах которой могут быть описаны все источники данных в указанной предметнойобласти.