Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 34
Текст из файла (страница 34)
Разработка программных адаптеров для подключения источников данных кинтегрированной ИС по принципу LAV значительно сложнее, так как каждый адаптерв данном случае выполняет полное преобразование внутренней схемы источникаинформации к общей глобальной схеме. В то же время, для GAV разработка такихадаптеров, строго говоря, не требуется вовсе, поскольку предметный посредникучитывает особенности информационной схемы интегрируемых источников и можетосуществлять доступ непосредственно к информационному источнику.Несмотря на трудоемкость построения интегрированной ИС по принципу LAV,у таких систем есть неоспоримое преимущество перед GAV – масштабируемость.
Тоесть для добавления нового источника данных в интегрированную систему попринципу LAV необходимо лишь написать программный адаптер для преобразованиявнутренних информационных структур источника к общей информационной схеме идобавить описание данного источника в каталог источников данных интегрируемойсистемы. При этом подключение нового источника данных может быть выполнено налету,безприостановкиработыинтегрированнойИСиизменениясхемфункционирования интегрированной ИС. Аналогично, в случае изменения внутреннейструктуры данных какого-либо источника потребуется лишь соответствующаяпереработка программного адаптера этого источника, в то время как интегрированнаяИС не претерпит никаких изменений. Попытка же добавления нового источникаданных в ИС, построенную по принципу GAV, потребует пересмотра общей схемыинтегрированной ИС и, следовательно, коренных модификаций в самом предметномпосреднике.Таким образом, учитывая необходимость построения легко масштабируемойинтегрированной ИС и масштабируемость интегрированных ИС, построенных попринципу LAV, принято решение использовать принцип Local-As-View для построенияинтегрированной ИС.5.2.
Реализация интеграции гетерогенных источников данныхинформационных системПринципы построения ИС, объединяющей гетерогенные источники данныхинтегрируемых ИС СНВМ, были рассмотрены в главе 3. В настоящей главе будет180рассмотрена реализация интеграции источников данных ИС в рамках предложенногоподхода.Исходя из анализа доминирующих в настоящий момент технологическихплатформ для построения ИС, проведенного в главе 3.5 настоящей работы, былопринято решение использовать технологическую платформу компании Microsoft(Windows Server + IIS 7), что позволит минимизировать затраты на разработкуинтегрированной ИС.5.2.1. Описание структуры метабазыПри построении интегрированной ИС, объединяющей источники информацииИС по свойствам неорганических веществ, необходимо обеспечить хранение некоторойслужебной информации.
Эти данные необходимы для успешного разрешенияконфликтов гетерогенности и интеграции источников данных согласно методике,описанной в главе 3.4. Для хранения данных было принято решение использоватьреляционную БД, именуемую в дальнейшем метабазой. Учитывая необходимостьобработки XML-документов в рамках метабазы, для управления информационной БД,лежащей в основе интегрированной ИС, было принято решение использовать MicrosoftSQL Server 2008, обладающей богатыми возможностями (.Net CLR, XPath, XQuery) поработе с XML-документами внутри БД.В связи с тем, что интегрируемые ИС СНВМ могут пересекаться по наборусвойств, а качество информации (достоверность и полнота) в каждой ИС отличаетсядля разных свойств, целесообразно включение в структуру метабазы экспертнойоценкиинформационныхвысококвалифицированнымиресурсов.специалистами,Экспертизакоторыевыставляютпроводитсяоценки,характеризующие качество данных в разных интегрируемых информационныхсистемах.
Это сделано для того, чтобы при наличии информации по какому-либофизико-химическому свойству определенного вещества или химической системы внескольких интегрируемых базах данных, пользователь имел возможность выбратьнаиболее достоверные и полные данные. При этом остается возможность просмотра ивсей информации из разных ИС СНВМ.При создании интегрированной ИС ключевой проблемой является разработкаструктуры метабазы, которая содержит ссылки на информационные ресурсы,интегрируемые по технологии LAV. Рассмотрим разработанную структуру метабазыдля интеграции информационных источников по свойствам веществ, указывая, какую181функциональность, опирающуюся на структуру этих таблиц, будет реализовыватьинтегрированная ИС (рис.
5.2.1).Рис. 5.2.1. Структура метабазы информационной системы, интегрирующей источникиданных информационных систем по свойствам неорганических веществ.Таблица Meta_DBInfoЯвляется главной таблицей, в которой хранится список интегрируемыхисточниковданныхИСпосвойствамнеорганическихвеществ.Каждомуподключаемому источнику данных ИС присваивается уникальный целочисленныйидентификатор DBID (тип int), который является первичным ключом таблицыMeta_DBInfo.
В этой таблице для каждой интегрируемой ИС содержатся учетныеданные для работы с сервисами интегрированной ИС (поля Login (тип varchar(32)) иPassword (тип varchar(32))). Кроме того, каждыйисточник данных долженпредоставлять данные предметному посреднику через собственный Web-сервис.
АдресWeb-сервиса и учетные данные, которые предметный посредник должен использоватьдля доступа к нему, хранятся в полях DBWebServiceURL (тип varchar(256)),DBWebServiceLogin (тип varchar(32)) и DBWebServicePassword (тип varchar(32)).Отметим, что новые источники данных можно подключать во время работыинтегрированной ИС, добавляя соответствующие записи в эту таблицу. Также можно182приостанавливать обращения предметного посредника к уже известным источникамданных, устанавливая поле Enabled (тип bit) в 0 (False).Таблица Meta_PropertyInfoВ ней содержится список свойств, информация о которых хранится винтегрируемых источниках данных ИС.
Эта таблица используется для разрешениясемантических конфликтов в интегрированной ИС. Каждому свойству присваиваетсяуникальный целочисленный идентификатор PropertyID (типint),являющийсяпервичным ключом таблицы. Все Web-сервисы, предоставляющие данные из своихинформационных источников, должны для обозначения свойств использовать толькоидентификаторы PropertyID, содержащиеся в этой таблице.
Поле Name (типvarchar(256)) содержит название свойства, а поля SynonymsXML и SynonymsStringиспользуются для хранения списка синонимов к названию свойства в поле Name изадействованы при разрешении семантических конфликтов. Важным является полеStatus(типint),котороеиспользуетсядляхранениястатусаглобальногоидентификатора, который обсуждался в главе 3.4.
При этом статусу “надежный”соответствует 1, а статусу “ненадежный” соответствует 0. Поле Status присутствует и вдругих таблицах, а его назначение всегда связано с надежностью глобальныхидентификаторов, присутствующих в соответствующих таблицах.Таблица Meta_SystemInfoПредназначена для хранения списка химических систем (наборов обозначенийхимических элементов, образующих химическую систему), зарегистрированных вметабазе. Порядок следования химических элементов, естественно, значения не имеет.Каждой химической системе соответствует уникальный идентификатор SystemID (типint), являющийся первичным ключом таблицы и использующийся при ссылках насоответствующую химическую сущность.
Эта таблица используется для сквознойнумерации всех химических систем в интегрированной ИС. Поле SystemXML (тип xml)содержит описание химической системы в оговоренном XML-schema [166] формате –это фактически множество химических элементов (рис. 5.2.2). Можно сказать, чтотаблица Meta_SystemInfo задает множество S , описанное в главе 3.4, т.е. каждая строкатаблицы есть элемент множества: s {e1 , e2 ,.., en } .183Рис. 5.2.2. Пример XML-документа, описывающего химическую систему Ga-As(снимок экрана из Microsoft IE).Таблица Meta_SubstanceInfoПредназначена для хранения списка химических веществ, зарегистрированных вметабазе. Согласно принятой в главе 3.4 модели, вещество c может быть представленокортежем s, f , т.е.
дополнительно к набору химических элементов определено иколичественноевхождениекаждогоэлементавсоставвещества.Каждомухимическому веществу ставится в соответствие пара уникальных целочисленныхидентификаторов (SystemID, SubstanceID), являющихся ключом таблицы. ПолеSubstanceXML (тип xml) содержит описание химического вещества в оговоренномXML-schema [166] формате (рис.
5.2.3).Рис. 5.2.3. Пример XML-документа, описывающего химическое вещество In2S3 (снимокэкрана из Microsoft IE).Таблица Meta_ModificationRegistryПредназначенадляхранениявозможныхобозначенийкристаллическихмодификаций. Основное ее назначение – разрешение семантических конфликтов вобозначениях модификаций, используемых в различных интегрируемых ИС. В этойтаблицевозможнымобозначениямкристаллическихмодификацийставитсявсоответствие целочисленный идентификатор ModificationID (тип int), являющийсяпервичным ключом таблицы.
Поле Name (тип varchar(256)) содержит названиемодификации, а поля SynonymsXML и SynonymsString используются для хранениясписка синонимов к названию модификации в поле Name и задействованы приразрешении семантических конфликтов. Поле Status (тип int) используется дляхранения статуса глобального идентификатора, который обсуждался в главе 3.4. Приэтом статусу “надежный” соответствует 1, а статусу “ненадежный” соответствует 0.184ПолеSynonymsXML(типxml)содержитсписоксинонимовобозначениякристаллической модификации вещества в оговоренном XML-формате (рис.
5.2.4).Рис. 5.2.4. Пример XML-документа, описывающего список синонимовромбоэдрической модификации (снимок экрана из Microsoft IE).Таблица Meta_ModificationInfoПредназначена для хранения списка кристаллических модификаций химическихвеществ,зарегистрированныхвметабазе.Ключомтаблицыявляетсятройкаидентификаторов SystemID, SubstanceID, ModificationID. Фактически, эта тройкаидентификаторов соответствует тройке ( s, c, m) , где s S , c C , m M , рассмотреннойв главе 3.4.Таблица Meta_ExpertInfoВ ней хранится список экспертов, которые имеют право осуществлять оценкукачестваинтегрируемыхданных.Ключомтаблицыявляетсяцелочисленныйидентификатор эксперта ExpertID (тип int).
Поле Enabled (тип bit) указывает, активенли эксперт, т.е. может ли он осуществлять вход в ИС и оценку качества данных (1) иливременно доступ для него закрыт (0). Учетные данные экспертов хранятся в поляхLogin (тип varchar(32)) и Password (тип varchar(32)). Поле AccessType (тип int) содержитспецификацию прав доступа эксперта к системе и может принимать следующиезначения:0 – эксперт имеет только право оценивать качество данных.
Фактически под этимподразумевается внесение изменений (только от своего имени) в таблицыMeta_DBExpert, Meta_PropertyExpert, Meta_SystemExpert, Meta_SubstanceExpert,Meta_ModificationExpert.1 – эксперт имеет право оценивать качество данных (как при AccessType=0) икорректировать работу подсистемы разрешения семантических конфликтов. ПодэтимпонимаетсяуправлениеполямиStatusтаблицMeta_PropertyInfo,Meta_SystemInfo, Meta_SubstanceInfo, Meta_ModificationRegistry и внесение в нихсоответствующих изменений. Также допускается исправление списка синонимовдля соответствующих сущностей в этих таблицах.185Таблица Meta_SystemExpertВ ней содержатся экспертные оценки качества данных для химических систем,описанных в источниках данных интегрируемых ИС. Ключом таблицы является связкаполей DBID, SystemID, ExpertID.
Это означает, что экспертом ExpertID оцениваетсякачестводанныхдляхимическойсистемысидентификаторомSystemIDвинтегрируемой системе DBID. Оценка содержится в поле ExpertRating (тип float) иможет быть в интервале [0; 10]. Чем больше значение поля, тем выше, по мнениюэксперта, качество данных. Если экспертная оценка экспертом ExpertID дляхимической системы SystemID интегрируемой ИС DBID не задана, то она считаетсяравной 1.Таблица Meta_SubstanceExpertХранит экспертные оценки качества данных для химических веществ,описанных в источниках данных интегрируемых ИС. Ключом таблицы является связкаполей DBID, SystemID, SubstanceID, ExpertID.
Назначение полей аналогично таблицеMeta_SystemExpert.Таблица Meta_ModificationExpertХранит экспертные оценки качества данных для модификаций химическихвеществ, описанных в источниках данных интегрируемых ИС. Ключом таблицыявляется связка полей DBID, SystemID, SubstanceID, ModificationID, ExpertID.Назначение полей аналогично таблице Meta_SystemExpert.Таблица Meta_DBExpertХранит экспертные оценки качества данных в целом в интегрируемомисточнике данных ИС. Ключом таблицы является связка полей DBID, ExpertID.Назначение полей аналогично таблице Meta_SystemExpert.Таблица Meta_PropertyExpertВ ней хранятся экспертные оценки качества данных для свойств, описываемых винтегрируемом источнике данных ИС.