Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 13
Текст из файла (страница 13)
Многие БДдоступны в режиме удаленного доступа с использованием телекоммуникационныхсетей [2, 3]. Наиболее мощные системы баз данных предлагают NIST и STN [4, 5, 6, 7,8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18].Следует отметить, что только несколько баз данных, указанных в таблице 1.1,созданы для информационного обеспечения специалистов, разрабатывающих и65использующих вещества, используемые в электронной технике: СМЭТ [79, 80, 81, 82],БД по сверхпроводникам, разработанная в Токийском университете [105], SUPCONA[104], NIST/NRIM High Temperature Superconductors Database [6], NISTCERAM [7],ЭПИДИФ [113], БД, разработанная в МИТХТ [80, 114], Microelectronics PackagingMaterials Database, предлагаемая информационным центром CINDAS при PurdueUniversity [96].Базы данных по свойствам веществ для электроники ИМЕТ РАН [67, 71, 73]: БДпо фазовым диаграммам систем с полупроводниковыми фазами “Диаграмма” и БД повеществамсособымиакустооптическими,электрооптическимиинелинейнооптическими свойствами “Кристалл” – проблемно ориентированы нахимиков-технологовиспециалистоввобластиэлектроники.Существеннымиотличиями разработанных в ИМЕТ РАН информационных систем от созданных ранееявляются:сбориэкспертнаяоценкакачестваданныхосуществляютсявысококвалифицированными специалистами;отсутствие аналогов;возможность доступа из сети Интернет.2.2.
Создание ИС по информационным ресурсам неорганическойхимии “IRIC”В современном мире наблюдается неуклонный рост потоков информации вовсех отраслях человеческой деятельности. За последние десятилетия неорганическимматериаловедением был накоплен колоссальный массив сведений по широкомуспектру свойств современных материалов, а также технологиям их получения. По мереразвития научно-технического прогресса наблюдалась естественная эволюция средствдоставки информации до потребителей. В современном материаловедении запоследние десятилетия был пройден путь от попыток систематизации накопленнойинформации в справочниках, статьях, монографиях до повсеместного использованияспециализированных информационных систем, использующих базы данных. Натекущий момент именно базы данных в наибольшей степени отвечают потребностямспециалистов по неорганическому материаловедению, поскольку обеспечиваютбыстрый поиск информации, поддерживаемой, в отличие от бумажных носителей, вактуальном состоянии.Впоследнеевремявмиренаблюдаетсянеуклонныйростчисламатериаловедческих баз данных (БД) и основанных на них информационных систем(ИС).
Разработка ИС СНВМ на основе БД ведется во всех промышленно развитых66странах на многих языках. Среди крупнейших разработчиков ИС СНВМ, какотмечалось ранее, стоит выделить NIST, STN и NIMS.Несмотря на увеличивающиеся объемы данных, содержащиеся в рамках БД, ниодна из них не содержит полного описания всех свойств веществ. Поэтомувсестороннее изучение свойств того или иного материала требует анализа информациииз целого ряда информационных систем. Такой анализ является необходимым,поскольку в современных многофункциональных устройствах только исчерпывающаяхарактеристика материала позволяет материаловеду принять решение об егоиспользовании. Таким образом, перед исследователем встает проблема поискатребуемойинформациивразрозненныхИССНВМ,чтоневозможнобезсистематизации самих ИС СНВМ.
Именно задача систематизации наиболее значимыхинформационных ресурсов по свойствам неорганических веществ решалась на базеИМЕТ РАН при разработке ИС “IRIC” по информационным ресурсам в областинеорганической химии (IRIC – Information Resources on Inorganic Chemistry) [313].2.2.1. Схема данныхКак известно, любая ИС состоит наполовину из данных, а наполовину – изпрограммного кода.
Схема данных является наиболее критичной частью дляреализации любой ИС, поскольку основные функции ИС разрабатываются именно науровне схемы данных. Таким образом, если схема данных поддерживает некоторуюфункциональность, то программный код способен реализовать ее. Если нет, то, как быхороша не была программная реализация, конечная ИС не сможет качественноподдерживать функции, изначально не заложенные в схему БД. Поэтому важно быловыделить основные сущности для ИС “IRIC” и отношения между ними, которые позжелягут в основу проектируемой БД [314].Перечислим основные из сущностей, выделенные при разработке схеме данных:страны,организации-разработчики,БД,ключевыеслова,литературныепубликации и их авторы, условия доступа к БД (политики доступа).Послесоставлениявербальной модели быласоставлена ER-диаграмма(диаграмма сущность связь), которая затем была преобразована в физическую модельданных, представленную в Microsoft SQL Server 2008.
Все таблицы создавались спомощью SQL DDL (Data Definition Language) операторов, в которых описывалисьатрибуты отношений, их типы данных, а так же связи с другими таблицами. Приведемпример для таблицы (LitReferences), описывающей литературные публикации, изкоторых стало известно о существовании описываемой тои или иной ИС СНВМ:67CREATE TABLE [dbo].[LitReferences]([ReferenceID] [int] NOT NULL,[Article] [varchar](2048) NOT NULL,[Source] [varchar](2048) NOT NULL,[Year] [int] NOT NULL,[Volume] [varchar](32) NOT NULL,[Number] [varchar](32) NOT NULL,[Pages] [varchar](32) NOT NULL,CONSTRAINT [PK_References] PRIMARY KEY CLUSTERED([ReferenceID] ASC) ON [PRIMARY]) ON [PRIMARY];Рис. 2.2.1. Логическая модель ИС “IRIC”.В результате получили логическую реляционную и физическую модель данныхв Microsoft SQL Server 2008 (рис.
2.2.1). Связи на диаграмме связывают одноименные68поля соединяемых таблиц, первичные ключи таблиц отмечены знаками “желтый ключ”.Следует отметить, что при разработке схемы БД учитывалась возможностьпредставления всей информации на двух языках: русском и английском. Этовпоследствии открыло возможность для написания русскоязычного и англоязычногоинтерфейса к БД “IRIC”, что позволило широкому кругу материаловедов не только внашей стране, но и за рубежом использовать данную ИС.2.2.2.
Web-приложениеКак известно, интернет является средой обеспечивающей быстрый доступ кинформации из любой точки мира, поэтому для доступа к информации ИС “IRIC” былоразработано Web-приложение, написанное на классическом ASP (Classic ASP) сиспользованием ActiveX Data Objects (ADO) в качестве интерфейса доступа кразработанной выше БД. Пример, скрипта на языке VBScript, открывающийподключение к БД “IRIC” приведен ниже:<%Dim BDN, RSNFunction Initialize(ConnectionString)Set BDN = Server.CreateObject("ADODB.Connection")BDN.Open ConnectionStringSet RSN = Server.CreateObject("ADODB.Recordset")RSN.ActiveConnection = BDNRSN.CursorLocation = 3RSN.CursorType = 0RSN.LockType = 1End FunctionCall Initialize("Provider=SQLOLEDB;DataSource=193.233.10.65;InitialCatalog=Iric;UID=xxxxxxxx;PWD=xxxxxxxx; ")%>Результатом работы VB-скрипта, является открытое соединение с БД, и объектADO Recordset, готовый к выполнению поисковых запросов.
После завершения работыс соединением, его необходимо закрыть, вызвав метод Close объекта Connection, т.е. вданном случае BDN.Close.На основании структуры данных в БД был разработан рубрикатор Webприложения (рис. 2.2.2), впоследствии трансформировавшийся в главное меню и егоподразделы (рис. 2.2.3). При создании разделов рубрикатора использовалась созданная69с участием автора система SimpleCMS, облегчающая создание навигационныхэлементов Web-приложений [311].Рис. 2.2.2.
Структура Web-приложения “IRIC”.В 2013 году в Web-приложение были встроены поисковые средства Google(Google Search engine), позволяющие осуществлять качественный полнотекстовыйпоискповсемусодержимому,генерируемомуWeb-приложением,включаяполнотекстовые статьи в PDF-формате [311].Рис. 2.2.3. Пользовательский интерфейс ИС “IRIC”.Эти средства наряду с реализованным в “IRIC” поиском ИС СНВМ поключевым словам дает пользователям дополнительную гибкость при работе с ИС. ИС“IRIC” поддерживает ряд поисковых запросов, которые отличаются количеством итипом критериев поиска.
Например, поддерживается поиск по организации-70разработчику, литературным публикациям, по заданному набору ключевых слов и др.На рис. 2.2.4. показан фрагмент интерфейса, содержащий поиск по ключевым словам“энтальпия” и “энтропия”, как видно из снимка экрана, на сегодняшний день ИС“IRIC”, известно три БД, удовлетворяющие критерию поиска [299].ИС “IRIC” доступна круглосуточно и обеспечивает мгновенный доступ кинформации через любую программу-браузер. Русскоязычный интерфейс доступен поадресу http://iric.imet-db.ru, полный англоязычный аналог – по адресу http://en.iric.imetdb.ru. Вся информация в ИС предоставляется в открытом доступе (бесплатно) для всехжелающих.
В настоящее время “IRIC” содержит сведения о 122 информационныхресурсах, созданных в мире.Рис. 2.2.4. Пример результатов запроса к ИС “IRIC” по ключевым словам.Отличительными особенностями “IRIC” являются:первый в мире каталог по информационным ресурсам в области неорганическойхимии и материаловедения, содержащий библиографические источники;интерфейс на русском и английском языках;возможность поиска по метаданным и полнотекстового поиска, включаябиблиографию.Разработанная ИС “IRIC” позволяет материаловедам не только получатьинформацию о существующих в мире БД по свойствам неорганических веществ нарусском и английском языках, но и проводить поиск таких БД по многокритериальнымзапросам. Создание ИС “IRIC” позволяет систематизировать имеющеюся информациюв материаловедческих БД на самом верхнем уровне и указать варианты наиболееразумной интеграции созданных ИС с целью минимизации времени затрачиваемогоспециалистами на поиск требуемой информации.
А это, в свою очередь, являетсяважным шагом на пути к созданию единой интегрированной материаловедческойинформационной системы следующего поколения.712.3. Архитектура современных информационных систем по свойствамвеществ2.3.1. Использование трехзвенной архитектурыПри рассмотрении ИС СНВМ, информация по которым доступна в ИС “IRIC”,можно констатировать, что большинство их них спроектированы и разработаны сучетом современных требований, предъявляемых к построению ИС. Так, большинствосистем располагают Web-интерфейсами и доступны для пользователей черезглобальную сеть Интернет. Если рассматривать архитектурно-технологические аспектыпостроения этих систем, то можно обнаружить много схожих моментов.Рис.
2.3.1. Трехзвенная архитектура ИС с доступом пользователей через Интернет.Приразработкепрограммногообеспечения(ПО)всехИнтернет-ориентированных ИС использовалась распределенная модель построения приложенийна основе парадигмы “клиент-сервер”. В соответствии с положениями этой парадигмыреализуется разделение операций по обработке и отображению информации междусервером и персональным компьютером клиента – пользователя информационнойсистемы. При построении ИС использовалась классическая трехзвенная архитектура.Трёхзвеннаяархитектура–вариантархитектурыклиент-сервер,вкоторойпользовательский интерфейс, логика работы приложения, доступ к данным и хранениеданных разрабатываются и функционируют как независимые модули, зачастую на72различных программно-аппаратных платформах (рис. 2.3.1).