Интеграция автономных источников данных для прогнозирования свойств неорганических веществ (1090500), страница 7
Текст из файла (страница 7)
Поэтому федерализация данных применяется в тех случаях,когдаполитикабезопасностиданныхилицензионныеограничениязапрещают копирование данных первичных систем.Среди недостатков подхода можно выделить нелинейно возрастающуюсложностьреализацииприувеличениичислаисточников(наличиесущественных различий в модели данных может значительно усугубитьситуацию),выполнениивысокиетребованиязапросовмогуткскоростивозникатьобменазадержки,данными.
Присвязанныеснеобходимостью обмена данными между источниками и программойпосредником [51].Результаты сравнения различных подходов к интеграции данныхобобщены в табл. 2.1.38 Таблица 2.1. Сравнение подходов к интеграции данныхХарактеристикаданныхОбъем данных,извлекаемых изпервичной ИСДоступ к даннымпервичной ИСАктуальностьинтегрированныхданныхХранение извлекаемыхданныхФормат извлекаемыхданныхКонсолидацияданныхвсе данныепериодический, вмомент обновленияна момент последнейзагрузкидолговременное, вхранилище данныхинтегрированной ИСопределяется ИСисточника данныхФедерализацияданныхтолько данные,запрашиваемыевнешним приложениемв момент запросапостояннократковременное, дляформирования ответа назапросопределяется ИСинтеграции данных2.2. Построение неформального описания информационных процессов,осуществляемых при интеграции данных.На первом этапе системного анализа информационных процессов,осуществляемых в процессе обработки внешнего запроса, используетсяметодиерархическойдекомпозиции,позволяющийпоследовательноразбивать исследуемые системы на подсистемы и устанавливать взаимосвязиотдельных подсистем.Выполнение внешнего запроса при использовании автономныхисточников данных осуществляется следующим образом.
От пользователя(человека или другого приложения) поступает запрос на некоторые данные.Этотзапросчерезспециальныйинтерфейсобрабатываетсявинтегрированной ИС, центральной частью которой является программапосредник. Используя метобазу, описывающую внешние информационныеисточники, программа определяет, к каким из них необходимо обратитьсядляполученияданных,иформируетпроизводныезапросы.Длявзаимодействия между посредником и информационными источникамииспользуется единый, стандартизированный в рамках данной системыинтеграции данных, интерфейс. Для каждого из источников дополнительно39 реализуется адаптер извлечения и преобразования данных, которыйобеспечивает учет особенностей первичной ИС.
Помимо извлечениятребуемых данных из первичных источников, адаптеры выполняютнеобходимые преобразования данных к единому формату. Программапосредник агрегирует полученные данные и возвращает пользователюрезультаты запроса. На этапе агрегации возможно преобразование иизменение данных, устранение конфликтов данных.МетаданныеявляютсяважнымэлементомфедеративнойИС,поскольку представляют собой описания источников данных, которыеиспользуются посредником для выбора источников данных и формированиязапросов к ним.Результатом системного анализа информационных процессов являетсядетализированное, иерархическое, но неформальное описание интеграцииавтономных источников данных, которое приведено на рис.
2.1. Границы ИСобозначены на схеме штрихпунктирными линиями, стрелками изображеныосновные информационные процессы:• формирование запросов к данным,• извлечение данных• преобразование данных.Как видно из схемы, для интеграции данных в рамках федеративногоподхода необходимо разработать:• метабазу внешних данных, описывающую первичные информационныеисточники,• программы-адаптеры, взаимодействующие с первичными источникамиданных,• программу-посредник, обеспечивающую выбор и формирование запросовк первичным информационным источникам и агрегацию полученных отэтих источников данных.Далее это неформальное описание детализируется и формализуется.40 приложение пользователярезультатзапросазапросданныхИнтегрированнаяИСинтерфейспользователяагрегацияданныхопределениеисточниковданныхпрограмма-посредникзапросданныхпреобразование запросданныхданныхадаптеризвлечения ипреобразованияданныхзапросданныхметабазавнешнихданныхпреобразованиеданныхадаптеризвлечения ипреобразованияданныхизвлечениеданныхзапросданныхисточникданныхизвлечениеданныхисточникданныхИС источника данныхИС источника данныхРис.
2.1 Схема интеграции автономных источников данных.2.3. Моделирование потоков данныхДля формализованного описания потоков данных в ИС интеграцииданных используются диаграммы потоков данных (Data Flow Diagram, DFD)[52].Диаграммы потоков данных описывают взаимодействие исследуемогопроцесса с внешней средой, при этом исследуемый процесс понимается какпоследовательное преобразование данных или материальных объектов отисходногосостоянияктребуемому[53].Моделируемыйпроцесспредставляется в DFD как набор процессов, связанных между собойинформационными потоками. DFD-модель представляет собой набор41 иерархическиорганизованныхдиаграмм.Основнымикомпонентамидиаграмм являются процессы, потоки данных, внешние сущности инакопители (хранилища) данных (см.
рис. 2.2).Рис. 2.2. Обобщенная диаграмма потоков данных в ИС интеграцииданныхСпособ реализации процесса в модели DFD не рассматривается, этоможет быть организация, сотрудник, программа и т.п. Процесс изображаетсяв виде прямоугольника со скругленными краями, внутри которогоразмещается его уникальное имя.Внешние сущности описывают источники или приемники информации,с которыми взаимодействует описываемый процесс. Внешние сущностимогут представлять собой организации, физические лица, информационныесистемы или материальные объекты.
Внешние сущности изображаются ввиде прямоугольников с прямыми краями.Потоки данных описывают передачу информации или материальныхобъектов. Потоки данных изображаются в виде стрелок, причем не имеетзначения, с какой стороной прямоугольника связана стрелка. Стрелка можеттакже быть двунаправленной.Накопитель данных описывает абстрактное устройство, куда данныеили материальные объекты можно поместить и из которого их можно влюбое время извлечь. Накопитель может быть реализован в виде склада (дляматериальных объектов), файла данных на магнитном носителе, таблицы вбазе данных и т.п. Накопитель изображается в виде прямоугольника спрямыми краями.42 Процессы, внешние сущности и накопители данных нумеруются попорядку независимо друг от друга.Каждыйпроцесснадиаграммепотоковданныхможетбытьдетализирован на дочерней диаграмме.
Дочерняя диаграмма наследуетпотоки данных, которые взаимодействовали с процессом на родительскойдиаграмме, но может включать в себя также и другие потоки данных,внешние сущности и накопители данных.Моделирование потоков данных начинается с построения обобщеннойдиаграммы. На ней представлено основное назначение информационнойсистемы – обработка данных. Эта модель является наиболее абстрактной исодержит минимально необходимые указания на конкретную предметнуюобласть. Обычно в состав контекстной диаграммы входит единственныйпроцесс и несколько абстрактных накопителей данных.
Обобщеннаядиаграмма потоков данных при интеграции данных приведена на рис. 2.3.Источникиданныхинтеграция иобработкаданныхДанные дляпользователяМетаданныеРис. 2.3. Обобщенная диаграмма потоков данных в ИС интеграцииданныхЕдинственный процесс на этой диаграмме в наиболее общем видеописывает задачи, решаемые в рамках интегрированной информационнойсистемы.Накопитель «источники данных» представляет собой базы данных, вкоторых хранится первичная информация и которые подлежат интеграции.Формализованное представление в нотации Гейна-Сарсона не допускаетизображения множественных прямоугольников, как это было использованона рис. 2.1, для отражения факта множественности источников данных.43 Накопитель«данныедляпользователя»описываетрезультатывыполнения внешних запросов к интегрированной информационной системе,поступившихотпользователя.Возможноедальнейшееприменениеполученных данных лежит за рамками ИС интеграции данных и наконтекстной диаграмме не отражено.Накопитель «метаданные» содержит описания источников данных.Назначение и особенности использования метаданных будут отражены напоследующих уровнях декомпозиции.Выделение различных накопителей данных подчеркивают различие вформатах и назначении данных.Далее эта диаграмма детализируется.
Выделяют 3 последовательныхинформационных процесса: извлечение, преобразование и представлениеданных. После проведения декомпозиции контекстной диаграммы в модельпотоков данных включаются новые накопители данных и процессы ихобработки. В общем случае передача данных от одного процесса к другомуосуществляется через промежуточный накопитель данных. В некоторыхслучаях ему может не соответствовать ни одного реального физическогообъекта хранения (если информация обрабатывается в режиме реальноговремени без промежуточной записи в долговременное хранилище). Тем неменее, для обобщения представления и абстрагирования от деталейконкретной реализации на первом уровне декомпозиции в соответствии стребованиями нотации отображение промежуточного накопителя данныхявляется обязательным.
Диаграмма потоков данных первого уровнядекомпозиции технологий интеграции данных, представленная на рис. 2.4,содержит более детальное представление процессов интеграции данных.Процесс извлечения данных при федеративном подходе к интеграциивыполняется адаптерами данных в ИС источников данных в режимереального времени с предоставлением доступа к небольшому объемуизвлекаемых данных. Преобразование форматов данных осуществляется наоснове метабазы внешних данных. Хранение преобразованных данных в44 реальном накопителе данных (хранилище данных) при федеративномподходе не предусматривается.