Интеграция автономных источников данных для прогнозирования свойств неорганических веществ (1090500), страница 6
Текст из файла (страница 6)
БД разработана совместно Институтомметаллургии и материаловедения им.А.А.Байкова РАН и Институтомхимических проблем микроэлектроники.База данных «Диаграммы» содержит информацию о соединениях,образованных двумя и тремя химическими элементами. В этой базе хранитсяследующая информация:• таблицы оцененных экспертами экспериментальных данных по линияммноговариантных, моновариантных и нонвариантных равновесий, данныепо особым точкам;• таблицы данных по указанным выше линиям равновесий и особымточкам,полученныеврезультатестатистическойобработкиилитермодинамического согласования экспериментальных данных;• рисунки фазовых диаграмм;• сведения о кристаллической структуре фаз,• данные о термодинамических свойствах фаз и систем, которыеиспользуются для термодинамического согласования фазовых диаграмм.• аналитические обзоры по фазовым диаграммам.Важной особенностью базы данных «Диаграмма» является оценкадостоверностихранящейсяинформации,выполненнаяэкспертами–ведущими специалистами РАН, НИИ и ВУЗов, имеющие опыт исследованияполупроводниковыхсистем.Достоверностьизмерениякаждогоэкспериментального значения (содержания компонентов, температуры,давления и т.д.) в таблицах оценивалась экспертами по пятибалльной шкале,соответствующей различным фиксированным уровням ошибок измерения.33 Информация о величине ошибки, предлагаемая экспертом, выдаетсяпользователю при просмотре соответствующей информации.Отметим,чтобазаданныхпозволяетпросматриватьфазовыедиаграммы как в статическом режиме, так и в динамическом (сиспользованиемflash-плеера).Имеетсявозможностьдинамическогоопределения координат точек на фазовых диаграммах и масштабированиярисунков, что позволяет просмотреть и распечатать наиболее интересные дляспециалиста области диаграмм.При заполнении базы данных использовано более 2 тысяч источников.Для каждого соединения указаны библиографические источники данных,причем имеется возможность доступа к полным текстам статей.1.4.3.
База данных по свойствам кремния “Кремний”БДразработанасовместноИнститутомметаллургиииматериаловедения им.А.А.Байкова РАН, Институтом химических проблеммикроэлектроники и научно-исследовательским и проектным институтомредкометаллическойпромышленности«Гиредмет».Информация,хранящаяся в этой базе данных, собиралась специалистами этих институтовначиная с 1985 г. Она доступна зарегистрированным пользователям вглобальной сети Интернет [45].Базаданных«Кремний»содержитинформациюопроцессахполучения, очистке, выращивании монокристаллов, пластинах кремния,эпитаксиальных структурах, методах контроля свойств, а также информациюо физико-химических свойствах кремния, о его мировых производителях ипотребителях, о мировом уровне промышленного производства кремния, оконкурентоспособных показателях, требуемых для выхода кремниевойпродукции на мировой рынок, о тенденции развития, об аппаратуре,используемой в современной технологии и о направлениях ее развития и т.д.34 1.5.
Задача интеграции различных источников данных для обеспеченияинформационной поддержки компьютерного прогнозирования свойствнеорганических веществКомпьютерноепрогнозированиесвойствновых,ещенесинтезированных неорганических веществ на основе информации об ужеизвестных веществах и их свойствах, является одним из современныхметодов, обеспечивающих сокращение времени и затрат на получение новыхматериалов.
Исходные данные для прогнозирования – информация оструктуре и свойствах известных неорганических соединений – хранятся вспециализированных базах данных. Однако ни одна из существующихинформационных систем по свойствам неорганических соединений неспособна предоставить исчерпывающую информацию обо всей совокупностисвойств конкретного вещества. Фрагментарность данных является одной изпроблем, существенно усложняющей создание новых веществ с требуемымисвойствами. Применение различных программно-аппаратных платформ,различие в форматах и режимах доступа к данным существенно осложняютсовместное использование различных информационных ресурсов дляпрогнозирования свойст новых неорганических соединений.
Интеграцияразнородных информационных ресурсов, позволяющая обеспечить химиковтехнологов достоверной информацией о свойствах и технологиях получениянеорганических веществ, является актуальной научной задачей.Выше, в разделе 1.2, задача выявления и анализа взаимосвязей междусоставом и свойствами соединения формализована как задача распознаванияобразов.Цельюрешенияэтойзадачиявляетсяформированиеклассифицирующих правил, которые позволяют разбить множество ужеизвестных соединений, каждое из которых описано с помощью наборапризнаков, на классы, соответствующие свойствам этих соединений.Полученные правила могут быть применены и к еще не синтезированнымсоединениям, в результате чего может быть получен прогноз свойств новыхсоединений.
В этом же разделе рассмотрены основные особенности35 неорганическогоматериаловедения,какпредметнойобласти,прииспользовании математических методов распознавания, и проанализированысовременныеприкладнойметодыраспознаваниястатистики,нейронныеобразов,сети,вчастности,методы,методыоснованныенаматематической логике. Предложены способы интеграции отдельныхпрогнозов, на основе комитетных методов академика Ю.И. Журавлева.Построен критерий оценки прогностических возможностей, описывающийсоотношение количества неверных прогнозов с общим количествомсоединений, входящих в обучающую выборку.Применение основных принципов и методов системного анализа,преждевсего,методаиерархическойдекомпозиции,кпроблемепрогнозирования свойств новых неорганических соединений, позволяетсформулировать задачу интеграции различных источников данных дляобеспечения информационной поддержки компьютерного прогнозированиясвойств неорганических веществ и сформулировать основные этапы еерешения [46]:• выбор метода интеграции данных на основе системного анализаразличных методов,• формализация описания информационных процессов интеграции данных,• реализация интегрированной ИС,• применение интегрированной ИС для решения задач компьютерногопрогнозирования.36 Глава 2.
Информационное моделирование технологийинтеграции данных2.1. Методы интеграции данныхПод интеграцией данных обычно понимают комбинирование данныхиз разных источников, с тем, чтобы создать их целостное, унифицированное,согласованное представление [47]. Отметим, что информация в различныхинформационныхсистемахможетхранитьсянетольковформераспространенных баз данных, но и в других видах, например, в форматахэлектронных таблиц (например, Microsoft Excel), текстовых форматах,формате XML, бинарных проприетарных форматах и т.п.
Все этозначительно затрудняет интеграцию разнородных информационных систем[48].В настоящее время наибольшее распространение получили 2 базовыхметода интеграции данных: консолидация и федерализация.При использовании метода консолидации данные собираются изнескольких первичных систем и интегрируются в одно постоянноехранилище. Такое хранилище может быть использовано как источникданных для приложений, выполняющих формирование поисковых запросов.Подготовка загружаемых данных может происходить методом извлечения(по требованию загрузчика) или передачи (по событию изменения данных воперативномприложении).Данныйметодиспользуюттехнологииизвлечения, преобразования и загрузки данных (Extract, Transform, Load –ETL)[49].Консолидацияоптимизироватьданные,данныхисключиввихединоехранилищедублирование,ипозволяеттщательноотслеживать качество данных. Применение методов консолидации данныхпозволяет подготовить шаблоны для многократно повторяющихся операцийсданными(вчастности,дляподготовкистереотипнойотчетнойдокументации).
Поскольку обновление данных в хранилище – это37 длительный процесс, такой подход обычно используется не для оперативногоанализа данных, а для выполнения сложных, часто многомерных запросов.Федеративный подход обеспечивает единое виртуальное представлениеразнородных источников данных. При этом данные фактически хранятся вразных по составу и структуре источниках, информация в которых можетчастично дублироваться. Источники остаются полностью автономными.Интеграция данных сводится к интеграции схем хранения и созданиюпрограммного компонента (посредника), обеспечивающего прозрачныйдоступ к физически распределенным данным.
С точки зрения конечногоприложения взаимодействие осуществляется с единой базой данных вединомстандартизированномформате.Интеграциякорпоративнойинформации (Enterprise information integration, EII) - это пример технологии,которая поддерживает федеративный подход к интеграции данных [50].Основным преимуществом федеративного подхода является то, чтодоступ происходит к текущим данным, без задержек в обновлении, в отличиеот подхода, основанного на создании единого хранилища данных. Этотподход избавляет также от необходимости копировать данные из источника вхранилище.