Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 44
Текст из файла (страница 44)
На клиентской стороне поддержка CORS осуществляется всемиосновными браузерами (рис. 6.4.4). Условные обозначения: светло-зеленый – CORSподдерживается, красный – не поддерживается, серый – нет данных. В IE8 и IE9 CORSподдерживается ограничено, поэтому данные браузеры не могут быть использованыдля работы с ИС “Bandgap”, о чем выдается соответствующее сообщение.235Рис. 6.4.4. Поддержка CORS современными браузерами.По мере открытия свободного доступа к другим ИС СНВМ, ИС единойавторизации будет расширена и на эти системы. В будущем возможно, номаловероятно, использование ИС единой авторизации со стороны ИС СНВМ,разработанных в других организациях.Краткие выводыВо главе получены следующие результаты:Разработана структура метабазы информационной системы, интегрирующей Webинтерфейсы гетерогенных ИС СНВМ и программно реализован механизм загрузкиданных в нее.Формализовано понятие релевантной информации, содержащейся в ИС СНВМ науровне систем, веществ и модификаций.Разработан и программно реализован механизм поиска релевантной информации врамках интегрированной ИС СНВМ;Разработана методика обеспечения информационной безопасности при переходепользователя между узлами интегрированных ИС СНВМ;Разработана единая точка входа в интегрированные ИС СНВМ (http://meta.imetdb.ru).Создана единая система авторизации для применения в интегрированной ИС СНВМ(http://sso.imet-db.ru).236ГЛАВА 7.
ПРИМЕНЕНИЕ ИНТЕГРИРОВАННОЙИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ ПОИСКАЗАКОНОМЕРНОСТЕЙ И КОМПЬЮТЕРНОГОКОНСТРУИРОВАНИЯ НОВЫХ СОЕДИНЕНИЙИнтеграция баз данных является первым шагом к разработке интеллектуальныхинформационныхсистем.профессиональныхрассматриватьсяМетабазатерминов,какосноваданных,используемыхкотораявсодержитинтегрируемыхинтеллектуальногоинтерфейсатезаурусБД,можетобъединеннойинформационной системы.
Она, в совокупности с разработанными нами прикладнымипрограммами, решает проблему поиска затребованных пользователем сведений обопределенных неорганических веществах в различных БД [181, 182]. Дальнейшаяинтеллектуализациябазданныхнепосредственносвязанасоснащениеминформационных систем программными комплексами анализа огромных массивовхимическойинформации,которыесодержитразработаннаявнастоящейдиссертационной работе интегрированная система баз данных, и с поискомзакономерностей в этой информации.
Найденные закономерности (знания), которые вдальнейшем будут храниться в специальной базе знаний о предметной области,позволяют сконструировать еще неполученные вещества с заданными свойствами, чторасширяет возможности БД, превращая их из компьютерного справочника винтеллектуальныеинформационныесистемы[183].Такиеинтеллектуальныеинформационные системы дают возможность прогнозировать еще экспериментальнонеизученные вещества, оценивать их параметры и принимать решение о путях поискановых веществ с заданными свойствами [1].В настоящей работе проведены поисковые исследования по использованиюданных из интегрированной информационной системы для поиска сложныхвзаимосвязей в химической информации. Найденные взаимосвязи применены дляконструирования новых неорганических соединений, перспективных для поиска новыхсоединенийдляэлектроннойпромышленности[184].Цельюпроведенныхисследований является демонстрация возможностей информационно-аналитическойсистемы для компьютерного конструирования неорганических веществ [301].
Физикохимической основой разработки такой системы является Периодический закон, изкоторого следует, что существуют периодические зависимости между свойствамисоединений и свойствами элементов, входящих в их состав. Более того, уже известныесоединения, информация о которых хранится в БД, должны подчиняться этим237периодическимзакономерностям.Следовательно,возможенпоисктакихзакономерностей образования соединений определенных типов на основе анализаинформации БД.7.1.
Интерполяция неизвестных значений в обучающих выборкахОдной из основных сложностей при использовании программных комплексовраспознаванияобразовдлякомпьютерногоконструированиянеорганическихсоединений является наличие пропусков в значениях свойств химических элементов, наоснове которых формируются выборки для обучения.
В зависимости от алгоритмовраспознавания пропуски (отсутствия значений) могут не только исказить правильностьобучения и, следовательно, распознавания, но и вызвать отказ в обучении,вынуждающий исследователя полностью отказаться от использования признака,содержащего пропуски в значениях.Существует два варианта действий: исследовать матрицу, не заполняя пропуски,или заполнить тем или иным образом пропуски и анализировать полученнуюзаполненную матрицу. Первый вариант более строг, однако практически всегдазаставляет отказаться либо от рассмотрения значительной части фактических данных,либо от применения ряда мощных методов, «воспринимающих» только полныематрицы.
Второй вариант «работает», то есть не оказывает заметного искажающеговлияния на результаты анализа, когда число пропусков в данных мало (до 20 %).Рассмотрим основные приемы обработки данных, содержащих пропуски.7.1.1. Краткий обзор методов заполнения пропусков в данныхМетод исключения неполных векторов. Метод исключения неполных(некомплектных) векторов (casewise deletion) [302] состоит в том, что все векторы(строки или столбцы матрицы), содержащие пропуски, исключают из рассмотрения, и вдальнейшем анализируют новую, редуцированную матрицу данных. Когда выборкасодержит достаточное число комплектных объектов, такой подход следует признатьнаиболее целесообразным.Однако на практике распространена ситуация, когда наличие даже небольшогочисла случайно (или, как минимум, без явной закономерности) распределенныхпропусков - при формально большой размерности данных - приводит к резкомууменьшению числа комплектных наблюдений.
Так, например, если предположить, чтопропуски распределены независимо по закону Бернулли, то в случае наличия 5%пропусков для матрицы с числом столбцов m = 10 ожидаемая доля комплектных238наблюдений составит 0.9510 ~ 0.6 (60%), то есть редуцированная матрица будетсодержать 0.6/0.95 = 0.63 (63%) данных, присутствующих в исходной матрице.Метод заполнения средними значениями. Метод заполнения пропусковбезусловными средними значениями (mean substitution) является одним из самыхпростых и известных методов заполнения пропусков. При этом пропуск заменяетсясредним по столбцу матрицы. При применении этого метода происходит смещение(уменьшение) дисперсии переменных, что приводит и к смещенным оценкам элементовковариационной и корреляционной матриц.
Коэффициенты ковариации оказываютсязанижены, а корреляции – завышены [303]. Насколько приемлемо полученноесмещение для дальнейшего анализа, решается в каждом конкретном случае; в целом –метод пригоден при малом числе пропусков в данных.Метод заполнения условными средними значениями. Метод заполненияпропусков условными средними значениями (метод Бака, imputation by regression)[303]. Для двух переменных матрицы, заметно коррелирующих между собой – m1 и m2,можно построить регрессионное уравнение зависимости одной переменной от другой:m2 = am1 + b по наблюдениям, известным для обоих переменных, и оценитьнедостающие значения m2 с помощью полученного регрессионного уравнения поимеющимся значениям m1. Данные, заполненные по методу Бака, обеспечиваютразумныеоценкисредних,вчастности,еслиприемлемопредположениеонормальности наблюдений.
Ковариационная матрица по заполненным методом Бакаданным занижает величину дисперсий и ковариаций (а корреляционная матрицазавышает величину корреляций), хотя и не так сильно, как при подстановкебезусловных средних.Метод заполнения выборочными значениями. Метод заполнения пропусковвыборочными значениями (hot deck imputation) [303]. Существуют методы заполненияпропусков, основанные на использовании расстояния до обоих объектов (в некоторойметрике между парами объектов), которое определяется по значениям признаков.Считается, что если два объекта близки в пространстве измеренных признаков, то изэтого следует и их близость по неизмеренным признакам. Метрика и пороговоезначение расстояния, определяющее близость объектов, вводятся в зависимости отусловий конкретной задачи – шкал, в которых признаки измерены, количествапропусков и т.д.Например, пусть требуется оценить значение пропущенного признака mj, то естьоценить элемент mij матрицы.
Для этого формируется подматрица с измереннымизначениями признака, из которой далее выделяется группа наиболее близких объектов239в пространстве измеренных у этого объекта признаков. Затем неизвестное значение mijзаменяется средним по выделенной однородной группе объектов значением признакаmij или случайным значением из этой группы.МетодмаксимальногоОценкаправдоподобия.пропусковметодоммаксимального правдоподобия (Expectation-Maximization, ЕМ algorithm) [302].
ЕМалгоритм–общийитеративныйалгоритмдлязадачоцениванияметодоммаксимального правдоподобия и не только для заполнения отсутствующих данных –например, он используется для оценивания компонент дисперсии, итеративновзвешиваемых оценок наименьших квадратов и т.д. Достоинством ЕМ-алгоритмаявляется его надежная сходимость, недостатком - то, что скорость сходимости можетбыть очень низкой, если пропущено много данных. Как и любой другой методоптимизации, данный алгоритм «локален», то есть процесс оптимизации сходится клокальному минимуму.7.1.2. Методика заполнения неизвестных значений с учетом спецификипредметной областиКак показывает практика, заполнение пропусков (неизвестных значений) вобучающейвыборкевозможноосуществлятьсиспользованиемнекоторыхприближений, полученных с учетом специфики предметной области, в нашем случае –неорганического материаловедения.