Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 9
Текст из файла (страница 9)
В данном методе отдельные алгоритмы коллектива рассматриваются не какдополняющие друг друга в различных областях пространства образов, а какконкурирующие между собой. Данный метод считается одним из наилучших методовколлективных решений и обладает устойчивыми характеристиками в большом числеэкспериментов.Выпуклый стабилизаторИспользование нескольких классификаторов для решения одной задачи, вообщеговоря, увеличивает надежность результата, делая его менее подверженнымпереобучению.
Поскольку оценка степени перенастройки каждого алгоритма можетбыть получена только косвенным путем, в качестве таковой используется градиентоценки апостериорной вероятности принадлежности объекта классу. Коллективноерешение строится исходя из требования правильной классификации объектовконтрольной выборки и требования максимальной устойчивости получившегосяклассификатораврассматриваемойточке.Поднеустойчивостьюалгоритмараспознавания A на j-том объекте контрольной выборки называется величина:lG A ( yi | ) k 112d [ P(k | yi 1j k ei ) P ( k | y j )] 2 ,Где ei – единичный вектор соответствующей координаты, {1 ,..., l } .
Каквидно, значение неустойчивости алгоритма распознавания определяется величинойсдвига . Этот параметр можно интерпретировать, как некоторое характерное среднеерасстояние, на котором будут находиться объекты k-го класса по отношению кближайшему объекту контрольной выборки своего класса. Вообще говоря, выбиратьзначениеможно как из некоторых априорных предположений, так на основанииданных, содержащихся в контрольной выборке. При этом полагают, что k min ( yi , y j ) ,i jгде ( yi , y j )- расстояние между соответствующими объектами.Соответственно, неустойчивостью алгоритма распознавания А называетсявеличина, равная сумме неустойчивостей на всех объектах контрольной выборки:38qG A ( ) G A ( y j , )j 1Соответственно, алгоритм распознавания A1 является более устойчивым, чемалгоритм A2 при выполнении неравенстваG A1 ( ) G A2 ( ) .
Важно отметить,что нельзя рассматривать устойчивость алгоритмов распознавания в отрыве от ихэффективности, т.е. качества работа на контрольной выборке. Действительно, легкопостроить абсолютно устойчивый алгоритм – достаточно все выходы сделатьконстантами, только при этом алгоритм полностью утратит свою распознающуюспособность.Отсюда становится ясным, что неустойчивость в качестве критерия можноиспользовать, например, при сравнении алгоритмов с равным количеством правильнораспознанных объектов обучающей выборки (т.е.
алгоритмов дающих, по сути,одинаковый результат). В этом случае, следует выбрать более устойчивый алгоритм.Припостроенииколлективногоалгоритма,называющегосявыпуклымстабилизатором, итоговое решающее правило получается в виде выпуклой комбинациифункций оценок исходных алгоритмов, причем коэффициенты выпуклой комбинациизависят от положения распознаваемого объекта относительно объектов контрольнойвыборки, локальной эффективности соответствующего исходного алгоритма и еголокальнойустойчивости.Приведемформальноеопределениевыпуклогостабилизатора. Говорят, что алгоритм распознавания A получен из A1,…,Ap путемприменения выпуклого стабилизатора, если он представим в виде выпуклойкомбинацией распознающих операторов:P (t | x) Aqv ( x) PAF ( k ) (t | x)k 1 kqv ( x)k 1 kгде F:{1,2,…,q}→{1,2,…,p} – некоторая функция, определяющая индекс“наилучшего” алгоритма распознавания для каждого объекта контрольной выборки, avk: Rd→R – весовые функции, обладающие следующими свойствами:vk(x) ≥0, для любого k=1,2,…,q,vk(x) →0, при ( x, y k ) v k ( x)k 1 vk ( x)q 1,при ( x, y k ) 039Доказана теорема, по которой алгоритм распознавания A полученныйприменением выпуклого стабилизатора к семейству алгоритмов A1,…,Ap является неменее эффективным самого эффективного алгоритма из этого семейства.
Выпуклыйстабилизатор эффективно применяется для построения коллективных решений намалых выборках. Требование устойчивости решения позволяет значительно снизитьэффект перенастройки на обучающую выборку [208].Краткие выводыВ главе получены следующие результаты:Рассмотрены и проанализированы методы конструирования неорганическихсоединений.Формализованапостановказадачикомпьютерногоконструированиянеорганических соединений.Выявлены особенности неорганического материаловедения, как предметнойобласти, создающие трудности при использовании математических методовраспознавания.Рассмотрены основные этапы процесса поиска знаний в базах данных (KnowledgeDiscovery in Databases).Рассмотрены методы распознавания образов, как математическая основа для поискамногомерных классифицирующих взаимосвязей в признаковом пространствесвойств компонентов химических соединений.Рассмотрены коллективные методы, позволяющие объединить разнотипныеалгоритмы распознавания и находить оптимальные коллективные решения, вкоторыхкомпенсируютсяалгоритмов.неточностикаждогоизиспользуемыхбазовых40ГЛАВА 2.
АНАЛИЗ АРХИТЕКТУРНЫХ ОСОБЕННОСТЕЙИНФОРМАЦИОННЫХ СИСТЕМ ПО СВОЙСТВАМНЕОРГАНИЧЕСКИХ ВЕЩЕСТВДлятогочтобывыработатьметодикупостроенияинтегрированнойинформационной системы (ИС) по свойствам неорганических веществ и материаловдля электронной промышленности, необходимо рассмотреть текущее состояние ипринципы построения ИС в указанной предметной области. Очевидно, что попыткапостроения интегрированной ИС без учета специфики информационных структур,содержащихся в БД ИС СНВМ, равно как и без их семантического понимания,обречена на провал.2.1. Обзор ИС СНВМ для электроникиПроблемаобеспеченияспециалистовинформациейпосвойствамнеорганических веществ актуальна для всех промышленно развитых стран.
В связи сэтим ведется разработка многочисленных информационных систем, основанных на БДпо свойствам веществ [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 65-121]. Затратына создание информационных систем многократно окупаются за счет уменьшениявременинапоискисистематизациюинформацииизасчетсокращениянеобоснованного дублирования работ.
Рост количества БД, наблюдаемый в последниегоды, обусловлен также разработкой мощных и удобных в применении системуправления базами данных (СУБД) и высокопроизводительных компьютеров.В настоящей диссертационной работе рассмотрены базы данных по свойствамнеорганических веществ, и в первую очередь – БД по свойствам веществ,используемых электронной промышленности.Информацию о веществах для электроники можно разбить на три группы: (1)данныеовеществах(полупроводниковыхдляиспользованияустройств,вкачествемагнитнойактивныхпамяти,компонентовпьезоэлектрическихпреобразователей, фильтров и гетеродинов, пиро- и сегнетоэлектрических, лазерных,сверхпроводящих,нелинейнооптических,акустооптических,электрооптическихустройств и т.д.), (2) информация о веществах для применения в качестве пассивныхкомпонентов (резисторов, трансформаторов, проводников, оптических волокон,печатныхплатит.д.)и(3)данныеовспомогательныхвеществах(элементоорганических соединениях, кислотах-травителях, пластмассах и т.д.).
Помимоэтого, большое значение для практических применений имеют сведения о процессах итехнологиях получения и обработки веществ и соединений. В табл. 2.1 дан перечень41некоторых БД по свойствам неорганических веществ, которые содержат информацию овеществах, используемых в электронике [1].Таблица 2.1.
Базы данных по свойствам неорганических веществ, используемых вэлектронике.Название БД«ИВТАНТЕРМО» - БДтермодинамических свойствиндивидуальных веществ;«IVTANTHERMO» - DB onthermodynamicproperties ofindividualsubstances«ТЕРМАЛЬ» БД потеплофизическим свойствамчистых веществ;«THERMAL» DB onthermophysicalproperties of puresubstances«ЭПИБИБ» библиографическая БД попотенциаламвзаимодействияи транспортнымсвойствамразреженныхнейтральныхгазов;«EPIBIB» documental DBon theintermolecularpotentials andtransportproperties forrarefied neutralgases«NISTTHERMO» - БД потермодинамичесОрганизацияСтранаURL-адресСсылки[84,221]ОбъединенныйРоссияИнститут высокихтемператур РАН(ОИВТ РАН);Joint Institute for HighTemperatures ofRussian Academy ofSciences (JIHT RAS)www.chem.msu.su/rus/handbook/ivtan/ОбъединенныйРоссияИнститут высокихтемператур РАН(ОИВТ РАН);Joint Institute for HighTemperatures ofRussian Academy ofSciences (JIHT RAS)www.thermophysics.ru[222,223]ОбъединенныйРоссияИнститут высокихтемператур РАН(ОИВТ РАН);Joint Institute for HighTemperatures ofRussian Academy ofSciences (JIHT RAS)www.thermophysics.ru[224]Национальныйинститут стандартови технологий;www.nist.gov/srd/nist103b.cfm;[225]СШАПримечанияТеплофизические итермодинамическиесвойства(рекомендованные) длянеорганических веществ.БД ориентирована, впервуюочередь, намоделированиегазотранспортныхпроцессов вмикроэлектронике ипроцессовтепло- имассообменапо газовомутрактуэнергетических установок.42Название БДким свойствамнеорганическихи органическихвеществ;«NISTTHERMO» - DB onthermodynamicproperties ofinorganic andorganicsubstancesБД поидеальнымгазам;NIST/TRC IdealGas DB«IL Thermo» БД по ионнымжидкостям;«IL Thermo» NIST IonicLiquids DB«REFPROP» БД потермодинамическим итранспортнымсвойствамчистых газов ижидкостей;«REFPROP» NISTThermodynamicand TransportProperties ofPure Fluids DBБД потеплофизическим свойствамгазов,используемых вполупроводниковой промышленности;DB of theThermophysicalProperties ofGases Used in theSemiconductorОрганизацияСтранаNational Institute ofStandards andTechnology (NIST)URL-адресСсылкиwww.nist.gov/srd/nist103a.cfmНациональныйинститут стандартови технологий;National Institute ofStandards andTechnology (NIST)Национальныйинститут стандартови технологий;National Institute ofStandards andTechnology (NIST)Национальныйинститут стандартови технологий;National Institute ofStandards andTechnology (NIST)СШАwww.nist.gov/srd/nist88.htm[226]СШАwww.nist.gov/srd/nist147.htm[217]СШАwww.nist.gov/srd/nist23.cfm[227]Национальныйинститут стандартови технологий;National Institute ofStandards andTechnology (NIST)СШАhttp://properties.nis [217]t.gov/fluidsci/semiprop/Примечания43Название БДIndustry«THERMODATA» - БД потермодинамическим свойствамнеорганическихвеществ;«THERMODATA» - DB onthermodynamicproperties ofinorganicsubstances«THERMALLOY» - БД потермодинамическим свойствамнеорганическихвеществ;«THERMALLOY» - DB onthermodynamicproperties ofinorganicsubstances«THERMOCOMP» - БД потермодинамическим свойствамнеорганическихвеществ;«THERMOCOMP» - DB onthermodynamicproperties ofinorganicsubstances«MTDATA» БД и пакетпрограмм длярасчета фазовыхравновесий итермодинамических свойствмногокомпонентных систем;«MTDATA» Software/datapackage for theОрганизацияСтранаURL-адресСсылкиПримечанияАссоциацияTHERMODATAФранцияhttp://thermodata.online.fr/[86]Библиография потермодинамическим итеплофизическимсвойствамнеорганическихсоединений исплавов и пофазовымдиаграммам.АссоциацияTHERMODATAФранцияhttp://thermodata.online.fr/theraloy.html[218]АссоциацияTHERMODATAФранцияhttp://thermodata.o [218]nline.fr/anglais.htmlНациональнаяфизическаялаборатория;National PhysicalLaboratory (NPL)Англияhttp://www.npl.co.uk/sciencetechnology/advancedmaterials/mtdata/[228,229]44Название БДcalculation ofphase equilibriaandthermodynamicproperties inmulticomponentmultiphasesystemsDETHERM - БДпотеплофизическим свойствамчистых веществи смесей;DETHERM - DBonThermophysicalProperties ofPure Substances& Mixtures«TPRC/TPMD» БД потеплофизическим свойствам;«TPRC/TPMD» ThermophysicalProperties ofMatter DB«SGTE» - БД потермодинамическим свойствамнеорганическихвеществ;«SGTE» - DB onthermodynamicproperties ofinorganicsubstances«THERMOCALC» Термодинамическая БД ипрограммы длятермодинамических расчетов;«THERMOCALC» ThermodynamicОрганизацияОбществохимическойтехнологии ибиотехнологии;Gesellschaft fürChemische Technikund Biotechnologiee.V.