Интеграция автономных источников данных для прогнозирования свойств неорганических веществ (1090500), страница 4
Текст из файла (страница 4)
Однако известно, что прямая минимизация этой величиныможет привести к тому, что функция-классификатор будет очень хорошоописывать обучающую выборку, но выдавать неправильные прогнозы для20 новых, не входящих в обучающую выборку, пар [22]. Поэтому используетсяитерационная процедура скользящего контроля, при которой обучающаявыборка многократно разбивается на 2 части, по первой строится функцияклассификатор, а по второй проверяются ее прогностические возможности.1.3. Применение основных принципов и методов системного анализа кпроблеме компьютерного прогнозирования свойств неорганическихвеществЦентральным понятием системного анализа является понятие системы,т.е. объекта, взаимодействующего с внешней средой и обладающегосложным внутренним строением, большим числом составных частей [23].Определяющей предпосылкой выделения из внешней среды некоторойсовокупности объектов как системы является возникновение у нее свойств,которыхнеимеютсоставляющиеееэлементы.Важнейшимихарактеристиками системы являются ее структура и функции.
Подструктурой системы понимают устойчивую во времени совокупностьвзаимосвязей между ее компонентами. Структура системы может отражатьразличные взаимосвязи, в том числе и вложенность компонентов однойсистемы в другую (в этом случае принято называть более крупную системуметасистемой, а вложенную - подсистемой).Декомпозиция системы на подсистемы позволяет раскрыть иерархиюструктуры и рассматривать систему на разных уровнях ее детализации [24].Нижним уровнем детализации являются элементы системы, т.е.
компонентысистемы, обладающие рядом важных свойств, реализующие определенныефункции системы, но не имеющие внутренней структуры (либо структуракоторых в рамках исследования не рассматривается). Сложность системыопределяется сложностью ее структуры, количеством элементов и связей,числом уровней иерархии, объемом информации, циркулирующей в системе.Процесс функционирования системы отражает изменение ее свойств стечением времени [25]. Процесс функционирования системы всегданаправлен на достижение определенной цели.
Цель - это субъективный образ21 (абстрактная модель) несуществующего, но желаемого состояния. Цельможетзадаватьсяресурсоемкости,требованиямиоперативностикпоказателямфункционированиярезультативности,системылибоктраектории достижения заданного результата [26].Важной характеристикой системы является ее состояние [27]. Подсостоянием понимают совокупность свойств или признаков, которые вкаждый момент времени отражают наиболее существенные особенностиповедения системы. Таким образом, процесс функционирования системыможет быть представлен как последовательное изменение ее состояний.Системный анализ проблемы компьютерного прогнозирования свойствполупроводниковых соединений основан на следующих принципах:• принцип эмерджентности выражается в несовпадении свойств соединениясо свойствами отдельных элементов, входящих в его состав;• принцип системности состоит в исследовании соединения как единогоцелого, являющегося частью более крупной системы – неорганическогоматериала;• принцип иерархии заключается в рассмотрении упорядоченной структурынеорганического материала;• принцип интеграции состоит в изучении закономерностей влияниясостава соединения на проявляемые этим соединением свойства;• принцип формализации заключается в изучении количественных значенийисследуемых свойств.Основными методами системного анализа, применяемыми в настоящеевремя, являются [28]:• Декомпозиция–разделениепроблемынамножествоменьшихнезависимых задач, легких для понимания и решения;• Иерархическое упорядочение – организация подзадач в иерархическиеструктуры с добавлением новых деталей на каждом уровне иерархии;• Абстрагирование–выделениесущественныхаспектовзадачииотвлечение от несущественных;22 • Формализация – использование строгого математического подхода истандартизованныхформализованныхобозначенийдлярешенияпроблемы;• Непротиворечивость – обоснованность и согласованность задач.Методология системного анализа служит концептуальной основойсистемно-ориентированнойдекомпозициипредметнойобласти[29].Исходными компонентами концептуализации являются объекты предметнойобласти и взаимосвязи между ними.
Результатом является построениеформального описания предметной области.Декомпозиция используется при построении информационных системна стадии выделения подсистем и описания их основных функций.Декомпозицияпозволяетпроектированииуправлятьразличныхстепеньюкомпонентовабстрагированияинформационнойприсистемы.Например, при построении моделей данных проектирование начинается спостроения модели сущность-связь [30]. На первом этапе построения этоймодели перечисляются самостоятельные сущности, а при помощи связейформируются зависимые сущности. Следующий шаг – более детальноеописание сущностей при помощи указания их атрибутов. Переход от моделисущность-связь к реляционной модели требует выполнения нормализацииданных, что по определению означает декомпозицию исходных отношений(полученныхиз предыдущеймодели)ивыделениеболеепростыхотношений, связанных между собой, для уменьшения избыточности данныхпри сохранении целостности данных.Декомпозиция функциональной модели или модели потоков данныхпозволяетперейтиотобобщенного(абстрагированного)описаниясоответствующей функции системы к ее более детальному (но теме не менееформализованному)описанию[31].Естественнымследствиемпоследовательной декомпозиции процессов является их иерархическоеупорядочение.Обычновизуализированнымпредставлениемиерархии23 объектов является граф в виде дерева.
Для функциональной модели такидеревом является дерево узлов модели [32].Абстрагирование лежит в основе выбора точки зрения при выборе тойили иной информационной модели и построении ее контекстной модели. Так,в основу функциональных моделей положены функции, выполняемыеинформационной системой, при этом структуры хранения данных детальноне рассматриваются, а представляются в виде информационных потоков.Реляционная модель данных очень подробно описывает структуру данных,но не содержит никаких средств для описания процессов их обработки [33].Однимизиспользованиеинструментовразличныхподдержкиабстрагированиявысокоуровневыхстандартов.являетсяСтандартомструктурированного языка запросов SQL задаются требования к тому, чтодолжно быть получено в результате выполнения запроса, а не то, как этодолжно быть получено.
Таким образом, конкретная реализация запросаабстрагирована от пользовательских приложений и возложена на системууправления базой данных.Абстрагированиестановитсявозможнымприусловиистрогойформализации. В частности, формализованное описание требуется дляобеспечение взаимодействия абстрагированных компонентов, например,интерфейсов управления оборудованием или интерфейсов прикладногопрограммирования.представленияКлассическимпроблемнойпримеромситуацииформализованногоявляетсяматематическоемоделирование [34].Припостроенииинформационныхмоделейформализацияпредполагает использование стандартизованных нотаций для построениясоответствующих моделей. К ним относятся методологии функциональногомоделирования систем IDEF0 и методология проектирования баз данныхIDEF1X.
Для моделирования потоков данных в рамках методологии DFDмогут быть использованы разные нотации, наиболее часто используютсянотации Йордана (Yourdon) [35]и Гейна-Сарсона (Gane-Sarson) [36].24 Унифицированный язык моделирования UML фактически представляетсобой совокупность отдельных нотаций, используемых для построенияразличных диаграмм и может рассматриваться как альтернативное (поотношениюкметодологиямсемействаIDEF)средствоописанияинформационных систем [37].В иерархической модели данных XML наряду с графическимпредставлением данных используются также последовательное (serialized)текстовое представление и представление на основе объектной моделисобытий [38].Рассмотрим проблему прогнозирования свойств новых неорганическихсоединений как задачу системного анализа [39].Цельюисследованияявляетсяпрогнозированиесвойствновыхнеорганических соединений. Для достижения этой цели используютсяметоды классификации, рассмотренные выше, среди которых можновыделить 3 группы: статистические, логические и методы, основанные наприменении искусственных нейронных сетей.
Исходными данными являетсяинформация о составе и свойствах соединений, объединенных в обучающуювыборку. В результате формируются модели, представляющие собойклассифицирующие правила, позволяющие на основе данных о составесоединения предсказать его свойства. С помощью методов скользящегоконтроля на различных тестовых выборках проверяются прогностическиевозможности моделей.
Для этого с помощью различных методов строятсяпрогнозы, выполняется их консолидация с помощью комитетных методов ипроверяетсяправильностьпрогнозов.Критериемпрогностическихвозможностей правила является отношение количества неверных прогнозов кколичеству пар, входящих в обучающую выборку. Если количествонеправильных прогнозов слишком велико, проводится анализ полученныхрезультатов. На основании такого анализа может быть изменен составобучающей выборки, параметры методов, используемых для построениямоделей, или способ консолидации прогнозов [40].
В том случае, если для25 ряда тестовых выборок результаты прогнозирования являются приемлемыми,полученныерешающиепрогнозированияправиласвойствмогутновыхбытьиспользованысоединенийсдляпоследующейэкспериментальной проверкой. Схематично процедура системного анализапроблемы прогнозирования свойств новых неорганических соединенийпредставлена на рис.1.1.обучающаявыборкацель исследования–прогнозированиесвойствсоставформированиеклассифицирующихправилсвойстваскользящийконтрольформированиепрогнозовтестоваявыборкамодели –классифицирующиеправилаинтеграцияпрогнозовсоставсвойствановыесоединенияметодыклассификации:• статистические• логические• нейронные сетипрогнозынеудовл.составсвойствакритерийкомитетные методыинтеграциипрогнозы удовлетворительнырезультат -прогнозысвойств новыхвеществРис.