Интеграция автономных источников данных для прогнозирования свойств неорганических веществ (1090500), страница 2
Текст из файла (страница 2)
Системный анализ проблемы компьютерногопрогнозирования свойств неорганических веществ.1.1. Особенности компьютерного прогнозирования свойствнеорганических веществВ области современного материаловедения широко используютсяинформационные системы, как для моделирования различных физикохимических процессов, так и для хранения больших объемов информации оструктуреисвойствахнеорганическихсоединений,относящихсякразличным классам. На стыке этих областей исследований в настоящее времяразрабатываются методы и программные средства, предназначенные длярешения задач компьютерного конструирования соединений [5].Под компьютерным конструированием соединений (computer-assisteddesign) понимаются гипотезы о свойствах еще не синтезированныххимических соединений, основанные на анализе взаимосвязей между ихкачественным и количественным составом и проявляемыми свойствами.Такой подход позволяет существенно сократить финансовые и временныезатраты на поиск химических соединений с требуемыми свойствами.
Термин“компьютерноеконструирование”(computer-assisteddesign)впервыепоявился в 70-х годах ХХ века в работах Corey и Wipke применительно кпостроению структуры сложных органических соединений с помощьюкомпьютера [6]. Задача компьютерного конструирования неорганическихсоединений была сформулирована чуть позднее, в 90-е годы ХХ века.Методы решения этой задачи отличаются от методов, используемых дляорганических соединений, поскольку для неорганических соединенийправило валентности соблюдается не для всех видов химических связеймежду атомами.Применительнокнеорганическимсоединениямкомпьютерноеконструирование имеет ряд особенностей и позволяет строить следующиевиды гипотез [7]:7 • образование(илиотсутствиеобразования)соединенийиихколичественный состав;• тип кристаллической структуры;• значения электрических и магнитных свойств.Для решения указанных задач применяются следующие подходы:•квантовомеханический подход, основанный на решении уравненияШредингера или его обобщений;•простейшиеэмпирическиекритерииобразованиясоединенийсзаданными свойствами;•решающие правила, получаемые с помощью методов компьютерногораспознавания образов в N-мерном пространстве признаков.Применениепрогнозированияквантовомеханическогосвойствподходанеорганическихкрешениюсоединенийзадачограниченосложностью приближенного численного решения уравнения Шредингера.Кнаиболееизвестнымэмпирическимкритериямобразованиясоединений в настоящее время можно отнести критерий Маттиаса дляпрогноза новых сверхпроводников с кристаллической структурой типа А15,правила Юм-Розери для определения способности химического элементарастворяться в металле с образованием твёрдого раствора, диаграммыДаркена-Гурри для прогноза взаимной растворимости металлов, правилоЛавесадляпредсказаниякристаллическойструктурынекоторыхинтерметаллических соединений [8].
Для конструирования неорганическихсоединений с заданными свойствами необходимо разработать новыекритерии. Основным достоинством таких критериев является их простота,позволяющая построить наглядные проекции в полученном пространствесвойств.Кнедостаткамэтогоподходаследуетотнестивысокуютрудоемкость и учет ограниченного количества признаков.Построение сложных многомерных решающих правил являетсяестественным развитием предыдущего подхода. Его реализация сталавозможной только с использованием современных вычислительных систем,8 оснащенных специальными программами анализа больших массивов данных.По существу, этот подход основан на концепции «черного ящика», в рамкахкоторой исследователь располагает только набором входных и выходныхпараметров, но не знает, каким образом входные параметры влияют нарезультат. Такие методы называют анализом данных (data analysis или datamining [9]).
К недостаткам этих методов, с точки зрения любой предметнойобласти, можно отнести не только недостаточную строгость полученныхмоделей, но и частую невозможность их интерпретации. Однако для многихсложноформализуемыхвозможнымспособомзадачэтипостроенияметодыявляютсянекотороймоделиединственнымисследуемыхвзаимосвязей.1.2. Формальная постановка задачи компьютерного прогнозированиясвойств неорганических веществС формальной точки зрения, задача выявления и анализа взаимосвязеймежду составом и свойствами соединения является задачей распознаванияобразов.Цельюрешенияэтойзадачиявляетсяформированиеклассифицирующих правил, которые позволяют разбить множество ужеизвестных соединений, каждое из которых описано с помощью наборапризнаков, на классы, соответствующие свойствам этих соединений [10].Полученные правила могут быть применены и к еще не синтезированнымсоединениям, в результате чего может быть получен прогноз свойств новыхсоединений.Анализ литературных источников позволил выявить особенностинеорганическогоматериаловедения,какпредметнойобласти,прииспользовании математических методов распознавания [11]:• Малая информативность признаков – свойств химических элементов.• Сильная закоррелированность признаков, как следствие периодическогозакона (все свойства элементов находятся в периодической зависимостиот общего параметра - атомного номера химического элемента).9 • Отсутствующиезначенияпризнаков.Существенно,чтоэтанеопределенность может иметь различную природу – некоторые свойствасоединений могут быть просто не изучены, а некоторые не могут бытьполучены.• Частая асимметрия в размерах классов.• Возможность экспериментальных ошибок в данных.Формально задача формирования классифицирующих правил ставитсяследующим образом:Описаниемобъектаявляетсявекторпризнаковx∈X.
Классомназывается некоторое подмножество объектовKy = {x∈X|y*(x)=y}множества X.Пусть y∈Y - множество наименований классов. Тогда функцияy*X ⎯⎯→Yзадает отображение, определённое для всех x∈X, которое задаетразбиение X на подмножества Ky.Обучающая выборка представляет собой множество пар S={(xi,yi)}, длякоторых y*(xi)=yi, то есть множество известных значений функции y*.Основной гипотезой для применения алгоритмов классификации враспознавании образов является предположение, что множество X×Yявляется вероятностным пространством с вероятностной мерой P. Элементыобучающейвыборки(xi,yi)появляютсяслучайноинезависимовсоответствии с распределением P.Таким образом, задача классификации заключается в построениифункции-классификатора F(x), приближающей отображение y*, основываясьна обучающей выборке S.Рассмотрим некоторые из наиболее широко используемых методовраспознаванияобразов,которыеиспользуютсяспециалистамидлякомпьютерного конструирования неорганических веществ.10 Статистическиемоделитребуютналичияполнойаприорнойинформации, на основе которой могут быть определены вероятностныехарактеристики классов, что весьма затруднительно при решении задачпрогнозированиясвойствнеорганическихсоединений,явноносящихпрецедентный характер.
Данные задачи отличаются тем, что априорнаяинформация о представительности некоторых классов отсутствует. Так в рядеслучаев, классы могут быть представлены в виде единичных прецедентов (водном классе один или два объекта).Метод ближайших соседей (k-nearest neighbors, kNN) основан наиспользовании метрики ρ(x, x′) в пространстве объектов X для формализациипонятиясходства.Метрикаявляетсяфункциейрасстояниямеждупрецедентами. В качестве такой функции расстояний, в частности, можетвыступать евклидова метрика.Для произвольного объекта u из X элементы обучающей выборкиXℓ = {x1, .
. . , xℓ} располагаются в порядке возрастания расстояний до u:ρ(u, x1,u) < ρ(u, x2,u) < . . . < ρ(u, xℓ,u),где xi,u - i-й сосед объекта u. Аналогичное обозначение вводится и дляответа на i-м соседе: yi,u = y(xi,u). Таким образом, каждый объект u из Xпорождает свою перенумерацию выборки Xℓ = {x1,u, . . . , xℓ,u}.Простейшим случаем данного метода является метод ближайшегососеда.Обозначимфункциюраспознаваниячерезa.Онаотноситклассифицируемый объект u к тому классу, которому принадлежитближайший объект из обучающей выборки:a(u;Xℓ) = y1,u.Таким образом, распознавание сводится к ранжированию объектовобучающей выборки по степени близости к распознаваемому объекту всоответствии с метрикой ρ. Качество классификации, соответственно,определяется тем, насколько удачно выбрана эта метрика [12].11 В более общем случае рассматривается не 1 наиболее близкий краспознаваемому объект, а некоторая ближайшая окрестность Vk впространстве признаков, содержащая k объектов.Каждый из соседей xi,u, i = 1, .
. . , k голосует за отнесение объекта u кклассу yi,u. В результате объект u относится к тому классу, которомупринадлежит большинство ближайших к нему объектов обучающейвыборки:ka(u; X , k ) = arg max ∑ [ y = y ]li, ui=1y∈YПараметр k подбирается с помощью скользящего контроля, т.е.выбирается то значение k, при котором число ошибок классификацииминимально:kQ(k ; X ) = ∑ [a( x ; X l \{x }, k ) ≠ yi ] → minliiki =1Достоинствами этого метода являются простота реализации ивозможностьвведенияразличныхмодификаций;возможностьинтерпретации классификации неизвестных объектов путем предъявленияближайшего прецедента или нескольких ближайших прецедентов.К основным недостаткам метода стоит отнести снижение егоэффективности при малых объемах обучающей выборки и высокойразмерности признакового пространства. Метод не позволяет построитьрешающие правила, решение основывается на всем массиве доступныхданных обучающей выборки.Методы обнаружения логических закономерностей в данных [13]основаны на вычислении частоты комбинаций отдельных логическихсобытий в подгруппах данных.
На основании их анализа делаетсязаключение о полезности той или иной комбинации для установленияразличных ассоциаций в данных для классификации и прогнозирования.12 Результат работы данных методов оформляется в виде так называемогодерева решений или правил типа «ЕСЛИ ... ТО ...».Предикат Lj(x) называется логической закономерностью класса Kj привыполнении следующих условий:Lj(xi) = 1 хотя бы для одного xi из класса Kj (1),Lj(xi) = 0 для всех объектов обучающей выборки, не принадлежащихклассу Kj, т.е. для xi ∉ Kj (2),f(Lj) = max, где f - некоторый оптимизационный критерий (3).Критерием качества является функционал:f(Lj) = <количество объектов обучающей выборки xi из Kj : Lj(xi) = 1> /| Kj |Предикат Lj(x) называется частичной логической закономерностьюкласса Kj, если выполнены условия 1 и 3, а условие 2 заменено на болееслабое: ({xi∉Kj| L(xi) = 1}) / |{L(xi) = 1}| < δ,Вцеломзакономерностейпопулярностьопределяетсялогическихнаглядностьюметодоврезультатовобнаруженияихработы.Проблемами являются сложность перебора вариантов за приемлемое время ипоиск оптимальной композиции выявленных правил.Методы, основанные на принципе разделения [14], предполагаютпостроение гиперповерхности в n-мерном пространстве признаков, которая внекотором смысле наилучшим образом будет разделять наборы классов вэтом признаковом пространстве.Наиболее известным методом, основанным на принципе разделения,является линейный дискриминант Фишера.