Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 37
Текст из файла (страница 37)
Можнопредположить, что первые три дескриптора описывают ван-дер-ваальсововзаимодействие между молекулами, а остальные – электростатическое (включая образование водородных связей).После построения ряда нейросетевых моделей (350 моделей) с варьированием числа нейронов в скрытом слое от 2 до 8 было выбрано оптимальноечисло скрытых нейронов, равное семи (Табл. 12), хотя практически при любомколичестве скрытых нейронов статистические параметры модели были приблизительно одинаковыми. В Табл. 13 представлены полученные статистическиепараметры моделирования. Корреляция усредненных по всему массиву моделей расчетных данных для всех выборок с экспериментальными значениямипредставлена на Рис.
44.Табл. 12. Зависимость значения RMSE от числа нейронов в скрытом слоеКоличество нейроновв скрытом слое2345678RMSEобучRMSEконтрRMSEпредск0,1100,1060,1080,1060,1050,1050,1050,1930,1910,1920,1920,1910,1890,1910,2260,2220,2200,2190,2190,2190,220211Табл. 13. Статистические показатели полученных моделей для вязкости органических соединенийRRMSEtRMSEvRMSEp0,97940,1110,1950,2120,98150,1050,1890,2190,99040,0780,1770,2084,0lg(Вязкости) расч.lg(Вязкости) расч.Статистические показатели моделейНазвание этапа исследованияЛинейно-регрессионные моделиСредние значения показателей повсем индивидуальным нейросетевыммоделямПоказатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей3,02,01,00,00,02,04,04,03,02,01,00,0-1,00,02,04,0lg(Вязкости) эксп.lg(Вязкости) эксп.(а)(б)Рис. 44.
Результаты нейросетевого моделирования вязкости: (а) корреляцияэкспериментальных значений с результатами прогноза, полученными путем усреднения по всем моделям, при построении которых данные соединения входили в обучающие выборки; (б) корреляция экспериментальных значений с результатами прогноза, полученными путем усреднения по всем моделям, припостроении которых данные соединения входили во внешние контрольные выборкиИз Табл.
13 видно, что прогнозирующая способность нейросетевых моделей (которую наиболее корректно оценивать по среднеквадратичным ошибкамдля внешних контрольных выборок, превосходит аналогичные показатели линейных (они являются линейными по отношению к регрессионным коэффициентам, но нелинейными по отношению к значениям дескрипторов) регрессионных моделей.
Кроме того, построенные в ходе данной работы модели для предсказания вязкости жидких органических соединений существенно превосходятпо всем показателям наилучшие из ранее опубликованных моделей (см. [410,212414]). Следует также обратить внимание на заметное различие средних значений статистических показателей по ансамблю нейросетевых моделей и статистических показателей ансамблевой модели, усредняющей прогнозы, даваемыеэтими моделями.
То, что вторые существенно лучше первых, свидетельствует обольших преимуществах использования ансамблей нейросетевых моделей посравнению с индивидуальными моделями.6.3.3. Моделирование плотности жидких органических соединенийВ качестве источника для формирования использованной в данной работебазы был взят электронный каталог органических соединений фирмы Fluka[415], содержащий 16793 записи. База данных была автоматически из него отобрана путем задания следующих условий: 1) наличие в каталоге значения плотности для соединения; 2) чистота образца 98% и выше; 3) наличие значения показателя преломления (что означает, что данные приведены для жидкости).Сформированная таким образом база данных содержала 803 соединения, относящиеся ко следующим классам: алканы, алкины, арены, аллены, спирты, простые и сложные эфиры, нитро-соединения, альдегиды, карбоновые кислоты, кетоны, нитрилы, амины, имины, амиды, гетероциклические соединения, моно-,би- и трициклические структуры.При обработке базы данных была применена рассмотренная выше (см.подраздел 6.3.1) методика.
Каждый раз база разбивалась на обучающую выборку (641 соединение), контрольную выборку (81 соединение) и выборку дляоценки предсказательной способности (81 соединение). Из четырех указаныхвыше модификаций дескрипторов было использовано три: 1) квадрат значениядескриптора; 2) квадратный корень из значения дескриптора; и 3) отношениезначения дескриптора к числу неводородных атомов в молекуле.Для определения оптимального размера фрагментов нами было сгенерировано 11 наборов фрагментных дескрипторов при варьировании максимального размера фрагмента от 1 до 11 атомов. Для каждого из этих наборов дескрипторов было построено по методу БПМЛР по одной (линейной по регрессион213ным коэффициентам, но нелинейных по дескрипторам) модели для каждой из10 разбивок базы на три выборки.
Из сравнения усредненных по разбивкам статистических показателей полученных моделей было найдено, что наименьшиеошибки на внутренних контрольных выборках получаются при использованиинаборов фрагментных дескрипторов, сгенерированных при задании величинымаксимального размера фрагмента от 3 до 5 атомов. Именно эти 3 набора дескрипторов и были использованы в ходе дальнейшего моделирования.На следующем этапе было построено по 350 нейросетевых моделей (по 5моделей для каждого количества скрытых нейронов, которое варьировалось от2 до 8) для каждого из этих 3 наборов дескрипторов. При сравнении статистических показателей (по критерию наименьших среднеквадратичных ошибок навнутренних контрольных выборках) выявилось, что наилучшими являются модели, максимальный размер фрагментных дескрипторов в которых равен 4 атомам.
Из моделей, построенных с этим набором дескрипторов, была отобранагруппа из 50 моделей (5 моделей для каждой из 10 разбивок базы) с оптимальным числом скрытых нейронов, равным четырем. Следует отметить, что оптимальное число скрытых нейронов для трех типов выборок (т.е. для обучающих,внутренних и внешних контрольных выборок) различалось, поэтому этот параметр выбирался по внутренним контрольным выборкам.При анализе наборов отобранных фрагментных дескрипторов выяснилось, что наиболее важными (степень важности определялась по количествусодержащих их моделей) являются относительное число sp3- и sp2гибридизованных атомов углерода (n(Csp3) и n(H2C=)/na), а также относительное количество различных гетероатомов (в частности, галогенов, кислорода,азота, кремния, серы и т.д.), что можно объяснить различием масс, ковалентныхи ван-дер-ваальсовых радиусов у этих элементов.
Разнообразные поправки описываются такими дескрипторами как количество тройных углерод-углеродныхсвязей, и дескрипторами, характеризующими разветвленность.Диаграммы разброса усредненных по всему массиву моделей расчетныхданных для плотности жидких органических соединений по всем выборкам сэкспериментальными значениями представлена на Рис. 45.214d расч., г/куб.смd расч., г/куб.см4,03,02,01,00,00,01,02,0d эксп., г/куб.см3,03,02,52,01,51,00,50,00,0(а)1,02,0d эксп., г/куб.см3,0(б)Рис. 45.
Результаты моделирования плотности: (а) обучающая выборка; (б) выборка для оценки предсказательной способностиСтатистические показатели полученных моделей представлены в Табл.14. Из их сравнения легко видеть, что прогнозирующая способность нейросетевых моделей (которую можно оценить по значению среднеквадратичной ошибки для внешней контрольной выборки, RMSEp) превосходит таковую для линейных регрессионных моделей (даже построенных на основе нелинейных модификаций дескрипторов). Статистические показатели наших моделей для прогнозирования плотности жидкостей для разнородных органических соединенийоказались близки к наилучшей из опубликованных моделей (см.
[416]), однаконаши модели построены по значительно более представительной выборке.Табл. 14. Статистические показатели полученных моделей для плотностейжидких органических соединений (в г/см3)Статистические показатели моделейRНазвание этапа исследованияЛинейно-регрессионные модели0,9897Средние значения показателей повсем индивидуальным нейросетевым 0,9911моделямПоказатели ансамблевой модели, ус0,9943редняющей прогнозы индивидуальных нейросетевых моделей215RMSEtRMSEcRMSEp0,0360,0550,0670,0340,0520,0610,0180,0360,043Данные таблицы также свидетельствуют о преимуществах использованияансамблей нейросетевых моделей по сравнению с индивидуальными моделями.6.3.4.
Моделирование давления насыщенных паровМоделирование давления насыщенных паров велось по созданной на основе опубликованных данных [417] выборке из 352 соединений (углеводородыи галогенуглеводороды), которая в процессе работы разбивалась 10 разнымиспособами на три выборки: обучающую (279 соединений), контрольную (36 соединений) и выборку для оценки предсказательной способности (36 соединений). На первом этапе по методу БПМЛР производился отбор дескрипторов,причем, как оказалось, наилучшим моделям соответствует множество фрагментных дескрипторов с максимальным числом атомов во фрагменте, равным6.При моделировании давления паров среди наиболее значимых дескрипторов, присутствующих практически во всех моделях, оказались: квадрат числауглеродных атомов (n2(C)); логарифм общего числа неводородных атомов (lgna); количество атомов галогенов, связанных с углеродным атомом, входящим всостав шестичленных ароматических циклов (n[CAr-Hal]); количество метиленовых групп, связанных с углеродным атомом, входящим в состав шестичленных ароматических циклов (n[CAr-CH2]); квадратный корень от количества атомов фтора (√n[F]); количество простых углерод-углеродных связей (n(C-C)/na);количество двухатомных углерод-углеродных фрагментов ароматических систем (n[CAr÷CAr]) и др.