Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 31
Текст из файла (страница 31)
Для проведения исследований мы использовали программные комплексы EMMA (см.раздел 8.1) и NASAWIN (см. раздел 8.2) в сочетании со входящим в оба комплекса дескрипторным блоком FRAGMENT (см. раздел 8.3).Составление баз данных. По данным работы [386] была сформированаБаза 1, состоящая из 400 структурно-разнородных органических соединений.Кроме того, по данным из статьи [387] была создана База 2, содержащая 271 соединение. Она также включает в себя разнообразные классы органических соединений.Результаты и обсуждение.
Прежде всего, следует рассмотреть данныеQSPR-исследования, приведенные в работах [386, 387], что необходимо длясравнения с результатами, полученными нами. В работе [386] были полученымодели для расчета температуры вспышки с использованием PLS (метода частичных наименьших квадратов) и нейронной сети. В последнем случае при ис176пользовании 25 дескрипторов, характеризующих вклады функциональныхгрупп и атомов различных типов, для 135 соединений обучающей выборки, 133контрольной и 132 выборки для прогноза авторы получили величины s (стандартного отклонения) 10.8oC, 14.1oC и 14.3oC, соответственно. Однако для метода PLS результаты были значительно менее удовлетворительны: величина sдля каждого из этих случаев составляла 21oC, 25oC и 23oC, соответственно, чтоможет свидетельствовать о ee нелинейном характере моделируемой зависимости.
В работе [387] проведено моделирование температуры вспышки с использованием программы CODESSA. Авторы получили трехпараметровое уравнение со следующими статистическими характеристиками: R2 (коэффициент детерминации) = 0.9020, R2cv (квадрат коэффициента корреляции при скользящемконтроле) = 0.8985, s (стандартное отклонение) = 16.1 oC.Табл. 6. Статистические характеристики QSPR-моделей для температурывспышкиМодельБазаОбучающая выборкаКонтрольная выборка2o2RMAEпрогн,s, CNдескрR прогнoC1190.87218.80.83315.221А90.87118.90.82915.33290.93213.742А90.93513.35290.92014.80.9319.9На первом этапе работы мы решили повторить результаты работы [386](исследуя обучающую и контрольную выборки, идентичные приведенным вработе), но используя фрагментные дескрипторы. Данные, полученные на основе линейно-регрессионного анализа для Баз 1 и 1А, приведены в Табл.
6 настр. 177 (Модели 1 и 2, соответственно). При построении моделей использовалипроцедуру пошагового включения рассчитанных дескрипторов в модель. Модель 1, построенная с использованием 9 фрагментных дескрипторов, имеет статистические параметры, превосходящие показатели PLS модели (средняя абсо-177лютная ошибка для обучающей выборки 20.6 oС, для контрольной выборки 23.3 oС):Tf расч. = - 0.826 + 0.285 fr1 + 0.497 fr2 + 0.151 fr3 – 6.718 fr4 + 0.208 fr5 +0.130 fr6 – 1.87 fr7 + 4.50 fr8 + 0.369fr9n = 398, R2 = 0.8724, s = 18.8 oC, средняя ошибка (по модулю) на прогнозе 15.2oС, где fri равно числу следующих фрагментов в молекулах: fr1 - N, fr2 - OH ,fr3 - • (произвольный атом), fr4 – CH3, fr5 - C-S, fr6 - C-C=O, Fr7 - •-•-• (цепочка из трех произвольных атомов), fr8 - CArH÷CArH÷CArR÷CArH (÷ - ароматическая связь), fr9 - C-C-C-HalРасширение числа используемых фрагментных дескрипторов до 25 позволяет улучшить качество линейно-регрессионной модели практически до качества нейросетевой [386].
В их число входят дескрипторы, характеризующиеколичество в молекуле атомов галогенов, N, O, S; а также двух- и трехатомныхфрагментов с различными типами связей (двойной, тройной, ароматической: fr1- I, fr2 - F , fr3 - Br, fr4 – S, fr5 – N,. fr6 – OH, Fr7 - •, fr8 – C=O, fr9 - CH3NR2,fr10 – CH2Hal, fr11 – =CR-NHR, fr12 –=CR-OH, fr13 – CH3-Csp3, fr14 -HCAr÷CArR÷CAr, fr15 – C-C=O, fr16 – =CR-Csp3-Cl, fr17 – CH2-CH2-С≡, fr18 - CCsp3-Cl, fr19 – =C-CAr÷CAr-OH, fr20 – C-C-C-N, fr21 –CAr÷CAr÷CAr÷CAr-N, fr22 –C-C-C-S-C, fr23 – C-C-C-C-C-O, fr24 - CH3- CAr(÷CArH)2, fr25 – Hal-C(-C)2.
НаРис. 36 (стр. 179) представлена диаграмма разброса расчетных и экспериментальных значений температуры вспышки для обучающей и контрольнойвыборок соединений Базы 1 согласно модели, построенной на 25 фрагментныхдескрипторах (R2 = 0.9557, s = 11.4 oC, средняя абсолютная ошибка прогноза =11.8, среднеквадратичная ошибка для обучающей выборки, RMSобуч. = 10.87 oC,среднеквадратичная ошибка прогноза RMSпрог.
= 15.75 oC).178Cocalc.C, Tf200o100-100-100 0100200расч..0300о3002001000-100TfTf расч. оС, Tf calc. oC300oTf эксп. С, Tf exp. C-100 0100200Tf эксп. oC, Tf exp. oCРис. 36. Диаграмма разброса расчетных и экспериментальных значенийтемпературы вспышки для обучающей (слева) и конторольной (справа)выборок Базы 1 согласно линейно-регрессионной модели, построенной на 25фрагментных дескрипторахУменьшение количества соединений в Базе 1 за счет исключения 12структур приводит к незначительному ухудшению качества моделей для Базы1А (ср.
Модели 1 и 2, Табл. 6 на стр. 177), при этом природа используемых вмодели дескрипторов остается в целом неизменной, кроме замены фрагмента(CArH÷CArH÷CArR÷CArH) на фрагмент (–O-СR=О).Далее мы использовали фрагментные дескрипторы для построения моделей для Базы 2 и “уменьшенной” Базы 2А (Табл. 6 на стр. 177, Модели 3 и 4).Как это было сделано в работе [387], для обучающей выборки, куда быливключены все соединения, представленные в Базе 2, мы получили модели, покачеству не уступающие моделям 1 и 2 и превосходящие по статистическимпоказателям модель (см. выше), приведенную в работе [387]. Например, модель, построенная для Базы 2 на 25 дескрипторах, имеет следующие статистические показатели: R2 = 0.9566, s = 11.2 oC, RMSEобуч.
= 10.67 oC.Предсказательную способность QSPR-модели для Базы 2 мы оценили,используя ее разбивку на обучающую (179 соединений) и контрольную (89 соединений) выборки. Модель, построенная на 9 фрагментных дескрипторах,имеет весьма высокие прогнозирующие свойства (R2прогн. = 0.9315, средняяошибка (по модулю) прогноза = 9.9 oC (Табл. 6 на стр. 177, Модель 5).Таким образом, нами построены на основе фрагментных дескрипторовлинейно-регрессионные модели, позволяющие прогнозировать температуру179вспышки с точностью, в ряде случаев, приближающейся к точности ее экспериментального определения.5.2.7. Прогнозирование сродства азо- и антрахиноновых красителей к целлюлозному волокнуВзаимодействие красителей различной природы с хлопчатобумажнымволокном представляет многостадийный физико-химический процесс, определяемый специфическими особенностями структуры текстильного полимера иприродой молекулы красителя.
Одной из основных характеристик, описывающей взаимодействие красителя с волокном, является химическое сродство красителя к волокну (аффинность), экспериментально определяемое разностьюхимических потенциалов красителя в волокне и в растворе в стандартных условиях, -∆µ0 (кДж·моль-1). Этот параметр зависит от множества физикохимических факторов, оказывающих влияние на взаимодействие красителя сволокном (электростатические и ван дер ваальсовы взаимодействия, образование водородных связей, гидрофобность и др.) [388].
Поэтому для исследованияаффинности широко используются методы QSАR и 3D-QSAR. Так, методомCoMFА было показано, что на сродство анионных и нейтральных азо- [389,390], гетероциклических моноазо- [391], симметричных биазо- [392] и антрахиноновых [393] красителей к целлюлозному волокну доминирующее влияниеоказывают электростатические взаимодействия.В задачу данной работы входило исследование сродства красительцеллюлоза в рамках фрагментного подхода с использованием методологииQSPR. Исследование проводили с помощью программного QSAR/QSPRкомплекса NASAWIN (см.
раздел 8.2) с использованием дескрипторного блокаFRAGMENT (см. раздел 8.3). В работе исследовали 3 выборки соединений,включающие 30 серосодержащих азо-красителей [390] (База 1); 49 антрахиноновых красителей [394] (База 2); и комбинированную выборку, содержащуюоба набора структур (База 3).180На первом этапе работы для исследуемых выборок с помощью программного комплекса NASAWIN были построены линейно-регрессионные модели сиспользованием дескрипторов, характеризующих фрагменты с максимальнойдлиной цепочек 6, 10 и 15 атомов и внешней контрольной выборки, включающей каждое пятое соединение базы. Эти модели (Табл.
7, модели 1-12) обладают хорошими описательными и прогнозирующими свойствами. Наилучшее качество прогноза достигнуто при включении в модель фрагментов длиной до 15атомов.Табл. 7. Статистические параметры QSPR моделей на основе фрагментныхдескрипторов для сродства азо- и антрахиноновых красителей к целлюлозномуволокнуЧисло фрагментных деR2обуч. s,R2прог.FБазакДж·скрипторов /моль-1максимальное числоатомов вo фрагментe10,9490,87 0,89688,64/620,9570,81 0,85081,75/6База 130,9580,83 0,83964,96/6(азо-)40,9490,87 0,90088,64 / 1050,9570,81 0,85081,75 / 1060,9710,95 0,908161,74 / 1570,9180,56 0,86051.17 / 15База 2(антрахи- 0,92480,55 0,86647,58 / 15ноны)90,9310,53 0,86644,99 / 15101112База 3(азо- иантрахиноны)0,9550,9600,9680,790,750,680,8540,8320,807136,8136,5154,09 / 1510 / 1511 / 15Для сравнительной оценки качества фрагментных и литературных моделей, полученных для тех же выборок методами сравнительного анализа молекулярного поля (СoMFA) и множественной линейной регрессии (MRL) с использованием квантово-химических дескрипторов (азо- соединения) [390] и методом сравнительного анализа молекулярной поверхности (CoMSA, азо- и антрахиноновые соединения) [394], мы построили серию моделей при использо181ванием скользящего контроля с исключением по одному соединению.