Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 29
Текст из файла (страница 29)
Полученные данные приведены вТабл. 4 (стр. 165). Прежде чем перейти к обсуждению и сравнению литературных и полученных нами данных, отметим, что авторы работы [268] использовали в качестве дескрипторов спектральные моменты топологическойматрицы связей и, самое главное, рассматривали алифатические и ароматические структуры по отдельности. При этом QSPR-модель [268] для алифатических структур имела следующие статистические характеристики: R2 (коэффициент детерминации) = 0.960, s (стандартное отклонение) = 6.06 (10-6 единиц), среднеквадратичная ошибка на прогнозе 8.49 (10-6 единиц).Табл. 4.
Статистические характеристики QSPR-моделей для магнитной восприимчивости (в 10-6 единиц)МодельБазаОбучающая выборкаКонтрольная выборка22RsMAEпрогнNдескрR прогн1140.9377.630.9497.502140.9437.300.9844.173140.9824.140.9854.564230.8716.790.9486.285260.9891.990.9346.586260.9876.480.9378.417280.9915.440.9317.878370.9854.990.9347.02Для построения модели 1 (Табл.
4) на основе фрагментных дескрипторовмы использовали обучающую и контрольную выборки алифатических струк165тур, идентичные работе [268]. Из Табл. 4 видно, что статистические характеристики модели 1 немного уступают вышеприведенным литературным данным.Тем не менее, эта модель имеет неплохую прогнозирующую способность: так,средняя ошибка на прогнозе для модели 1, построенной с использованием 4 дескрипторов, составляет даже 7.5 (10-6 единиц).Далее мы исследовали смешанные модели с единичным включением дескрипторов другого типа, обратив особое внимание на простоту вычисления таких добавочных дескрипторов.
Оказалось, что добавление в модель такого простого дескриптора, как молекулярная масса, позволяет несколько улучшить качество QSPR-модели (Табл. 4, модель 2). Этот дескриптор включается в QSPRмодель, построенную с помощью пошаговой регрессии, вторым, что приводит кулучшению качества прогноза (средняя ошибка на прогнозе достигает 7-6.3).Однако существенное улучшение качества модели было достигнуто привключении в уравнение, полученное на основе фрагментных дескрипторов, дескриптора Vx [374].
Этот дескриптор был введен для описания молекулярногообъема при учете сольватационных эффектов. Использование этого дескриптора приводит к резкому улучшению даже однопараметровой модели (Табл. 4 настр. 165, модель 3). Модель, включающая 5 дескрипторов, имеет превосходныестатистические характеристики уменьшает среднюю ошибку на прогнозе до4.8. Ниже приведено уравнение этой модели:-χM ×106 = - 2.91 + 0.82 Vx + 3.42 ƒr1 + 6.40 ƒr2 -4.88 ƒr3 - 2.99 ƒr4(2)n = 355, R2 = 0.9856, s = 3.7 (10-6 единиц), F = 3104, средняя ошибка (по модулю)на прогнозе 4.82, где fri равно числу следующих фрагментов в молекулах: ƒr1 –Br, ƒr2 – Hal, ƒr3 – • = • , (• − произвольный атом), ƒr4 – C(Hal)2.Рассмотрим теперь ароматические соединения.
Литературная QSPRмодель для ароматических структур [268] (85 соединений в обучающей и 20 соединений в контрольной выборках, 5 дескрипторов) имела следующие статистические характеристики: R2 = 0.9604, s = 3.82 (10-6 единиц), средняя ошибкапри скользящем контроле 4.12 (10-6 единиц), среднеквадратичная ошибка напрогнозе 4.00. Модель 4 (Табл. 4, стр. 233) построена на тех же данных, что и в166работе [268], но с применением фрагментных дескрипторов. Как и в случаеалифатических соединений, для ароматической выборки (обучающая - 85 соединений, контрольная - 20 соединений) статистические параметры модели 4(Табл. 4, стр. 165), построенной на фрагментных дескрипторах, немного уступают литературным данным.
Тем не менее, ее прогнозирующая способностьвыше.Bключение в модель дескриптора молекулярной массы существенно неулучшает ни статистических показателей модели, ни ее прогнозирующей способности. Напротив, использование дескриптора Vx приводит к резкому улучшению QSPR- модели (Табл. 4 на стр. 233, модель 5). Модель, содержащая 6дескрипторов, имеет превосходные статистические характеристики (s = 1.99 ×10-6 единиц) и уменьшает среднюю ошибку на прогнозе до 6.6 (10-6 единиц).Для построения QSPR-модели ароматических соединений была использована обучающая и контрольная выборка ароматических структур, составленныепо данным работы [268].
Как видно из данных Табл. 4 на стр. 165, модель 6, построенная только на фрагментных дескрипторах, имеет достаточно хорошиестатистические характеристики и обладает хорошей предсказательной силой.Применение дескриптора Vx также приводит к резкому улучшениюQSPR-модели (Табл. 4 на стр. 233, модель 7). Модель, включающая 8 дескрипторов, имеет превосходные статистические характеристики (s = 5.44 × 10-6 единиц) и уменьшает среднюю ошибку на прогнозе до 7.8 × 10-6 единиц. Уравнение для этой модели приведено ниже:-χM ×106 = - 4.87+ 0.823 Vx – 6.64 ƒr1 + 11.8 ƒr2 – 8.05 ƒr3 – 6.09 ƒr4 – 2.20ƒr5 + 1.08 ƒr6 + 9.85 ƒr7(3)n = 378, R2 = 0.9908, s = 5.44 (× 10-6 единиц), средняя ошибка (по модулю)на прогнозе 7.87, где fri равно числу следующих фрагментов в молекулах:ƒr1 – Сl, ƒr2 – Hal, ƒr3 – N–O, ƒr4 – C=O, ƒr5 – •–•÷•–•=• , (÷- ароматическаясвязь), ƒr6 – •=•–•÷•÷•÷•, ƒr7 – RCAr÷CAr(CArH)2.В задачи следующего этапа нашей работы входило исследование применимости фрагментного подхода на примере расширенной выборки органиче167ских соединений, содержащей в том числе галоидпроизводные и гетероциклические структуры ароматической природы – Базы 3.
Полученные модели имеютдостаточно высокие статистические показатели. Наилучшей прогнозирующейспособностью обладает модель 8, построенная на семи дескрипторах:-χM ×106 = -3.91 + 3.93 ƒr1 + 6.41 ƒr2 - 5.90 ƒr3 - 2.93 ƒr4 + 0.728 ƒr5 +9.77 ƒr6 + 0.823 Vx(4)n = 420, R2 = 0.9846, s = 5.0 (× 10-6 единиц), средняя ошибка (по модулю) напрогнозе 7.02 (× 10-6 единиц).где fri равно числу следующих фрагментов в молекулах: ƒr1 – Br, ƒr2 – Hal, ƒr3 –=O, ƒr4 – C(Hal)2, ƒr5 – •=•–•÷•÷• , ƒr6 – RCAr÷CAr(CArH)2.На Рис. 33 приведены диаграммы разброса экспериментальных и расчетных значений магнитной восприимчивости для обучающей и контрольной вы-400350350300300250ПредсказаниеРасчетборок согласно вышеприведенной модели.2502001501002001501005050000500100 150 200 250 300 350 400Эксперимент50100 150 200 250 300 350 400ЭкспериментРис.
33. Диаграмма разброса экспериментальных и расчетных значений магнитной восприимчивости для обучающей (слева) и контрольной (справа) выборок соединений (База 3) согласно модели 9.Таким образом, нами продемонстрирована применимость фрагментногоподхода в рамках методологии QSPR для расчета магнитной восприимчивостиорганических соединений различных классов.
Предложенные модели по статистическим характеристикам превосходят описанные в литературе. Этим примером продемонстрировано, что предложенные фрагментные дескрипторы в сочетании со статистическим аппаратом множественной линейной регрессии яв168ляются удобным инструментом для прогнозирования таких физических свойстворганических соединений, которые лишь с очень большим трудом поддаютсяоценке при помощи строгих квантово-механических методов расчета.5.2.4. Прогнозирование энтальпии парообразования органических соединенийДанная работа была стимулирована появлением публикации Е.
В. Сагдеева и В. П. Барабанова [375], в которой авторы делают попытку найти зависимость энтальпии парообразования, ∆Hпар, от температуры кипения в соответствии с литературными данными. Авторы установили полиномиальный характертакой зависимости, но для каждого класса органических соединений эти зависимости имеют собственные параметры и, таким образом, универсальное уравнение не было получено [375].
Более того, температура кипения является нерасчетным, а экспериментально определяемым параметром, что затрудняет использование полученных закономерностей для прогноза величин ∆Hпар для других, и, особенно, неизвестных соединений.В связи с этим нам представлялось интересным попытаться применитьQSPR-методологию для получения универсального и прогностичного QSPRуравнения на экспериментальном материале по величинам ∆Hпар, взятым из работы [375].
Отметим, что в литературе имеются примеры применения методовQSPR для расчета ∆Hпар с использованием физико-химических, топологическихи структурных дескрипторов [376-379].В настоящей работе мы исследовали применение фрагментных дескрипторов для QSPR-рассмотрения энтальпии парообразования, ∆Hпар. В качествемодельной базы были взяты экспериментальные данные по ∆Hпар, отнесенные кстандартным условиям (25oС), для 52 соединений из работы [375]. Подчеркнем,что этот набор достаточно представителен и включает органические соединения тринадцати различных классов, такие как алканы, циклоалканы, олефины,ацетилены, спирты, карбонильные соединения, карбоновые кислоты, амины.База была разделена на обучающую (39 соединений) и контрольную (13 соединений, по одному соединению из каждого класса.
Для оценки предсказательной169способности модели мы использовали независимую контрольную выборку, вкоторую были включены данные по ∆Hпар для тринадцати соединений [380],каждое из которых представляло один из классов модельной базы и которые неучаствовали в построении модели.QSPR-моделированиепроводилисиспользованиемпрограммыNASAWIN (см.
раздел 8.2) и дескрипторного блока FRAGMENT (см. раздел8.3). Построение QSPR-модели методом пошаговой регрессии осуществляли наоснове предварительного расчета фрагментных дескрипторов и последующегоотбора из группы взаимно скоррелированных (R>0.9) дескрипторов тех из них,которые наилучшим образом коррелируют с моделируемым свойством. Рассчитывали фрагменты с максимальным размером от 1- до 6-атомных.На первом этапе работы мы получили единое линейно-регрессионноеQSPR-уравнение для соединений базы с использованием обучающей и контрольной выборок (в ккал/моль):∆Hпар(расч.)=3.7272+5.2361fr1+7.9110fr2+5.6798fr3+23.9276fr4+4.7953fr5(1)Уравнение построено на пяти одноатомных дескрипторах и имеет следующие параметры: число соединений в обучающей выборке - 38, число соединений в контрольной выборке - 13, квадрат коэффициента корреляции дляобучающей выборки, R2 = 0.993, квадрат коэффициента корреляции для контрольной выборки, R2контр.
= 0.982, стандартное отклонение, s = 1.785 ккал/моль,критерий Фишера, F = 908.19, среднеквадратичная ошибка на обучающей выборке, RMSEобуч. = 1.64 ккал/моль. В уравнении (1) fri равно числу следующихфрагментов в молекулах: fr1 – Cl, fr2 – NH2, fr3 - =О, fr4 – ОН, fr5 – общее число неводородных атомов в молекуле.Прогнозирующие свойства фрагментной модели оценивали с помощьюнезависимой выборки, составленной по данным, приведенным в [380] и включающей 13 соединений: R2прогн.
= 0.988, RMSпрогн. = 1.57 ккал/моль. Диаграммыразброса расчетных и экспериментальных значений энтальпии парообразованиядля обучающей выборки (слева) и независимой выборки для прогноза (справа),для этой модели представлены на Рис. 34 (стр. 171). В отличие от уравнений,предложенных в работе [375] и представляющих собой частные случаи для рас170чета этого свойства для каждой группы из тринадцати классов, включающей почетыре соединения базы, полученная линейно-регрессионная QSPR-модель является единым уравнением для расчета энтальпии парообразования исследованных соединений.