Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 32
Текст из файла (страница 32)
По своимстатистическим показателям полученные модели сопоставимы с цитируемымив литературе, а в ряде случаев их превосходят. Так, регрессионная модель, построенная для Базы 1 на 4 фрагментных дескрипторах (длина цепочки во фрагменте 15 атомов) имеет показатели (R2обуч. = 0,967 кДж·моль-1; F = 181,6; квадрат коэффициента корреляции при скользящем контроле, Q2 = 0,949; стандартное отклонение, s = 0,66 кДж·моль-1; среднеквадратичная ошибка, RMSEск =0,74 кДж·моль-1; стандартное отклонение при скользящем контроле, sск = 0,80кДж·моль-1), превосходящие параметры лучшей регрессионной модели, полученной для этой же выборки на основе использования в качестве дескрипторовэнергий высшей занятой и низшей свободной молекулярных орбиталей ЕHOMO,ЕLUMO и среднего арифметического между ними, (3 дескриптора, R2обуч. = 0,92;стандартное отклонение, s = 1,02 кДж·моль-1; F = 95,0; Q2 = 0,89; стандартнаяошибка при скользящем контроле 1,19) [390].
Для PLS CoMFA [390] и CoMSAмоделей [394] значения Q2 лежат в пределах 0,63-0,75 и 0,829-0,970, соответственно. В полученную модель входят дескрипторы, описывающие следующиефрагменты молекул азо-соединений: =RC–С, RCAr÷CAr–NH2 , •=•–•÷•÷•÷• (• произвольный атом) и С–С–С÷(С÷)2С–N=N–С÷(С÷)4С–N.Фрагментные модели, построенные для выборки антрахиноновых красителей (База 2), по прогнозирующим свойствам также не уступают литературным моделям [394]. Квадрат коэффициента корреляции при скользящем контроле модели, включающей 8 дескрипторов (цепочки из 15 атомов), (R2обуч. =0,942; s = 0,46; F = 81,5; Q2 = 0,915; RMSEск = 0,50 кДж·моль-1; sск = 0,55кДж·моль-1), превышает максимальное значение Q2 (0,88) CoMSA модели [394].Наиболее значителен вклад фрагментов: RCAr, CAr–Nsp3–C, HCAr÷CAr–NHR и C33sp ―O―(CAr÷)7CAr―N sp .На основе слияния узких выборок азо- и антрахиноновых красителей (База 3) мы получили более универсальную модель для описания сродства краситель-целлюлоза и оценили ее прогнозирующую способность при помощискользящего контроля.
Модель включает 10 фрагментных дескрипторов (цепочки из 15 атомов) и имеет следующие характеристики: R2обуч. = 0, 954; Q2 =1820,935; s = 0,76 кДж·моль-1; F = 139,5; sск = 0,89 кДж·моль-1; RMSEск = 0,83кДж·моль-1:-∆µ0 = -0.49 + 2.19 Fr1 – 1.03 Fr2 – 1.01 Fr3 – 0.56 Fr4 + 3.13 Fr5 + 0.21 Fr6 + 0.11Fr7 + 0.85 Fr8 + 0.45 Fr9 + 1.10 Fr10(1)Где R2обуч. = 0, 954; Q2 = 0,937; s = 0,70 кДж·моль-1; F = 139,5; sск = 0,82кДж·моль-1; RMSEск = 0,76 кДж·моль-1;Fr1/СAr― N, Fr2/С sp3― Nsp3― С, Fr3/HСAr÷CAr― NH2, Fr4/RСAr÷CAr ― N,Fr5/N sp3― CAr÷CAr―N= , Fr6/•–•÷•÷•÷•–•, Fr7/C―(C÷)6C,Fr8/C sp3―O―(CAr÷)7CAr―Nsp3,Fr9/CAr÷(CAr÷)3CAr―N=N―CAr÷(CAr÷)2CAr―C=C,Fr10/N sp3―CAr÷(CAr÷)4CAr―N=N―CAr÷(CAr÷)2CAr―N sp3Наибольший вклад в модель вносят фрагментные дескрипторы RСAr―N,и Nsp3―CAr÷CAr―N=.
Таким образом на основе дескрипторов, учитывающихфрагментный состав молекулы, предложены линейно-регрессионные QSPRмодели, позволяющие прогнозировать сродство азо- и антрахиноновых красителей к целлюлозному волокну. Этим примером продемонстрировано, чтопредложенные фрагментные дескрипторы в сочетании со статистическим аппаратом множественной линейной регрессии являются мощным инструментомдля прогнозирования сложных промышленно-важных свойств органическихсоединений.5.3. Фрагментные дескрипторы с «выделенными» атомамиМы предлагаем подход, который позволяет значительно расширить кругсвойств, для прогнозирования которых можно применять фрагментные дескрипторы за счет указания специальных «выделенных» атомов, играющих специфическую роль в природе моделируемого свойства.
Например, при моделировании константы основности аминов логично отметить тот самый атом азотавнутри химической структуры, который участвует в рассматриваемом кислотно-основном равновесии. Суть предлагаемого метода заключается в том, что: 1)такие «выделенные» атомы помечаются определенными метками в соответст183вии с тем, по каким причинам этот атом выделен; 2) при генерации фрагментных дескрипторов каждая такая метка рассматривается как отдельный псевдоатом с именем, соответствующем символу метки; 3) при построении уравнений«структура-свойство» должна иметься возможность включать в модели толькоте дескрипторы, которые содержат такой псевдоатом.Мы предлагаем использовать фрагментные дескрипторы с “выделенными” атомами для моделирования широкого круга свойств: (1) при расчете локальных характеристик молекул, таких, например, как химические сдвиги вспектрах ЯМР либо кислотно-основные свойства определенных атомов в молекулах; (2) при прогнозировании биологической активности для однородныхвыборок соединений, содержащих общий фрагмент с анкерными атомами, к которым присоединены заместители; (3) для прогнозирования кинетических параметров химических реакций одного типа; (4) при прогнозировании физических свойств полимеров (за счет добавления специальных меток к атомам, принадлежащим основной цепи полимера); (5) для прогнозирования свойств, обусловленных образованием супрамолекулярных комплексов (за счет добавленияспецифических меток, указывающих на роль атомов в супрамолекулярном взаимодействии); (6) для учета стереохимической информации (путем добавленияметок S и R либо D и L к стереохимическим центрам, а также E и Z к атомам,связанным двойной связью).
В каждом случае предлагаемый прием обеспечивает использование в построении моделей наиболее важных по смыслу фрагментных дескрипторов. Таким образом, использование фрагментных дескрипторов с «выделенными» атомами позволяет значительно расширить сферу применения фрагментного подхода в поиске количественных соотношений «структура-свойство», а также снять некоторые ограничения, которые ранее былисвойственны фрагментным дескрипторам.Применение таких дескрипторов нами проиллюстрировано на примерахмоделирования: (1) химических сдвигов вмонофосфинов,(2)способности31аналоговP ЯМР спектрах производных1-[(2-гидроксиэтокси)-метил]–6(фенилтио)тимина (HEPT) к ингибировать обратную транскриптазу вирусаВИЧ-1 и (3) констант скорости гидролиза эфиров карбоновых кислот.
Еще один184примериспользованиятакоговидафрагментныхдескрипторовдляпрогнозирования констант ионизации рассмотрен в подразделе 7.1.2.Расчетфрагментныхпостроениедескрипторов c “выделенными”QSAR/QSPR-моделейметодамибыстройатомамиипошаговоймножественной линейной регрессии (БПМЛР) и трехслойной нейросетиобратного распространения (ИНС) осуществляли с помощью программногокомплекса NASAWIN (см. раздел 8.2).5.3.1.
Прогнозирование химических сдвигов в 31P ЯМР спектрах замещенныхмонофосфиновДля построения QSPR-моделей химических сдвигов в31Р ЯМР спектрахзамещенных монофосфинов мы использовали базу данных, включающую 291фосфинов PH3-nRn, в том числе 29 первичных, 38 вторичных и 224 третичных сразличными заместителями [395]. Разброс в экспериментальных значенияхпрогнозируемого параметра составил от -183 до +61 ppm. Известно, чтовеличины химических сдвигов зависят от степени экранирования ядер атомовэлектроннымоблаком,плотностькоторогозависитотхарактераприсоединенных к этим атомам заместителей. Поэтому представлялосьцелесообразным использование дескрипторов, описывающих электронное ипространственное влияние этих заместителей. В качестве таковых быливыбраны дескрипторы, основанные на числе вхождения в структуруфрагментов, содержащих от 4 до 10 неводородных атомов и включающих атомР, маркированный меткой “а”.
Лучшая из серии полученных нами БПМЛР иИНСкомбинированныхмоделеймодельБПМЛРимеетследующиехарактеристики прогнозирующей способности: Q2DCV = 0.8298, RMSEDCV =0.5679 ppm, MAEDCV = 6.1 ppm. Диаграмма разброса для нее приведена на Рис.37.185100Prediction, ppm500-50-100-150-200-200-150-100-50050100Experiment, ppmРис.
37. Диаграмма разброса при прогнозировании химических сдвигов в 31PЯМР спектрах замещенных монофосфиновНаиболее значимыми для описания исследуемого свойства являютсяприведенные на Рис. 38 фрагменты с “выделенным” атомом Pa. Первые трифрагмента отражают σ-индукционное влияние алкильных заместителей на атомфосфора, четвертый – эффект сопряжения с ароматическим ядром, пятый –влияние расположенного в орто-положении атома фтора.21aP3aPPHPCCCH354aaCaCPCCCHFРис. 38. Наиболее важные фрагменты для химического сдвига в 31P ЯМР спектрах замещенных монофосфинов.Данный пример иллюстрирует возможность использовать фрагментныедескрипторы с «выделенными» атомами для прогнозирования локальныхсвойств химических соединений, которые можно приписать определенныматомам или группам атомов внутри молекулы. В этом случае использование це186почечных фрагментов с терминальными «выделенными» атомами позволяетполучать легко интерпретируемые модели, наглядно показывающие пути влияния отдельных атомов или групп внутри молекулы на изучаемое свойство.5.3.2.
Прогнозирование способности аналогов 1-[(2-гидроксиэтокси)-метил]–6(фенилтио)тимина (HEPT) ингибировать обратную транскриптазу вирусаВИЧ-1Ингибирующую активность в отношении обратной транскриптазы вирусаВИЧ-1, представленную эффективной концентрацией соединений, необходимой для достижения 50% защиты клеток линии МТ-4 от цитотоксического действия вируса (log 1/EC50), мы исследовали для однородной выборки производных HEPT [396].