Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 34
Текст из файла (страница 34)
подраздел 1.2.4) с помощью программного комплекса NASAWIN (см. раздел 8.2).Генерировали наборы фрагментов, включающих от 1 до 5 неводородных атомов с учетом кратных связей, гетероатомов, функциональных групп и т.д. при193помощи дескрипторного блока FRAGMENT (см. раздел 8.3). Для расчета комбинаций свойств атомов во фрагментах использовали дескрипторный блокFRAGPROP (см. раздел 8.4). Этот дескрипторный блок позволяет вычислять 50комбинаций свойств атомов (или дескрипторы FRAGPROP, fragmental properties) для фрагментов размерами от 1 до 5 неводородных атомов. Полный набордескрипторов, вычисляемый блоком FRAGPROP, приведен в разделе 8.4 данной диссертационной работы.
Для оценки прогнозирующей способности QSPRмоделей была применена процедура 5x4-кратного двойного скользящего контроля (см. подраздел 4.1.4). Вычисляемые статистические характеристикивключают: (1) Q2DCV - параметр Q2 (Q2=(SS-PSS)/SS, где PSS - сумма квадратовошибок прогноза свойства, SS - сумма квадратов отклонения свойства от среднего значения) для усредненных спрогнозированных значений, (2) RMSEDCV среднеквадратическая ошибка прогнозирования, (3) MAEDCV - средняя абсолютная ошибка прогнозирования.Какпоказалирасчеты,качествоQSPRмоделей,каклинейно-регрессионных, так и нейросетевых, полученных для всех трех исследованныххарактеристик полимеров – показателя преломления, плотности в аморфномсостоянии и температуры стеклования, значительно улучшается при включениив модели наряду с фрагментными дескрипторами, дескрипторов, описывающихкомбинации свойств атомов во фрагментах.
Это наблюдается для всего исследованного диапазона размеров фрагментов - от 1 до 5 неводородных атомов.Так, лучшая QSPR модель для показателя преломления, была получена методом БПМЛР на основе фрагментных дескрипторов, содержащих от 1 до 4 неводородных атомов, и имела следующие статистические характеристики: Q2DCV0.7822, RMSEDCV 0.033, MAEDCV 0.021. При включении в эту модель дескрипторов, описывающих свойства атомов во фрагментах (см. Табл. 8 на стр. 195), этипоказатели улучшаются, соответственно, до 0.872, 0.026 и 0.015.
В случае температуры стеклования добавление дескрипторов FRAGPROP в лучшую БПМЛРмодель, построенную с использованием фрагментных дескрипторов, включающих от 1 до 5 неводородных атомов, также позволяет улучшить ее статистические показатели: от 0.849 до 0.864 (Q2DCV), от 45.0 до 42.7 (RMSEDCV) и от 32.0194до 28.0 (MAEDCV). Повышение прогнозирующей способности в наибольшейстепени наблюдается в случае QSPR моделей, построенных для расчета плотности полимеров в аморфном состоянии. Например, статистические показателилучшей из БПМЛР моделей, построенной с использованием фрагментов с размерами от 1 до 2 неводородных атомов (Q2DCV 0.474, RMSEDCV 0.159 и MAEDCV0.959), при комбинировании фрагментных дескрипторов с дескрипторамиFRAGPROP, становятся, соответственно 0.910, 0.066 и 0.043.
Комбинациисвойств атомов во фрагментах, имеющие наибольшую значимость для описания исследованных свойств, приведены в Табл. 8.Табл. 8. Формулы для расчета комбинаций свойств атомов во фрагментах и названия дескрипторов, наиболее часто встречающихся в QSPR-моделях, полученных для прогнозирования свойств полимеров (дескрипторы приведены постепени убывания частоты встречаемости в частных моделях для соответствующего свойства).NНазвание дескриптораФормулаПлотность в аморфном состоянии1 Отношение числа электронов к числу атомов в молеp1 _ ANe = N e / N aкуле или среднее количествоэлектронов в атоме2 Среднее значение произве1денияэлектроотрицательp 2 _ APE =∑ χ (a1 ) ⋅ χ (a2 )Nb p2ностей атомов для всех связей в молекуле.3 Максимальноезначениепроизведения модуля разноp 2 _ HDE = max p 2 (| χ (a1 ) − χ (a 2 ) | ⋅nb )стиэлектроотрицательностей для всех связей в молекуле на порядок соответствующей связи4 Сумма произведений разностей электроотрицательности атомов в положениях 1-2p5 _ SPDE = ∑ ( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a5 ) − χ (a4 ))p5и 5-4 для всех 5-атомных цепочек5 Отношение суммы кубов1 N 3p1 _ AR3 =∑ Riатомных радиусов к числуN a i =1атомов в молекуле6 Среднее значение произвеa195денийразностейэлек- p5 _ APDE = 1∑ ( χ (a1 ) − χ (a2 )) ⋅ ( χ (a5 ) − χ (a4 ))N p5 p5тротрицательности атомов вположениях 1-2 и 5-4 длявсех 5-атомных цепочекТемпература стеклования7 Среднее значение произ1ведений атомных радиусов вp 4 _ APR =∑ R(a1 ) ⋅ R(a 2 )N p4 p4положениях 1-4 по всем 4атомным цепочкам.8 Число π–электронов в молеp1_Npi = Nπкуле9 Сумма модулей разностейэлектроотрицательностейp 2 _ SDEHnc = ∑ | χ (a1 ) − χ ( H ) |p 2| a1 ≠ Cдля всех связей X-H в молекуле, где Х-гетероатомПоляризуемость10 Средний атомный потенциал1 Np1 _ AIP =∑ Iiионизации в молекуле.N a i =111 См.
дескриптор 712 Минимальная электроотриp1 _ LE = min( χ i )цательность атома в молекуле13 Cм. дескриптор 914 Среднее значение произведений разностей электроотрицательности атомов в p3 _ APDEnh = 1∑ ( χ (a1 ) − χ (a2 )) ⋅ ( χ (a3 ) − χ (a2 ))N p3 p3положениях 1-2 и 3-2 длявсех трех-атомных связныхфрагментов без учета связейс атомами водорода30 Сумма произведений разностейэлектроотрицательности атомов в полоp 4 _ SPDE = ∑ ( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a 4 ) − χ (a3 ))p4жениях 1-2 и 4-3 для всех 4атомных цепочекгде χ - электроотрицательность, ra – ковалентный атомный радиус, an (атомы),bn (связи) и pn (цепочки атомов), которые определяются следующим образом:ab1a2a1 a1 a2 aa31p1p2p3a2a1a4a3p4196a2 a4a1 a3 a5p5Таким образом, псевдофрагментные дескрипторы позволяют в существенной мере улучшать качество моделей, использующих фрагментные дескрипторы, и мы предполагаем, что это происходит за счет решения проблемыредких фрагментов.
Следует отметить, что хотя псевдофрагментные дескрипторы могут и сами по себе участвовать в построении моделей «структурасвойство», наилучшие модели всегда получаются только в сочетании с «настоящими» фрагментными дескрипторами. Поэтому их применение следуетрассматривать как способ улучшения моделей, построенных на базе фрагментных дескрипторов.Кроме рассмотренного выше прогнозирования некоторых физическихсвойств полимеров, преимущество использования псевдофрагментных дескрипторов в качестве добавки к фрагментным дескрипторам продемонстрировано нами для прогнозирования температуры плавления ионных жидкостей (см.раздел 6.4) и констант связывания циклодекстрина с органическими молекулами [400]. Кроме того, псевдофрагментные дескрипторы в сочетании с дескрипторами, описывающими распределение зарядов в молекуле, хорошо себя зарекомендовали при прогнозировании эмбриотоксичности синтетических аналоговприродных аминов [405].197ГЛАВА 6. СОЧЕТАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ИФРАГМЕНТНЫХ ДЕСКРИПТОРОВДанная глава посвящена изучению эффекта от совместного использования искусственных нейронных сетей и фрагментных дескрипторов.
На большом числе примеров проводится сравнение с линейными моделями, построенными на тех же базах данных с применением тех же самых дескрипторов.6.1. Первые свидетельства эффективности совместного использования искусственных нейронных сетей и фрагментных дескрипторовВ 1993 г. мы опубликовали статью, в которой искусственные нейронныесети и пошаговая множественная линейная регрессия были систематическиприменены при построении количественных корреляций «структура-свойства»(QSPR-моделей) для разнообразных физико-химических свойств углеводородов(главным образом, алканов) [406].
В частности, были построены модели дляпрогнозирования: 1) температуры алканов (выборка, насчитывающая 177 соединений, была взята из справочника [407]); 2) температуры плавления алканов(выборка, насчитывающая 90 соединений, была взята из справочника [407]); 3)октанового числа алканов, алкенов и циклоалкенов (выборка, насчитывающая153 соединения, была взята из работы [408]); 4) одновременно шести свойств(молярного объема, молярной рефракции, теплоты испарения, критическойтемпературы, критического давления и поверхностного натяжения) алканов(выборка, насчитывающая 69 соединений, была взята с работы [409]).В ходе исследования два альтернативных набора дескрипторов были использованы для описания химических структур: топологические индексы (ТИ)[326] и фрагментные дескрипторы (ФД) [356]. Набор топологических индексоввключал индексы молекулярной связности 0χ, 1χ, 2χ, 3χp, 3χc, 4χp, 4χpc, индекс Винера W и индексы молекулярной формы 0κ, 1κ, 2κ, 3κ.
Топологические индексырассчитывались при помощи разработанных нами дескрипторных блоковCONNECT, BALABAN и KAPPA. В качестве структурных фрагментов брались198цепочки длиной до двух атомов. Основанные на них фрагментные дескрипторырассчитывались при помощи разработанного нами дескрипторного блокаFRAGMENT (см. разделы 5.1 и 8.3).В N-м компьютерном эксперименте выборка, взятая из соответствующеголитературного источника, была разбита на обучающую выборку с Nt соединениями и контрольную выборку с Nv соединениями.