Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 33
Текст из файла (страница 33)
На Рис. 39 приведены общий структурный элемент соединений выборки и фрагменты заместителей R1, R2 и R3, которые соответственносвязаны с анкерными атомами общего фрагмента, маркированными метками“b”, ”c” и ”d”, и которые вносят наибольший вклад в лучшую комбинированную модель:1Csp3OdNR1CCCsp3dindR1incR2indR1inbR32cSCXR2NabR3c3dCC4CH2CH2CbOCH3Рис. 39. Наиболее важные фрагменты для ингибирования обратной транскриптазы ВИЧ-1 производными HEPT187Модель получена с помощью метода ИНС и имеет следующие параметрыпрогнозирующей способности: Q2DCV = 0.8561, RMSEDCV = 0.520 и MAEDCV =Прогноз, log 1/EC500.41. Диаграмма разброса для нее представлена на Рис. 40.97533579Эксперимент, log 1/EC50Рис.
40. Диаграмма разброса для ингибирования обратной транскриптазы вируса ВИЧ-1 производными HEPTРассматриваемый пример иллюстрирует возможность применения фрагментных дескрипторов с «выделенными» атомами для количественного прогнозирования биологической активности органических соединений внутри рядов соединений с одинаковым общим фрагментом (скелетом). Следует отметить, что обычно фрагментные дескрипторы редко используются для этой цели,поскольку аппроксимируемый с их помощью вклад конкретной группировкиатомов в общее свойство оказывается независимым от того, где именно внутрихимической структуры она находится.
Поскольку это плохо соотносится с природой биологической активности, которая связана с точным пространственноэлектронным распознаванием молекул, то это часто приводит к плохой прогнозирующей способности построенных QSAR-моделей и к невозможности их интерпретации с целью выявления факторов, влияющих на биологическую активность.Предлагаемые фрагментные дескрипторы с «выделенными» атомамиполностью решают эту проблему, поскольку позволяют позиционировать всерассматриваемые фрагменты относительно заранее заданных внутри химиче188ской структуры «реперных точек». На приведенной на Рис.
40 общей структуредля рассматриваемого ряда соединений такими «реперными точками» являютсяместа подсоединений заместителей к общему скелету, которые мы «выделили»путем приписывания им меток a, b, c и d. Благодаря этому аппроксимируемыйпри помощи фрагментных дескрипторов с «выделенными» таким образом атомами вклад группировки атомов в общую биологическую активность оказывается зависимым от ее положения внутри химической структуры. Это приводитне только к существенному росту прогнозирующей способности получающихсяQSAR-моделей, но и делает их легко интерпретируемой со структурнохимической точки зрения, поскольку значения регрессионных коэффициентов влинейных моделях и введенной нами характеристики Mx (см. раздел 4.2) длянейросетевых моделей четко показывают, какая группировка атомов в какомположении вносит какой вклад в биологическую активность, и, следовательно,какие изменения нужно внести для ее оптимизации.
Более того, рассмотрениехарактеристик Mxy (см. раздел 4.2) позволяет выявить синнергию и диссинергию во влиянии различных группировок атомов на биологическую активность.В определенном смысле предлагаемый подход можно считать дальнейшим развитием классического метода Фри-Вильсона [129].5.3.3. Прогнозирование констант скорости гидролиза эфиров карбоновых кислотБаза данных, содержащая сведения по константам скорости гидролиза,измеренным в диапазоне температур от 0 до 154°С в бинарных системах вода:растворитель (концентрация неводного компонента 0-98%), для 2092 эфировкарбоновых кислот, была использована для прогнозирования константы скорости реакции, lg k [397, 398].
В зависимости от природы заместителей у атомов Си О кислотного остатка эфиров экспериментальные значения lg k изменялись от-7.53 до -0.17. QSPR-модели строили с помощью метода ИНС с использованиемв качестве дескрипторов температуры, концентрации органических растворителей, параметров, характеризующих их свойства [398], а также фрагментов, со189держащих “выделенные” атомы, которые, в соответствии с основными концепциями механизма реакции [399], входят в состав реакционных центров на какой-либо из ее стадий. Каждый из таких фрагментов описывает влияние ближайших к реакционным центрам групп атомов на скорость реакции.
Лучшаякомбинированная модель для этой выборки получена с помощью метода ИНС иимеет: Q2DCV = 0.9162, RMSEDCV = 0.31 и MAEDCV = 0.19. Диаграмма разбросадля полученной модели приведена на Рис. 41.87Прогноз, -log k6543210012345678Эксперимент, -log kРис. 41. Диаграмма разброса для констант скорости гидролиза сложных эфировНа Рис. 42 схематически приведены три фрагмента, наличие которых вструктуре наиболее сильно отражается на величине константы скорости гидролиза.Первый фрагмент описывает стерическое влияние заместителей при αуглеродном атоме карбоновой кислоты, второй – электронное влияние расположенного в уходящей группе атома кислорода, несущего неподеленные электронные пары, третий – влияние фенильной группы при карбоксиле.190OO1CCCOH2OCH+COHCaa2OHOOH 2OCH+COCCOHOHO3OCOOddCH2OOHH+CHOddOРис.
42. Наиболее важные фрагменты для прогнозирования констант скоростейгидролиза сложных эфировТаким образом, данный пример иллюстрирует возможность примененияфрагментных дескрипторов с «выделенными» атомами для количественногопрогнозирования кинетических констант органических реакций, а также для автоматизированного извлечения из огромной массы экспериментальных данныхосновных факторов, влияющих на протекание органических реакций. Можнонадеяться, что в будущем подобного рода анализ займет достойное место в широком арсенале средств теоретической органической химии.5.4.
Псевдофрагментные подходы. FRAGPROP. Прогнозирование физическихсвойств полимеровОдним из недостатков фрагментных дескрипторов, является проблемаредких фрагментов, которые могут отсутствовать в обучающей выборке, ноприсутствовать в соединениях, для которых осуществляется прогноз. Поскольку величины вкладов редких фрагментов не могут быть определены по обучающей выборке, то можно ожидать значительных ошибок прогнозированиядля соединений, содержащих такие фрагменты. Мы предлагаем решать этупроблему путем введения дополнительных дескрипторов, значения которых в191какой-то мере были бы связаны с величинами вкладов фрагментов в прогнозируемое свойство, Мы также предлагаем использовать для этого особую категорию фрагментных дескрипторов, значения которых вычисляются путем комбинирования свойств присутствующих в этих фрагментах атомов.
Дескрипторытакого рода мы будем называть псевдофрагментными дескрипторами, чтобы ихотличать от «настоящих» фрагментных дескрипторов, имеющих в качествезначения числа встречаемости либо индикаторы наличия тех или иных фрагментов в структурах химических соединений. В качестве свойств атомов дляпрогнозирования физико-химических свойств органических молекул можно,например, использовать атомную массу, число электронов, ковалентный радиус, электроотрицательность, потенциал ионизации и т.д., поскольку предполагается, что от них зависят величины вкладов фрагментных дескрипторов в прогнозируемое свойство. Важно также, чтобы используемые комбинации свойствимели ясный физический смысл, поскольку в этом случае возрастают шансыналичия корреляции их значений с величинами вкладов фрагментов, При такойкорреляции небольшое число псевдофрагментных дескрипторов начинает входить в статистические модели вместо многочисленных «настоящих» фрагментных дескрипторов, в том числе и потенциально редких, выступая тем самым вкачестве сжатого обобщения последних.
Это в значительной степени и решаетпроблему редких фрагментов, если псевдофрагментные дескрипторы строятсяна основе часто встречающихся фрагментов, состоящих из отдельных атомовили небольших цепочек из произвольных атомов, которые присутствуют практически во всех молекулах.В качестве первого примера псевдофрагментного дескриптора рассмотрим конструкцию p1 _ AR3 =1NaNa∑Ri =13i. В качестве атомного свойства здесь вы-ступает атомный радиус. Очевидно, что куб атомного радиуса пропорционален«объему» атома. Поскольку суммирование идет по атомам, то они и выступаютв качестве базового фрагмента для вычисления дескриптора.
Физический смыслвсего дескриптора – средний объем атома. Можно предположить, что он будетиграть существенную роль при прогнозировании волюметрических свойств192веществ, например, плотности. Если даже будет требоваться осуществить прогноз подобного свойства для химического соединения, содержащего редкийэлемент, отсутствующий в обучающей выборке, то все равно будет дана разумная аппроксимация его вклада в прогнозируемое свойство.Рассматриваемые псевдофрагментные дескрипторы могут быть использованы при построении статистических моделей в сочетании с «настоящими»фрагментными дескрипторами. Эффективность отдельных комбинаций дескрипторов этого типа с фрагментными дескрипторами была также показана намив работах [400, 401].В настоящей работе мы исследовали дескрипторы на основе комбинацийатомов во фрагментах при прогнозировании трех ключевых физических характеристик полимеров: показателя преломления (n, 298К), температуры стеклования (Т, К) и плотности в аморфном состоянии (ρ, г/см3, 298К,).
Ранее эти свойства моделировались с использованием метода групповых вкладов Ван Кревелена [402] и схем Аскадского [403]. Эти методы не являются по своей сути статистическими, и поэтому для них не оцениваются статистические характеристики моделей. QSPR-модели для расчета свойств полимеров описаны в работеБицерано [404], однако, для этих моделей не определена прогнозирующая способность с помощью скользящего контроля или независимой внешней выборки,что делает невозможным прямое сопоставление их статистических характеристик.Рабочие выборки, включающие сведения об экспериментальных значениях показателя преломления, температуры стеклования и плотности в аморфномсостоянии формировали на основе монографии [404].Расчет фрагментных дескрипторов и построение количественных моделей структура-свойство осуществляли методами быстрой пошаговой множественной линейной регрессии (БПМЛР, см. подраздел 4.1.5) и трехслойной искусственной нейронной сети (нейросети обратного распространения, см.