Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 45
Текст из файла (страница 45)
Полученные коэффициенты корреляции ле257жали в интервале от 0.898 до 0.999. Уравнение Гамметта также было успешноприменено для описания констант гидролиза серии фенилбензоатов с различными заместителями в орто- и пара- положениях обоих бензольных колец [473]и для серии зависимостей констант скоростей щелочного гидролиза для 5 водных растворов фенилтрифторацетатов с различными заместителями в бензольном кольце (R2 = 0.797 - 0.991); каждому уравнению соответствовало постоянное значение рН из интервала от 5.00 до 9.91.Интересной представляется работа, в которой приводится корреляцияконстант гидролиза с химическими сдвигами13С для серии из 8 замещенныхфенилдихлорацетатов [474]. Гидролиз проводился в 20%-ном водном раствореацетонитрила при температуре 298.2К. Для одного соединения, которое не участвовало в построении модели, было рассчитано значение логарифма константы скорости гидролиза, хорошо согласующееся с экспериментальными данными.Нас заинтересовала возможность обобщения накопленной информации окинетике гидролиза сложных эфиров карбоновых кислот.
Мы использовалиданные [397] по константам скорости реакции при различных температурах и вразличных бинарных смесях вода-растворитель, а также в чистой водной средедля нейросетевого моделирования. В данном случае нейросетевое моделирование представляется нам наиболее подходящим инструментом, так как позволяет получать нелинейные многопараметровые модели «структура – свойство»,для которых не всегда заранее известен вид аналитической зависимости.Так как нашей задачей было построение модели для набора очень разнородных соединений, то для описания химических структур исследуемых соединений мы решили воспользоваться не экспериментальными константами заместителей, полученными для конечного числа соединений, а расчетными величинами.
Для этой цели нами был рассчитан ряд локальных и глобальных квантово-химическихдескрипторовсиспользованиемдескрипторногоблока«QUANT».Для описания условий реакции мы использовали в качестве дескрипторовзначения температуры реакции и концентрации органического компонента рас258творителя, а также параметры, предложенные В.А.Пальмом [475, C.
106] дляописания эффектов реакционной среды и основанные на допущении, что всюспецифическую сольватацию можно свести к образованию водородных илианалогичных им донорно-акцепторных связей между молекулами растворителяи растворенного вещества и описать двумя параметрами - общей кислотностью(электрофильностью) (E) и общей основностью (нуклеофильностью) (B) растворителя.
Неспецифическая сольватация, в свою очередь, может быть описанадвумя независимыми свойствами среды - полярностью (Y) и поляризуемостью(P). Перечисленные выше характеристики имеют следующее физическое выражение:Y = (ε - 1) / (2ε + 1), где ε-диэлектрическая проницаемость;P = (n2 - 1) / (2n2 + 1), где n – показатель преломления.Шкала значений общей кислотности (Е) получена исходя из величинсольватохромных сдвигов, выраженных в энергетической шкале π-π*-переходаN-[(3,5-дифенил-4-окси)фенил]пиридиний-бетаинов.
Шкала значений общейосновности (B) рассчитана как разница ИК-частот колебаний ОН-группы связанного с основанием и свободного фенола в среде ССl4.Экспериментальные данные для констант скорости реакции гидролизабыли измерены в следующих средах [397, С.7-85]: вода; вода-метанол; водаэтанол; вода-этиленгликоль; вода-ацетон; вода - 1,4-диоксан; вода – диметилсульфоксид; вода –глицерин. Так как мы обрабатывали данные только для водных растворов, то в качестве параметров среды брались лишь значения для неводного компонента смеси.В настоящей работе нами был использован массив данных, содержащий2092 записи. Каждой записи соответствовало значение логарифма наблюдаемойконстанты скорости kAB реакции гидролиза, 4 дескриптора для характеристикрастворителя, по одному дескриптору для температуры и молярной концентрации бинарного растворителя, а также набор из 114 дескрипторов, включающий86 глобальных и 24 локальных квантово-химических дескриптора, описывающих структуру эфира.
Для расчета локальных дескрипторов был выбран мак259симальный общий для всех соединений фрагмент (Рис. 57). Атомы этого фрагмента были помечены, и на каждом атоме вычислялся набор из 6 дескрипторов.4C3OO C2 1Рис. 57. Максимальный общий фрагмент для структур сложных эфиров.Весь массив записей был разбит случайным образом на обучающую (содержащую 1883 соединения) и контрольную (содержащую 209 соединений)выборки. Нейросетевое моделирование было проведено с использованием компьютерной программы NASAWIN (см. раздел 8.2).
Была использована трехслойная нейросеть с 10 скрытыми нейронами. Нейросеть обучалась по обобщенному дельта-алгоритму со скоростью обучения 0.25 и моментом, равным0.9. Прогнозирующая способность нейросети оценивалась по величине среднеквадратичной ошибки для записей из контрольной выборки. Обучение прекращалось в момент наступления переучивания.В результате обучения нейросети была получена модель со следующимипараметрами: число итераций 64824, R = 0.9669; RMSEt = 0.2710; RMSEv =0.3417; где R – коэффициент корреляции, RMSEt и RMSEv –соответствен-но ошибки для обучающей и контрольной выборок (логарифм наблюдаемойконстанты скорости).Далее для каждого входного нейрона для обученной нейросети были рассчитаны характеристики, введенные нами для интерпретации нейросетевыхмоделей (см. радел 4.2). Полученные величины для наиболее важных дескрипторов приведены в Табл.
29.260Табл. 29. Характеристики значимости основных дескрипторовДескрипторMxDxТемпература868.687371.282LocalCharge4747.253141.944LocalLUMODensity3663.265232.108LocalSuperEleDeloc3-542.794223.966Поляризуемость (Р)341.33294.895Кислотность (Е)124.892102.700Основность (B)-111.21129.624Полярность (Y)65.21265.050Концентрация органического компонента в бинарномрастворителе в смеси с водой-64.99935.126Анализ таблицы значимостей дескрипторов показывает, что наибольшеевлияние на константу скорости оказывает величина температуры реакции. Повышение температуры приводит к ускорению реакции, а увеличение концентрации неводного компонента растворителя снижает скорость гидролиза.
Аналогичный эффект влияния концентрации бинарного растворителя уже отмечался ранее [476]. Этот факт можно объяснить замедлением первой стадии реакции– стадии протонирования – при уменьшении в растворе концентрации протонирующих ионов.Из четырех параметров, описывающих влияние растворителя, наибольший вклад вносит значение поляризуемости растворителя (P); далее идут значения общей кислотности (E), общей основности (B) и полярности (Y), причемвклад поляризуемости, кислотности и полярности положителен, в то время каквклад основности отрицателен.
Таким образом, можно сделать заключение отом, что растворитель, характеризующийся большими значениями поляризуемости и кислотности, облегчает прохождение 2-ой необратимой стадии реакции, заключающейся в разрыве С-О связи и способствует стабилизации получающегося в результате этого разрыва карбонил-иона.261Анализ квантово-химических параметров показал значительное положительное влияние величины локального заряда на α–атоме углерода заместителяR1 (LocalCharge4), что свидетельствует о преобладании механизма АAlk1 и хорошо согласуется с опубликованными данными о механизмах гидролиза эфиров. Также существенно влияние величины электронной плотности нижней незанятой орбитали (LocalLUMODensity3), рассчитанной для карбонильного атома кислорода (вклад положителен), и величины индекса электрофильной суперделокализуемости (LocalSuperEleDeloc3) для этого же атома (вклад отрицателен), что может служить доказательством присутствия ацильного механизмагидролиза.Таким образом, благодаря использованию аппарата искусственных нейронных сетей оказывается возможным предсказывать константы скоростей кислотного гидролиза сложных эфиров достаточно произвольного строения припроизвольной температуре и составе растворителя, а также проанализироватьполученную зависимость.
Результаты проведенных исследований демонстрируют возможность применения предложенного нами подхода к количественному моделированию реакционной способности органических соединений.7.3. Индуктивный перенос знаний при интеграции моделей «структурасвойство»В настоящее время развитие методологии построения моделей «структура-свойство/структура-активность” (QSPR/QSAR) по пути совершенствованиядескрипторного описания химических соединений и применения все более совершенных методов анализа данных вошло в стадию насыщения и достигло того уровня, когда существующими методами из базы данных удается извлечьпрактически всю информацию, полезную для прогнозирования. Как отмечаетсяв работе [477], в большинстве случае прогнозирующая способность моделей,построенных с использованием «достаточно хороших» наборов дескрипторов и«достаточно хороших» методов анализа данных, уже очень слабо зависит и от262набора дескрипторов и от применяемого метода, а практически целиком определяется базой данных, использованной для построения модели.
Таким образом, дальнейшее совершенствование дескрипторного описания химически соединений и внедрение все более новых методов машинного обучения способнобудет привести лишь к очень незначительным успехам, а для настоящего прорыва в этом направлении требуется выработка принципиально новых идей, которые позволили бы преодолевать ограничения, связанные с недостаточнымобъемом содержащейся в химических базах данных полезной информации.Между тем известно, что имеется принципиальная разница между методами машинного обучения и теми способами, которыми пользуется при обучении человек [477].