Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 30
Текст из файла (страница 30)
Модель позволяет избежать использования таких экспериментальных параметров, как температура кипения, и ограничиться только знанием структурной формулы соединения.80120Предсказание100Расчет80604020002040608010060402001200Эксперимент20406080ЭкспериментРис. 34. Диаграмма разброса экспериментальных и расчетных значений энтальпии парообразования для обучающей выборки (слева) и выборки для независимого прогноза (справа).
Единица измерения – ккал/моль.Таким образом, применение метода QSPR/QSAR позволяет получить общую модель для расчета и прогноза энтальпии парообразования исследованныхорганических соединений различных классов только на основе знания структурной формулы соединения. Фрагментная модель является альтернативой набору уравнений зависимости энтальпии парообразования от температуры кипения, предложенному для расчета энтальпии парообразования органических соединений в работе [375].5.2.5. Прогнозирование энтальпии сублимации органических соединенийЭнтальпия сублимации, ΔsubH, - энтальпия перехода вещества из твердогосостояния непосредственно (без плавления) в газообразное [381].
Это свойствопредставляет определенный практический интерес в химии кристаллическогосостояния и, в частности, для проблем диспергирования красителей, выцветания материалов, а также таких экологических проблем, как перенос органиче171ских загрязнителей в атмосфере и т.д. [381-384]. Экспериментальное определение энтальпий сублимации, ΔsubH, как и других термодинамических величин,требует дорогих и длительных процедур. Поэтому, в литературе уделялось значительное внимание как расчетным теоретическим, так и эмпирическим QSPRметодам.
Так, например, отметим, что значения энтальпий сублимации былиполучены на основе расчета кристаллических упаковок [381-383]. Для QSPRиспользовались методы регрессионного анализа [381], нейтронные сети [381], атакже 3D-QSAR (CoMFA) [384]. В случае линейного регрессионного анализа собучающей выборкой из 62 соединений (контрольная выборка состояла из 10соединений) было получено трехпараметровое уравнение, в котором в качестведескрипторов использовались число атомов углерода, а также число доноров иакцепторов водородной связи [381] (подробнее см. ниже).В настоящей работе фрагментные дескрипторы применены нами дляQSPR-исследования энтальпии сублимации.
В качестве модельной базы экспериментальных данных по энтальпиям сублимации (База 1) были выбраны данные работы [381]: обучающая выборка из 62 соединений и контрольная выборка - 10 структур (соединения 63-72). Полная выборка включала молекулы с известной кристаллической структурой, содержащие атомы С, H, O, N, в том числе алифатические и ароматические углеводороды, их оксо- и аза-производные,карбоновые кислоты, амиды и аминокислоты, цианиды, хиноны, гетероциклы.Преимуществом данной выборки соединений является наличие для нее расчетаэнтальпий сублимации тремя способами: (1) теоретическим расчетом кристаллических упаковок (со следующими статистическими параметрами: n = 62, r2 =0.971, s = 0.939 ккал/моль, максимальная ошибка = 3.5 ккал/моль), (2) регрессионным анализом (со следующими статистическими параметрами: три дескриптора, n = 62, r2 = 0.92, s = 1.6 ккал/моль, максимальная ошибка = 8.9 ккал/моль,средняя ошибка на прогнозе = 2.8 ккал/моль), и (3) с помощью нейронной сети(со следующими параметрами для лучшей модели: семь скрытых нейронов, n =62, r2 = 0.865, s = 2.2 ккал/моль, максимальная ошибка = 10.1 ккал/моль, средняя ошибка на прогнозе = 3.6 ккал/моль).
Это дает хорошую основу для сравнения, хотя сама выборка и не очень велика.172База 2 (88 соединений) была создана путем добавления в Базу 1 экспериментальных данных работы [382] и исключения дубликатов, а База 3 – путемдобавления в Базу 2 экспериментальных данных работы [384] по хлорированным дифенилам (15 структур) и после исключения дубликатов База 3 в результате включала 104 соединения. Включение хлорированных дифенилов обусловлено как важностью данного типа соединений, находящих широкое применение в качестве изоляционных материалов и замедлителей горения, так и желанием расширить структурное разнообразие выборки на хлорсодержащие соединения.QSPR моделирование проводилась с использованием наших QSAR программ EMMA (см.
раздел 8.1) и NASAWIN (см. раздел 8.2). Фрагментные дескрипторы вычислялись блоком FRAGMENT (см. раздел 8.3), на работу которогоналагались следующие ограничения: длина цепочек составляла 1-6, отборфрагментных дескрипторов осуществляли как в автоматическом режиме, так ивручную, при отборе из группы скоррелированных друг с другом дескриптороввыбирались наиболее коррелирующие с активностью.Рассмотрим теперь сравнительные QSPR результаты. В Табл. 5 представлены характеристики моделей, полученных на основе фрагментных дескрипторов. Прежде всего, мы построили QSPR-модель (Модель 1, Табл.
5), используяту же выборку, что и в работе [381], то есть взяли 62 соединения в качествеобучающей выборки и 10 соединений для прогноза (База 1). Из Табл. 5 видно,чтона3фрагментныхдескрипторах,получаетсяудовлетворительнаястатиcтика, сравнимая с данными работы [381] и дающая разумный прогноз(Модель 1). Интересно, что первый дескриптор (число неводородных атомов)моделирует первый дескриптор работы [381], а два последующих фрагментныхдескриптора непрямым образом моделируют число центров, образующих водородные связи (как и в работе [381]).173Табл.
5. Статистические характеристики QSPR-моделей для энтальпиисублимации (в ккал/моль)Обучающая выборкаКонтрольная выборМодельБазака22RsMAEпрогнNдескрR прогн1130.9242.380.7692.72230.8522.920.7522.413320.8452.970.8162.16Естественно, что, имея в распоряжении Базу 3, было интересным получить QSPR-модель, используя расширенную обучающую выборку.
С этой целью в качестве обучающей выборки использовались соединения 1-62 (База 1),73-88 (База 2) и 13 соединений ряда хлорированных дифенилов (см. выше).Контрольная выборка включала в соответствии с работой [381] те же 10 соединений (63-72), но была дополнена тремя соединениями ряда хлорированныхдифенилов: мы взяли два соединения, использованных для прогноза в работе[384],. Таким образом, обучающая выборка состояла из 91, а контрольная выборка из 13 соединений.
Построенная QSPR-модель (Модель 2, Табл. 5 на стр.174) отличается хорошей предсказательной способностью, превосходящей показатели Модели 1, и позволяет прогнозировать исследуемое свойство для соединений ряда хлорированных дифенилов. Средняя ошибка на прогнозе 2.4ккал/моль (модель на основе трех дескрипторов).Наконец, рассмотрение структур, выпадающих из корреляции, привело кидее изменить обучающую и контрольную выборки следующим образом: мыперенесли две структуры адамантан и диметилглиоксим, из контрольной в обучающую выборку, а муравьиную кислоту, наоборот, из обучающей в контрольную выборку.
Таким образом, обучающая выборка состояла из 92, а контрольная выборка из 12 соединений. Построенная QSPR-модель (Модель 3,Табл. 5 на стр. 233) имеет лучшую прогнозирующую способность по сравнению с моделями 1 и 2. Столь резкое понижение ошибки прогноза на контрольной выборке при столь небольшой модификации разбивки данных на обучающую и контрольную выборку, однако, свидетельствует о наличии проблемы174«редких фрагментов», когда отдельные соединения из контрольной выборкисодержат фрагменты, плохо представленные в обучающей выборке.Уравнение, соответствующее модели, полученной на основе трех фрагментных дескрипторов (Модель 3, Табл. 5 на стр.
174), которая характеризуетсявысокой прогнозирующей способностью, приведено ниже:ΔsubHрасч. = +5.57 + 1.23 ƒr1 + 6.92ƒr2 + 6.95ƒr3(1)n = 104, r2 = 0.8450, s = 2.97 ккал/моль, F = 160, средняя ошибка (по модулю)на прогнозе 2.16 ккал/моль, где ƒr1 – число любых неводородных атомов, ●; ƒr2- количество фрагментов вида =СR-OH; ƒr3 - количество фрагментов вида Nsp3C=O.На рисунках Рис. 35 приведен разброс экспериментальных и расчетныхзначений энтальпии сублимации, соответствующий данной модели.Рис. 35.Диаграмма разброса расчетных и экспериментальных значенийэнтальпии сублимации для обучающей (слева) и контрольной (справа) выборокиз Базы 3 согласно линейно-регрессионной модели (уравнение 1).Таким образом, впервые исследованы энтальпии сублимации органических соединений различных классов в рамках фрагментного подхода на основеметода QSPR.
Показано, что данная методология позволяет получить моделирасчета энтальпии сублимации с параметрами, сравнимыми, а в ряде случаевпревосходящими характеристики регрессионных уравнений, предложенных влитературе. Иными словами, предложена модель, позволяющая прогнозировать175энтальпию сублимации соединений исходя из дескрипторов, учитывающихфрагментный состав молекулы.5.2.6. Прогнозирование температуры вспышки органических соединенийТемпература вспышки (Tf) – одна из важных характеристик горючихсвойств органических веществ [385-387]. Она определяется как нижняя границатемпературы, при которой смесь паров данного вещества с воздухом можетбыть подожжена при инициировании [385-387].Величины Tf известны для многих соединений [387]; однако они не всегда публикуются даже для промышленно важных соединений.
Более того, вомногих случаях экспериментальное определение этой величины для токсичных,летучих, взрывчатых и радиоактивных веществ затруднительно. Все это диктует необходимость разработки теоретических методов оценки температурывспышки. Для Tf были предложены различные схемы расчета, в том числе основанные на QSPR-исследованиях [386, 387].В настоящей работе мы рассмотрели возможности применения структурных дескрипторов для QSPR-исследования температуры вспышки.