Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 43
Текст из файла (страница 43)
26. Результаты применения метода структурного подобия для коррекциинейросетевых прогнозовСое- Ближайший структурный соседЭксперимен- Результат Резульдинетальное зна- нейросе- тат корниечениетевогорекции№Эксперимен- Расчетноепрогноза по метотальное зна- значениеду струкчениетур-ногоподо-бия9105,114,964,533,904,0511162,831,973,742,483,3437510,003,020,002,95-0,0749500,000,290,000,330,0454530,000,320,000,13-0,192447.1.4. Прогнозирование констант заместителей с использованием искусственных нейронных сетей и квантово-химических дескрипторовВ данном исследовании мы изучали возможность прогнозирования значений констант заместителей (двух констант Гаммета σm и σp; двух константСвейна и Лаптона - полевой F и резонансной R; стерической константы ТафтаEs) при помощью искусственных нейронных сетей с использованием квантовохимических дескрипторов, вычисляемых для модельных соединений, получаемых присоединением заместителей к определенным общим фрагментам (водороду и к метильной, фенильной, пара-нитрофенильной, пара-оксифенильной иорто-диалкилфенильным группам, см.
Рис. 51). Для всех получаемых таким образом соединений проводился квантово-химический расчет при помощи полуэмпирического метода PM3 с полной оптимизацией геометрии. В качестве дескрипторов использовались рассчитанные для модельных соединений значениятеплоты образования, энергий граничных (высшей занятой и низшей свободной) молекулярных орбиталей, а также зарядов на определенных атомах.OHHCH3RRRRO-O+NCH3RH3CCH3RRRРис. 51. Модельные соединения, использованные для расчета квантовохимических дескрипторов245Использованная в работе выборка включала данные для 160 наиболеераспространенных заместителей.
Для контроля прогнозирующей способностипостроенных моделей она была разбита на 2 выборки: обучающую и контрольную. Статистические параметры построенных нейросетевых моделей представлены в Табл. 27.Табл. 27. Статистические характеристики нейросетевых моделей дляпрогнозирования констант заместителейПрогнозируемая константазамести-теляКоэффици-енткорреляцииСреднеквадратичная ошибканаобучающей выборкеСредне-квадратичная ошибкана контрольнойвыборкеРазмеробучающейвыборкиРазмерконтрольной выбор-киσm0.96860.05940.127914416σp0.95890.10140.159214416F0.94030.07170.139114316R0.850.12540.145214416Es0.97940.65550.3935424Полученные низкие среднеквадратичные ошибки прогнозирования наконтрольных выборках (0.13 для σm, 0.16 для σp, 0.14 для F, 0.15 для R, 0.39 дляEs) свидетельствуют о работоспособности данного подхода к прогнозированиюконстант заместителей.7.2.
Корреляции структура-условия-свойство7.2.1. Концепция построения нейросетевых зависимостей структура – условия –свойствоВ настоящее время, когда накоплен значительный объем экспериментальных данных практически во всех областях химии, особенно остро встаетвопрос о возможности обобщения и математической обработки больших мас246сивов разрозненных данных с целью прогнозирования тех или иных свойствновых веществ, представляющих практический интерес. Одним из наиболееперспективных методов такой обработки является нейросетевое моделирование.
К главным достоинствам искусственных нейронных сетей можно отнестивозможность построения на их основе нелинейных многопараметровых моделей даже в тех случаях, когда заранее неизвестен точный вид аналитической зависимости структура-свойство.Классический подход к построению моделей «структура-свойство» основан на аппроксимации зависимости исследуемого свойства от дескрипторов,описывающих структуры химических соединений, при фиксированных «стандартных» условиях, накладываемых на его измерение. Такими условиями могутявляться, например, температура, давление, ионная сила раствора и т.д.
Это,однако, оставляет открытым вопрос о предсказании значений этого же свойствапри других условиях, а также значительно снижает объем доступных для обработки экспериментальных данных. Хотя для этой цели могут быть использованы формулы из арсенала физической химии, однако они не всегда обеспечивают максимально возможную точность прогноза, посколько часто бывают основаны на использовании «усредненных» эмпирических параметров.Поскольку, как правило, зависимость свойств химических соединений отусловий, в которых они измерены, также носит нелинейный характер, мы предположили, что с помощью методологии искусственных нейронных сетей можно расширить классический подход путем добавления характеристик внешнихусловий к входным параметрам нейросети [450, 451].
В качестве характеристиксреды могут использоваться такие параметры, как температура, давление, концентрация, наличие того или иного растворителя, дескрипторы, характеризующие свойства растворителя, и т.д.Общая схема предлагаемого подхода к построению зависимостей структура – условия – свойство изображена на Рис. 52.247Рис. 52.
Общая схема нахождения зависимостей структура – условия – свойствоПринципиальная возможность получения нейросетевых зависимостей«структура – условия – свойство» проиллюстрирована нами построением моделей для прогнозирования физико-химических свойств углеводородов произвольной структуры, содержащих от 1 до 40 атомов углерода (строились зависимости температур кипения от структуры при различных значениях давления,динамической вязкости и плотности при различных температурах; см. подраздел 7.2.2), а также констант скорости кислотного гидролиза сложных эфировкарбоновых кислот при различной температуре и различных составах растворителей (подраздел 7.2.3).7.2.2. Построение и анализ нейросетевых зависимостей структура-условиесвойство для физико-химических свойств углеводородовДля демонстрации возможностей предложенного подхода мы остановилисвой выбор на классе углеводородов, поскольку имеются большие массивыэкспериментальных данных по свойствам этих соединений, измеренных в различных условиях.
Помимо этого, углеводороды, являющиеся важнейшимикомпонентами нефти, природного газа и продуктов их переработки, широко248используются как топливо, в качестве сырья для получения многих химическихпродуктов и т.д.Моделирование зависимости физико-химических свойств углеводородовот их структуры уже проводилось рядом исследователей с использованием линейного регрессионного анализа и топологических индексов [376, 452-460], линейного регрессионного анализа и квантово-химических параметров [461],множественной линейной регрессии и топологических индексов [462-464], атакже нейросетевых методов [198, 406, 465, 466] (подробнее о нейросетевыхметодах см.
раздел 1.2). Моделирование проводилось, как правило, для узкихсерий структурных аналогов. В большинстве случаев использования топологических индексов для описания структур углеводородов моделирование служилолишь иллюстрацией возможности применения предложенных авторами новыхиндексов.Экспериментальные данные [467], на базе которых нами были созданыприведенные ниже нейросетевые модели, были получены для углеводородов сдлиной цепи от 1 до 40 углеродных атомов: насыщенных, с кратными связями иароматических; разветвленных и неразветвленных; ациклических, циклическихи полициклических; и т.д.Для исследования каждого свойства была создана своя структурная базаданных с помощью компьютерной программы MOLED (см. раздел 8.1). Дескрипторы были рассчитаны с помощью дескрипторного блока FRAGMENT (см.раздел 8.3), входящего в программный комплекс NASAWIN (см.
раздел 8.2).7.2.2.1. Моделирование зависимости структура - давление - температура кипенияВ лабораторной практике часто бывает необходимо определить температуру кипения вещества при определенном давлении, как при пониженном, так ипри повышенном. Для этой цели обычно используют классическую номограмму «давление – температура», номограммы для отдельных типов соединений,приближенные таблицы или эмпирические уравнения, применимые лишь к от249дельным конкретным соединениям [468, С.41-46]. Существует несколько компьютерных программ, которые выполняют расчет температур кипения, например, по уравнениям Клаузиуса – Клапейрона [469] и по правилу Тротона [470].К основным недостаткам вышеперечисленных методов вычисления можно отнести их приближенный характер и ограниченную область применения.Помимо этого, для получения данных по номограмме необходимо располагатьдополнительной парой значений температура – давление.При построении нейросетевой модели были использованы значения температур кипения углеводородов разнообразной структуры при давлениях от0,001 мм рт.ст.
до 10 атмосфер [467, С. 200 - 258]. Для расчета исходных дескрипторов были найдены все фрагменты структур с максимальной длиной 4атома. Дескриптором служило число повторений данного фрагмента в структурной формуле соединения. Из общего набора дескрипторов было отобрано354 наиболее значимых дескриптора с помощью пошаговой множественнойлинейной регрессии. Исходная выборка соединений, содержащая 14346 записи«структура – давление – температура кипения», была разбита случайным образом на обучающую (12911 записи) и контрольную (1434 записи) подвыборки.В работе была использована трехслойная нейросеть с 10 скрытыми нейронами.
Нейросеть обучалась по методу обобщенного дельта-правила со скоростью обучения 0,25 и моментом 0,9. После 1000 итераций, когда статистическиепоказатели модели стабилизировались, обучение было остановлено. Параметрынейросетевой модели в момент прерывания обучения нейросети были следующими: R = 0,8581, RMSEt = 57,88, RMSEv = 58,15, где R – коэффициент корреляции между спрогнозированными и экспериментальными значениями, RMSEtи RMSEv –среднеквадратичные ошибки для обучающей и контрольной выборок(оС).Для улучшения статистических показателей мы решили использоватьпроцедуру предварительной модификации дескрипторов. Все рассчитанныефрагментные дескрипторы были подвергнуты модификациям «квадрат величины» и «величина, деленная на количество неводородных атомов в молекуле».Значения давлений, при которых были измерены температуры кипения, также250были модифицированы с использованием функций квадратного корня, квадрата, логарифма, обратной величины и величины, деленной на количество неводородных атомов в молекуле.