Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 42
Текст из файла (страница 42)
График разброса для QSPR-модели, построенной с использованием стадескрипторов для общей базы данных.Таким образом, в результате данной работы была построена количественная модель зависимости “структура-свойство” для констант ионизации органических соединений, принадлежащих различным классам. Полученные результаты показали хорошую применимость фрагментного подхода и искусственныхнейронных сетей к моделированию данного свойства и возможность использования полученных моделей “структура-свойство” для предсказания константионизации новых соединений, принадлежащих к классам, использованным нами для построения моделей.7.1.3. Моделирование мутагенной активности замещенных полициклическихнитросоединений с помощью искусственных нейронных сетейЭкспериментальные исследования, проведенные в течение последнихтрех десятилетий, показали, что немалое число химических соединений, используемых в промышленности, сельском хозяйстве, медицине и в быту, обладают мутагенной активностью и представляют собой генетическую опасностьдля человека, сопоставимую с опасностью радиации.
В настоящее время на основании полученных данных предпринимаются попытки идентифицироватьфрагменты структуры, квантовые параметры и физико-химические свойствахимического соединения, которые могут определять его мутагенную актив238ность. Основной целью этих работ является разработка компьютерного подходадля предварительного (внеэкспериментального) отбора безопасных в генетическом отношении соединений среди вновь синтезированных веществ, представляющих потенциальную ценность в качестве пестицидов, фармакологических икосметических средств, пищевых добавок, красителей и т.д.В настоящее время апробирован ряд компьютерных методов прогнозамутагенной активности соединений. Наиболее известным из них является«CASE» (Computer Automated Structure Evaluation), основанный на поиске с помощью линейно-регрессионного анализа фрагментов структуры – биофоров,которые вносят наибольший вклад в биологическую активность соединения[437].
Известны также попытки описания мутагенной активности с помощьюквантово-химических дескрипторов. Например, для аминопроизводных бифенила, бензидина, стильбена была показана корреляция активности с гидрофобностью – коэффициентом распределения октанол-вода (logP), энергией низшейнезанятой орбитали (ELUMO), значениями констант σ+ Гаммета [438, 439].Мутагенная активность нитро- и амино- замещенных флуоренонов, бифенилов [440, 441] и гетероциклических аналогов пирена и фенантрена уже изучалась ранее [442]. Полученные в этих работах экспериментальные данные были использованы ранее использованы нами для построения линейнорегрессионных уравнений количественной зависимости мутагенной активностиэтих соединений от ФД и квантово-химических дескрипторов с помощью программного комплекса EMMA. Для выборки замещенных бифенилов (21 соединение) были получены 2 линейно-регрессионных уравнения, включающие какфрагменты структуры, так и квантово-химические дескрипторы (минимальныйквадрат коэффициента вклада атомной орбитали углерода в низшую свободнуюмолекулярную орбиталь; минимальный квадрат коэффициента вклада атомнойорбитали азота в низшую свободную молекулярную орбиталь; максимальныйиндекс свободной валентности для атомов углерода; среднее значение индексасвободной валентности для атомов кислорода) [443].
Для гетероциклическиханалогов пирена и фенантрена (22 соединения) лучшим из серии линейнорегрессионных уравнений было одно, включающее в себя только квантово239химические дескрипторы (минимальный индекс свободной валентности; максимальный π-заряд на атоме азота; средний квадрат коэффициента вкладаатомной орбитали кислорода в высшую занятую молекулярную орбиталь) игидрофобность logP [444]. Полученные статистические модели хорошо прогнозировали мутагенную активность химических соединений, входящих в исследуемую выборку, однако отобранные дескрипторы не были информативными сточки зрения представлений о механизмах действия этих соединений.Поэтому для нейросетевого моделирования были использованы те жеэкспериментальные данные, но модели строились на основе дескрипторов, отобранных экспертным путем в соответствии с гипотезами о механизме действиянитроароматических соединений и эмпирическими заключениями о влиянииэлементов структуры на мутагенную активность.OOOOR6R2R1R3R5R2R4R3HOR1ONHR3OR4R2R1HNR4 R1ONRRR3NH2HOOCNH2NNOOOHOOOHORNOHOOCNH2R4 R3O2NNO2NONR2OHOOR2R1R6R8 R7R5Рис.
50. Структуры мутагенных полициклических нитросоединений. В качествезаместителей выступают в различных комбинациях группы NO2, COOH,CONH2240На Рис. 50 приводятся структуры соединений, использованных в настоящем исследовании [445]. Были использованы экспериментальные данные помутагенной активности в штамме Salmonella typhimurium TA 1538 (hisD3052,rfa, uvr), регистрирующем мутации сдвига рамки считывания, без метаболической активации фракцией S9 печени млекопитающих [440-446]. Исходная выборка включала в себя 54 соединения; исследуемая активность выражалась каклогарифм числа his+-ревертантов при дозе, относящейся к середине линейногоучастка кривой доза-эффект.Вначале мы рассмотрели основные факторы, определяющие или влияющие на мутагенную активность нитроароматических соединений, чтобы определить набор дескрипторов для включения в математические модели. Известно,что основным путем биотрансформации нитроаренов, приводящим к образованию мутагенных, канцерогенных и токсичных метаболитов, является восстановление нитрогруппы нитроредуктазами клетки [447].
Способность к восстановлению нитроаренов коррелирует с таким параметром как энергия низшейнезанятой молекулярной орбитали ЕLUMO (дескриптор d1) [447]. Кроме того, вмодель были включены 2 квантово-химических дескриптора, которые характеризуют состояние атомов азота и кислорода в молекулах: максимальный зарядна атоме азота (дескриптор d2) и максимальный заряд на атоме кислорода (дескриптор d3). В качестве дескриптора d4 в модель был включен коэффициентраспределения октанол-вода logP (гидрофобность), характеризующий способность молекулы достигать сайтов взаимодействия в живом организме. Квантовые расчеты проводились по методу АМ1, расчет logP – по методу Реккера.Наибольшую активность в экспериментах показали соединения с параположением нитрогруппы, гетероциклические аналоги пирена с параположением аминогруппы, тогда как наличие заместителей в орто- и метаположениях снижало активность.
Поэтому в качестве подструктурных дескрипторов в модель были введены следующие дескрипторы: наличие нитрогруппы впара- положении - d5; наличие аминогруппы в пара-положении - d6; наличиемета- и орто-заместителей - d7.241Нейросетевое моделирование проводилось с использованием программного комплекса NASAWIN (см. раздел 8.2) и EMMA (см. раздел 8.1). Каждаяисследуемая выборка разбивалась случайным образом на обучающую и контрольную подвыборки. Были изучены построенные на одинаковых наборах дескрипторов линейно-регрессионные и нейросетевые модели. Обучение ИНСпроводилось по методу обобщенного дельта-правила со скоростью обучения,равной 0,25 и моментом 0,9.
Обучение прерывалось в момент наступления переучивания.Предварительно нами был проведен отбор наиболее значимых дескрипторов с помощью множественной линейной регрессии. Для общей выборки такими дескрипторами оказались 3 дескриптора – ЕLUMO (d1), logP (d4) и дескриптор, характеризующий наличие нитрогруппы в пара-положении (d5). Результаты нейросетевого моделирования для общей выборки, содержащей 49 обучающих и 5 контрольных соединений, приведены в Табл. 25.С целью улучшения параметров модели в рамках заданных дескрипторовобщая выборка из 54 соединений была разбита на 2 подвыборки структурнородственных соединений. Для первой подвыборки, состоящей из 33 гетероциклических аналогов пирена и фенантрена и замещенных флуоренонов, значимыми оказались все дескрипторы, за исключением липофильности (d4). Для второйподвыборки, содержащей замещенные бифенилы, значимыми оказались дескрипторы ELUMO (d1) и logP (d4).Сравнивая между собой результаты отбора дескрипторов для различныхвыборок, легко заметить, что дескриптор ЕLUMO выступает в роли основного,способного характеризовать мутагенную активность как молекул с конденсированными бензольными кольцами, так и производных бифенила.
Чем энергиянизшей свободной орбитали ниже, тем стабильнее соответствующие активныеметаболиты, в частности первый в цепи восстановления нитрогруппы – анионрадикал, тем больше мутагенная активность. Вторым по значению дескриптором, характеризующим положение нитрогрупп, является d5, прямо пропорциональный мутагенной активности. Влияние мета- и орто- заместителей, уменьшающее планарность молекулы и ее активность, оказалось более важным для242молекул с конденсированными бензольными кольцами, чем для бифенилов.Следует отметить, что планарность молекулы для мутагенной активности нитроароматических соединений имеет особое значение [448].
Во-первых, планарные молекулы обладают большей способностью интеркалировать в ДНК, чемнепланарные, и, во-вторых, полагают, что они имеют повышенное сродство книтроредуктазам, чем другие соединения [449]. Липофильность оказалась несущественным параметром при описании активности производных с конденсированными бензольными кольцами. Модели, описанные в литературе для этихпроизводных, также как и для бифенилов, как включают этот параметр [444],так и не включают его [443].
Этот факт можно объяснить тем, что липофильность играет второстепенную роль в определении мутагенной активности рассматриваемых соединений.Табл. 25. Статистические характеристики нейросетевых моделейВыборкасоединенийПроизводные пирена,фенантрена, флуоренонаЗамещенные бифенилыВсе соединенияДескрипторывходного слояd1, d2, d3, d5, d6,d7МетодИНСМЛРХарактеристики моделиRRMSEt RMSEv0.900.760.960.751.451.94d1, d4ИНС0.970.590.13МЛР0.801.211.34d1, d4, d5ИНС0.871.301.57МЛР0.751.451.94где R - коэффициент корреляции между предсказанной и экспериментальной величинами числа ревертантов для соединений обучающей выборки;RMSEt – среднеквадратичная ошибка воспроизведения числа ревертантовдля соединений обучающей выборки (ln единицы);RMSEv - среднеквадратичная ошибка предсказания числа ревертантов длясоединений контрольной выборки (ln единицы).Результаты нейросетевого моделирования для двух подвыборок родственных соединений также приведены в Табл.
25. Первая подвыборка содержала30 соединений в обучающей выборке и 3 соединения в контрольной; вторая –19 в обучающей и 2 в контрольной. Как видно из Табл. 25, наилучшая модельбыла получена для замещенных бифенилов, представляющих собой единый243массив структурно-родственных соединений, действующих по одному механизму.Нам удалось значительно улучшить результаты нейросетевого прогноза,полученные для обобщенной выборки с использованием метода структурногоподобия, реализованного в программном комплексе «NASAWIN». Для каждогосоединения из контрольной выборки было найдено ближайшее структурнородственное соединение из обучающей выборки для проведения процедурыкоррекции нейросетевого прогноза, результаты которого приводятся в Табл.
26.Среднеквадратичная ошибка нейросетевого прогноза с последующей коррекцией по методу структурного подобия составила 0,30 логарифмических единиц.Таким образом, примененный нами подход, основанный на введении вмодель дескрипторов, отобранных экспертным путем, может иметь свою область применения в качестве проверки выдвинутой гипотезы о механизме действия группы структурно-родственных соединений. Кроме того, полученныенами зависимости могут быть использованы для предварительного прогнозамутагенной активности новых соединений, которые по своей химическойструктуре близки к соединениям из анализируемой выборки.Табл.