Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 13
Текст из файла (страница 13)
Эта методология была успешно применена для предсказания множества видом биологической активности, в частности: мутагенности [157, 160, 161], канцерогенности[156, 159, 161-163], галлюциногенной активности [164], антиконвульсантнойактивности [165], ингибиторной активности по отношению к спартеиновой монооксигеназе [166], β-адренергической активности [167], способности связываться с μ-опиатным рецептором [168], антибактериальной активности [169],антилейкемической активности [170] и др.
Она также позволяет строить количественные модели с использованием фрагментных дескрипторов при помощистатистического аппарата множественной линейной регрессии [162, 167].Начиная с начала 90-ых годов, появляется большое число разнообразныхподходов (наряду с соответствующими программами), основанных на использовании фрагментных дескрипторов в исследованиях SAR/QSAR/QSPR. На эту66тему опубликовано несколько концептуальных статей и мини-обзоров [110,111, 113-116, 171]. Рассмотрим основные принципы классификации фрагментных дескрипторов.2.2. Типы фрагментных дескрипторовСтруктурные фрагменты и соответствующие фрагментные дескрипторымогут быть классифицированы: по типам молекулярных графов, по типам молекулярных структур, по типам значений дескрипторов, по типам дескрипторных наборов, по связанности фрагментов, по уровням детализации молекулярных графов и т.д.2.2.1. Классификация по типам молекулярных графовСтруктурные фрагменты, применяемые в исследованиях «структурасвойство», могут быть отнесены ко множеству типов молекулярных графов.
Вчастности, можно выделить: простые фиксированные типы молекулярных графов; фрагменты WLN и SMILES; центрированные на атомах фрагменты; центрированные на связях фрагменты; фрагменты на основе максимальных общихподграфов; атомные пары и топологические мультиплеты; заместители и молекулярные остовы; фрагменты на основе базисных подграфов; фрагменты на основе «добытых» (mined) подграфов; библиотечные фрагменты и др. Рассмотрим каждый из вышеперечисленных типов.2.2.1.1. Простые фиксированные типы молекулярных графовДревнегреческий атомизм, согласно которому все вещества состоят изатомов, приводит к простейшему типу структурных фрагментам – атомам, т.е.вершинам молекулярных графов.
Существует по крайней мере одно свойство,молекулярный вес, значение которого для всех химических соединений могутбыть точно, если не принимать во внимание пренебрежительно малые реляти-67вистские поправки, представлены как сумма атомных вкладов, т.е. атомных весов:NMW = ∑ ni ⋅ AWi(59)i =1где: MW = молекулярный вес; N - число типов атомов (в данном случае, типовхимических элементов) в молекуле; ni – число атомов типа i в молекуле; AWi –атомный вес атома, относящегося к i-ому типу. Обобщение выражения (59)приводит к общему способу оценки свойств химических соединений с использованием основанных на атомных вкладах аддитивных схем по формуле:NP ≈ ∑ ni ⋅ Ai(60)i =1где P обозначает произвольное молекулярное свойство, а Ai – соответствующиеатомные вклады. В отличие от уникального случая с молекулярным весом,уравнение(60)даетлишьприблизительнуюоценкудругихсвойств.Е.А.Смоленский [172], исходя из понятия о химической дисперсии, ввел специальный количественный показатель S, находящийся в интервале от 0 до 1, дляописания способности какого-либо свойства быть представленным при помощиуравнения (60).
Его численная величина равна наивысшему значению коэффициента детерминации, который для данного свойства в принципе может бытьдостигнут в рамках основанного на формуле (60) подхода 1D QSPR [173]. Длянекоторых свойств, таких как парахор [117], молярная рефракция [174] и др.,подобные качество 1D-QSPR-моделей вполне приемлемо, но для остальныхсвойств метод нуждается в улучшении. Наиболее распространенный путь достижения этого состоит во введении усовершенствованных классификационныхсхем для атомов, которые учитывают не только типы химических элементов, нои гибридизацию, число присоединенных атомов водорода, вхождение в составопределенных атомных групп или ароматических систем, и т.д. Следует, однако, отметить, что подобные подходы, которые в неявном виде учитывают молекулярную связность, не являются основанными на изолированных атомныхвкладах (separate-atom-based).68В настоящее время подобные подходы, основанные на анализе атомныхвкладов, широко используются для прогнозирования физико-химическихсвойств и биологических активностей органических соединений.
Метод ГхоузаКриппена (Ghose-Crippen) для предсказания коэффициента распределения всистеме октанол-вода log P (ALOGP) [175-177], его усовершенствованные варианты, предложенные Гхоузом и др. [178, 179] и Вайлдманом (Wildman) иКриппеном [180], разработанный Сузуки (Suzuki) и Кудо (Kudo) методCHEMICALC-2 для предсказания log P [181], программа SMILOGP, разработанная Конвардом (Convard) с cоавторами для предсказания этого же свойства[182], метод XLOGP, разработанный Вангом (Wang) с соавт. для log P [183,184], метод прогнозирования растворимости в воде, разработанный Хоу (Hou)и др.
[185], - это лишь небольшое число примеров прогнозирования физикохимических свойств органических соединений в рамках основанных на атомных вкладах аддитивных схем. Как показал Винклер (Winkler) с соавт., этотподход может быть использован также и для предсказания некоторых видовбиологической активности органических соединений [186].Поскольку все молекулы состоят из атомов, связанных посредством химических связей, соответствующих ребрам молекулярных графов, химическиесвязи были всегда в центре внимания при описании структур химических соединений и предсказании их свойств.
Первые основанные на вкладах по связямаддитивные схемы, такие как методы Цана (Zahn) [118], Бернштейна (Bernstein)[124, 187] и Аллена (Allen) [127, 188], появились почти одновременно с первыми аддитивными схемами, основанными на атомных вкладах. В большинствеслучаев они предназначены для прогнозирования термодинамических свойств,таких как теплота образования, которая непосредственно связана с энергиямихимических связей. Следует, однако, отметить, что вышеупомянутые аддитивные схемы не являются основанными на вкладах изолированных связей (separate-bond-based), поскольку они обычно содержат перекрестные члены, которые могут быть описаны посредством молекулярных графов с 3 вершинами и 2ребрами.69Нилакантан (Nilakantan) с соавторами ввели понятие о топологическихторсионных углах (topological torsions), которые представляют собой четверкипоследовательно связанных между собой неводородных атомов [189].
Такимобразом, они соответствуют цепочке из 4 вершин в молекулярном графе. Каждый атом в топологическом торсионном углу описывается типом атома (который соответствует типу химического элемента), числом присоединенных неводородных атомов и числом пар π-электронов. Молекулярные дескрипторы, показывающие присутствие либо отсутствие топологических торсионных углов вхимических структурах, были использованы для качественного прогнозирования биологической активности в исследованиях SAR [189].
Кирсли (Kearsley) идр. [190] осознали, что описание типа атома посредством типа химическогоэлемента во многих случаях является чересчур специфичным и не может обеспечить достаточной гибкости, необходимой для поиска по подобию и основанного на нем широкомасштабного виртуального скрининга. В связи с этим, онипредложили проводить типизацию атомов в топологических торсионных углахНилакантана (а также в атомных парах Кархарта, см. ниже) путем отнесениякаждого из атомов к одному из семи классов: катионов, анионов, нейтральныхдоноров водородной связи, нейтральных акцепторов водородной связи, полярных атомов, гидрофобных атомов и др.Четыре вышеупомянутых типа структурных фрагментов, а именно атомы,связи, перекрестные члены в основанных на связях аддитивных схемах и топологические торсионные углы, являются, с точки зрения теории графов, цепочками разной длины.
Идея использовать число вложений цепочек разной длиныв молекулярные графы в качестве дескрипторов при построении моделей«структура-свойство» была впервые предложена в 1964 г. Е.А.Смоленским[128], который показал, что энтальпия образования алканов может быть представлена как линейная комбинаций чисел вложения цепочек длиной до четырехвершин (атомов) в молекулярный граф, и обосновал это с точки зрения квантовой теории. Многочисленные работы, опубликованные за последние 40 лет,свидетельствуют о том, что цепочечные структурные фрагменты являются одним из самых популярных, мощных и полезных типов фрагментов в исследова70ниях QSPR/QSAR/SAR.
И действительно, на их использовании основана работатаких компьютерных программ, предназначенных для проведения исследований QSPR/QSAR/SAR, как: CASE [156-159] Клопмана (Klopman); MULTICASE(MultiCASE, MCASE) [191, 192] Клопмана (Klopman); дескрипторный блокFRAGMENT [193] (см. разделы 5.1 и 8.3), входящий в состав программногокомплекса NASAWIN [194] (см. раздел 8.2), разработанного под руководствомН.С.Зефирова на химическом факультете МГУ; программа BIBIGON [195], созданная М.И.Кумсковым с соавт.; программные комплексы TRAIL [196, 197] иISIDA [114], разработанные В.П.Соловьевым и А.Варнеком (Varnek).Помимо многочисленных приложений, связанных с использованием вышеупомянутых программ, цепочечные фрагменты под разными именами встречаются в ряде других исследованиях. В этой связи можно упомянуть молекулярные пути (molecular pathways) Гакха (Gakh) с соавт.