Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 15
Текст из файла (страница 15)
Следующий этап в применении фрагментов МОП в этой области относится к началу 1990-ых гг., когда их стали использовать для вычисления химического расстояния и проведения поиска по подобию [237]. В последнее время фрагментыМОП стали применять для кластеризации химических баз данных [238, 239] и,76кроме того, они снова стали использоваться для прогнозирования биологической активности органических соединений [194, 240, 241].2.2.1.6.
Атомные пары и топологические мультиплетыЭтот тип фрагментных дескрипторов был специально разработан дляпроведения исследований SAR для фармакологически важных свойств органических соединений. В его основе лежит понятие о дескрипторных центрах, подкоторыми подразумеваются атомы либо группы атомов, которые могли быслужить центрами межмолекулярных взаимодействий. Обычно в качестве дескрипторных центров берутся гетероатомы, ненасыщенные связи и ароматические циклы. Вторым важным элементом в спецификации этого типа дескрипторов является расстояние между дескрипторными центрами, под которымобычно подразумевают топологическое расстояние между атомами в химической структуре, либо кратчайшее расстояние между атомами, принадлежащимидвум группам. В этом контексте, атомная пара определяется как пара дескрипторных центров вместе с расстоянием между ними. По аналогии с этим, топологический мультиплет определяется как мультиплет (обычно триплет) дескрипторных центров наряду с набором расстояний для каждой из их пар.
Дескрипторы, относящиеся к этой категории, принимают обычно бинарные значения, указывающие на присутствие либо отсутствие соответствующих фрагментов в химической структуре. Таким образом, атомные пары являются частнымслучаем топологических мультиплетов. С позиций теории графов, атомные пары представляют собой цепочки со специфицированными типами терминальных вершин и обобщенными типами внутренних вершин и ребер в молекулярном графе. Топологические мультиплеты, однако, требуют более сложногоописания с позиций теории графов.Атомные пары впервые были введены в практику проведения исследований SAR В.В. Авидоном и названы им фрагментарными кодами суперпозицииподструктур (ФКСП) [131, 242].
В дальнейшем сходные дескрипторы былипредложены Кархартом (Carhart) с соавт. [243], которые их использовали для77численной оценки сходства органических соединений, а также для проведенияисследований SAR при помощи анализа тренд-векторов. В отличие от ФКСП,атомные пары Кархарта используют в качестве центров не только дескрипторные центры, но и все остальные неводородные атомы, которые классифицированы с учетом типа химического элемента, числа неводородных соседей и количества π-электронов. В настоящее время атомные пары Кархарта являютсяодним из самых распространенных фрагментных дескрипторов для проведениявиртуального скрининга с целью поиска новых биологически активных соединений.Как дальнейшее развитие дескрипторов этого типа, Хорват (Horvath) ввелтопологические нечеткие биполярные фармакофорные автокоррелограммы(Topological Fuzzy Bipolar Pharmacophore Autocorrelograms) [244], которыеможно представить как атомные пары Кархарта, в которых реальные атомы заменены на фармокофорные центры (классифицированные как гидрофобные,ароматические, акцепторы водородной связи, доноры водородной связи, катионы и анионы), тогда как топологическое расстояние между ними может принимать несколько близких значений вместо одного фиксированного.
Эти дескрипторы были с успехом применены при проведении виртуального скрининга для42 биологических мишеней с использованием поиска по подобию и несколькихчетких и нечетких метрик [245], причем по эффективности использованияфрагментные дескрипторы данного типа лишь очень незначительно уступают3-мерным аналогам [244]. Нечеткие фармакофорные триплеты (Fuzzy Pharmacophore Triplets) были предложены Хорватом (Horvath) [246] как расширениетопологических нечетких биполярных фармакофорных автокоррелограмм наслучай трех фармакофорных центров. Важным нововведением в этом типе дескрипторов явился учет протеолитического равновесия как функции от pH среды [246]. Благодаря этой особенности, эти дескрипторы в ряде случаев оказались способными проводить эффективную дискриминацию между структурноблизкими соединениями со значительно отличающимися значениями биологической активности [246].78Следует упомянуть также и другие типы топологических триплетов.
Вчастности, фармакофорные ключи Similog (Similog pharmacophoric keys), предложенные Шуфенхауэром (Schuffenhauer) и др. [247], состоят из триплетов бинарно закодированных типов атомов (фармакофорных центров) и топологических расстояний между ними.
Тип атома кодируется при этом 4 битами, соответствующими следующим свойствам атома: потенциальный донор водороднойсвязи, потенциальный акцептор водородной связи, объемность и “электроположительность” (electropositivity) (см. Рис. 13). Топологические фармакофорныетреугольники (topological pharmacophore-point triangles), реализованные в программном комплексе MOE [248], представляют собой триплеты атомных типовMOE, разделенные несколькими дискретными значениями топологическогорасстояния.
Модели QSAR, полученные при помощи этих дескрипторов и аппарата «машин опорных векторов», с успехом были использованы при проведении виртуального скрининга при поиске ингибиторов циклооксигеназы-2[249] и лиганд D3–дофаминового рецептора [250].0100O66O0010O41100H0010-4-1100-6-0100-6-Рис. 13. Пример фармакофорных ключей Similog2.2.1.7. Заместители и молекулярные остовыС самого начала применения структурной теории для описания строенияорганических соединений декомпозиция молекул на заместители и молекулярный остов, к которому они присоединены, всегда воспринималась естествен79ной. В историческом плане, анализ заместителей первым вошел в практикупроведения исследований QSAR.
Хотя на вышеупомянутом разложении основаны два классических подхода в QSAR, метод Ханча-Фуджиты (Hansch-Fujita)[251, 252] и метод Фри-Вильсона (Free-Wilson) [129], только второй из них основан на фрагментных дескрипторах, значения каждого из которых показываетналичие либо отсутствие определенного заместителя в определенном положении молекулярного остова. Пользуясь языком теории графов, подструктурныефрагменты метода Фри-Вильсона можно описать как молекулярные графы,включающие в свой состав граф заместителя и граф остова, соединенные между собой ребром.
Эти бинарные дескрипторы традиционно используются в методе Фри-Вильсона в сочетании со множественным линейным регрессионныманализом, хотя последние модификации этого подхода включают использование более современных статистических методов (методов машинного обучения), таких как анализ главных компонент [253] и нейронные сети [254].В отличие от дескрипторов, вычисляемых для заместителей, дескрипторы, описывающие строение молекулярных остовов, редко в явном виде используются в исследованиях SAR/QSAR/QSPR. Возможно, наиболее известныйпример их неявного использования в исследованиях QSAR/QSPR включает использование индикаторных переменных, дискриминирующих между различными типами молекулярных остовов.
Концепция молекулярных остовов и заместителей (боковых цепей) была подробно рассмотрена Бемисом (Bemis) иМурко (Murcko) [255, 256], изучавших их распределение среди лекарств.2.2.1.8. Фрагменты на основе базисных подграфовПоскольку имеется огромное множество молекулярных графов, легкоможно представить, что существует по крайней мере не меньшее множествоподструктурных фрагментов и соответствующих фрагментных дескрипторов.Поэтому было бы очень перспективно найти такое относительно небольшоеподмножество фрагментных дескрипторов, с помощью которого можно былобы аппроксимировать любое свойство. Эта идея лежит в основе концепции ба80зисных графов, предложенной Рандичем (Randič) в 1992 г.
[257], который уподобил разложение молекулярных графов по базису первичных графов (и, следовательно, разложение любого фрагментного дескриптора по базисным фрагментным дескрипторам) разложению векторов по базису векторного пространства. В цитированной работе Рандич предлагает использовать несвязанные графы, состоящие из нескольких цепочек разной длины, в качестве набора такихбазисных подграфов (см. Рис. 14).Рис.
14. Базисные подграфы Рандича для максимального числа вершин 7Тем не менее, для случая базисных подграфов Рандича оказывается возможным найти такие примеры, когда различные структуры содержат одни и теже наборы базисных подграфов. Следовательно, такие базисные подграфынельзя рассматривать как базисные в строгом смысле этого слова. Следует ответить, что строгое решение проблемы нахождения базисного набора инвариантов графов было найдено в 1983 г.