Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 18
Текст из файла (страница 18)
Каждый раз при нахождении очередного вхождения фрагмента в химическую структуру заселенность соответствующей ячейки молекулярной голограммы увеличивается на единицу. В отличие отстандартных хеш-таблиц, в молекулярных голограммах столкновения данныхне устранены, и поэтому несколько разных фрагментов могут отобразиться наодну ячейку молекулярной голограммы. Следовательно, в результате анализахимической структуры общая заселенность ячейки молекулярной голограммыоказывается равной сумме целочисленных значений дескрипторов, соответствующим фрагментам, на нее отображаемым. Молекулярные голограммы леглив основу голографического QSAR (holographic QSAR - HQSAR) [153], в которомзаселенности ячеек молекулярной голограммы выступают в качестве дескрипторов, корреляция которых с числовым значением биологической активностистроится при помощи метода частичных наименьших квадратов PLS.FragmentsMolecular StructureOOFragmentGenerationFragment Integer IDs 125836205 13 0711234589 1067...CRCAlgorithm...9Molecular HologramBin IDsРис.
19. Генерация молекулярной голограммыПо своей природе молекулярные голограммы очень близки к хешированным молекулярным отпечаткам пальцев (hashed molecular fingerprints) (илипросто молекулярным отпечаткам пальцев (molecular fingerprints)), однако построены на основе бинарных фрагментных дескрипторов, показывающих лишь94наличие или отсутствие данного фрагмента в химической структуре. Также, вотличие от молекулярных голограмм, при построении молекулярных отпечатков пальцев каждый фрагмент может отображаться на несколько ячеек молекулярной голограммы, положения которых вычисляются при введении хеш-кодакак затравки для генератора псевдослучайных чисел.
Для увеличения информационной плотности (которая зависит от соотношений битов “on” и “off”), молекулярные отпечатки пальцев могут быть получены при помощи процедуры сворачивания (folding), при которой каждый молекулярный отпечаток пальцев делится пополам, и две получившиеся половины комбинируются при помощи логической операции ИЛИ. Преимущество хешированных молекулярных отпечатков пальцев заключается в возможности использовать большое число дескрипторов для описания химической структуры. Недостаток же их связан с тем,что в них столкновения данных не устраняются (см. обсуждение выше).
Тем неменее, в некоторых случаях этот недостаток может быть частично устранен путем подбора оптимальной длины хеш-буфера, при котором исключены столкновения наиболее важных фрагментных дескрипторов (см. Рис. 20).OOHOOFragment GenerationO...O...OHO0101101001Hashed fingerprintsРис. 20. Генерация хешированных молекулярных отпечатков пальцев.
Каждыйфрагмент приводит к установке нескольких битов. Бит, на котором произошлаколлизия, отмечен жирным шрифтом и подчеркнут952.2.5. Классификация по связности фрагментовФрагменты, используемые во фрагментных дескрипторах, могут бытьсвязными (connected) и несвязными (disconnected). В абсолютном большинстверабот используются связные фрагменты.
Оказывается, значения дескрипторов,построенных на несвязных фрагментах, всегда может быть выражено череззначения дескрипторов, построенных на базе их компонент связности [259].Следовательно, дескрипторы, построенные на основе несвязных фрагментов,являются избыточными, поскольку не содержат дополнительной информациипо сравнению дескрипторами, построенными на основе связных фрагментов.Тем не менее, дескрипторы построенные на несвязных фрагментах, могутв ряде случаев оказаться полезными, поскольку уравнения SAR/QSAR/QSPR сих участием могут оказаться более простыми.
В частности, нелинейныеQSAR/QSPR-модели с целочисленными дескрипторами на основе связныхфрагментов могут быть заменены линейными моделями на основе несвязныхфрагментов, поскольку числа встречаемости несвязных подграфов в молекулярном графе нелинейно выражаются через числа встречаемости связных подграфов. Таким образом, использование несвязных фрагментов можно рассматривать как неявный способ введения нелинейности в модели QSAR/QSPR, построенных на основе целочисленных фрагментных дескрипторов. То же самоекасается бинарных фрагментных дескрипторов, но только в случае с ними нелинейные выражения заменяются логическими операциями конъюнкции. Таким образом, в случае бинарных дескрипторов несвязные фрагменты в неявномвиде вводят логическую операцию конъюнкции в модели SAR.Идея применения дескрипторов, основанных на несвязных фрагментах,лежит в основе концепции компаунд-дескрипторов (определяемых как комбинации несвязанных между собой фрагментов в молекулярной структуре), быланедавно введена В.А.
Тарасовым с соавт. [318]. В цитируемой работе было показано, что компаунд-дескрипторы существенно улучшают качество SAR модели, позволяющей прогнозировать мутагенность на основе Байесовского вероятностного подхода. Кроме того, дескрипторы на основе несвязных фрагментов96использовались в неявном виде (в форме конъюнкций бинарных дескрипторовна основе связных фрагментов) в ряде работ, основанных на вероятностных методах прогнозирования (см.
книгу [319] и ссылки в ней).2.2.6. Классификация по уровням детализации молекулярных графовВ отличие от исследований QSPR, практически целиком основанных нарассмотрении молекулярных графов, вершины которых соответствуют всематомам (по крайней мере, неводородным) в молекуле, при работе с биологической активностью, и особенно на качественном уровне, часто требуется болеевысокий уровень абстракции. В последнем случае бывает удобно описыватьхимические структуры при помощи специальных редуцированных (reduced)графов, вершины которых, иногда называемые дескрипторными либо фармакофорными центрами, представляют атом или группу атомов, способные взаимодействовать с биологической мишенью, тогда как ребра описывают удаленность дескрипторных центров друг от друга, например, по числу химическихсвязей между ними (т.н. топологическое расстояние).
Подобное биологическиориентированное представление химических структур было впервые предложено в 1982 г. В.В. Авидоном с соавт. под именем графа связности дескрипторных центров (ГСДЦ) [131] как обобщение предложенных ранее дескрипторов ФКСП (см. пункт 2.2.1.6).5CH3N3CH3N81O10S691CH374Рис. 21. Структура фенотиазина с отмеченными на ней дескрипторными центрами97CH31N41N1-1-23N-14-21S1-11CH3O15SCH3Рис. 22. Граф связности дескрипторных центровНа Рис. 22 приведен ГСДЦ для молекулы фенотиазина.
В этом случае редуцированный граф состоит из 10 вершин, соответствующих дескрипторнымцентрам, показанным на Рис. 21, и 16 ребер. Набор дескрипторных центроввключает: (а) четыре гетероатома (см. нумерацию на Рис. 21), которые могутпринимать участие в донорно-акцепторных взаимодействиях и образовании водородных связей с биомолекулами; (б) три метильные группы 5, 6, 7, которыемогут участвовать в гидрофобных взаимодействиях с биологическими молекулами; (в) два бензольных кольца 8, 9 и один гетероцикл 10, которые могут принимать участие в π-π и π-катионных взаимодействиях с биологическими молекулами.
Одиннадцать ребер в ГСДЦ помечены положительными числами, показывающими топологическое расстояние (по числу связей) между дескрипторными центрами, тогда как отрицательные числа обозначают пересечения дескрипторных центров, когда они содержат один либо несколько общих атомов.ГСДЦоказалисьполезныминетолькокакисточникбиологически-ориентированных фрагментных дескрипторов (например, дескрипторы ФКСПможно рассматривать как «атомные пары», рассчитанные при использованииГСДЦ вместо молекулярных графов), но также и при поиске фармакофоров,В дальнейшем, редуцированные графы и основанные на них фрагментныедескрипторы неоднократно вводились разными группами авторов.
Так, пред98ложенные в 1985 г. атомные пары Кархарта (Carhart) [243] оказались близкимик вышеупомянутым дескрипторам ФКСП, и, следовательно, их тоже можнорассматривать как дескрипторы, основанные на двухвершинных связных подграфах специальных редуцированных графов, в которых ребра соответствуютпутям между атомами. Предложенный в 1996 г. Кирсли (Kearsley) модифицированный вариант атомных пар [190], в котором классификация атомов основана на их физико-химических свойствах, еще выше поднял уровень абстракцииэтого типа дескрипторов.
В 2003 г. Жиллет (Gillet), Виллвет (Willett) и Брэдшоу(Bradshaw) предложили новый тип редуцированных графов (в дальнейшем мыих будем называть GWB-редуцированными графами) и продемонстрировали ихвысокую эффективность в осуществлении поиска по подобию [320]. На Рис. 23показан GWB-редуцированный граф, состоящий из 6 вершин и 5 ребер, нарядус несколькими химическими структурами, отображаемыми в него. Три еговершины с меткой R соответствуют кольцам (Rings), две вершины с меткой labeled L – линкерам (Linkers), а одна вершина с меткой F соответствует структурным особенностям (Features) – в данном случае это атом кислорода, способный образовывать водородные связи. В отличие от вышеупомянутых редуцированных графов ГСДЦ, ребра GWB-редуцированных графов специальным образом не помечены и соответствуют обычным химическим связям.NONHOOONNRFLRLRBrOONBrOONNРис.
23. Примеры химических структур, соответствующих одному GWBредуцированному графу (показан в центре)99Еще одна отличительная черта GWB-редуцированных графов заключается в иерархической организации меток вершин. Например, метка Arn (ароматический цикл, не образующий водородных связей) более конкретна по сравнению с меткой Ar (любой ароматический цикл), которая, в свою очередь, является более конкретной по сравнению с R (любое кольцо).
Благодаря этой особенности, GWB-редуцированные графы также могут быть организованы иерархически, причем уровень их абстрактности может быть контролируем (см. Рис.24). Все это приводит к более высокой гибкости в их использовании. Кроме поиска по подобию, фрагментные дескрипторы на основе GWB-редуцированныхграфов с успехом были применены при построении классификационных моделей SAR с использованием деревьев принятия решений [321].FFRLRRFFArArLRFFArnArnLRbFaFd&aArnArnLRd&aONH2NHIncreasing identityIncreasingdiscriminantionРис. 24. Иерархия GWB-редуцированных графов2.2.7. Фрагментные дескрипторы с выделенными атомамиФрагментные дескрипторы с отмеченными атомами рассмотрены в разделе 5.3.1002.3.
Ограничения фрагментных дескрипторовНесмотря на успешное применение и большую популярность фрагментных дескрипторов, они все-таки не лишены определенных ограничений. В литературе упоминается о трех основных проблемах, связанных с ними: (1) проблема «редких» либо «отсутствующих» фрагментов; (2) проблема адекватногопредставления стереохимической информации; (3) отсутствие физической интерпретации.Проблема «редких» и «отсутствующих» фрагментов [322] является, повидимому, наиболее серьезной из упомянутых трех. Действительно, числофрагментов (и, следовательно, количество фрагментных дескрипторов) практически неограниченно: оно значительно превышает число возможных химических структур. В результате этого любая химическая структура содержит такиефрагменты, которые отсутствуют (либо присутствуют в слишком малом количестве) в обучающей выборке, использованной для построения моделейSAR/QSAR/QSPR, необходимых для прогнозирования нужного свойства. Поскольку для фрагментных дескрипторов, соответствующих отсутствующим либо редким фрагментам, нельзя сколько-нибудь надежно оценить значение соответствующего регрессионного коэффициента (и, следовательно, оценить насколько он важен для прогнозирования определенного свойства), то в том случае, если он все-таки важен для прогнозирования данного свойства, оно не будет надежно предсказано.