Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 14
Текст из файла (страница 14)
[198], молекулярныемаршруты (molecular walks) Рюкера (Rücker) [199] и др.В отличие от цепочек, циклические и полициклические фрагменты относительно редко в явном виде используются в исследованиях QSAR/QSPR. Похоже, что вышеупомянутый дескрипторный блок FRAGMENT [193] являетсяединственной программой, систематически работающей с фрагментными дескрипторами этого типа.
Тем не менее, в неявном виде циклические фрагментывовлечены во многочисленные исследования посредством: (а) введения специальных «циклических» и «ароматических» типов атомов и связей; (б) «сворачивания» целых циклов и даже полициклических систем в «фармакофорные»псевдоатомы; (iii) генерации циклических фрагментов как частного случая других более общих типов фрагментов, в частности, фрагментов на основе максимальных общих подграфов (см. пункт 2.2.1.5), заместителей и молекулярныхостовов (см. пункт 2.2.1.7), фрагментов на основе базисных (см. пункт 2.2.1.8),«добытых» (см. пункт 2.2.1.9) и случайных (см.
пункт 2.2.1.10) подграфов, атакже библиотечных фрагментов (см. пункт 2.2.1.11). Кроме того, циклическиефрагменты широко используются в качестве скринов при работе с химическими базами данных [200, 201].712.2.1.2. Фрагменты WLN и SMILESФрагменты WLN и SMILES соответствуют подстрокам (обычно длиной водин символ) строк WLN (Wiswesser Line Notation – линейная нотация Висвессера) [202] либо SMILES (Simplified Molecular Input Line Entry System) [203,204], которые активно используются для кодирования структур органическихсоединений. В структурном плане, односимвольные фрагменты WLN иSMILES представляют собой атомы либо простейшие группы, и поэтому основная отличительная особенность этого типа структурных фрагментов заключается в способах его обработки на компьютере. Поскольку простейшие операции над строками значительно более эффективны по сравнению с операциямина графах, использование дескрипторов WLN было вполне оправдано в 1970-ыегоды в эпоху медленных компьютеров.
В это время Адамсон (Adamson) и Бауден (Bawden) опубликовали целый ряд работ, в которых фрагментные дескрипторы WLN использовались в исследованиях QSAR и QSPR в сочетании со статистическим анализом при помощи аппарата множественной линейной регрессии [138, 140, 141, 205, 206]. Эти же авторы применили фрагментные дескрипторы WLN для проведения иерархического кластерного анализа и автоматической классификации химических структур [207]. В дальнейшем линейная нотация Висвессера была существенно усовершенствована, и на ее основе Ку (Qu) ссоавт. разработал новую линейную нотацию AES (Advanced Encoding System),специально предназначенную для того, чтобы быть использованной в качествехимического языка для кодирования информации специально для методовгрупповых вкладов.
Таким образом, хотя фрагментные дескрипторы WLN (каки сама линейная нотация Висвессера) сейчас могут казаться устаревшими, онисыграли важную историческую роль в развитии методологии исследованийQSAR/QSPR, основанных на применении фрагментных дескрипторов.Тем не менее, интерес к дескрипторам, построенных на основе линейныхнотаций, полностью не исчез с приходом мощных компьютеров и со снижением интереса к нотации Висвессера как таковой. Работы, основанные на использовании фрагментных дескрипторов SMILES, все еще продолжают появляться.72В качестве характерных примеров можно привести программу SMILOGP дляпредсказания константы распределения в системе октанол-вода logP [182] и недавно разработанную систему LINGO для расчета биофизических свойств иоценки межмолекулярного сходства на основе голографического представленияканонических строк SMILES [208].2.2.1.3.
Центрированные на атомах фрагментыЦентрированные на атомах фрагменты (ЦАФ) состоят из центральногоатома, окруженного одной или несколькими оболочками атомов, находящихсяна одинаковом топологическом расстоянии от него. Исторически этот типструктурных фрагментов был впервые введен в практику исследований «структура-свойство» В.М.Татевским в начале 1950-ых годов [123, 209] при разработке основанных на атомах аддитивных схем для предсказания физикохимических свойств органических соединений, что потребовало разработкимногоуровневой системы классификации атомов, которая эквивалентна использованию ЦАФ. Развивая эти идеи дальше, Н.Ф.Степанов с соавт.
продемонстрировали на многочисленных примерах оптимальность рассмотрения соседствапервого уровня для классификации атомов [210], что эквивалентно рассмотрению ЦАФ с одной оболочной атомов вокруг центрального (т.е. ЦАФ с радиусом 1). Очень схожие идеи были также выдвинуты в конце 1950-ых годов Бенсоном (Benson) и Бассом (Buss) [126], которые в явном виде использовали ЦАФс радиусом 1 при разработке аддитивных схем для оценки термохимическихсвойств химических соединений (см.
обзорную статью [211]).ЦАФ радиуса 1 были введены в практику исследований в области хемоинформатики под названиями ЦАФ (atom-centered fragments) и «расширенныеатомы» (augmented atoms) в 1971 г. Адамсоном (Adamson) [212, 213], которыйизучал их распределение в больших химических базах данных с целью определения преимуществ их использования в качестве скринов для подструктурногопоиска. Аналогичные ЦАФ радиуса 1 были переизобретены Хоудсом (Hodes) ивведены им в практику проведения исследований SAR под названием «расши73ренные атомы» [135].
Наряду с ними, Хоудс также предложил использовать«ганглии-расширеные атомы» (ganglia augmented atoms), которые дополнительно учитывают связи между атомами первой и второй оболочек [214] и поэтому могут быть представлены как ЦАФ радиуса 2 с обобщенными атомамиво второй оболочке. ЦАФ радиуса 1 были в дальнейшем также интегрированы вдескрипторный блок FRAGMENT [193] под названием «разветвленные фрагменты» (branched fragments).
ЦАФ произвольного радиуса были независимопредложеныиреализованынесколькимигруппамиавторов:(а)В.П.Соловьевым и Варнеком (Varnek) в программах TRAIL [196, 197] и ISIDA[114]подименем«расширенныеатомы»(augmentedatoms);(б)Д.А.Филимоновым, В.В.Поройковым с соавт.
в программе PASS [215] под именем «многоуровневые атомные окрестности» Multilevel Neighborhoods of Atoms (MNA) [216]; (в) Ксингом (Xing) и Гленом (Glen) под именем «структурированные по дереву отпечатки пальцев» (tree structured fingerprints) [217] (которые, однако, в дальнейших публикациях Бендера (Bender), Глена (Glen) и др.называются «атомными окрестностями» (atom environments) [218, 219] и«циркулярными отпечатками пальцев» (circular fingerprints) [220-222], см. Рис.12); (г) Фолоном (Faulon) под названием «молекулярные подписи» (molecularsignatures) [223-225].NH221O0CLayers:0C.ar (sp2)OH1C.ar (sp2)3C.ar (sp2)C.ar (sp2)C.ar (sp2)C (sp2)N (sp3)O (sp2)O (sp3)Рис. 12. «Циркулярные отпечатки пальцев» вместе с типами атомов, используемыми в mol2-файлах программного комплекса Sybyl.
Индивидуальныйфрагментный дескриптор вычисляется для каждого атома в молекуле с учетоматомов, отстоящих от него не больше, чем на две связи74Некоторые типы ЦАФ были первоначально разработаны для хранения вспектральных базах данных локальной (т.е. относящейся к отдельным атомам)спектральной информации, например, значений химического сдвига. Бремсер(Bremser) разработал систему подструктурных кодов, названную как «иерархически-упорядоченное сферическое окружение» (Hierarchically Ordered SphericalEnvironment (HOSE)), чтобы охарактеризовать сферическое окружение как отдельных атомов, так и целых циклических систем [226].
Эти кода генерировались автоматически из топологических представлений химических структур ислужили для описания структурных контекстов для спектральных параметров(в частности, химических сдвигов). Очень близкая идея была воплощена Дюбуа(Dubois) и др. в системе DARC под именем FREL (Fragment Réduit à un Environment Limité – фрагмент, редуцированный до ограниченного окружения)[227, 228]. Ксяо (Xiao) с соавторами также использовали ЦАФ под названием«центрированные на атомах многоуровневые кода» (Atom-Centered MultilayerCode (ACMC)) для проведения структурного и подструктурного поиска вбольших базах данных по химическим структурами и реакциям [229].Одно из важных недавних приложений ЦАФ касается предсказания мишеней (target fishing) для данного органического соединения в хемогеномике[215, 230, 231].2.2.1.4.
Центрированные на связях фрагментыЦентрированные на связях фрагменты состоят из центральной связи, двухатомов, ею соединенных и окруженных одним или несколькими слоями атомов,находящихся на одинаковом топологическом расстоянии от ближайшего изэтих двух атомов. В отличие от ЦАФ, они довольно редко используются в исследованиях SAR/QSAR/QSPR, однако они могут быть эффективно примененыв качестве скринов при работе с химическими базами данных, что было продемонстрировано Адамсоном (Adamson) с соавт. [232]. Фрагменты этого типавходят в состав ключей MDL [233, 234], которые нашли применение как для75организации подструктурного поиска, кластеризации баз данных [150], так идля проведения исследований SAR [152].
Центрированные на связях фрагментыприменялись также в системе DARC [227, 228].2.2.1.5. Фрагменты на основе максимальных общих подграфовМаксимальный общий подграф (МОП) для множества графов определяется как подграф, который содержится во всех графах этого множества, но не содержится ни в одном другом МОП. В большинстве практически важных приложениях МОП определяется только для пар графов, т.е. для множеств, состоящих из двух графов.
МОП могут быть найдены при помощи процедуры пересечения графов с использованием множества различных алгоритмов (см. обзор [235]), наиболее известный из которых состоит в поиске клик т.н. графовсовместимости. Следует, однако, принять во внимание, что для пары графовможет существовать несколько МОП. Основное преимущество использованияМОП в качестве фрагментов в исследованиях SAR/QSAR/QSPR состоит в том,что разнообразие их строения ничем искусственно не ограничено, и поэтому сих помощью могут быть найдены ответственные за целевые свойства структурно сложные фрагменты, которые никак не могли бы попасть в поле зрения прирассмотрении только фрагментов, относящихся к какому-нибудь структурнооднородному типу, такому как цепочки, циклы, ЦАФ и др..Впервые фрагменты МОП были использованы в исследованиях SAR вначале 1980-ых годов А.Б. Розенблитом и В.Е.
Голендером в рамках разработанного ими логико-комбинаторного подхода [130, 131, 236]. Поскольку в товремя компьютеры были очень медленными, в практических приложениях авторам, однако, пришлось ограничиться операциями над редуцированными графами (см. обсуждение ниже), построенных на фармакофорных центрах.