Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 17
Текст из файла (страница 17)
Некоторые из этих взаимодействий могут быть представлены специальными связями в молекулярных графах. Например, можно ввести специальную «координационную связь» для описания донорно-акцепторных и/или дативных взаимодействий между центральным атомом металла в комплексе и донорными атомами в лигандах. Также можно провести специальную «водородную связь»между атомом водорода и атомом-акцептором водородной связи, либо междудонором и акцептором водородной связи в «безводородных» супрамолекулярных графах.
Результирующие супрамолекулярные графы можно использоватьвместо обычных молекулярных графов для вычисления фрагментных дескрипторов, и единственное отличие будет заключаться в кодировании «супрамолекулярных связей».Концепция молекулярных графов также может быть распространена наописание химических реакций, в особенности в области органической химии(см.
обзор [305]). Эта задача решается путем введения специальных типов связей, соответствующих образованию либо разрыву обычных химических связей,либо изменению их порядка. Результирующий реакционный граф содержит всюнеобходимую информацию, чтобы реконструировать левую и правую части соответствующего уравнения реакции. В качестве примера, рассмотрим реакциюДильса-Альдера, изображенную на Рис. 17. Метка связи 01 в реакционном графе соответствует образованию простой связи; метка 21 соответствует превращению двойной связи в простую, тогда как метка 12 описывает превращениепростой связи в двойную.88210112122101Рис.
17. Реакция Дильса-Адлера и соответствующий реакционный графПервые аналоги частичных реакционных графов, содержащие только связи,подвергающиеся изменению (т.е. разрывающиеся, образующиеся и меняющиесвою кратность) в результате реакции, ранее были использованы для классификации и перечисления типов органических реакций в рамках матричного формализма Уги-Дугунджи (Ugi-Dugundji) [306] и формально-логического подходаН.С. Зефирова и С.С.
Трача [307, 308]. Владуц (Vladutz) [309] объединил структуры реагентов и продуктов реакции в единый граф, содержащий специальныеметки для обозначения связей, подвергающихся изменению в результате реакции. Результирующий реакционный граф, называемый суперпозиционным графом реакционного скелета (Superimposed Reaction Skeleton Graph) может такжесодержать связи (вместе со смежными им атомами), не подвергающиеся изменениям в результате реакции. Сходные реакционные графы были также предложены Фуджитой (Fujita) [310, 311] и названы им мнимыми переходными состояниями (imaginary transition states), которые были использованы авторомдля классификации и перечисления типов органических реакций.Следующий этап в развитии концепции реакционных графов был направлен на разработку фрагментных дескрипторов, которые могли бы быть использованы для кодирования и предсказания реакций органических соединений.
Ю.Бородина с соавт. предложили расширение дескрипторов MNA, получившееназвание RMNA (Reacting Multilevel Neighborhood of Atom), для кодированияметаболических превращений молекул [312]. В этом подходе отдельные описания субстратов и продуктов реакций при помощи MNA-дескрипторов дополнены информацией о связях, подвергающихся изменениям в результате трансформации. Дескрипторы RMNA были успешно применены для предсказаниясайтов метаболического гидроксилирования с участием цитохрома-P450 [312].89Концепция реакционных графов, сходная с концепцией мнимого переходного состояния Фуджиты (Fujita) [310, 311], была недавно выдвинута Варнеком (Varnek) с соавт., предложившими использовать конденсированные графы реакций (Condensed Graphs of Reactions) [114].
В отличие от обычных молекулярных графов, конденсированные графы реакций содержат специальныеребра для обозначения химических связей, претерпевающих изменения в результате реакции. Конденсированные графы реакции могут быть использованыдля генерации фрагментных дескрипторов точно таким же образом, как это делается для обычных молекулярных графов.2.2.3. Классификация по типам значений дескрипторовОбычно рассматриваются два типа значений, принимаемых фрагментными дескрипторами – бинарные и целочисленные. Бинарные значения показывают наличие (true, yes, 1) либо отсутствие (false, no, 0) данного фрагмента вхимической структуре. Хотя первоначально бинарные фрагментные дескрипторы использовались главным образом а качестве скринов либо элементов «молекулярных отпечатков пальцев» (см. подробное обсуждение в разделе 2.2.4) дляработы с химическими базами данных, в последнее время все чаще их сталиприменять для прогнозирования биологической активности, а также для проведения виртуального скрининга с использованием как поиска по подобию, так ивероятностных подходов SAR.
Целочисленные значения фрагментных дескрипторов показывают, сколько раз соответствующий фрагмент встречается вхимической структуре. Обычно они используются для прогнозирования физико-химических свойств (реже, биологической активности) органических соединений.Возникает естественный вопрос: могут ли фрагментные дескрипторыпринимать другие типы значений? Вероятный ответ: в принципе, да, но в этомслучае они называются топологическими индексами.
Например, индексы связности Кира-Холла (Kier-Hall) [313] формально могут быть представлены какфрагментные дескрипторы, значения которых равны суммам произведений оп90ределенных атомных характеристик внутри фрагмента. Другой пример - эторассматриваемые в рамках данной диссертационной работы псевдофрагментные дескрипторы (см. раздел 5.4), которые более тесно связаны с фрагментными дескрипторами по сравнению с типичными топологическими индексами.2.2.4, Классификация по типам дескрипторных наборовНабор фрагментных дескрипторов, рассчитанных для химического соединения, может быть организован тремя основными способами, а именно, ввиде: (а) векторов фиксированного размера; (б) списков; и (в) хеш-таблиц.Чаще всего набор значений фрагментных дескрипторов, рассчитанныйдля химического соединения, помещают в одномерный массив фиксированногоразмера (т.е.
вектор), каждая ячейка (элемент) которого соответствует определенному подструктурному фрагменту, а содержащееся в ней значение – значению соответствующего фрагментного дескриптора. Вектор, содержащий бинарные значения фрагментных дескрипторов, называется набором структурных ключей (structural keys), которые в контексте работы с базами данных называются также скринами (screans) (см. Рис. 18). Поскольку структурные ключихранятся в памяти компьютера в виде битовых строк, все операции с нимиосуществляются очень эффективно, и именно это обуславливает популярностьих использования для работы с базами химических данных, поиска по подобию,построения моделей SAR/QSAR, а также для осуществления с их помощьювиртуального скрининга.91OOHOOFragment GenerationO...OOHO0001001001Structural keysРис.
18. Генерация структурных ключей для молекулы аспиринаХотя структурные ключи хорошо зарекомендовали себя как эффективныйинструмент исследований, однако успех их применения в значительной степенизависит от начального выбора набора фрагментов.
Оказывается, что структурные ключи, построенные на фрагментах даже сравнительно небольшого размера, являются очень разреженными (т.е. они содержат лишь небольшую частьненулевых элементов), а компьютерная обработка таких сильно несбалансированных наборов данных значительно менее эффективна по сравнению со сбалансированными. Как частичное решение этой проблемы, сгенерированные дляхимической структуры фрагментные дескрипторы могут быть организованы ввиде списка, содержащего либо коды фрагментов (для бинарных дескрипторов)либо пары «код фрагмента – значение дескриптора» (для целочисленных фрагментных дескрипторов).
Хотя такой способ представления разреженных массивов является эффективным с позиций использования памяти компьютера, однако он неэффективен с точки зрения времени, необходимого для доступа к его92элементам, что может быть очень принципиально при обработке больших базхимических данных.Третий способ организации наборов фрагментных дескрипторов состоитв использовании хеш-таблиц (hash tables), под которыми понимается структураданных, позволяющая ассоциировать ключи (keys) с соответствующими значениями (values) [314, 315]. Хеш-таблицы позволяют эффективно осуществлятьоперацию поиска по таблице (lookup), которая для данного ключа (в данномслучае, кода фрагмента) находит соответствующее значение (в данном случае,значение фрагментного дескриптора). Операция поиска по таблице осуществляется путем преобразования ключа (в данном случае, кода фрагмента) при помощи хеш-функции (hash function) в хеш-код (hash code), т.е.
целое число, используемое как индекс в массиве, позволяющем определить местоположениеучастка памяти (bucket), содержащего искомое значение. Таким образом, оказывается возможным найти значение фрагментного дескриптора путем преобразования кода фрагмента (в сущности, имени фрагментного дескриптора) вхеш-код, позволяющий найти положение элемента массива, содержащего всезначения дескрипторов. Однако, поскольку размер такого массива обычно значительно меньше максимального возможного значения хеш-кода, положениеискомого элемента массива находят как остаток от деления хеш-кода на размермассива. Эта операция, к сожалению, может приводить к столкновениям данных (collisions), когда разные ключи указывают на один элемент массива, однако теория программирования указывает на эффективные способы устранениястолкновений данных (collision resolution) за счет некоторого усложненияструктур данных и алгоритмов работы с нимиИнтересная модификация хеш-таблицы, предназначенная для проведенийисследований QSAR, т.н.
молекулярная голограмма (molecular hologram), разработана для целочисленных фрагментных дескрипторов [153]. Для получениямолекулярной голограммы для химического соединения каждый найденныйвнутри химической структуры фрагмент кодируется при помощи линейной нотации SLN (SYBYL Line Notation) [316], потом код фрагмента переводится в32-битный хэш-код, называемый fragment integer ID при помощи алгоритма93CRC [317]. (см. Рис. 19). После этого фрагмент помещается в определеннуюячейку (bin) молекулярной голограммы, положение которой (bin ID) вычисляется как остаток от деления хеш-кода (fragment integer ID) на размер (т.е. количество ячеек) молекулярной голограммы.