Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 27
Текст из файла (страница 27)
Построение фрагментного дескриптораЗначением фрагментного дескриптора является число вхождений соответствующего подграфа в молекулярный граф, т.е. сколько раз соответствующая подструктура содержится в химической структуре. Код фрагмента содержит 3 поля (для фрагментов p1 два), разделенные точками: код типа фрагмента,коды атомов и коды связей (1 – простая связь, 2 – двойная связь, 3 – тройнаясвязь, 4 – ароматическая связь). Код типа фрагмента содержит два символа,первый из которых является одной из следующих букв: p – для цепочек, c – дляциклических фрагментов, s – для разветвленных фрагментов, b – для бициклических фрагментов, t – для трициклических фрагментов.
Второй символ соответствует числу вершин (в шестнадцатеричной системе исчисления) в соответствующем подграфе. Полный перечень типов фрагментов приведен в подразде153ле 5.1.1. В тех случаях, когда возможно несколько вариантов кодирования, изних выбирается лексикографически минимальный.Пример 1. ФрагментOимеет код p4.OD_CD3CD3OD_.212.OЗдесь код типа фрагмента p4, тип атомов кислорода OD_, тип атомов углеродаCD3, типы связей - 2, 1 и 2.Пример 2. ФрагментNOможет быть закодирован двумя спо-собами: p4.ND2CD3CD3OD_.212 и p4.OD_CD3CD3ND2.212. Из этих двух вариантоввыбираетсялексикографическинаименьшийкод:p4.ND2CD3CD3OD_.212Для задания маски, соответствующей целой группе фрагментов, можнотакже пользоваться подстановочным символом ‘*’, который может соответствовать любому символу в коде фрагмента.Пример 3. Рассмотрим две маски: p1.*** и p2.******.* . В этом случаепрограмма Fragment сгенерирует все возможные фрагменты с одним и двумяневодородными атомами.5.1.4.
Генерация кодов фрагментов с обобщенными типами атомовПрограмма Fragment позволяет автоматически добавлять к каждому кодуфрагмента ряд его вариантов с различными уровнями обобщения типов атомов.Эти обобщенные варианты рассматриваются как самостоятельные дескрипторы. В настоящей версии программы предусмотрено 4 способа обобщения: 1)генерация кодов фрагментов с учетом только максимально подробного уровняклассификации (none); 2) генерация кодов фрагментов, при которой изменениеуровня классификации для всех атомов происходит одинаковым образом(level1); 3) генерация кодов фрагментов с учетом разных уровней классификации для атомов (level2); 4) генерация кодов фрагментов с учетом всех возможных уровней классификации (full).
Например, если программа находит фрагмент NH2CH=O с кодомp3.NA1CD2OD_.12,154то в дальнейшем будут сгенерированы в соответствующих режимах обобщенияследующие коды фрагментов:1) none:p3.NA1CD2OD_.122) level1:p3.NA1CD2OD_.12p3.NA_CD_OD_.12p3.N__C__O__.12p3._________.123) level2:p3.NA1CD2OD_.12p3.NA1CD_O__.12p3.NA1C__O__.12P3.NA1CD2O__.12p3.NA_CD_OD_.12p3.NA_C__OD_.12P3.NA_CD2OD_.12p3.NA_CD_O__.12p3.NA_C__O__.12p3.NA_CD2O__.12p3.N__CD_OD_.12p3.N__C__OD_.12p3.N__CD2OD_.12p3.N__CD_O__.12p3.N__C__O__.12p3.N__CD2O__.12p3.NA1C__OD_.12p3._________.12p3.NA1CD2OD_.12p3.NA_CD_OD_.12p3.N__C__OD_.12p3.NA1CD2O__.12p3.NA_CD_O__.12p3.N__C__O__.12p3.NA1CD2___.12p3.NA_CD____.12p3.N__C_____.12p3.NA_CD2OD_.12p3.N__CD_OD_.12p3.___C_____.12p3.NA_CD2O__.12p3.N__CD_O__.12p3.NA1___OD_.12p3.NA_CD2___.12p3.N__CD____.12p3.NA1___O__.12p3.N__CD2OD_.12p3.___CD____.12p3.NA1______.12p3.N__CD2O__.12p3.NA1C__OD_.12p3.NA____OD_.12p3.N__CD2___.12p3.NA1C__O__.12p3.NA____O__.12p3.___CD2___.12p3.NA1C_____.12p3.NA_______.12p3.NA1CD_OD_.12p3.NA_C__OD_.12p3.N_____OD_.12p3.NA1CD_O__.12p3.NA_C__O__.12p3.N_____O__.12p3.NA1CD____.12p3.NA_C_____.12p3.N________.12p3._________.12p3.OD_CD2___.21p3.O__CD2___.21p3.NA1CD_OD_.124) full:155p3.OD_CD____.21p3.O__CD____.21p3.OD_C_____.21p3.O__C_____.21p3.OD_______.21p3.O________.215.1.5.
Алгоритм генерации фрагментных дескрипторовНами разработан и реализован в программе Fragment эффективный алгоритм нахождения/генерации фрагментов. Данный алгоритм включает два прохода по базе данных химических соединений. Во время первого прохода осуществляется поиск необходимых фрагментов и определяется число появленийкаждого из них в каждой из химических структур исследуемой базы данных, апри втором проходе формируется матрица, содержащая числа вхождений каждого из найденных фрагментов в каждой химической структуре из базы данных.При первом проходе из базы данных считывается каждая из имеющихсяструктур и приводится к «стандартному» виду (явно заданные атомы водородапреобразуются в неявные, меняются резонансные формы некоторых функциональных групп, например семиполярная связь в нитро-группе заменяется надвойную и т.д.).
Далее производится поиск ароматических циклов и полициклических систем. После этого все содержащиеся в текущей химической структуре атомы классифицируются с помощью рассмотренной выше кодировки изтрех символов. Далее каждая структура анализируется в три этапа. На первомэтапе ищутся все фрагменты типов p1, p3, c3, p5, c5, s5, p7, c7, b1, b2, p9, c9, b5,pb, cb, b8, pd, cd, bb, bc, t3, t4, t5, t6, t7, t8, t9, pf, cf и te с применением специальной процедуры поиска, состоящей из 16 вложенных циклов и множестваспециальных условий проверки для прореживания поискового дерева на какможно более ранней стадии.
На втором этапе ищутся все фрагменты типов p2,p4, c4, s4, p6, c6, b0, s6, p8, c8, b3, b4, pa, ca, b6, b7, pc, cc, b9, ba, t0, t1, t2, pe, ce,bd, ta, tb, tc, td с использованием аналогичной процедуры поиска. Наконец, натретьем этапе, все указанные пользователем нестандартные фрагменты ищутсяс использованием рекурсивной процедуры нахождения подграфов в графе.156После нахождения первоначального набора фрагментных дескрипторов,содержащих коды атомов в наиболее подробной классификации, программа генерирует фрагментные дескрипторы с различными уровнями обобщения классификации атомов (в соответствии с выбранной схемой, см. выше) и формируетканонические кодирующие строки для каждого из них. При этом просматриваются все возможные перестановки из группы автоморфизмов соответствующего фрагмента, и осуществляется выбор лексикографически наименьшей строки.Каждая каноническая строка сравнивается сначала с указанным пользователемлибосформированнымвызывающейпрограммой(NASAWIN,NETPROGNOSIS, и т.д.) списком масок (кодов) фрагментов, а затем она ищетсяв иерархически сформированном списке уже найденных фрагментов.
Если такая строка соответствует какой-либо из масок и содержится в этом списке, точисло вложений соответствующего фрагмента увеличивается на единицу, впротивном случае, если строка соответствует какой-либо маске, но отсутствуетв списке, то соответствующий фрагмент добавляется к списку найденныхфрагментов с числом вложений, равным единице. Для нестандартных фрагментов число вложений определяется путем деления числа изоморфных вложенийсоответствующего подграфа в молекулярный граф на предварительно найденный порядок группы автоморфизмов этого подграфа. Кроме того, программахранит в памяти список фрагментов, содержащих указатели на группы статистически идентичных дескрипторов (значения которых пропорциональны другдругу для всех уже пройденных химических структур), тогда как сам список ивсе группы реорганизуются после завершения анализа каждой из химическихструктур.После завершения первого прохода подсчитывается число появлений вовсей базе данных для каждого из фрагментов, накопленных в иерархическомсписке, и те фрагменты, которые содержатся в слишком малом числе соединений, и, соответственно, не удовлетворяют пороговому условию, заданномупользователем, удаляются из списка.
Кроме того, из каждой группы статистически идентичных дескрипторов в списке оставляется только один. На второмпроходе формируется файл с именами оставшихся дескрипторов и файл, со157держащий матрицу значений дескрипторов (т.е. числа вложений каждого изфрагментов в каждую из структур).5.2. Примеры прогнозирования физико-химических свойств органических соединений с использованием фрагментных дескрипторов и линейнорегрессионных моделейОписанные выше фрагментные дескрипторы впервые были нами предложены в 1990-1991 г. [356, 357] и запрограммированы в виде дескрипторногоблока FRAGMENT (см.
раздел 8.3), который вошел в состав программных комплексов EMMA (см. раздел 8.1) и NASAWIN (см. раздел 8.2). В наших работахфрагментные дескрипторы себя проявили как очень эффективные инструментыдля построения моделей, позволяющих прогнозировать разнообразные свойства органических соединений.
В частности, как показано ниже на примере прогнозирования поляризуемости химических соединений (см. подраздел 5.2.1) иэнтальпии образования алифатических полинитросоединений (см. подраздел5.2.2), они, в сочетании с аппаратом множественной линейной регрессии, являются очень удобным средством автоматического создания аддитивных схемрасчета физико-химических свойств.
В подразделах от 5.2.3 до 5.2.7 приведенцикл работ (сделанных в соавторстве с Н.И.Жоховой), в которых предложенные фрагментные дескрипторы, в сочетании с аппаратом множественной линейной регрессии, успешно использованы для прогнозирования нескольких видов физико-химических свойств органических соединений, которые лишь сочень большим трудом либо вообще не поддаются расчету при помощи методов квантовой химии и молекулярного моделирования.