Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 51
Текст из файла (страница 51)
Целью данного примера является иллюстрация того, что разработанное нейронное устройство может быть использовано для прогнозирования не только физико-химических свойств органических соединений, но и их биологической активности. Мы воспользовались взятой из обзорной статьи [355] базой данных, содержащей углеводороды, галогенированные углеводороды, а также некоторые неорганические газы, такие какмолекулярный азот, SF6, N2O, а также благородные (инертные) газы. Как и вовсех предыдущих примерах, база данных была разбита на обучающую выборку(24 соединения) и контрольную выборку (шесть соединений).
Для проведенияисследования была построено нейронное устройство, содержащее «мозг» стремя скрытыми нейронами и один «глаз» E1, содержащий «рецепторы»,имеющие по три скрытых нейрона и «видящие» только по одному атому, и пятьколлекторов. В данном примере мы использовали три типа атомных «сенсоров»: NH, PQN и VE. Первые два типа «сенсоров» (NH и PQN) описаны выше, а«сенсор» VE формирует сигнал в соответствии с числом валентных электронов290на атому.
После 4000 эпох обучения нейронного устройства коэффициент корреляции составил 0.990, среднеквадратичная ошибка на обучающей выборкесоставила 0.18 логарифмических единиц (log(1/p)), а на контрольной выборке –0.26 логарифмических единиц. Эти статистические параметры значительнопревосходят все то, что удается построить на этой выборке с использованиемкак топологических индексов, так и фрагментных дескрипторов.В Табл. 33 в сжатом виде представлены результаты рассмотренных вышевычислительных экспериментов по проведению прямых корреляций «структура-свойство» при помощи разработанного нами нейронного устройства.Табл.
33. Результаты применения нейронного устройства при построении корреляций «структура-свойство»СвойствоТемпература кипенияпри нормальномдавлениивязкостьпри 40 оСтеплота испаренияплотностьтеплотасольватации в циклогексанеполяризуемостьанестетическое давление газовКласссоединенийСредснеквадратичная ошибкана обучающей выборке1.6 град.вСреднеквадратичнаяошибка наконтрольнойвыборкеГлазаСенсоры2.4 град.E1,E2NH0.15 сантипуаз1.44кДж/моль0.018 г/см30.18 сантипуаз1.26кДж/моль0.019 г/см3E2NHNH0.9901.77кДж/моль2.46кДж/мольE1,E2E1,E2E1,E2,E30.9950.86 см30.71 см3E1NH,AR,NE0.9900.18 лог.ед.(log(1/p))0.26 лог.ед.(log(1/p))E1NH,PQN,VEКоэффициенткорреляцииалканы0.9994углеводородыуглеводородыуглеводородыразнообразныесоединенияразнообразныесоединенияразнообразныегазы0.9960.9960.971291NHNH,PQN7.4.5.
ВыводыВыше была продемонстрирована способность данного нейронного устройства осуществлять поиск прямых корреляций между структурами органических соединений и их свойствами без необходимости в предварительном выборе и вычислении значений каких-либо топологических индексов, чисел встречаемости определенных фрагментов либо каких-нибудь других типов глобальных молекулярных дескрипторов (инвариантов молекулярных графов). Вместоэтого, мы используем локальные дескрипторы, относящиеся к атомам и связямв молекулах. Во всех вышеприведенных примерах использовались лишь простейшие атомные дескрипторы (формируемые атомными сенсорами), значениекоторых непосредственно связано с элементами матрицы смежности соответствующего молекулярного графа, а потому такую корреляцию вполне справедливо можно считать «прямой» корреляцией между структурой и свойством.
Таким образом, эта методология представляет собой альтернативу применениюглобальных молекулярных дескрипторов при поиске корреляций «структурасвойство».С другой стороны, работа данного нейронного устройства вполне сочетается с применением дескрипторов. Во-первых, наряду с рассмотренными вышепростейшими атомными сенсорами, возможно введение сенсоров, воспринимающих значения более сложных локальных дескрипторов, требующих специальных вычислений, например, зарядов на атомах либо межатомных расстояний. Во-вторых, в рамках этого подхода вполне возможно использование и глобальных дескрипторов (что для ряда свойств может оказаться даже необходимым), что может быть достигнуто путем непосредственного ввода в «мозг»нейронного устройства сигналов, соответствующих глобальным молекулярнымдескрипторам.Возможен и совсем другой взгляд на данное нейронное устройство.
Поскольку выходные сигналы как всего нейронного устройства, так и каждого изего коллекторов, не зависят от нумерации атомов и, следовательно, могут рассматриваться как молекулярные дескрипторы (инварианты молекулярных гра292фов), то и все нейронное устройство можно рассматривать как инструмент дляизобретения молекулярных дескрипторов, максимально приспособленных дляпостроения корреляции с данным свойством. И действительно, в процессе обучения нейронное устройство пытается таким образом скомбинировать значениялокальных атомных и межатомных дескрипторов, чтобы значения результирующего дескриптора были максимальным образом приближены к значениямданного свойства.293ГЛАВА 8.
РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ8.1. История разработки программных средствИстория разработки программных средств, использовавшихся на разныхэтапах выполнения данной диссертационной работы, начинается с создания наПЭКВМ (Персональной Электронной Клавишной Вычислительной Машине)«Искра-226» в 1985-1986 гг. автором диссертационной работы под руководством С.С.Трача и Н.С.Зефирова универсальной программы молекулярнойграфики для целей органической химии «Модель» [507, 508] как части первойверсии компьютерной программы SYMBEQ [509], предназначенной для поискановых типов реагирования органических соединений.
В рамках SYMBEQ «Модель» использовалась для интерактивного ввода графов топологий перераспределения связей и для графического вывода сгенерированных уравнений химических реакций.В1986-1987гг.авторомдиссертационнойработывместесМ.И.Станкевич и под руководством Н.С.Зефирова была создана первая программа, позволяющая осуществлять поиск структурных фрагментов в молекулярных графах [510, 511].
Эта программа первоначально использовалась намидля расчета фрагментных дескрипторов, пока не был создан для этой цели значительно более совершенный дескрипторный блок FRAGMENT.В1988-1989гг.авторомдиссертационнойработывместесМ.И.Станкевич и Р.О.Девдариани и под руководством Н.С.Зефирова был создан на ПЭКВМ «Искра-226» программный комплекс STAR (STructure-ActivityRelationships) для нахождения корреляций «структура-свойство» на основе топологических индексов и простой линейной регрессии [512]. Комплекс включал: 1) управляющую программу; 2) программу интерактивного ввода химических структур «Модель», отделенную от SYMBEQ и наделенную возможностью создавать базы данных «структура-свойство»; 3) несколько дескрипторных блоков для расчета топологических индексов; 4) статистический блок для294проведения линейного регрессионного анализа.
Интересным компонентомкомплекса STAR явился дескрипторный блок для вычисления взвешенного индекса Рандича и позволяющий находить для этого оптимальный набор весовпутем оптимизации функционала ошибки в пространстве весов при помощисимплекс-метода. Таким путем удалось, например, построить модель для прогнозирования температуры плавления ароматических соединений [513].Следующим важным этапом в разработке программных средств явилосьсоздание в 1990-1992 гг. программного комплекса для поиска количественныхкорреляций «структура-свойство» «EMMA», предназначенного для работы всреде MS-DOS на IBM PC-совместимых персональных компьютерах первыхпоколений. В рамках комплекса EMMA автором диссертационной работы былисозданы:1) программа интерактивного ввода химических структур и ведения базданных «структура-свойство» MOLED (в сущности, программа «Модель» изкомплекса STAR была переписана под среду MS-DOS и дополнена новымивозможностями);2) дескрипторный блок FRAGMENT для расчета фрагментных дескрипторов (см.
разделы 5.1 и 8.3);3) дескрипторный блок HMO (описание не включено в данную диссертационную работу), предназначенный для проведения квантово-химических расчетов молекул непредельных соединений с использованием стандартного метода Хюккеля и вычисления по результатам расчетов набора квантовохимических дескрипторов;4) дескрипторный блок FRAGPROP (см. разделы 5.4. и 8.4) для расчетапсевдофрагментных дескрипторов;5) дескрипторные блоки, предназначенные для расчета разнообразныхтипов топологических индексов, в частности, CONNECT, KAPPA, BALABAN,BASAK, ELEM, VX, LOUSE и др.
(описание этих блоков не включено в диссертационную работу).В разработку комплекса «ЭММА» наиболее существенный вклад такжевнесли Д.В.Сухачев (управляющая программа, блок построения статистической295модели при помощи пошагового варианта множественной линейной регрессиии блок прогноза, которые совместно образуют программу «ЭММА» - головнуюпрограмму комплекса), Д.Е.Петелин (дескрипторные блоки для расчета топологических индексов и физико-химических дескрипторов, в частности ETS, HB,HFORM, INDPAR, STERIC, VW и др.), О.Ломова (генератор химическихструктур GOLD [514, 515], который сейчас вполне обосновано можно назватьгенератором виртуальных комбинаторных библиотек для виртуального скрининга) и А.Ю.Зотов (блок управления расчетом дескрипторов и некоторые дескрипторные блоки).
Работы по созданию комплекса «ЭММА» проводилисьпод руководством В.А.Палюлина и Н.С.Зефирова.В 1993-1995 гг. автором диссертационной работы (под руководствомВ.А.Палюлина и Н.С.Зефирова) была разработана для среды MS-DOS программа-эмулятор искусственных нейронных сетей, специально приспособленнаядля построения количественных моделей «структура-свойство», NASA (NeuralApproach to Structure-Activity) [516].
При помощи этой программы были получены результаты, изложенные в подразделах 4.4.1 и 6.1 данной диссертационной работы.В 1996 г. автором диссертационной работы вместе с Н.М.Гальберштам(под руководством В.А.Палюлина и Н.С.Зефирова) была создана для средыWindows 3.1 первая версия программного комплекса NASAWIN (Neural Approach to Structure-Acivity for WINdows) [194, 517], и с тех пор он находится впостоянном развитии. Первоначально NASAWIN включала только эмулятормногослойной нейронной сети обратного распространения, перенесенный изпрограммы NASA, и набор дескрипторных блоков, перенесенный из программного комплекса «ЭММА», при этом практически все перенесенные компонентыбыли перепрограммированы. Возможности дескрипторного блока FRAGMENTбыли существенно расширены по сравнению с версией, работавшей в комплексе «ЭММА» (работа по расширению возможностей этого блока велась вместе сН.В.Артеменко).