Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 54
Текст из файла (страница 54)
Автономные прогнозаторы свойств органических соединенийКроме «химически-ориентированного блока прогнозы», встроенного восновную программу NASAWIN и фактически являющегося одним из ее режимов работы, программный комплекс NASAWIN включает три типа автономныхпрогнозаторов свойств органических соединений: 1) интерактивный; 2) запускаемый с командной строки; 3) встроенный в дескрипторный блок. Работа всехтрех вышеперечисленных типов программ основана на том, что в NASAWINпредусмотрена возможности записи построенной модели (нейросетевой либолинейно-регрессионной) в виде файла, содержащего исходный код процедурына языке С++, осуществляющей необходимые для прогнозирования вычисления. Этот файл предназначен для того, чтобы его оттранслировали при помощикомпилятора MS Visual Studia C++ и связали со специальными библиотеками всоставе NASAWIN, осуществляющими целый ряд необходимых для прогнозирования операций: расчет, преобразования и шкалирование дескрипторов, проверка области применимости модели и др.
В результате получается упакованный в dll-файл динамической библиотеки «вычислительный сервер», осуществляющий все необходимые для осуществления прогноза вычисления. Три вышеупомянутые типа автономных прогнозаторов работают с одними и теми же«вычислительными серверами», с которыми связываются «вычислительныеклиенты» соответствующих типов: 1) интерактивный, 2) запускаемый с командной строки и 3) встроенный в дескрипторный блок.Интерактивный «вычислительный клиент» представляет собой программу, работающую под управлением операционной системы Windows, котораяпозволяет пользователю в интерактивном режиме загружать MOL- и SDFфайлы, содержащие структуры соединений для прогноза, просматривать этиструктуры, выбирать нужные свойства для прогноза (из числа заранее приготовленных «вычислительных серверов»), осуществлять прогноз и выводить наэкран либо в файл результаты прогноза.
Программа также проверяет областьприменимости моделей, однако эта возможность может быть отключена. Прогноз осуществляется как для регрессионных, так и для классификационных мо310делей. Программа также позволяет прогнозировать одно и то же свойство (активность) по нескольким моделям, и выдавать результат в виде усредненногозначения по нескольким регрессионным моделям, либо в виде консенсуса предсказаний, сделанных по нескольким классификационным моделям. Выдаваемаяпри этом информация позволяет также оценивать надежность прогнозирования.Работающий из-под командной строки «вычислительный клиент» предоставляет возможность осуществлять прогноз для выборки соединений, заданной в виде файла, с записью результатов прогноза тоже в файл.
Этот типпрогнозаторов предназначен для работы из-под Web-сервера, обеспечиваявзаимодействие с пользователем через Интернет.Наконец, третий тип «вычислительного клиента» позволяет использоватьпрограмму прогнозирования в качестве дескрипторного блока, что предоставляет возможность осуществления многоуровневого подхода к прогнозированию свойств органических соединений (см. раздел 7.4.1). Следует отметить, чтовстроенные в дескрипторные блоки программы-прогнозаторы могут быть использованы рекурсивно, т.е. дескрипторные блоки, вызываемые из программпрогнозаторов, также могут представлять собой программы-прогнозаторы.311ВЫВОДЫ1.Теоретически обоснован и разработан универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.2.В рамках развития нейросетевых подходов разработаны: а) трехвыборочныйподход и на его основе - процедуры трехвыборочного и двойного скользящегоконтроля, позволяющие эффективно предотвращать «переучивание» нейросетей и объективно оценивать прогнозирующую способность нейросетевых моделей; б) статистический метод быстрой пошаговой множественной линейнойрегрессии, позволяющий эффективно осуществлять отбор дескрипторов дляпостроения нейросетевых моделей; в) метод интерпретации нейросетевых регрессионных моделей, позволяющий описывать характер найденных зависимостей; г) концепция «обучаемой симметрии», позволяющая улучшать прогнозирующую способность моделей «структура-свойство» за счет корректного учетав них свойств симметрии.3.В рамках развития фрагментных подходов разработаны: а) иерархическаясистема классификации типов атомов, входящих в состав фрагментов, а такжеструктура и алгоритм генерации фрагментных дескрипторов, ориентированныхна прогнозирование свойств органических соединений; б) концепция фрагментов с «выделенными» атомами, позволяющая прогнозировать: локальные свойства органических соединений; константы заместителей и скоростей реакций;свойства полимерных и супрамолекулярных соединений; биологическую активность внутри рядов органических соединений с учетом стереохимическойинформации; в) концепция псевдофрагментных дескрипторов как средство повышения прогнозирующей способности моделей «структура-свойство» за счетрешения проблемы «редких» фрагментов.4.В рамках развития интегрированных подходов разработаны: а) методыинтеграции нейросетевого и молекулярного моделирования, ведущие к значительному улучшению прогнозирующей способности построенных моделей; б)концепция построения нейросетевых моделей «структура-условия-свойство»,312позволяющая прогнозировать разнообразные свойства и реакционную способность органических соединений при различных внешних условиях; в) методыобъединения нейросетевых моделей на основе концепций многоуровнего имногозадачного обучения, позволяющие повышать прогнозирующую способность моделей за счет интеграции разнородных экспериментальных данных; г)концепция проведения прямых корреляций «структура-свойство» и на ее основе специальные архитектуры нейронных сетей, позволяющие осуществлятьпрогнозирование свойств органических соединений непосредственно из описания молекулярного графа без предварительного вычисления молекулярных дескрипторов.5.Разработан программный комплекс, позволяющий в полном объеме осуществить весь цикл работ по построению моделей «структура-свойство» и «структура-условия-свойство», и с их помощью осуществлять прогнозирование самыхразнообразных свойств органических соединений.6.Построены модели для прогнозирования 62 разнообразных свойств органических соединений: а) температуры кипения и плавления, молярного объема, молярной рефракции, теплоты испарения, критической температуры, критического давления и поверхностного натяжения алканов; б) октанового числа, вязкости, теплоты испарения и плотности углеводородов; в) динамической вязкостии плотности углеводородов при разной температуре; г) температуры кипения,вязкости, плотности, давления насыщенных паров, поляризуемости, магнитнойвосприимчивости, энтальпии сублимации, энтальпии парообразования, температуры вспышки, теплоты сольватации в циклогексане, анестетического давления газов, липофильности, значений 4 констант Абрахама, коэффициента сорбции в почве и растворимости фуллерена C60 для разнообразных соединений,принадлежащих к разным классам; д) констант ионизации фенолов, карбоновых кислот и азотсодержащих соединений; е) положения длинноволновой полосы поглощения спиртового раствора симметричных цианиновых красителей;ж) энтальпии образования алифатических полинитросоединений; з) сродстваазо- и антрахиноновых красителей к целлюлозному волокну; и) химическихсдвигов в 31P ЯМР спектрах производных монофосфинов; й) температуры плав313ления ионных жидкостей, представляющих собой бромиды производных пиридинов, имидазолов, бензимидазолов и четвертичных солей аммония; к) показателя преломления, плотности и температуры стеклования аморфных полимеров; л) константы скорости гидролиза сложных эфиров карбоновых кислот приразной температуре и разном составе растворителя; м) констант заместителейσm, σp, F, R, Es; н) 11 констант распределения «ткань-воздух» для произвольныхорганических соединений; о) мутагенной активности нитропроизводных гетероциклических аналогов полициклических углеводородов и бифенила; п) блокирующей способности дигидропиридинов по отношению к ионным каналам Lтипа; р) галлюциногенной активности фенилалкиламинов; с) способности аналогов HEPT ингибировать обратную транскриптазу вируса ВИЧ-1; т) эмбриотоксичности синтетических аналогов биогенных аминов.314ЛИТЕРАТУРА1.Гиллер С.А.; Глаз А.Б.; Растригин Л.А.; Розенблит А.Б.
Распознаваниефизиологической активности химических соединений на перцептроне со случайной адаптацией структуры. // ДАН СССР. - 1971. - Т. 199, № 4. - С. 851-853.2.Hiller S.A.; Golender V.E.; Rosenblit A.B.; Rastrigin L.A.; Glaz A.B.Cybernetic methods of drug design. I. Statement of the problem--the perceptron approach. // Comput. Biomed. Res.
- 1973. - V. 6, № 5. - P. 411-421.3.Zupan J.; Gasteiger J. Neural networks: a new method for solving chemicalproblems or just a passing phase? // Anal. Chim. Acta. - 1991. - V. 248, № 1. - С. 130.4.McCulloch W.S.; Pitts W. A logical calculus of the ideas immanent in nervousactivity. // Bull. Math. Biophys. - 1943. - V. 5.
- P. 115-133.5.Розенблатт Ф. Принципы нейродинамики. - Мир: М. - 1964. - 480 c.6.Нильсен Н. Обучающиеся машины. - Мир: М. - 1967. - 506 c.7.Минский М.; Пейперт С. Персептроны. - Мир: М. - 1971. - 261 c.8.Мкртчян С.О. Нейроны и нейронные сети (Введение в теорию формаль-ных нейронов и нейронных сетей). - Энергия: М.