Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 12
Текст из файла (страница 12)
Нейросетевое моделирование многочисленных физикохимических свойств, применение для этого фрагментных дескрипторов и демонстрация универсальности этого подхода была впервые осуществлена в рамках данной диссертационной работы.К настоящему времени опубликовано уже больше тысячи работ, связанных с нейросетевым моделированием свойств химических соединений. Совре61менное состояние дел в этой быстро развивающейся области науки подробнорассмотрено нами в нескольких обзорах [37, 39, 109].1.4.
Ограничения искусственных нейронных сетейКак и любой метод машинного обучения, искусственные нейронные сетиимеют свои ограничения, которых, однако, по мере развития теории нейросетевого моделирования и общей теории обучающихся систем, становится всеменьше и меньше. В начале 90-ых годов прошлого века, т.е.
на момент появления первых работ по их применению для прогнозирования свойств химическихсоединений, такими ограничениями или даже недостатками считались следующие:• нейросеть – это «черный ящик», т.е. нейросетевые модели не поддаютсяинтерпретации;• нейросетевые модели не могут быть точно воспроизведены ввиду инициализации весов связей перед обучением случайными числами;• нейронные сети не работают с большим числом дескрипторов;• нейросети легко «переучиваются», и тогда они хорошо воспроизводятсвойства соединений, содержащихся в обучающей выборке, но при этомплохо прогнозируют свойства любых других соединений;• с помощью нейросетей ничего нельзя сделать такого, на что бы не былиспособны стандартные методы статистического анализа данных.Хотя перечисленные выше утверждения не всегда справедливы, они, темне менее, указывают на реальные проблемы, с которыми столкнулись исследователи в ходе первых работ по применению нейронных сетей для прогнозирования свойств химических соединений.
Без их решения нейросети не могли быбыть использованы как составная часть универсальной методологии прогнозирования свойств химических соединений. Поэтому разработка эффективныхметодов решения этих проблем составила важную часть диссертационной работы (см. Главу 4).62ГЛАВА 2. ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ В ПОИСКЕ ЗАВИСИМОСТЕЙСТРУКТУРА-СВОЙСТВОФрагментный дескриптор – это числовая характеристика химическойструктуры, показывающая, присутствует ли внутри нее определенный структурный фрагмент, либо специфицирующая сколько раз он в ней содержится.
Кпреимуществам фрагментных дескрипторов обычно относят следующие (см.[110-116]): 1) простота и эффективность вычислений; 2) простота интерпретации со структурно-химической точки зрения; 3) базисный характер, выражающийся в возможности аппроксимировать с их помощью любую зависимость«структура-свойство».2.1. История фрагментных дескрипторовСреди множества дескрипторов, используемых в настоящее время в исследованиях SAR/QSAR/QSPR, (см. [105]), фрагментные дескрипторы занимают особое место.
Ранние работы по их применению для предсказания разнообразные свойств химических соединений датируются 50-ми, 40-ми и даже 30-мигодами прошлого столетия, когда они использовались в рамках методологииаддитивных схем. Фогель (Vogel) [117], Цан (Zahn) [118], Саудерс (Souders)[119, 120], Франклин (Franklin) [121, 122], Татевский [123], Бернштейн(Bernstein) [124], Лаидлер (Laidler) [125], Бенсон (Benson) и Басс (Buss) [126] иАллен (Allen) [127] были первопроходцами в этом направлении. В цитированных работах все вычислительные подходы были основаны на классическойструктурной теории в рамках представлений об атомах и химических связях.Е.А.Смоленский был, по-видимому, первым, кто применил еще в 1964 г. языктеории графов для прогнозирования физико-химических свойств органическихсоединений [128]. Первые аддитивные схемы постепенно эволюционировали ипревратились в современный набор методов групповых вкладов (group contribution methods).
Основная отличительная черта аддитивных схем и методов групповых вкладов состоит в их тесной связи с физико-химической теорией, и по63этому они применимы для прогнозирования только тех свойств, для которыхподобная теория разработана.Эпоха исследований QSAR (Quantitative Structure-Activity Relationships –количественных соотношений структура-свойство) началась в 1963-1964 гг.
споявлением двух новаторских подходов. Первым из них - σ-ρ-π анализ Ганча(Hansch) и Фуджиты (Fujita) [14, 15], основанный на использовании константзаместителей и констант распределения в системе октанол-вода. Второй из них,метод Фри-Вильсона (Free-Wilson) [129], основан на предположении об аддитивности вкладов структурных фрагментов (которые представляют собой заместители, присоединенные в определенных положениях к единому в узкомряду соединений молекулярному остову) в общее значение биологической активности химического соединения.
Таким образом, метод Фри-Вильсона можнорассматривать как расширение метода аддитивных схем на область прогнозирования биологической активности. Применимость обоих подходов ограниченаузкими рядами соединений с одинаковым остовом, причем для метода ФриВильсона еще требуется, чтобы все рассматриваемые типы заместителей былихорошо представлены в обучающей выборке. Комбинация обоих подходовпривела на практике к введению в модели QSAR т.н. индикаторных переменных, показывающих наличие определенных структурных фрагментах в молекуле.Семидесятые годы прошлого века привели к созданию первых приложений SAR (non-quantitative Structure-Activity Relationships – неколичественныекорреляции структура-активность), которые были разработаны под значительным влиянием таких научных направлений в вычислительной математике какискусственный интеллект, экспертные системы и теория распознавания образов.
В рамках этих подходов химические структуры описываются набором индикаторов наличия определенных структурных фрагментов в молекулах, причем подобные фрагменты часто интерпретируются как топологические (или2D) фармакофоры (биофоры, токсофоры и т.д.) либо фармакофобы (биофобы,токсофобы и т.д.). Все эти подходы имеют целью классифицировать органические соединения как активные либо неактивные по отношению к определенно64му типу биологической активности. Гиллер [2], Голендер и Розенблит [130,131], Пирузян, Авидон и др. [131], Крамер (Cramer) [132], Бруггер (Brugger),Стюпер (Stuper) и Джурс (Jurs) [133, 134] и Хоудс (Hodes) и др. [135] были первопроходцами в этой области.Современные методологии применения фрагментных дескрипторов в исследованиях QSAR и QSPR (Quantitative Structure-Property Relationships – количественные соотношения структура-свойство) не требуют введения явных ограничений на типы химических структур и прогнозируемых для них свойств, ипоэтому их можно считать универсальными.
Первый такой универсальный подход к использованию фрагментных дескрипторов в исследованиях QSAR/QSPRбыл разработан в 70-ые годы прошлого века Адамсоном (Adamson) с соавт.[136, 137]. Суть этого подхода заключается в расчете фрагментных дескрипторов для выборки химических соединений исходя из структур их молекулярныхграфов путем подсчета числа вложений в них простейших типов подграфов(порой получаемых напрямую из строк линейной нотации Висвессера [138]) споследующим введением этих дескрипторов в статистический анализ (обычноосуществляемый по методу множественной линейной регрессии) для поискакорреляций с экспериментальными значениями биологической активности[138, 139], физико-химических свойств [140] либо реакционной способности[141].Важный класс фрагментных дескрипторов, т.н.
скрины (или структурныеключи, отпечатки пальцев), также был разработан в 70-ые годы [142-146]. Ихнаборы образуют битовые строки, которые могут эффективно храниться и обрабатываться на компьютерах. Хотя первоначально им предназначалась лишьроль инструмента, позволяющего осуществлять подструктурный поиск в больших химических базах данных, в настоящее время они также активно используются при поиске по подобию (similarity searching) [147, 148], кластеризациибольших баз данных, содержащих химические структуры, [149, 150], оценки ихразнородности (diversity) [151], а также при проведении исследований SAR[152] и QSAR [153].65Следующий важный вклад в эту область был сделан Крамером (Cramer),который в 1980 г. определил параметры BC(DEF) путем проведения факторногоанализа набора физических свойств для выборки разнородных органическихжидкостей [154].
Эти параметры, с одной стороны, сильно коррелируют с разнообразными физическими свойствами разнородных органических соединенийи, с другой стороны, их значения могут быть предсказаны с использованиемфрагментных дескрипторов в рамках аддитивно-конституционных моделей[155]. Таким образом, Крамером был впервые разработан основанный на фрагментных дескрипторах набор моделей QSPR, позволяющий предсказывать целый набор физических свойств для разнородных органических соединений.По-видимому, наиболее важным достижением 80-ых годов прошлого века в области применения фрагментных дескрипторов для прогнозирования биологической активности стала разработка Клопманым (Klopman) и др. компьютерной программы CASE (Computer-Automated Structure Evaluation) [156-159].Эта программа, представленная авторами как «самообучающаяся система искусственного интеллекта» [159], способна распознавать активирующие и деактивирующие фрагменты (биофоры и биофобы) относительно определенноговида биологический активности, а также оценивать вероятность того, что произвольное тестовое соединение будет обладать этой активностью.