Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 46
Текст из файла (страница 46)
Если при машинном анализе данных для надежного построения сколько-нибудь сложной статистической модели требуется оченьбольшой объем данных, то для человека для обучения значительно более сложным концепциям требуется удивительно мало примеров. Одна из причин этогозаключается в том, что в настоящее время при машинном анализе данных каждая новая статистическая модель строится практически «с нуля», и получаемыетаким образом модели оказываются изолированными друг от друга.
Человекже, решая какую-нибудь задачу, всегда опирается на опыт, полученный прирешении других задач. При освоении даже принципиально нового материалачеловек всегда пользуется аналогиями и метафорами, взятыми из ранее усвоенных знаний. Наконец, компоненты полученного знания тесно переплетены между собой в человеческом мозгу, что многократно ускоряет и облегчает процесс получения нового знания. Осознание этого привело в последние годы кформированию нового направления в теории машинного обучения, условно называемого “индуктивным переносом знаний”, которое занимается изучениемтого, как связывание между собой различных задач анализа данных приводит кулучшению качества получаемых моделей [477].Таким образом, один из путей преодоления ограничений, связанных с недостаточным объемом содержащихся в отдельных химических базах данныхинформации, видится в том, чтобы рассматривать разнообразные свойства химических соединений в их тесной взаимной связи и с учетом этого строить мо263дели «структура-свойство» не изолированными, а связанными друг с другом.Можно ожидать, что в этом случае будет происходить интеграция данных, прикоторой объем полезной информации для каждого из свойств будет существенно увеличен за счет эффективного использования информации, касающейсядругих свойств, тесно с ним связанным.
Также можно предположить, что чемменьше экспериментальных данных имеется по данному свойству и чем больше экспериментальных данных имеется по связанным с ним другим свойствам,тем более эффективно будет происходить перенос необходимой информациипри построении модели для прогнозирования этого свойства. Такой переносинформации возможен между моделями, расположенными внутри сети взаимосвязанных моделей как последовательно (см. раздел 7.4.1), так и параллельнодруг относительно друга (см. раздел 7.4.2).Можно предвидеть, что в перспективе развития методологии QSPR/QSARместо разрозненных и независимых друг от друга одноуровневых моделей«структура-свойство»/«структура-активность» займет организованная в виде«химического мозга» сеть тесно связанных между собой моделей, позволяющаяинтегрировать внутри себя значительный объем как экспериментальных данных, так и теоретических знаний, что позволит значительно улучшить качествопрогнозирования разнообразных свойств химических соединений.7.3.1.
Многоуровневый принцип построения моделей «структура-свойство»Суть предлагаемого нами многоуровневого подхода к прогнозированиюсвойств органических соединений в рамках методологии QSAR/QSPR заключается в следующем. Прогнозирование свойств органических соединений проводится в рамках фрагментного подхода [110, 116].
Это дает возможность воспользоваться всеми такими преимуществами фрагментного подхода как быстрота и однозначность вычислений, а также естественный характер интерпретации моделей на языке элементов структурных формул органических соединений. Кроме того, благодаря своему базисному характеру, фрагментные дескрипторы должны обеспечить возможность аппроксимировать любые сколь264угодно сложные зависимости «структура-свойство». В то же время, вместо изолированных одноуровневых моделей, берущих на входе значения фрагментныхдескрипторов и выдающей на выходе значения прогнозируемых свойств, предлагается использовать организованную в виде нескольких слоев сеть моделей, вкоторой выходы моделей предыдущих слоев являются входами для моделейпоследующих. Заметим, что подобная организация моделей напоминает поэтапный процесс обработки информации, происходящий в многослойныхструктурах коры головного мозга.
От каждой из промежуточных моделей требуется, чтобы на выходе они давали либо экспериментально измеряемые величины, либо расчетные величины, имеющие очевидную интерпретацию. Это дает возможность для каждой промежуточной модели использовать свою базуданных «структура-свойство», которая и должна применяться для ее построения. В этом случае многоуровневая организация моделей дает возможность эффективно проводить индуктивный перенос знаний от моделей предыдущегослоя к моделям последующего, что должно приводить к улучшению качествапоследних за счет использования дополнительной информации, взятой в неявном виде из других баз данных.
Можно предположить, что для эффективностиэтого процесса необходимо, чтобы модели предыдущего уровня обучались набазах существенно большего размера, чем последующего. На Рис. 58 показанасхема традиционного одноуровневого подхода, основанного на т.н. «однозадачном обучении», при котором модели (в данном случае нейросетевые) дляпрогнозирования разных свойств не связаны друг с другом. В противоположность этому, на Рис. 59 (стр. 266) показана схема многоуровневого подхода, врамках которого за счет последовательного соединения моделей происходитперенос информации из моделей нижнего уровня в модели верхнего, что приводит к повышению предсказательной способности последних.265Рис.
58. Традиционный одноуровневый подход, в котором отдельные нейросетевые модели не связаны друг с другомРис. 59. Схема многоуровневого подхода, в рамках которого за счет последовательного соединения моделей происходит перенос информации из моделейнижнего уровня в модели верхнегоЕстественными кандидатами на роль выходных свойств для промежуточных моделей являются физико-химические свойства, связанные с фундаментальными типами взаимодействий (гидрофобность, поляризуемость, характеристики силы водородных связей и т.д.), разнообразные константы заместителей,а также квантово-химические характеристики (ВЗСО, НСМО, заряды на атомах). Заметим, что для большинства из этих величин имеются дескрипторы, которые уже давно успешно используются при построении количественных зави266симостей «структура-свойство».
Принципиальным отличием и преимуществоммногоуровневого подхода перед непосредственным использованием для построения моделей физико-химических и квантово-химических дескрипторовявляется то, что при этом не теряется интерпретируемость моделей через фрагментные дескрипторы на языке структурных формул. Кроме того, сохраняетсясвойственная фрагментным дескрипторам универсальность и эффективностьрасчета, что дает возможность использовать многоуровневые сети моделей привысокопроизводительном виртуальном скрининге.Следует отметить, что кроме улучшения качества прогноза, многоуровневый подход способен преодолеть то, что иногда называется недостаткамифрагментного подхода, а именно отсутствие физико-химической интерпретации и проблема “отсутствующих фрагментов” [116].
Прежде всего, благодарятому, что промежуточные модели дают на выходе экспериментально измеримые или легко интерпретируемые физические величины, сама конечная модельполучает очевидную физико-химическую интерпретацию в терминах этих величин. Для такой интерпретации при использовании нейросетевых моделейможет быть использован подход, предложенный нами ранее [478]. Что же касается «отсутствующих фрагментов», которые отсутствуют в обучающей выборке но присутствуют в тестовой, то острота этой проблемы смягчается благодарятому, что эти фрагменты имеют шансы присутствовать в химических структурах, входящих в выборки существенно большего размера, используемые дляобучения моделей предыдущих слоев.Рассмотрим два примера, показывающие преимущества использованиямногоуровневого подхода.
В первом случае на основе опубликованных данных[479] была сформирована выборка 1, содержащая количественные данные позначению логарифма коэффициента сорбции в почве (log Koc) для 568 органических соединений. Во втором случае для создания выборки 2 были взяты из статей [479, 480] данные по значению логарифма растворимости (log S) фуллеренаС60 в 113 органических растворителях, включая 45 алканов, 36 производныхбензола, 7 производных нафталина, 14 кислород, 21 хлор и 15 бромсодержащихсоединений. При построении количественных моделей «структура-свойство» в267рамках одноуровневого подхода для описания химических соединений былииспользованы наборы фрагментных дескрипторов [481] размером до шести неводородных атомов.
Предварительный отбор дескрипторов проводился по методу быстрой пошаговой множественной линейной регрессии (БПМЛР) [482].Отобранные наборы дескрипторов использовались для построения нейросетевых моделей «структура-свойство» при помощи многослойных персептронов[39]. При построении моделей в рамках двухуровнего подхода были точно таким же образом с применением фрагментных дескрипторов и комбинацииБПМЛР и многослойных персептронов модели первого уровня, позволяющиепрогнозировать значения липофильности log P и четырех констант Абрахама A,B, E и S, характеризующих, соответственно, кислотность и основность по отношению к образованию водородной связи, избыточную молярную рефракциюи диполярность/поляризуемость. Для построения модели для липофильностибыла использована выборка 3, включающая 7805 соединений [483], а для констант Абрахама – выборка 4, состоящая из 457 соединений и приведенная в работе [484].
В Табл. 30 представлены статистические характеристики моделейпервого уровня. На втором этапе результаты прогноза, полученные с помощьюмоделей первого уровня для соответствующих выборок органических соединений по логарифму коэффициента сорбции в почве и логарифма растворимостифуллерена С60, были использованы в качестве дескрипторов при построениинейросетевых моделей второго уровня для расчета этих свойств.