Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 36
Текст из файла (страница 36)
подраздел 4.1.3). Основнаяидея метода – использование процедуры скользящего контроля и ансамблянейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз и оценку его качества более обоснованным и независящим от конкретнойразбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные. Эта процедура была нами применена только в данном цикле работ ив дальнейшем была заменена на более эффективную (вследствие генерациибольшего разнообразия нейросетевых моделей) процедуру двойного скользящего контроля (см.
подраздел 4.1.4).Во всех случаях исследования в рамках этого подхода проводилось последующей схеме. На первом этапе для всех соединений из базы данных, включающей информацию о структурах химических соединений и их свойствах,проводился расчет фрагментных дескрипторов (чисел вхождений структурныхфрагментов в химическую структуру), причем максимальный размер фрагментов варьировался от 1 до 10 атомов. При расчете исключались фрагменты,встречающиеся в выборке менее, чем в 1 % соединений, а также статистическиидентичные.
Далее для каждого дескриптора были рассчитаны нелинейные модификации (квадрат (Di2), квадратный корень (Di1/2), десятичный логарифм(lg (Di)), отношение значения дескриптора к числу неводородных атомов в молекуле (Di/na)).Следует отметить, что использование, наряду с фрагментными дескрипторами, их нелинейных модификаций волне оправдано. Для исследования этого205вопроса нами предварительно был проведен сравнительный анализ как линейно-регрессионных так и нейросетевых моделей (методика их построения рассмотрена ниже) для нескольких наборов дескрипторов, различающихся максимальным числом атомов во фрагментах (1 и 2) и наличием/отсутствием нелинейных модификаций дескрипторов.
Анализ полученных результатов показал,что статистические характеристики построенных моделей с дескрипторами и ихнелинейными модификациями заметно лучше аналогичных характеристик длямоделей, построенных без включения нелинейных модификаций дескрипторов.Этот результат кажется вполне логичным для линейно-регрессионных моделей,поскольку подобные модификации в определенной мере позволяют учесть нелинейности зависимости «структура-свойство», но может показаться непонятным в случае искусственных нейронных сетей, которые сами по себе способнымоделировать нелинейные зависимости. Одной из возможных причин этого явления может служить тот факт, что для предварительного отбора дескрипторовиспользуется пошаговая процедура построения линейно-регрессионных зависимостей, и привнесение в нее нелинейности при помощи приведенных модификаций дескрипторов делает отбор дескрипторов для нелинейного метода, каковым являются искусственные нейронные сети, более обоснованным.
Интересно отметить, что в литературе отсутствует описание этого явления, и потомуоно заслуживает дальнейшего исследования.Далее после проведения нелинейных модификаций часть дескрипторовотбрасывалась таким образом, чтобы все парные коэффициенты корреляции rмежду оставшимися дескрипторами не превышали 0.97. После этого база данных разбивалась на три выборки – обучающую (80% соединений), внутреннююконтрольную (10% соединений) и внешнюю контрольную (10% соединений).Разбивка проводилась 10 разными способами таким образом, чтобы каждое соединение из базы данных присутствовало по одному разу в каждой из двух контрольных выборок. Затем для каждого первоначального набора дескрипторов(различающихся максимальным размером фрагментов) и каждой разбивки базыданных проводился отбор дескрипторов при помощи процедуры БПМЛР (см.подраздел 4.1.5).
После этого из 10 первоначальных наборов дескрипторов от206бирался оптимальный в соответствии со средней ошибкой прогноза на внутренних контрольных выборках и отобранные из него наборы дескрипторов были далее использованы в исследовании при помощи многослойных нейронныхсетей с обратным распространением ошибок.На следующем этапе для каждой разбивки базы данных строилось по 5нейросетевых моделей для каждого числа скрытых нейронов, которое варьировалось от 2 до 8.
Обучение проводилось при помощи «обобщенного дельтаправила» (параметр скорости 0,25, момент 0,9) до достижения минимальнойсреднеквадратичной ошибки на внутренней контрольной выборке. После этогоопределялось оптимальное число скрытых нейронов, обеспечивающее наименьшие ошибки на внутренних контрольных выборках, и результаты прогнозирования полученных моделей для всех соединений усреднялись. В результатедля каждого соединения были получены результаты прогноза ансамблевой модели, для оценки качества которой вычислялись следующие статистические показатели: множественный коэффициент корреляции R, а также среднеквадратичные значения ошибок для обучающей (RMSEt), внутренней контрольной(RMSEv) и внешней контрольной (RMSEp) выборок. Для оценки эффекта перехода к ансамблевому моделированию проводился также расчет средних значений этих показателей, вычисленных для каждой из моделей до усреднения.6.3.2.
Моделирование вязкости органических соединенийПри моделировании вязкости органических соединений была использована база данных, взятая из работы [410]. Из выборки, приведенной в работе[410], были исключены два соединения (266 и 267), для которых авторами ошибочно приведены одинаковые названия, но разные значения вязкости. Моделируемое свойство для данной базы представлено в виде десятичного логарифмаот значения вязкости органического соединения, измеренного в единицах Па·с.При построении моделей вся база данных, состоящая из 367 органических соединений различных классов ((367 структур – линейные, разветвленные и циклические (моно- и бициклические) алканы, алкены и алкины, арены, спирты,207простые и сложные эфиры, кетоны, альдегиды, карбоновые кислоты, нитрилы,имины, амины, амиды, галоген- и серосодержащие соединения, нитросоединения)), разбивалась 10-ю разными способами на три выборки: обучающую (293 соединений), контрольную (37 соединение) и выборку для оценкипрогнозирующей способности (37 соединение).
Согласно описанной выше схеме, с помощью процедуры БПМЛР из рассчитанного множества дескрипторовпроводился их отбор для 10 различных вариантов разбивки базы данных. Впроцессе построения каждой линейной регрессионной модели проводилось последовательное включение дескрипторов до достижения наименьшей среднеквадратической ошибки на внутренней контрольной выборке.Табл. 11. Усредненные статистические характеристики линейно-регрессионныхмоделей при варьировании максимального размера дескрипторовМЛРОбщее ко- СреднееКоли- личествоколичествочество дескрипто- отобранныхRMSобу RMSконт RMSпреатомов ровдескрипто- Rобуччрдров14610,92040,2172 0,23660,240738±2053120,97400,1260 0,18570,185353±12175730,97940,1113 0,19500,211946±16197440,95930,1336 0,20790,234142±22218350,95310,1470 0,21130,233034±21241360,96810,1307 0,19600,220736±21256670,96620,1302 0,20880,239233±19264980,96560,1337 0,20750,230535±22270390,96520,1348 0,20770,232233±202732100,96580,1330 0,20810,231635±222945110,96570,1331 0,20440,229735±222759120,96570,1331 0,20440,229735±222770130,96570,1331 0,20440,229735±22МЛР – множественная линейная регрессия; Rср – коэффициент корреляции;RMSобуч, RMSконтр, RMSпредск - среднеквадратичная ошибка на обучающей, контрольной выборках и на выборке для оценки предсказательной способности,соответственно.208Результаты полученных линейно-регрессионных моделей для 13 наборовдескрипторов с различным максимальным размером фрагментов (130 моделей)представлены в Табл.
11 и на Рис. 43. Как видно из Рис. 43, минимумы для обучающей и контрольной выборок, а также для выборки для оценки прогнозирующей способности приходятся на множество дескрипторов с максимальнымчислом атомов, равным 2, 3 и 6, соответственно. Однако, при построении нейросетевых моделей наилучшие статистические характеристики были полученыдля множества дескрипторов с максимальным размером фрагментов, равнымтрем. Выбор оптимального набора дескрипторов проводился по значениюсреднеквадратичной ошибки для внутренней контрольной выборки, посколькунекорректно ориентироваться как на минимум для обучающей выборки (во избежание построения переопределенных моделей), так и на внешнюю контрольную выборку (поскольку данные для этой выборки следует использовать толькодля оценки предсказательной способности, а не для построения и отбора моделей).Среднеквадратичная ошибка0,250,200,150,10Обучающая выборкаКонтрольная выборкаВыборка для прогноза791113Выборка дляпрогноза3 5Максимальное количествоатомовОбучающаявыборка1Рис.
43. Гистограмма зависимости среднеквадратичной ошибки от максимального размера фрагментных дескрипторовСамо по себе наличие оптимального значения максимального размера,обеспечивающего наилучшую прогнозирующую способность моделей, для генерируемых фрагментов не является очевидным, и поэтому заслуживает от209дельного рассмотрения. Связано это, очевидно, с тем, что при увеличении размеров фрагментов число их типов, а, следовательно, и число фрагментных дескрипторов резко возрастает.
В то же время, при прочих равных условиях (т.е.при одинаковой ошибке на обучающей выборке и одинаковом числе отобранных дескрипторов), как следует из целого ряда математических теорий (см. ниже), прогнозирующая способность статистической модели ухудшается с увеличением первоначального числа дескрипторов, из которого производится отбор.Действительно, согласно статистической теории прогнозирования ВапникаЧервоненкиса [411], минимальный размер выборки соединений, необходимыйдля достижения заданного качества прогнозирования зависит как от числа отобранных дескрипторов, так и от первоначального числа дескрипторов, причем впоследнем случае для бинарных дескрипторов (т.н.
признаков) показан логарифмический характер зависимости минимального размера выборки от логарифма числа первоначальных дескрипторов. Следовательно, при фиксированном размере выборки качество модели ухудшается при увеличении первоначального числа дескрипторов. Таким образом, эффективное число дескрипторов в статистической модели (т.н. размерность Вапника-Червоненкиса) в общемслучае не равно числу отобранных дескрипторов и зависит также от первоначального числа дескрипторов, из которого производился их отбор.
К аналогичным выводам приходит и теория индуктивных выводов [412, 413]. СогласноРиcсанену, ожидаемая ошибка статистической модели на данных, не входящихв обучающую выборку, определяется степенью сжатия информации с помощьюэтой модели. Чем меньше суммарная длина описания данных с помощью модели и описания самой модели, тем ниже ошибка предсказаний при помощи этоймодели. Длина описания модели M равна количеству информации, необходимой для выбора этой модели из множества с априорным распределением вероятностей P(M), что равно величине –log P(M). Ясно, что чем из большего первоначального числа отбираются дескрипторы, тем меньше априорная вероятность получаемой модели, и, следовательно, тем больше длина описания модели и, следовательно, ожидаемая ошибка прогноза.210При анализе дескрипторов, участвующих в построении всех 350 моделей,оказалось, что наиболее важными являются: общее число неводородных атомовв молекуле (na), отношение количество метильных групп, связанных с углеродным атомом, к числу неводородных атомов (n(CH3-C)/nа), а также отношениечисла пропильных групп к числу неводородных атомов (n(CH3-CH2-CH2)/na).Кроме того, следует отметить значимость таких дескрипторов, как количествоаминогрупп (n(-NH2)), атомов азота при двойной связи (n(=N)/na), цепочек, содержащих гидроксильные группы (n(Csp3-O-Csp3-OH) и n(Csp3-Csp3-Csp3-OH)),атомов галогенов (n(F-), n(C-I)), количество амидных групп (n(N-C=O)).