Главная » Просмотр файлов » Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 36

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 36 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 362019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 36)

подраздел 4.1.3). Основнаяидея метода – использование процедуры скользящего контроля и ансамблянейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз и оценку его качества более обоснованным и независящим от конкретнойразбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные. Эта процедура была нами применена только в данном цикле работ ив дальнейшем была заменена на более эффективную (вследствие генерациибольшего разнообразия нейросетевых моделей) процедуру двойного скользящего контроля (см.

подраздел 4.1.4).Во всех случаях исследования в рамках этого подхода проводилось последующей схеме. На первом этапе для всех соединений из базы данных, включающей информацию о структурах химических соединений и их свойствах,проводился расчет фрагментных дескрипторов (чисел вхождений структурныхфрагментов в химическую структуру), причем максимальный размер фрагментов варьировался от 1 до 10 атомов. При расчете исключались фрагменты,встречающиеся в выборке менее, чем в 1 % соединений, а также статистическиидентичные.

Далее для каждого дескриптора были рассчитаны нелинейные модификации (квадрат (Di2), квадратный корень (Di1/2), десятичный логарифм(lg (Di)), отношение значения дескриптора к числу неводородных атомов в молекуле (Di/na)).Следует отметить, что использование, наряду с фрагментными дескрипторами, их нелинейных модификаций волне оправдано. Для исследования этого205вопроса нами предварительно был проведен сравнительный анализ как линейно-регрессионных так и нейросетевых моделей (методика их построения рассмотрена ниже) для нескольких наборов дескрипторов, различающихся максимальным числом атомов во фрагментах (1 и 2) и наличием/отсутствием нелинейных модификаций дескрипторов.

Анализ полученных результатов показал,что статистические характеристики построенных моделей с дескрипторами и ихнелинейными модификациями заметно лучше аналогичных характеристик длямоделей, построенных без включения нелинейных модификаций дескрипторов.Этот результат кажется вполне логичным для линейно-регрессионных моделей,поскольку подобные модификации в определенной мере позволяют учесть нелинейности зависимости «структура-свойство», но может показаться непонятным в случае искусственных нейронных сетей, которые сами по себе способнымоделировать нелинейные зависимости. Одной из возможных причин этого явления может служить тот факт, что для предварительного отбора дескрипторовиспользуется пошаговая процедура построения линейно-регрессионных зависимостей, и привнесение в нее нелинейности при помощи приведенных модификаций дескрипторов делает отбор дескрипторов для нелинейного метода, каковым являются искусственные нейронные сети, более обоснованным.

Интересно отметить, что в литературе отсутствует описание этого явления, и потомуоно заслуживает дальнейшего исследования.Далее после проведения нелинейных модификаций часть дескрипторовотбрасывалась таким образом, чтобы все парные коэффициенты корреляции rмежду оставшимися дескрипторами не превышали 0.97. После этого база данных разбивалась на три выборки – обучающую (80% соединений), внутреннююконтрольную (10% соединений) и внешнюю контрольную (10% соединений).Разбивка проводилась 10 разными способами таким образом, чтобы каждое соединение из базы данных присутствовало по одному разу в каждой из двух контрольных выборок. Затем для каждого первоначального набора дескрипторов(различающихся максимальным размером фрагментов) и каждой разбивки базыданных проводился отбор дескрипторов при помощи процедуры БПМЛР (см.подраздел 4.1.5).

После этого из 10 первоначальных наборов дескрипторов от206бирался оптимальный в соответствии со средней ошибкой прогноза на внутренних контрольных выборках и отобранные из него наборы дескрипторов были далее использованы в исследовании при помощи многослойных нейронныхсетей с обратным распространением ошибок.На следующем этапе для каждой разбивки базы данных строилось по 5нейросетевых моделей для каждого числа скрытых нейронов, которое варьировалось от 2 до 8.

Обучение проводилось при помощи «обобщенного дельтаправила» (параметр скорости 0,25, момент 0,9) до достижения минимальнойсреднеквадратичной ошибки на внутренней контрольной выборке. После этогоопределялось оптимальное число скрытых нейронов, обеспечивающее наименьшие ошибки на внутренних контрольных выборках, и результаты прогнозирования полученных моделей для всех соединений усреднялись. В результатедля каждого соединения были получены результаты прогноза ансамблевой модели, для оценки качества которой вычислялись следующие статистические показатели: множественный коэффициент корреляции R, а также среднеквадратичные значения ошибок для обучающей (RMSEt), внутренней контрольной(RMSEv) и внешней контрольной (RMSEp) выборок. Для оценки эффекта перехода к ансамблевому моделированию проводился также расчет средних значений этих показателей, вычисленных для каждой из моделей до усреднения.6.3.2.

Моделирование вязкости органических соединенийПри моделировании вязкости органических соединений была использована база данных, взятая из работы [410]. Из выборки, приведенной в работе[410], были исключены два соединения (266 и 267), для которых авторами ошибочно приведены одинаковые названия, но разные значения вязкости. Моделируемое свойство для данной базы представлено в виде десятичного логарифмаот значения вязкости органического соединения, измеренного в единицах Па·с.При построении моделей вся база данных, состоящая из 367 органических соединений различных классов ((367 структур – линейные, разветвленные и циклические (моно- и бициклические) алканы, алкены и алкины, арены, спирты,207простые и сложные эфиры, кетоны, альдегиды, карбоновые кислоты, нитрилы,имины, амины, амиды, галоген- и серосодержащие соединения, нитросоединения)), разбивалась 10-ю разными способами на три выборки: обучающую (293 соединений), контрольную (37 соединение) и выборку для оценкипрогнозирующей способности (37 соединение).

Согласно описанной выше схеме, с помощью процедуры БПМЛР из рассчитанного множества дескрипторовпроводился их отбор для 10 различных вариантов разбивки базы данных. Впроцессе построения каждой линейной регрессионной модели проводилось последовательное включение дескрипторов до достижения наименьшей среднеквадратической ошибки на внутренней контрольной выборке.Табл. 11. Усредненные статистические характеристики линейно-регрессионныхмоделей при варьировании максимального размера дескрипторовМЛРОбщее ко- СреднееКоли- личествоколичествочество дескрипто- отобранныхRMSобу RMSконт RMSпреатомов ровдескрипто- Rобуччрдров14610,92040,2172 0,23660,240738±2053120,97400,1260 0,18570,185353±12175730,97940,1113 0,19500,211946±16197440,95930,1336 0,20790,234142±22218350,95310,1470 0,21130,233034±21241360,96810,1307 0,19600,220736±21256670,96620,1302 0,20880,239233±19264980,96560,1337 0,20750,230535±22270390,96520,1348 0,20770,232233±202732100,96580,1330 0,20810,231635±222945110,96570,1331 0,20440,229735±222759120,96570,1331 0,20440,229735±222770130,96570,1331 0,20440,229735±22МЛР – множественная линейная регрессия; Rср – коэффициент корреляции;RMSобуч, RMSконтр, RMSпредск - среднеквадратичная ошибка на обучающей, контрольной выборках и на выборке для оценки предсказательной способности,соответственно.208Результаты полученных линейно-регрессионных моделей для 13 наборовдескрипторов с различным максимальным размером фрагментов (130 моделей)представлены в Табл.

11 и на Рис. 43. Как видно из Рис. 43, минимумы для обучающей и контрольной выборок, а также для выборки для оценки прогнозирующей способности приходятся на множество дескрипторов с максимальнымчислом атомов, равным 2, 3 и 6, соответственно. Однако, при построении нейросетевых моделей наилучшие статистические характеристики были полученыдля множества дескрипторов с максимальным размером фрагментов, равнымтрем. Выбор оптимального набора дескрипторов проводился по значениюсреднеквадратичной ошибки для внутренней контрольной выборки, посколькунекорректно ориентироваться как на минимум для обучающей выборки (во избежание построения переопределенных моделей), так и на внешнюю контрольную выборку (поскольку данные для этой выборки следует использовать толькодля оценки предсказательной способности, а не для построения и отбора моделей).Среднеквадратичная ошибка0,250,200,150,10Обучающая выборкаКонтрольная выборкаВыборка для прогноза791113Выборка дляпрогноза3 5Максимальное количествоатомовОбучающаявыборка1Рис.

43. Гистограмма зависимости среднеквадратичной ошибки от максимального размера фрагментных дескрипторовСамо по себе наличие оптимального значения максимального размера,обеспечивающего наилучшую прогнозирующую способность моделей, для генерируемых фрагментов не является очевидным, и поэтому заслуживает от209дельного рассмотрения. Связано это, очевидно, с тем, что при увеличении размеров фрагментов число их типов, а, следовательно, и число фрагментных дескрипторов резко возрастает.

В то же время, при прочих равных условиях (т.е.при одинаковой ошибке на обучающей выборке и одинаковом числе отобранных дескрипторов), как следует из целого ряда математических теорий (см. ниже), прогнозирующая способность статистической модели ухудшается с увеличением первоначального числа дескрипторов, из которого производится отбор.Действительно, согласно статистической теории прогнозирования ВапникаЧервоненкиса [411], минимальный размер выборки соединений, необходимыйдля достижения заданного качества прогнозирования зависит как от числа отобранных дескрипторов, так и от первоначального числа дескрипторов, причем впоследнем случае для бинарных дескрипторов (т.н.

признаков) показан логарифмический характер зависимости минимального размера выборки от логарифма числа первоначальных дескрипторов. Следовательно, при фиксированном размере выборки качество модели ухудшается при увеличении первоначального числа дескрипторов. Таким образом, эффективное число дескрипторов в статистической модели (т.н. размерность Вапника-Червоненкиса) в общемслучае не равно числу отобранных дескрипторов и зависит также от первоначального числа дескрипторов, из которого производился их отбор.

К аналогичным выводам приходит и теория индуктивных выводов [412, 413]. СогласноРиcсанену, ожидаемая ошибка статистической модели на данных, не входящихв обучающую выборку, определяется степенью сжатия информации с помощьюэтой модели. Чем меньше суммарная длина описания данных с помощью модели и описания самой модели, тем ниже ошибка предсказаний при помощи этоймодели. Длина описания модели M равна количеству информации, необходимой для выбора этой модели из множества с априорным распределением вероятностей P(M), что равно величине –log P(M). Ясно, что чем из большего первоначального числа отбираются дескрипторы, тем меньше априорная вероятность получаемой модели, и, следовательно, тем больше длина описания модели и, следовательно, ожидаемая ошибка прогноза.210При анализе дескрипторов, участвующих в построении всех 350 моделей,оказалось, что наиболее важными являются: общее число неводородных атомовв молекуле (na), отношение количество метильных групп, связанных с углеродным атомом, к числу неводородных атомов (n(CH3-C)/nа), а также отношениечисла пропильных групп к числу неводородных атомов (n(CH3-CH2-CH2)/na).Кроме того, следует отметить значимость таких дескрипторов, как количествоаминогрупп (n(-NH2)), атомов азота при двойной связи (n(=N)/na), цепочек, содержащих гидроксильные группы (n(Csp3-O-Csp3-OH) и n(Csp3-Csp3-Csp3-OH)),атомов галогенов (n(F-), n(C-I)), количество амидных групп (n(N-C=O)).

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6505
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее