Главная » Просмотр файлов » Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 38

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 38 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 382019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 38)

Подобный набор наиболее важных дескрипторов, повидимому, обусловлен доминирующей ролью ван-дер-ваальсовых взаимодействий.При построении нейросетевых моделей с различным числом скрытыхнейронов (от 2 до 8) был проведен анализ зависимости статистических показателей моделей от числа скрытых нейронов. Оптимальным количеством скрытых нейронов для данной выборки оказалось три. Сводные данные, содержащие основные статистические показатели построенных моделей, приведены в216Табл. 15.

Корреляция усредненных по всему ансамблю моделей расчетных данных для давления насыщенных паров с экспериментальными значениями представлена на Рис. 46.Табл. 15. Статистические показатели полученных моделей для давления насыщенных паров органических соединений (в lg(Па))RRMSEtRMSEcRMSEp0,99020,1980,2480,2580,99690,1180,1430,1610,99790,0950,1400,158lg(Р) расч., lg(Па)lg(Р) расч., lg(Па)Статистические показатели моделейНазвание этапа исследованияЛинейно-регрессионные моделиСредние значения показателей повсем индивидуальным нейросетевыммоделямПоказатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей8,06,04,02,00,0-5,0 -2,0 0,05,0lg(Р) эксп., lg(Па)10,08,06,04,02,00,0-5,0 -2,0 0,05,010,0lg(Р) эксп., lg(Па)(а)(б)Рис. 46.

Результаты моделирования давления насыщенных паров: (а) обучающая выборка; (б) внешняя контрольная выборкаИз Табл. 15 видно, что прогнозирующая способность нейросетевых моделей (которую корректно оценивать по значению RMSEпред, т.е. по среднеквадратичной ошибки на внешней контрольной выборке, превосходит аналогичныепоказатели линейных регрессионных моделей (даже содержащих нелинейныемодификации дескрипторов). Точность предсказания давления насыщенныхпаров в построенных моделях оказалась сравнимой с моделью Голла-Джурса[417] и существенно выше других опубликованных моделей (см. [416]).2176.3.5.

Моделирование температуры кипения разнородных органических соединенийТемпература кипения моделировалась по выборке, содержащей разнородные органические соединения. В качестве источника данных был взят электронный каталог органических соединений фирмы Fluka [415], содержащий16 793 записей. База данных «структура-свойство» создавалась путем автоматизированного отбора записей из электронного каталога со следующими условиями: 1) наличие в каталоге значения температуры кипения для данного соединения при атмосферном давлении; 2) чистота образца 99% и выше.В процессе построения моделей вся база данных разбивалась 10-ю разными способами на три выборки: 1) обучающую (409 соединений); 2) контрольную (50 соединений); и 3) выборку для оценки прогнозирующей способности (50 соединений).

Согласно описанной выше схеме (см. подраздел 6.3.1),для базы данных был проведен расчет фрагментных дескрипторов с варьированием максимального размера фрагментов от 1 до 10 атомов. Далее для каждогоиз полученных дескрипторов были рассчитаны 4 нелинейные модификации.После этого, для 10 различных вариантов разбивки базы данных из первоначального набора с помощью процедуры быстрой пошаговой множественнойлинейной регрессии (БПМЛР) был проведен отбор дескрипторов. Усредненныерезультаты полученных линейно-регрессионных моделей (с нелинейными модификациями дескрипторов) для 10 наборов дескрипторов с переменным максимальным размером фрагментов (всего 100 моделей) представлены в Табл.

16.218Табл. 16. Усредненные статистические показатели линейно-регрессионных моделей для прогнозирования температуры кипения органических соединенийпри варьировании максимального размера фрагментовМакси- Общее коБПМЛРмальличествоСреднееноефрагментчисло отоколиных дескбранныхчестворипторовфрагментRtRMSEtRMSEcRMSEpатомовных дескворипторовфрагментах113833±190,964217,718,620,5255546±130,981412,916,718,63174446±200,982112,217,920,44210444±170,983811,818,219,55232742±140,983511,918,319,96256135±150,980113,118,320,47270637±160,981212,718,420,08278138±160,982712,117,320,09282137±170.981112,718,519,610285137±170.981112,718,619,6БПМЛР – быстрая пошаговая множественная линейная регрессия; Rобуч – множественный коэффициент корреляции (квадратный корень от коэффициентадетерминации) на обучающей выборке; RMSEобуч, RMSEконтр, RMSEпред – среднеквадратичная ошибка в oC на обучающей, контрольной выборок и для выборкидля оценки предсказательной способности, соответственно.Как видно из Табл.

16, минимальные значения среднеквадратичных ошибок для обучающей и двух контрольной выборок приходятся на наборы фрагментных дескрипторов с максимальным числом атомов, равным 2, 4 и 5, соответственно. В дальнейшем по ходу данной работы для построения нейросетевых моделей для прогнозирования температуры кипения органических соединений использовался только набор фрагментных дескрипторов с максимальнымчислом атомов, равным двум, поскольку при этом предсказательная способность модели, оцененная по среднеквадратичной ошибке на внутренней контрольной выборке, оказывается наилучшей.219По частотам вхождения в отбираемые при построении линейнорегрессионных моделей дескрипторов можно сделать вывод об их относительной значимости.

В соответствии с этим критерием, при моделировании температуры кипения разнородных органических соединений наиболее весомымиявляются вклады: метильных групп, связанных с любыми неводородными атомами(n[H3C-•]/naиn[H3C-•]);sp2-гибридизованныхатомовуглерода(n[Csp2]/na); фрагментов ароматических систем (n2[CAr÷CAr]); произвольных неводородных атомов (log{n[•]} и n2[•]). Значительный вклад также вносят группы, содержащие полярные атомы и связи, в частности: sp-, sp2- и sp3гибридизованные атомы азота (n(N), √n[=C-N], n[=N-] и n[Csp2-N]/na); гидроксильные группы, связанные с атомом углерода (n[C-OH], n2[HCHeterocycle-OH]);атомы кислорода при двойной связи (n[O=•]/na); атомы галогенов в различномструктурном контексте (n[Csp3-I]/na, n[H2C-Hal], √n[C-F], n[Br]); атомы бора,кремния и серы (n2[B-•], n[Csp2-N]/na, n[Hal-Si] и n[C-S]/na).После построения ряда нейросетевых моделей (350 моделей) с варьированием числа скрытых нейронов было выбрано оптимальное число скрытыхнейронов, равное двум (как обеспечивающее наименьшие ошибки на внутренних контрольных выборках).

В Табл. 17 приведены статистические показателипостроенных моделей.Табл. 17. Статистические показатели полученных моделей для температурыкипения разнородных органических соединений (ошибки приведены в oC)Статистические показатели моделейRMSEcRMSEpRRMSEtНазвание этапа исследованияЛинейно-регрессионные модели0,981412,916,718,6Средние значения показателей по11,016,117,2всем индивидуальным нейросетевым 0,9869моделямПоказатели ансамблевой модели, усредняющей прогнозы индивидуаль0,99119,116,116,9ных нейросетевых моделей220Как видно из Табл. 16 и Табл. 17, прогнозирующая способность построенных нейросетевых моделей заметно выше линейно-регрессионных. Кроме того, следует обратить внимание на тот факт, что (как и во всех других случаях,см.

подразделы 6.3.2, 6.3.3 и 6.3.4) статистические показатели ансамблевой модели, усредняющей прогнозы по нейросетевому ансамблю, всегда заметносредних статистических показателей индивидуальных нейросетевых моделей вансамбле. Это еще раз подтверждает известное из теории и практики машинного обучения утверждение о существенных преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями.По-видимому, два основных фактора вносят вклад в это явление. Во-первых,усреднение по моделям, получаемым при разных разбивках базы данных позволяет эффективно использовать для обучения информацию из внутреннихконтрольных выборок, что эквивалентно увеличению эффективного размераобучающих выборок.

Во-вторых, уменьшается вклад дисперсии в среднеквадратичную ошибку прогнозирования, поскольку дисперсия среднего несколькихслучайных независимых переменных всегда ниже средней дисперсии каждой изэтих переменных (т.е. происходит подавление «шума» при усреднении).Как известно, статистические показатели отдельно взятой модели при небольшом размере базы данных не может служить основой для вывода о качестве методики моделирования и иметь какую-либо статистическую значимостьпри отсутствии корректного скользящего контроля. Так, например, одна из полученных для данной базы данных статистических моделей характеризоваласьследующими статистическими показателями: среднеквадратичная ошибка дляобучающей выборки RMSEt равна 5.6оС, для внутренней контрольной выборкиRMSEv = 4.4 оС, а для внешней контрольной выборки RMSEp = 5.0 оС, что в несколько раз ниже усредненных показателям.

Статистические показатели подобных индивидуальных моделей могут не характеризовать их истинную прогнозирующую способность, особенно когда в процессе их построения производится отбор дескрипторов. Хотя в отдельных публикациях, как, например [418],встречаются подобные результаты, ориентироваться на них нецелесообразно.Поэтому усредненные по множеству моделей результаты являются статистиче221ски более достоверными, чем показатели индивидуальных моделей. При этомважно, чтобы усреднение проводилось таким образом, чтобы информация обэкспериментальном значении прогнозируемого свойства для каждого из химических соединений никаким образом не участвовала ни в построении, ни в отборе моделей, по которым проводился для него прогноз.Корреляция между спрогнозированной по ансамблю моделей (в ансамбльмоделей для прогнозирования свойства данного соединения включались толькоте модели, при построении которых оно не участвовало в составе обучающейлибо контрольной выборок) температурой кипения органических соединений иэкспериментальным значением этого свойства показана в виде диаграммы разброса точек на Рис.

47.Рис. 47. Корреляция расчетных и экспериментальных данных по температурамкипения (в oC)После получения вышеизложенных результатов нами было проведено ихсравнение с литературными данными. При этом было выделено два типа работ:1) работы, в которых база данных включала не более 100 соединений, и 2) работы, представляющие результаты обработки более представительных выбороксоединений. О разнообразии выборок в первом случае говорить не приходитсяиз-за малого количества соединений, и моделирование в таких случаях проводилось лишь в узких сериях соединений. Работ, в которых исследования проводились с большими базами данных, оказалось всего несколько: статьи Игольфа(Egolf) и др. [419, 420] (в данных работах нейросеть с обратным распростране222нием ошибки применяли в комбинации с физико-химическими дескрипторами),работы Холла (Hall) и др.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее