Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 46

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 46 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 462019-03-132019-03-13СтудИзба

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 46)

Если при машинном анализе данных для надежного построения сколько-нибудь сложной статистической модели требуется оченьбольшой объем данных, то для человека для обучения значительно более сложным концепциям требуется удивительно мало примеров. Одна из причин этогозаключается в том, что в настоящее время при машинном анализе данных каждая новая статистическая модель строится практически «с нуля», и получаемыетаким образом модели оказываются изолированными друг от друга.

Человекже, решая какую-нибудь задачу, всегда опирается на опыт, полученный прирешении других задач. При освоении даже принципиально нового материалачеловек всегда пользуется аналогиями и метафорами, взятыми из ранее усвоенных знаний. Наконец, компоненты полученного знания тесно переплетены между собой в человеческом мозгу, что многократно ускоряет и облегчает процесс получения нового знания. Осознание этого привело в последние годы кформированию нового направления в теории машинного обучения, условно называемого “индуктивным переносом знаний”, которое занимается изучениемтого, как связывание между собой различных задач анализа данных приводит кулучшению качества получаемых моделей [477].Таким образом, один из путей преодоления ограничений, связанных с недостаточным объемом содержащихся в отдельных химических базах данныхинформации, видится в том, чтобы рассматривать разнообразные свойства химических соединений в их тесной взаимной связи и с учетом этого строить мо263дели «структура-свойство» не изолированными, а связанными друг с другом.Можно ожидать, что в этом случае будет происходить интеграция данных, прикоторой объем полезной информации для каждого из свойств будет существенно увеличен за счет эффективного использования информации, касающейсядругих свойств, тесно с ним связанным.

Также можно предположить, что чемменьше экспериментальных данных имеется по данному свойству и чем больше экспериментальных данных имеется по связанным с ним другим свойствам,тем более эффективно будет происходить перенос необходимой информациипри построении модели для прогнозирования этого свойства. Такой переносинформации возможен между моделями, расположенными внутри сети взаимосвязанных моделей как последовательно (см. раздел 7.4.1), так и параллельнодруг относительно друга (см. раздел 7.4.2).Можно предвидеть, что в перспективе развития методологии QSPR/QSARместо разрозненных и независимых друг от друга одноуровневых моделей«структура-свойство»/«структура-активность» займет организованная в виде«химического мозга» сеть тесно связанных между собой моделей, позволяющаяинтегрировать внутри себя значительный объем как экспериментальных данных, так и теоретических знаний, что позволит значительно улучшить качествопрогнозирования разнообразных свойств химических соединений.7.3.1.

Многоуровневый принцип построения моделей «структура-свойство»Суть предлагаемого нами многоуровневого подхода к прогнозированиюсвойств органических соединений в рамках методологии QSAR/QSPR заключается в следующем. Прогнозирование свойств органических соединений проводится в рамках фрагментного подхода [110, 116].

Это дает возможность воспользоваться всеми такими преимуществами фрагментного подхода как быстрота и однозначность вычислений, а также естественный характер интерпретации моделей на языке элементов структурных формул органических соединений. Кроме того, благодаря своему базисному характеру, фрагментные дескрипторы должны обеспечить возможность аппроксимировать любые сколь264угодно сложные зависимости «структура-свойство». В то же время, вместо изолированных одноуровневых моделей, берущих на входе значения фрагментныхдескрипторов и выдающей на выходе значения прогнозируемых свойств, предлагается использовать организованную в виде нескольких слоев сеть моделей, вкоторой выходы моделей предыдущих слоев являются входами для моделейпоследующих. Заметим, что подобная организация моделей напоминает поэтапный процесс обработки информации, происходящий в многослойныхструктурах коры головного мозга.

От каждой из промежуточных моделей требуется, чтобы на выходе они давали либо экспериментально измеряемые величины, либо расчетные величины, имеющие очевидную интерпретацию. Это дает возможность для каждой промежуточной модели использовать свою базуданных «структура-свойство», которая и должна применяться для ее построения. В этом случае многоуровневая организация моделей дает возможность эффективно проводить индуктивный перенос знаний от моделей предыдущегослоя к моделям последующего, что должно приводить к улучшению качествапоследних за счет использования дополнительной информации, взятой в неявном виде из других баз данных.

Можно предположить, что для эффективностиэтого процесса необходимо, чтобы модели предыдущего уровня обучались набазах существенно большего размера, чем последующего. На Рис. 58 показанасхема традиционного одноуровневого подхода, основанного на т.н. «однозадачном обучении», при котором модели (в данном случае нейросетевые) дляпрогнозирования разных свойств не связаны друг с другом. В противоположность этому, на Рис. 59 (стр. 266) показана схема многоуровневого подхода, врамках которого за счет последовательного соединения моделей происходитперенос информации из моделей нижнего уровня в модели верхнего, что приводит к повышению предсказательной способности последних.265Рис.

58. Традиционный одноуровневый подход, в котором отдельные нейросетевые модели не связаны друг с другомРис. 59. Схема многоуровневого подхода, в рамках которого за счет последовательного соединения моделей происходит перенос информации из моделейнижнего уровня в модели верхнегоЕстественными кандидатами на роль выходных свойств для промежуточных моделей являются физико-химические свойства, связанные с фундаментальными типами взаимодействий (гидрофобность, поляризуемость, характеристики силы водородных связей и т.д.), разнообразные константы заместителей,а также квантово-химические характеристики (ВЗСО, НСМО, заряды на атомах). Заметим, что для большинства из этих величин имеются дескрипторы, которые уже давно успешно используются при построении количественных зави266симостей «структура-свойство».

Принципиальным отличием и преимуществоммногоуровневого подхода перед непосредственным использованием для построения моделей физико-химических и квантово-химических дескрипторовявляется то, что при этом не теряется интерпретируемость моделей через фрагментные дескрипторы на языке структурных формул. Кроме того, сохраняетсясвойственная фрагментным дескрипторам универсальность и эффективностьрасчета, что дает возможность использовать многоуровневые сети моделей привысокопроизводительном виртуальном скрининге.Следует отметить, что кроме улучшения качества прогноза, многоуровневый подход способен преодолеть то, что иногда называется недостаткамифрагментного подхода, а именно отсутствие физико-химической интерпретации и проблема “отсутствующих фрагментов” [116].

Прежде всего, благодарятому, что промежуточные модели дают на выходе экспериментально измеримые или легко интерпретируемые физические величины, сама конечная модельполучает очевидную физико-химическую интерпретацию в терминах этих величин. Для такой интерпретации при использовании нейросетевых моделейможет быть использован подход, предложенный нами ранее [478]. Что же касается «отсутствующих фрагментов», которые отсутствуют в обучающей выборке но присутствуют в тестовой, то острота этой проблемы смягчается благодарятому, что эти фрагменты имеют шансы присутствовать в химических структурах, входящих в выборки существенно большего размера, используемые дляобучения моделей предыдущих слоев.Рассмотрим два примера, показывающие преимущества использованиямногоуровневого подхода.

В первом случае на основе опубликованных данных[479] была сформирована выборка 1, содержащая количественные данные позначению логарифма коэффициента сорбции в почве (log Koc) для 568 органических соединений. Во втором случае для создания выборки 2 были взяты из статей [479, 480] данные по значению логарифма растворимости (log S) фуллеренаС60 в 113 органических растворителях, включая 45 алканов, 36 производныхбензола, 7 производных нафталина, 14 кислород, 21 хлор и 15 бромсодержащихсоединений. При построении количественных моделей «структура-свойство» в267рамках одноуровневого подхода для описания химических соединений былииспользованы наборы фрагментных дескрипторов [481] размером до шести неводородных атомов.

Предварительный отбор дескрипторов проводился по методу быстрой пошаговой множественной линейной регрессии (БПМЛР) [482].Отобранные наборы дескрипторов использовались для построения нейросетевых моделей «структура-свойство» при помощи многослойных персептронов[39]. При построении моделей в рамках двухуровнего подхода были точно таким же образом с применением фрагментных дескрипторов и комбинацииБПМЛР и многослойных персептронов модели первого уровня, позволяющиепрогнозировать значения липофильности log P и четырех констант Абрахама A,B, E и S, характеризующих, соответственно, кислотность и основность по отношению к образованию водородной связи, избыточную молярную рефракциюи диполярность/поляризуемость. Для построения модели для липофильностибыла использована выборка 3, включающая 7805 соединений [483], а для констант Абрахама – выборка 4, состоящая из 457 соединений и приведенная в работе [484].

В Табл. 30 представлены статистические характеристики моделейпервого уровня. На втором этапе результаты прогноза, полученные с помощьюмоделей первого уровня для соответствующих выборок органических соединений по логарифму коэффициента сорбции в почве и логарифма растворимостифуллерена С60, были использованы в качестве дескрипторов при построениинейросетевых моделей второго уровня для расчета этих свойств.

Характеристики

Тип файла

PDF-файл

Размер

2,76 Mb

Материал

Тип материала

Докторская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

modelirovanie-svojstv-himicheskih-soedinenij-s-ispolzovaniem-iskusstvennyh-nejronnyh-setej-i-fragmentnyh-deskriptorov.rar

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.