Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 23

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 23 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 232019-03-132019-03-13СтудИзба

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 23)

Влияние x на f описывается при помощи коэффициента a, представляющего собой значение частной производнойфункции f по отношению к переменной x, причем оно одинаково для всех объектов (пронумеруем все объекты от 1 до N):a=∂f ( x, y )∂f ( x, y )=K=∂x x = x1 , y = y1∂x x = xN , y = y N(75)По аналогии, влияние y на f выражается посредством коэффициента b,равного одинаковым значениям частной производной функции f по отношениюк переменной y на всех N объектах выборки:b=∂f ( x, y )∂f ( x, y )=K=∂y x = x1 , y = y1∂y x = xN , y = y N(76)Таким образом, уравнение линейной регрессии может быть интерпретировано при помощи регрессионных коэффициентов a и b, выражающих влияние соответствующих переменных на значение функции. Заметим, однако, что121выражение (74) можно рассматривать как начало разложения ТэйлораМаклорена функции f(x,y) в окрестности точки (0,0):1 ∂ 2 f ( x, y )∂f ( x, y )∂f ( x, y )⋅ x2 +⋅y+⋅x+f ( x, y ) = f (0,0) +22 ∂x∂y x=0, y =0∂x x =0, y =0x = 0 , y =01 ∂ 2 f ( x, y )1 ∂ 2 f ( x, y )2⋅y ++2 ∂y 22 ∂x∂yx =0 , y =0⋅ xy + K(77)x = 0 , y =0Основная идея разработанного нами подхода состоит в использованиистатистических характеристик, основанных на коэффициентах в разложениифункции по Тэйлору-Маклорену, для интерпретации нейросетевых моделей.Рассмотрим теперь, как извлечь из набора данных ту же информацию овлиянии x и y на f при помощи нейросетей.

В этом случае, если при построениинейросетевой модели отождествить x и y со входами нейросети, а f с ее выходом, то влияние x на f может быть выражено при помощи среднего значения частной производной функции f по отношению к переменной x, усредненного повсей выборке:a ~ Mx =1NN∑i =1∂f ( x, y )∂x x= xi , y = yi(78)Здесь основное отличие от рассмотренного выше случая множественнойлинейной регрессии состоит в том, что значения частной производной можетнесколько отличаться на разных точках вследствие нелинейности функции f,что и обуславливает необходимость усреднения.

Аналогично, влияние другойпеременной y на функцию f может быть выражено при помощи усредненногозначения частной производной по отношению к ней:b ~ Mx =1NN∑i =1∂f ( x, y )∂y(79)x = xi , y = yiИтак, предлагаются следующие статистические характеристики для интерпретации нейросетевых моделей:• Mx – среднее значение первой частной производной по выборке:Mx =1NN∑i =1∂f ( x, K)∂xx = xi ,K(80)122• Dx – среднее значение дисперсии первой частной производной по выборке:1Dx =N⎞⎛ ∂f ( x, K)⎟⎜M−∑x⎟⎜x∂i =1 ⎝x = xi ,K⎠N2(81)• Mxx – среднее значение второй частной производной по выборке:M xx =1N∂ 2 f ( x, K)∑∂x 2i =1N(82)x = xi ,K• Mxy – среднее значение второй смешанной частной производной по отношению к двум переменным:M xy1=N∂ 2 f ( x, K)∑∂x∂yi =1N(83)x = xi , y = yi ,KЕще одна статистическая характеристика Ix (сумма квадратов значенийпервой частной производной) может быть использована (и реально используется в программном комплексе NASAWIN) для определения относительной важности переменных:⎛ ∂f ( x, K)Ix = ∑⎜⎜ ∂xi =1 ⎝N⎞⎟⎟x = xi ,K ⎠2(84)Для многослойной нейросети с обратным распространением ошибки значения первых частных производных∂f∂xмогут быть легко получены из знаx = xi ,Kчений величин δ на входных нейронах, тогда как значения вторых частныхпроизводных∂2 f∂x 2иx = xi ,K∂2 f∂x∂yможно вычислить по методу конечных разx = xi , y = yi ,Kностей.

Значение Mx можно рассматривать как аналог коэффициента в уравнении линейной регрессии для переменной x, Dx выражает степень нелинейностифункции по отношению к переменной x, а Mxx описывает взаимодействие между переменными x и y. Остановимся подробнее на использовании этих статистических характеристик для выявления типов нелинейного характера зависимости.Пусть функция f линейна по своим аргументам – переменным x и y:123(85)f ( x, y ) = ax + byВ этом случае только значения Mx и My будут ненулевыми (Mx = a, My =b), тогда как значения других статистических характеристик будут равно нулю(Dx = 0, Dy = 0, Mxx = 0, Mxy = 0, Myy = 0).

Параболическая зависимость(86)f ( x, y ) = ax 2 + by 2может быть выявлена по ненулевым значениям статистических характеристикMxx и Myy (Mxx = a, Myy = b) и по нулевому значению Mxy. Гиперболический характер зависимости(87)f ( x, y ) = axyможет быть определен по ненулевому значению Mxy (Mxy = a) и нулевым значениям Mxx и Myy.Следует также отметить, что рассматриваемые статистические характеристики вполне могут быть использованы при дискретных и даже при булевых(индикаторных) значениях переменных, хотя характер интерпретации в последнем случае несколько иной: значения Mx тогда обозначают вклад наличияопределенного признака у объекта в значение функции (например, вклад фрагмента X химический структуры в значение какого-либо свойства химическогосоединения), а значения Mxy – либо (если Y – непрерывная переменная, а X - булева) влияние признака X на My, т.е.

на характер зависимости функции от ее аргумента y (например, влияние наличие фрагмента X внутри химической структуры на зависимость какого-либо свойства химического соединения от значения дескриптора Y) либо (если X и Y – булевы переменные) вклад конъюнкциипризнаков X и Y в значение функции (например, вклад факта одновременногоприсутствия фрагментов X и Y в химическом соединении в значение его свойства).Рассмотрим теперь, каким образом введенные выше статистические характеристики могут быть использованы для интерпретации нейросетевой модели «структура-свойство», на примере предсказания положения длинноволновойполосы поглощения цианиновых красителей (I) в этаноле.124R1R1R2XN+R3R4XR6(CH)nR2(CH)nR5NR5R3R4(I)Подробно построение нейросетевой модели для этого случая рассмотренов разделе 7.1.1 данной диссертационной работы, поэтому здесь мы остановимсялишь на возможности дать ей содержательную интерпретацию при помощирассматриваемых статистических характеристик.

Для целей интерпретации была отобрана модель, построенная при помощи трехслойной нейросети с 10скрытыми нейронами, показавшая наилучшую прогнозирующую способностьна контрольной выборке. В качестве дескрипторов использованы энергииHOMO и LUMO, рассчитанные при помощи полуэмпирического квантовохимического метода PM3, длина (число ацетиленовых фрагментов) полиметиновой цепочки N, а также индикаторные переменные X: XS (для X = S, см.структурную формулу), XN (для X = N), XO (для X = O), XCC (X = -CH=CH-),XCCC (X = C(CH3)2).Табл. 1.

Значения статистических характеристикДескрипторXEHOMONELUMOXNMxDxMxxMxy97.894.4-39.3-26.837.637.417.29.10.2930.4080.7670.522XO-23.19.00.082XSXCCC-20.3-10.67.74.10.0310.019XCC3.72.1-0.041-1.043 (Y = XN)-0.692 (Y = XN)0.521 (Y = EHOMO)-1.043 (Y =EHOMO)-0.278 (Y =EHOMO)0.277 (Y = XN)-0.153 (Y =EHOMO)-0.425 (Y =EHOMO)125В Табл. 1 приведены названия дескрипторов вместе со значениями рассматриваемых статистических характеристик для каждого из них. Для удобстварассмотрения значения Mx и Dx приведены в первоначальной форме, тогда какзначения Mxx, Dxx и Mxy шкалированы таким образом, чтобы разброс значенийвсех дескрипторов и свойств был одинаков. Дескрипторы в таблице отсортированы в порядке возрастания абсолютного значения Mx. В результате анализаприведенных в таблице данных можно прийти к выводу, что нейронная сетьчетко отделила влияние размера энергетической щели между граничными молекулярными орбиталями HOMO и LUMO от влияния описывающего электронную корреляцию конфигурационного взаимодействия на положение длинноволновой полосы поглощения красителя.

Согласно значению статистическойхарактеристики Mx, длина полиметиновой цепочки N является одним из наиболее важных параметров, влияющих на положение этой полосы поглощения,причем это влияние не связано напрямую с величиной энергетической щелимежду граничными орбиталями. Возможное объяснение этого эффекта состоитв том, что при удлинении полиметиновой цепочки увеличивается плотностьодноэлектронных уровней вблизи граничных орбиталей, что приводит к усилению взаимодействия электронных конфигураций, получаемых при электронныхпереходах между этими уровнями, что, в свою очередь, приводит к уменьшению энергетической щели между основным и первым возбужденным электронными состояниями, и, значит, к батохромному сдвигу длинноволновой полосыпоглощения.Следующими по важности двумя дескрипторами являются EHOMO и ELUMO.Для них значения статистической характеристики Mx можно интерпретироватьследующим образом: основной вклад в длинноволновую полосу поглощениявносит переход электрона с HOMO на LUMO.

Действительно, длина волны поглощаемого света, вызывающего этот электронный переход, должна быть обратно пропорциональна разнице между этими энергетическими уровнями:λ∝E LUMO1− E HOMO(88)126В соответствии с выражением (88), значения частной производной λ поотношению к ELUMO должны быть отрицательными во всех точках, тогда каксоответствующие значения частной производной λ по отношению к EHOMO – положительными.

Это точно соответствует знакам приведенных в Табл. 1 значений Mx, а также тому, что значения Dx существенно меньше, чем Mx. Такимобразом, данные из Табл. 1 согласуются с формулой (88) и, следовательно, свышеизложенной интерпретацией.Следующими по важности являются индикаторные переменные, определяющие тип гетероциклов. Отрицательные (и меньшие по абсолютной величине по сравнению с N, EHOMO и ELUMO) значения Mx для XN, XO и XS можнообъяснить исходя из того, что введение атомов азота, кислорода и серы всоответствующее положение в цианиновых красителях приводит к понижениюплотности одноэлектронных энергетических уровней вблизи граничныхорбиталей, что приводит к уменьшению взаимодействия соответствующихэлектронных конфигураций (см. рассуждение выше) и, как следствие, кгипсохромному сдвигу длинноволновой полосы поглощения света.

Этопредположение отчасти подтверждается существенно меньшими по величинезначениями Mx для XCC и XCCC.Рассмотрим теперь значения статистических характеристик Mxx и Mxy,описывающих нелинейных характер нейросетевой модели. Данные из Табл. 1свидетельствуют о том, что зависимость λ от ELUMO является наиболее «параболической» - она напоминает отрицательную ветвь (поскольку значение Mx отрицательно, а Mxx положительно) параболы y = x2.

Характеристики

Тип файла

PDF-файл

Размер

2,76 Mb

Материал

Тип материала

Докторская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

modelirovanie-svojstv-himicheskih-soedinenij-s-ispolzovaniem-iskusstvennyh-nejronnyh-setej-i-fragmentnyh-deskriptorov.rar

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.