Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 23
Текст из файла (страница 23)
Влияние x на f описывается при помощи коэффициента a, представляющего собой значение частной производнойфункции f по отношению к переменной x, причем оно одинаково для всех объектов (пронумеруем все объекты от 1 до N):a=∂f ( x, y )∂f ( x, y )=K=∂x x = x1 , y = y1∂x x = xN , y = y N(75)По аналогии, влияние y на f выражается посредством коэффициента b,равного одинаковым значениям частной производной функции f по отношениюк переменной y на всех N объектах выборки:b=∂f ( x, y )∂f ( x, y )=K=∂y x = x1 , y = y1∂y x = xN , y = y N(76)Таким образом, уравнение линейной регрессии может быть интерпретировано при помощи регрессионных коэффициентов a и b, выражающих влияние соответствующих переменных на значение функции. Заметим, однако, что121выражение (74) можно рассматривать как начало разложения ТэйлораМаклорена функции f(x,y) в окрестности точки (0,0):1 ∂ 2 f ( x, y )∂f ( x, y )∂f ( x, y )⋅ x2 +⋅y+⋅x+f ( x, y ) = f (0,0) +22 ∂x∂y x=0, y =0∂x x =0, y =0x = 0 , y =01 ∂ 2 f ( x, y )1 ∂ 2 f ( x, y )2⋅y ++2 ∂y 22 ∂x∂yx =0 , y =0⋅ xy + K(77)x = 0 , y =0Основная идея разработанного нами подхода состоит в использованиистатистических характеристик, основанных на коэффициентах в разложениифункции по Тэйлору-Маклорену, для интерпретации нейросетевых моделей.Рассмотрим теперь, как извлечь из набора данных ту же информацию овлиянии x и y на f при помощи нейросетей.
В этом случае, если при построениинейросетевой модели отождествить x и y со входами нейросети, а f с ее выходом, то влияние x на f может быть выражено при помощи среднего значения частной производной функции f по отношению к переменной x, усредненного повсей выборке:a ~ Mx =1NN∑i =1∂f ( x, y )∂x x= xi , y = yi(78)Здесь основное отличие от рассмотренного выше случая множественнойлинейной регрессии состоит в том, что значения частной производной можетнесколько отличаться на разных точках вследствие нелинейности функции f,что и обуславливает необходимость усреднения.
Аналогично, влияние другойпеременной y на функцию f может быть выражено при помощи усредненногозначения частной производной по отношению к ней:b ~ Mx =1NN∑i =1∂f ( x, y )∂y(79)x = xi , y = yiИтак, предлагаются следующие статистические характеристики для интерпретации нейросетевых моделей:• Mx – среднее значение первой частной производной по выборке:Mx =1NN∑i =1∂f ( x, K)∂xx = xi ,K(80)122• Dx – среднее значение дисперсии первой частной производной по выборке:1Dx =N⎞⎛ ∂f ( x, K)⎟⎜M−∑x⎟⎜x∂i =1 ⎝x = xi ,K⎠N2(81)• Mxx – среднее значение второй частной производной по выборке:M xx =1N∂ 2 f ( x, K)∑∂x 2i =1N(82)x = xi ,K• Mxy – среднее значение второй смешанной частной производной по отношению к двум переменным:M xy1=N∂ 2 f ( x, K)∑∂x∂yi =1N(83)x = xi , y = yi ,KЕще одна статистическая характеристика Ix (сумма квадратов значенийпервой частной производной) может быть использована (и реально используется в программном комплексе NASAWIN) для определения относительной важности переменных:⎛ ∂f ( x, K)Ix = ∑⎜⎜ ∂xi =1 ⎝N⎞⎟⎟x = xi ,K ⎠2(84)Для многослойной нейросети с обратным распространением ошибки значения первых частных производных∂f∂xмогут быть легко получены из знаx = xi ,Kчений величин δ на входных нейронах, тогда как значения вторых частныхпроизводных∂2 f∂x 2иx = xi ,K∂2 f∂x∂yможно вычислить по методу конечных разx = xi , y = yi ,Kностей.
Значение Mx можно рассматривать как аналог коэффициента в уравнении линейной регрессии для переменной x, Dx выражает степень нелинейностифункции по отношению к переменной x, а Mxx описывает взаимодействие между переменными x и y. Остановимся подробнее на использовании этих статистических характеристик для выявления типов нелинейного характера зависимости.Пусть функция f линейна по своим аргументам – переменным x и y:123(85)f ( x, y ) = ax + byВ этом случае только значения Mx и My будут ненулевыми (Mx = a, My =b), тогда как значения других статистических характеристик будут равно нулю(Dx = 0, Dy = 0, Mxx = 0, Mxy = 0, Myy = 0).
Параболическая зависимость(86)f ( x, y ) = ax 2 + by 2может быть выявлена по ненулевым значениям статистических характеристикMxx и Myy (Mxx = a, Myy = b) и по нулевому значению Mxy. Гиперболический характер зависимости(87)f ( x, y ) = axyможет быть определен по ненулевому значению Mxy (Mxy = a) и нулевым значениям Mxx и Myy.Следует также отметить, что рассматриваемые статистические характеристики вполне могут быть использованы при дискретных и даже при булевых(индикаторных) значениях переменных, хотя характер интерпретации в последнем случае несколько иной: значения Mx тогда обозначают вклад наличияопределенного признака у объекта в значение функции (например, вклад фрагмента X химический структуры в значение какого-либо свойства химическогосоединения), а значения Mxy – либо (если Y – непрерывная переменная, а X - булева) влияние признака X на My, т.е.
на характер зависимости функции от ее аргумента y (например, влияние наличие фрагмента X внутри химической структуры на зависимость какого-либо свойства химического соединения от значения дескриптора Y) либо (если X и Y – булевы переменные) вклад конъюнкциипризнаков X и Y в значение функции (например, вклад факта одновременногоприсутствия фрагментов X и Y в химическом соединении в значение его свойства).Рассмотрим теперь, каким образом введенные выше статистические характеристики могут быть использованы для интерпретации нейросетевой модели «структура-свойство», на примере предсказания положения длинноволновойполосы поглощения цианиновых красителей (I) в этаноле.124R1R1R2XN+R3R4XR6(CH)nR2(CH)nR5NR5R3R4(I)Подробно построение нейросетевой модели для этого случая рассмотренов разделе 7.1.1 данной диссертационной работы, поэтому здесь мы остановимсялишь на возможности дать ей содержательную интерпретацию при помощирассматриваемых статистических характеристик.
Для целей интерпретации была отобрана модель, построенная при помощи трехслойной нейросети с 10скрытыми нейронами, показавшая наилучшую прогнозирующую способностьна контрольной выборке. В качестве дескрипторов использованы энергииHOMO и LUMO, рассчитанные при помощи полуэмпирического квантовохимического метода PM3, длина (число ацетиленовых фрагментов) полиметиновой цепочки N, а также индикаторные переменные X: XS (для X = S, см.структурную формулу), XN (для X = N), XO (для X = O), XCC (X = -CH=CH-),XCCC (X = C(CH3)2).Табл. 1.
Значения статистических характеристикДескрипторXEHOMONELUMOXNMxDxMxxMxy97.894.4-39.3-26.837.637.417.29.10.2930.4080.7670.522XO-23.19.00.082XSXCCC-20.3-10.67.74.10.0310.019XCC3.72.1-0.041-1.043 (Y = XN)-0.692 (Y = XN)0.521 (Y = EHOMO)-1.043 (Y =EHOMO)-0.278 (Y =EHOMO)0.277 (Y = XN)-0.153 (Y =EHOMO)-0.425 (Y =EHOMO)125В Табл. 1 приведены названия дескрипторов вместе со значениями рассматриваемых статистических характеристик для каждого из них. Для удобстварассмотрения значения Mx и Dx приведены в первоначальной форме, тогда какзначения Mxx, Dxx и Mxy шкалированы таким образом, чтобы разброс значенийвсех дескрипторов и свойств был одинаков. Дескрипторы в таблице отсортированы в порядке возрастания абсолютного значения Mx. В результате анализаприведенных в таблице данных можно прийти к выводу, что нейронная сетьчетко отделила влияние размера энергетической щели между граничными молекулярными орбиталями HOMO и LUMO от влияния описывающего электронную корреляцию конфигурационного взаимодействия на положение длинноволновой полосы поглощения красителя.
Согласно значению статистическойхарактеристики Mx, длина полиметиновой цепочки N является одним из наиболее важных параметров, влияющих на положение этой полосы поглощения,причем это влияние не связано напрямую с величиной энергетической щелимежду граничными орбиталями. Возможное объяснение этого эффекта состоитв том, что при удлинении полиметиновой цепочки увеличивается плотностьодноэлектронных уровней вблизи граничных орбиталей, что приводит к усилению взаимодействия электронных конфигураций, получаемых при электронныхпереходах между этими уровнями, что, в свою очередь, приводит к уменьшению энергетической щели между основным и первым возбужденным электронными состояниями, и, значит, к батохромному сдвигу длинноволновой полосыпоглощения.Следующими по важности двумя дескрипторами являются EHOMO и ELUMO.Для них значения статистической характеристики Mx можно интерпретироватьследующим образом: основной вклад в длинноволновую полосу поглощениявносит переход электрона с HOMO на LUMO.
Действительно, длина волны поглощаемого света, вызывающего этот электронный переход, должна быть обратно пропорциональна разнице между этими энергетическими уровнями:λ∝E LUMO1− E HOMO(88)126В соответствии с выражением (88), значения частной производной λ поотношению к ELUMO должны быть отрицательными во всех точках, тогда каксоответствующие значения частной производной λ по отношению к EHOMO – положительными.
Это точно соответствует знакам приведенных в Табл. 1 значений Mx, а также тому, что значения Dx существенно меньше, чем Mx. Такимобразом, данные из Табл. 1 согласуются с формулой (88) и, следовательно, свышеизложенной интерпретацией.Следующими по важности являются индикаторные переменные, определяющие тип гетероциклов. Отрицательные (и меньшие по абсолютной величине по сравнению с N, EHOMO и ELUMO) значения Mx для XN, XO и XS можнообъяснить исходя из того, что введение атомов азота, кислорода и серы всоответствующее положение в цианиновых красителях приводит к понижениюплотности одноэлектронных энергетических уровней вблизи граничныхорбиталей, что приводит к уменьшению взаимодействия соответствующихэлектронных конфигураций (см. рассуждение выше) и, как следствие, кгипсохромному сдвигу длинноволновой полосы поглощения света.
Этопредположение отчасти подтверждается существенно меньшими по величинезначениями Mx для XCC и XCCC.Рассмотрим теперь значения статистических характеристик Mxx и Mxy,описывающих нелинейных характер нейросетевой модели. Данные из Табл. 1свидетельствуют о том, что зависимость λ от ELUMO является наиболее «параболической» - она напоминает отрицательную ветвь (поскольку значение Mx отрицательно, а Mxx положительно) параболы y = x2.