Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 53
Текст из файла (страница 53)
Прогнозирующая способность нейросети оценивается по величине средней ошибки, вычисленной для соединенийиз выборки прогноза, в момент начала «переучивания». Предложенный трехвыборочный метод позволяет, таким образом, оценить прогнозирующую способность нейросети с использованием соединений, не участвующих в процессеобучения нейросети, что является существенным преимуществом по сравнениюсо стандартным методом перекрестной оценки.3028.2.11.
Кластеризация баз данныхРеальные химические базы данных часто бывают неоднородными и содержат несколько групп соединений, различных по типу строения или по механизму действия, и в этом случае построение единой нейросетевой модели невсегда оправдано.Для подразделения базы данных на кластеры в «NASAWIN» используется анализ активностей скрытых нейронов. Для этого строятся графики зависимостей выходных сигналов для всех возможных пар скрытых нейронов, причемоба нейрона должны принадлежать одному и тому же скрытому слою нейросети. Было отмечено, что на таких графиках соединения, характеризующиесяблизким строением, располагаются близко друг к другу и образуют таким образом отдельные группы. Пользователю предоставляется возможность вручнуювыделить интересующие его кластеры, а затем построить отдельные нейросетевые модели для каждого найденного кластера.8.2.12.
Динамическая визуализация хода обучения нейросетиДля удобства работы с программой «NASAWIN» предусмотрена возможность наблюдения за ходом обучения в режиме реального времени. Пользователь может выбирать интересующие его свойства и режимы визуализации, атакже влиять на ход обучения нейросети путем динамического изменения параметров. В программе реализованы следующие виды графической интерпретации обучения нейросетей:-графики изменения рассчитанных величин свойств по отношению к их экспериментальным значениям (Scatter Plot);-графики изменения абсолютных среднеквадратичных ошибок свойств в ходе обучения (History Plot);-динамическое отображение нейросети, показывающее подстройку весовыхкоэффициентов и распределение значимостей дескрипторов (Network Plot);-отображение основной статистической информации о модели и ходе обучения нейросети (Model Info);303-карты кластеризации базы данных (Factors Plot).8.2.13.
Определение области применимости моделиДля решения этой проблемы «NASAWIN» всегда сохраняет в файлах спостроенными нейросетевыми моделями информацию о распределении дескрипторов по обучающей выборке (максимальные и минимальные значения), атакже допустимый коэффициент «растяжки» этих границ.
Эта информация затем используется на этапе прогноза для принятия решения о том, какие из соединений принадлежат областям применимости соответствующих моделей.8.2.14. Химически-ориентированный блок прогнозаПолученные нейросетевые модели могут затем использоваться для оценки свойств новых соединений. Для прогноза отбираются только соединения,структурно родственные соединениям из выборки, для которой была построенанейросетевая модель.Основная особенность прогнозирования в задачах выявления зависимостей «структура-свойство» в химии заключается в тесной взаимосвязи с решением «обратной задачи», заключающейся в направленном дизайне химическихсоединений с заранее заданными свойствами.
Для обеспечения этого в«NASAWIN» предусмотрены специальные средства представления результатовпрогноза и интерактивные средства взаимодействия с ними, которые специально направлены на решение «обратной задачи».8.3. Дескрипторный блок «FRAGMENT»Дескрипторный блок FRAGMENT предназначен для расчета фрагментных дескрипторов. Первая версия этого блока [356] была разработана как компонент программного комплекса ЭММА и предназначалась для работы в средеMS-DOS. В дальнейшем нами была создана значительно усовершенствованнаяверсия, ориентированная на работу в среде Windows, которая используется в304нейросетевом программном комплексе NASAWIN (см.
раздел 8.2) для расчетафрагментных дескрипторов. Кроме того, специальная версия этого дескрипторного блока FRAGMDLL, реализованная в виде библиотеки динамического связывания (dll), входит в состав автономной программы-прогнозатора (см. раздел8.5) и дескрипторных блоков, реализующих нейросетевые модели «структурасвойство» в рамках многоуровневого подхода (см. раздел 7.3.1). Принципы построения и генерации фрагментных дескрипторов, реализованные в данном дескрипторном блоке, описаны в разделе 5.1.
Дескрипторный блок FRAGMENTнаписан на языке Delphi и содержит около 18,5 тысяч строк исходного текста.Программный комплекс NASAWIN использует дескрипторный блокFRAGMENT в двух случаях: 1) при построении новой модели и 2) при прогнозировании свойств на основе уже подготовленной модели.В первом случае управление генерацией фрагментов осуществляется припомощи диалоговых окон, которые позволяют пользователю специфицировать:1) максимальный размер (число атомов) генерируемых фрагментов; 2) типыфрагментов (цепочечные, циклические, разветвленные, би- и трициклические);3) уровни обобщения для каждого вида фрагментов; 4) необходимость отбрасывания «редких» фрагментов (а также задать минимальное число структур, вкоторых должен встречаться каждый из генерируемых фрагментов); 5) необходимость оставлять из группы статистически эквивалентных фрагментных дескрипторов (т.е. принимающих одинаковые либо пропорциональные друг другузначения для всех соединений выборки) только один; 6) необходимость генерации фрагментов с «выделенными» атомами (см.
раздел 5.3); 6) необходимостьиспользования файла масок для подробной спецификации типов генерируемыхфрагментов; 7) необходимость использования файла, содержащего структурынестандартных фрагментов произвольной сложности, для которых FRAGMENTдолжен осуществлять расчет фрагментных дескрипторов.При работе дескрипторного блока FRAGMENT в режиме прогноза управление генерацией фрагментов осуществляется при помощи специального текстового файла-маски, содержащего список кодов необходимых фрагментов.3058.4.
Дескрипторный блок «FRAGPROP»ВТабл.34представленывычисляемыедескрипторнымблокомFRAGPROP дескрипторы для фрагментов с размером от 1 до 5 атомов:Табл. 34. Дескрипторы FRAGPROP12p1_Na=NaЧисло атомов в молекулеОбщее число электронов в молекулеNap1_Ne=Ne= ∑ neii =13p1 _ ANe = N e / N a4p1 _ SR 2 = ∑ Ri2Cреднее число электронов ватоме.Сумма квадратов атомных радиусов в молекулыNai =156Na1p1 _ AR 2 =NaСреднее значение квадратаатомного радиуса∑R2ii =1Сумма кубов атомных радиусов в молекулеNap1 _ SR3 = ∑ Ri3i =17Na1p1 _ AR3 =NaСреднее значение куба атомного радиуса∑R3ii =1Сумма отношений кубоватомных радиусов к числуэлектронов в этих атомахСреднее значение отношениякуба атомного радиуса к числуэлектронов на атомеСумма электроотрицательностей всех атомов в молекуле.Среднее значение электроотрицательности.Ri3p1 _ SR3E = ∑i =1 neiNa89p1 _ AR3E =1NaRi3∑i =1 neiNaNa1011p1 _ SE = ∑ χ ii =1p1 _ AE =1NaNa∑χi =1i12p1 _ LE = min( χ i )1314p1 _ HE = max( χ i )Минимальная электроотрицательность атома в молекуле.Максимальная электроотрицательность атома в молекуле.Сумма атомных потенциаловионизации в молекуле.Nap1 _ SI = ∑ I ii =1151p1 _ AI =NaСредний потенциал ионизацииатомов в молекуле.Na∑Ii =1i16Минимальный потенциал ионизации атома в молекуле.Максимальный потенциал ионизации атома в молекуле.p1 _ LI = min i ( I i )17p1 _ HI = min i ( I i )3061819p1_Nlpp1_Npi = Nπ20p1 _ SC = ∑ qiКоличество неподеленныхэлектронных пар в молекуле.Количество π-электронов вмолекулеСуммарный заряд молекулыNai =121p1 _ SC 2 = ∑ qi2Сумма квадратов формальныхзарядов на атомах22p1_Nb = Nb23p1_Nbс = NbсКоличество химических связейв молекуле.Количество входящих в циклыхимических связей в молекулеСумма модулей разностейэлектроотрицательностей длявсех связей X-H в молекуле.Сумма модулей разностейэлектроотрицательностей длявсех связей X-H в молекуле,где Х-гетероатомСумма по всем связям в молекуле произведений модулейразностей электроотрицательностей атомов на порядок связи между нимиСумма по всем связям в молекуле произведений модулейразностей электроотрицательностей неводородных атомовна порядок связи между нимиСреднее значение произведений модулей разностейэлектроотрицательностей атомов на порядок связи междунимиСреднее значение произведений модулей разностейэлектроотрицательностей неводородных атомов на порядок связи между нимиМаксимальное значение произведения модуля раз-ностиэлектроотрицатель-ностей длявсех связей в молекуле на порядок соот-ветствующей связиСумма произведений электроотрицательности атомов длявсех связей в молекуле.Nai =124∑ | χ (a ) − χ ( H ) |p 2 _ SDEH =1p 2|a2 ≠ H25∑ | χ (a ) − χ ( H ) |p 2 _ SDEHnc =p 2|a2 ≠ H , a1 ≠ C261p 2 _ SDE = ∑ χ (a1 ) − χ (a 2 ) ⋅ nbp227∑ χ (a ) − χ (ap 2 _ SDEnh =p 2|a1 ≠ H , ∧ a2 ≠ H2829p 2 _ ADE =p 2 _ ADEnh =1Nb1Nb1∑ χ (a ) − χ (a122) ⋅ nb) ⋅ nbp2∑ χ (a ) − χ (ap 2|a1 ≠ H , ∧ a2 ≠ H12) ⋅ nb30p 2 _ HDE = max p 2 (| χ (a1 ) − χ (a 2 ) | ⋅nb )31p 2 _ SPE = ∑ χ (a1 ) ⋅ χ (a 2 )p2307321Nbp 2 _ APE =∑ χ (a ) ⋅ χ (a12)p233p 2 _ HPE = max p 2 ( χ (a1 ) ⋅ χ (a 2 ))34p 2 _ SPR = ∑ R(a1 ) ⋅ R(a 2 )p2351Nbp 2 _ APR =∑ R(a ) ⋅ R(a12)p236p 2 _ HPR = max p 2 ( R(a1 ) ⋅ R(a 2 ))37p3 _ SPR = ∑ R(a1 ) ⋅ R(a3 )p338394041p3 _ APR =∑ R(a ) ⋅ R(a )13p3Максимальное значение произведения атомных радиусовдля всех связей в молекуле.Сумма произведений радиусоватомов, разделенных двумясвязями.Среднее значение произведений радиусов атомов, разделенных двумя связями.Сумма произведений разностей электроотрицательностиатомов в положениях 1-2 и 3-2p3 _ SPDE = ∑ ( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a3 ) − χ (a 2 ))p3для всех трехатомных связныхфрагментов.Среднее значение произведений разностей электро1отрицательности атомов в поp3 _ APDE =( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a3 ) − χ (a 2 ))∑ложениях 1-2 и 3-2 для всехN p3 p3трехатомных связных фрагментов.Сумма произведений разностей электроотрицательностиp3 _ SPDEnh =∑ ( χ (a1 ) − χ (a2 )) ⋅ ( χ (a3 ) − χ (a2 )) неводородных атомов в полоp 3|a ≠ H ∧ a ≠ Hжениях 1-2 и 3-2 для всехтрехатомных связных фрагментовСреднее значение произведений разностей электроотрица1тельности неводородных атоp3 _ APDEnh =∑ ( χ (a1 ) − χ (a2 )) ⋅ ( χ (a3 ) − χ (a2 )) мовN p 3 p 3|a ≠ H ∧ a ≠ Hв положениях 1-2 и 3-2для всех трехатомных связныхфрагментов1421N p3Среднее значение произведения электроотрицательностей атомов для всехсвязей в молекуле.Максимальное значение произведения электроотрицательностей атомов длявсех связей в молекуле.Сумма произведений атомныхрадиусов для всех связей в молекуле.Среднее значение произведений атомных радиусов длявсех связей в молекуле.21230843Сумма произведений атомныхрадиусов в положениях 1-4.p 4 _ SPR = ∑ R(a1 ) ⋅ R(a 4 )p44445p 4 _ APR =1N p4∑ R(a ) ⋅ R(a12)p4p 4 _ SPDE = ∑ ( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a 4 ) − χ (a3 ))p4\4647p 4 _ APDE =1N p4∑ ( χ (a ) − χ (a12)) ⋅ ( χ (a 4 ) − χ (a3 ))p4Среднее значение произведений атомных радиусов вположениях 1-4 по всем 4атомным цепочкам.Сумма произведений разностей электроотрицательностиатомов в положениях 1-2 и 4-3для всех 4-атомных цепочек.Среднее значение произведений разностей электроотрицательности атомов в положениях 1-2 и 4-3 для всех 4атомных цепочек.Сумма произведений атомныхрадиусов в положениях 1-5.p5 _ SPR = ∑ R(a1 ) ⋅ R(a5 )p548p5 _ APR =1N p5Среднее значение произведений атомных радиусов в положениях 1-5 по всем 5атомным цепочкам.∑ R(a ) ⋅ R(a )15p5Сумма произведений разностей электроотрицательности49атомов в положениях 1-2 и 5-4p5 _ SPDE = ∑ ( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a5 ) − χ (a 4 ))p5для всех 5-атомных цепочек.Среднее значение произведений разностей электро150отрицательности атомов в поp5 _ APDE =( χ (a1 ) − χ (a 2 )) ⋅ ( χ (a5 ) − χ (a 4 ))∑ложениях 1-2 и 5-4 для всех 5N p5 p5атомных цепочек.где χ - электроотрицательность, ra – атомный ковалентный радиус, ne – количествоэлектронов, I – потенциал ионизации, q – формальный заряд на атоме, Nπ - количествоπ-электронов в молекуле, ne, – количество электронов в атоме Nlp – количество неподеленных пар электронов в молекуле, Npn - число цепочек длиной n в молекуле, an(атомы), bn (связи) и pn (цепочки атомов) определяются следующим образом:b1a2a1 a1 a2 aa31p1p2p3a2a1a4a3p4309a2 a4a1 a3 a5p58.5.