Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 40
Текст из файла (страница 40)
Преимущество применения нейросетей заключаетсяв их уникальной способности извлекать из эксперимента и обобщать зависимости, которые крайне трудно вывести из теоретических соображений. Поэтомуаппарат нейросетей является необходимым дополнением к методам молекуляр228ного моделирования, способным резко повысить их прогнозирующую способность и, следовательно, решать задачи дизайна сложных молекулярных систем.Возникает вопрос: если нейросети в комбинации с фрагментными дескрипторами могут аппроксимировать любое свойство, то зачем их надо комбинировать с методами молекулярного моделирования? Все зависит от объемаимеющихся экспериментальных данных (см.
Табл. 20). Если данных достаточно много, то сочетания нейросетей с фрагментными дескрипторами действительно достаточно для моделирования любого свойства. Если данных оченьмало либо они вообще отсутствуют, то нейросети не могут быть обучены, и поэтому для прогнозирования остаются только методы молекулярного моделирования. В промежуточной же ситуации, когда имеется определенный объем экспериментальных данных, но его недостаточно для построения нейросетевоймодели на одних фрагментных дескрипторах, наилучший эффект дает интеграция молекулярного и нейросетевого моделирования. Это может быть достигнуто, например, путем использования определенных величин, вычисляемых при помощи методов молекулярного моделирования в качестве дескрипторов при построении моделей «структура-свойство».
Чем больше экспериментальных данных, тем более простые методы молекулярного моделирования могут быть для этого применены.Табл. 20. Выбор метода моделирования в зависимости от объема эданныхОбъем экспериментальных данныхПредпочтительный метод моделированияМало либо отсутствуютМолекулярное моделированиеПромежуточный объем данныхСочетание молекулярного и нейросетевого моделированияДостаточно многоНейросетевое моделирование7.1.1. Предсказание положения длинноволновой полосы поглощения симметричных цианиновых красителей.Целью данной работы является иллюстрация эффективности примененияискусственных нейронных сетей для предсказания практически важных229свойств сложных молекулярных систем на примере прогнозирования положения длинноволновой полосы поглощения симметричных цианиновых красителей в спиртовом растворе.Основными областями применения цианинов (красителей, содержащихцепочку атомов N+=(CH-CH)n=CH-N) является их использование в качествеспектральных сенсибилизаторов и лазерных красителей.
Ввиду чрезвычайнойважности практического применения за последние 30 лет было проведено множество работ по выявлению зависимости физико-химических свойств цианиновых красителей от их строения на количественном уровне (см. обзорную статью [422] и монографии [423, 424]).
В большинстве публикаций рассматривалось применение методов корреляционного анализа (уравнение Гаммета) дляпрогнозирования кислотности и потенциалов окисления и восстановления вочень узких рядах симметричных цианиновых красителей с одним варьируемым заместителем. Что касается предсказания положения длинноволновой полосы поглощения, то во всех опубликованных работах выявленные зависимости носили качественный либо полуколичественный характер. В качестве примеров можно привести сдвиг на ~100 нм при удлинении полиметиновой цепочки красителей на одно виниленовое звено [424, 425] и правило ФерстераДьюара-Нотта [425-427], описывающее влияние заместителей на окраску цианинов в нечетных положениях полиметиновой цепочки.
В то же время, все попытки найти хотя бы полуколичественную зависимость окраски красителей отпараметров заместителей не привели к желаемому результату.Альтернативным методом предсказания окраски цианиновых красителейявляется использование квантово-химических расчетов. Уже простейшие подходы на основе теории возмущений молекулярных орбиталей позволили описать на качественном уровне изменение окраски красителей при варьированииряда структурных параметров [423-427]. Особенно плодотворным оказалосьиспользование выведенного на основе простого метода Хюккеля параметра эффективной длины концевых групп [428], который позволил на полуколичественном уровне описать зависимость окраски цианиновых красителей от строения гетероциклов.
Тем не менее, непосредственное применение метода Хюкке230ля и даже более совершенного метода Парра-Паризера-Попла с учетом конфигурационного взаимодействия дает очень большие ошибки, в ряде случаев превышающие 100 нм.Наши предварительные эксперименты показали, что при использованиисущественно более совершенного метода ZINDO/S с учетом конфигурационного взаимодействия возможно достичь точности прогноза 20-30 нм внутри группкрасителей с одинаковой длиной цепочки и одинаковыми типами гетероциклов,если осуществлять подбор с учетом экспериментальных данных подстроечныхпараметров этого метода (факторов взвешивания для интегралов σ-σ- и π-πперекрываний) внутри каждой из этих групп.
Очевидными недостатками этогоподхода являются как недостаточная точность прогноза (для практических целей желательно не больше 5-10 нм), так и наличие большого числа групп красителей, требующих отдельной параметризации, что не дает возможности осуществить такой прогноз для большинства красителей ввиду отсутствия экспериментальных данных, необходимых для параметризации.В настоящей работе при помощи искусственных нейронных сетей (многослойных персептронов) нами обработана выборка из 398 симметричных цианиновых красителей, описываемых общей формулой (I).
Этой формулой охватывается большинство используемых в промышленности цианиновых красителей.R1R1R2XN+R3R4R6(CH)nR5R2X(CH)nNR5R3R4где n=0-6, X=O, S, NR, CH=CH, C(CH3)2. Выборка была случайным образомразделена на две части: обучающую выборку, состоящую из 359 красителей, иконтрольную, насчитывающую 39 соединений. Кроме этого, из данной выборкибыла получена подвыборка, включающая красители с незамещенным мезоположением (R6=H), которая тоже была случайным образом разделена на обучающую (157 красителей) и контрольную (17 красителей).231На первом этапе работы для всех 398 красителей было определено геометрическое строение молекул при помощи процедуры автоматического молекулярного моделирования, включающей проведение в автоматическом режимепостроения 3D-моделей молекул с последующим уточнением моделей путемпоочередного применения методов молекулярной механики, молекулярной динамики (для вывода молекул из ложных локальных минимумов) и, наконец, полуэмпирического квантово-химического метода PM3.
Технические детали разработанного нами и использованного в этом исследовании клиент/серверногопрограммного комплекса описаны в работе [429].На втором этапе работы проводилась нейросетевая обработка баз данныхпри помощи многослойных персептронов с использованием компьютернойпрограммы NASAWIN. В качестве дескрипторов использовались рассчитанныена первом этапе по методу PM3 энергии высшей занятой молекулярной орбитали (ВЗМО) EВЗМО и низшей свободной молекулярной орбитали (НСМО) EНСМО,длина полиметиновой цепочки n, индикатор наличия заместителя в мезоположении полиметиновой цепочки, а также индикаторы типа X в формуле (I):XO, XN, XS, XCH=CH, XC(CH3)2.Обучение нейросети проводилось по обучающей выборке с использованием алгоритма обобщенного дельта-правила (см.
[42]) при начальном значении параметра скорости обучения 0.25 с последующим снижением до 0.01.Прогнозирующая способность нейросети оценивалась при помощи независимого прогноза на контрольной выборке. Для нахождения оптимальной архитектуры сети обучение проводилось при разном числе нейронов во внутреннем слое.В Табл. 21 приведены значения коэффициентов корреляции R и среднеквадратичных ошибок на обучающей выборке st и среднеквадратичных ошибок прогноза на контрольной выборке sv для разного числа внутренних нейронов nh длясоединений из полной выборки, а в Табл. 22 дана та же информация для красителей с R6=H.Из информации, содержащейся в Табл.
21 и Табл. 22 можно сделать вывод, что для обеспечения наилучшей прогнозирующей способности следуетбрать нейросеть с 8-10 внутренними нейронами для произвольного симметрич232ного цианинового красителя и с 7-8 внутренними нейронами для незамещенныхв цепочке симметричных цианиновых красителей, при этом качество прогноза(среднеквадратичная ошибка 7-11 нм для общего случая и 3-5 нм для красителей с R6=H) значительно превосходит все то, что было достигнуто ранее (см.обсуждение выше) и обеспечивает достаточную точность для решения практических задач дизайна красителей с заданным положением длинноволновой полосы поглощения.Табл. 21.