Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 52
Текст из файла (страница 52)
В ходе своего дальнейшего развития в NASAWIN было включено множество дополнительных методов статистического анализа, дескрипторных блоков, методов визуализации и архитектур нейронных сетей, в резуль296тате чего NASAWIN превратился в мощный универсальный программный комплекс для построения моделей «структура-свойство» и прогнозированиясвойств органических соединений.8.2. Программный комплекс «NASAWIN»Отсутствие удобного для химика-органика инструмента, позволяющегополучать, анализировать и использовать для прогноза нейросетевые модели зависимостей структура-свойство, побудило нас к разработке компьютерной программы, базирующейся на методологии искусственных нейронных сетей и ориентированной на работу с химической информацией.Программный комплекс «NASAWIN» позволяет:1) загружать и просматривать базы данных, содержащие структуры химических соединений и их свойства;2) вычислять наборы дескрипторов, описывающих химические структуры, иотбирать наиболее значимые;3) выявлять и интерпретировать количественные зависимости между значениями дескрипторов и свойств химических соединений при помощи многослойной нейронной сети прямого распространения;4) статистически оценивать полученные модели;5) использовать полученные нейросетевые модели для прогнозированиясвойств произвольных химических соединений.Программные коды написаны на языке С++ с использованием компилятора MVC++ 6.0.
Программа содержит около 80000 строк. Наряду с общепринятыми алгоритмами работы с нейронными сетями, «NASAWIN» обладаетмножеством характерных черт, которые делают этот комплекс уникальным инструментом для исследования зависимости «структура-свойство» в химии.
Рассмотримосновныевозможности,которыепредоставляетпрограмма«NASAWIN» для получения нейросетевых моделей структура-свойство.2978.2.1. Представление химической информацииNASAWIN может работать с химическими базами данных, записаннымикак в стандартном SDF-формате, поддерживаемом основными существующимикоммерческими программами, так и в SET-STR-формате, который поддерживается рядом программ и программных комплексов, разработанных на химическом факультете МГУ (в частности молекулярный редактор «MOLED», программный комплекс «EMMA», генератор химических структур «GOLD», многочисленные дескрипторные блоки и т.д.).
При необходимости комплекс«NASAWIN» без явного вмешательства пользователей сам производит конвертацию между необходимыми форматами, благодаря чему обеспечивается егоинтегрированная работа с многочисленным ориентированным на химию программным обеспечением. Кроме того, «NASAWIN» содержит и самостоятельные средства просмотра используемых баз данных.Также важно отметить, что «NASAWIN» позволяет работать и с «разреженными» базами данных. Такие базы очень часто встречаются в химии, т.к.часто не для всех соединений, представленных в базе данных, измерены всезначения свойств или получены все значения дескрипторов.8.2.2. Интеграция с программными компонентами, осуществляющими расчетдескрипторов химических структурУправляющая программа «NASAWIN» обеспечивает согласованную работу с гибким набором многочисленных автономных программных компонент,проводящих расчет разнообразных дескрипторов химических структур: подструктурных, топологических, позиционных, физико-химических и квантовохимических.
Кроме того, «NASAWIN» предоставляет встроенную библиотеку,облегчающую разработку новых дескрипторных блоков.2988.2.3. Химически-ориентированная визуализацияПри обработке химических баз данных очень важно знать, какая химическая структура скрывается за каждой записью в базе данных и за каждой точкойна графиках зависимостей, из-за чего использование для этой цели статистических либо нейросетевых пакетов общего назначения часто оказывается крайненеудобным и неэффективным.
«NASAWIN» позволяет абсолютно на всех этапах взаимодействия пользователя с программой видеть структурные формулыхимических соединений прямо в диалоговых окнах или в окнах визуализациихода и результатов обучения, что резко повышает удобство и эффективностьработы с программой.8.2.4. Модификация дескрипторов и свойствВ настоящее время «NASAWIN» поддерживает 8 типов модификаций дескрипторов.
Кроме общеупотребительных типов модификаций дескрипторов(взятие квадрата, квадратного корня, логарифма, обратного числа и пороговогоиндикатора) предусмотрены и специфические для химии типы, вычисляемые сучетом количества неводородных атомов в молекуле («деление на число атомов», «умножение на число атомов» и «обратная величина, умноженная начисло атомов»).Также возможны следующие 3 вида модификаций для исследуемыхсвойств: взятие обратного числа, взятие логарифма, а также использование специфического типа модификации «логарифм от обратной величины», что частобывает необходимо при обработке данных по биологической активности химических соединений.8.2.5.
Предварительный отбор дескрипторовПри использовании подструктурных дескрипторов при поиске соотношений «структура-свойство» практически всегда оказывается, что их значения линейно взаимосвязаны. Для этого случая в «NASAWIN» специально предусмот299рена возможность формирования такого поднабора дескрипторов, внутри которого отсутствует линейная попарная зависимость между ними, что часто позволяет резко сократить число используемых дескрипторов. Кроме того, во многихзадачах прогнозирования физико-химических свойств химических соединенийстепень нелинейности их зависимости от значений дескрипторов оказываетсяне очень высокой, хотя и существенной для максимально точного прогнозирования, что дает возможность использовать быстрые линейно-регрессионныеметоды отбора дескрипторов.
Хотя в общем случае сформированный таким образом набор отобранных дескрипторов может оказаться неоптимальным, в реальных задачах по изучению зависимости «структура-свойство» (когда числоподструктурных дескрипторов может составить тысячи и даже десятки тысяч,что делает проблематичным использование чистых нейросетевых методов отбора дескрипторов) такой подход часто оказывается единственно возможным.Для обеспечения этого в «NASAWIN» предусмотрена специальная интерактивная процедура пошаговой линейной регрессии (БПМЛР, см. подраздел 4.1.5),которая позволяет пользователю быстро сформировать небольшой набор ценных дескрипторов, который в дальнейшем может быть использован для обучения нейронной сети.8.2.6.
Построение классификационных моделей структура-активностьОчень часто, особенно при работе с биологическими данными, значениясвойств представлены на качественном уровне (1 - есть активность, 0 - нет активности). Программа «NASAWIN» способна самостоятельно различать типыпредставления исходных данных и в зависимости от этого строить классификационные либо регрессионные. Кроме того, предусмотрена возможность ручного разбиения массива исследуемых соединений по каждому конкретному свойству на активные и неактивные, с последующим построением классификационных моделей.
Пользователь может изменять пороговую величину для такогоразбиения. Подчеркнем, что в данную диссертационную работу включено использование только регрессионных методов.3008.2.7. Нейросетевые парадигмыПрограммный комплекс «NASAWIN» основан главным образом на использовании нейросетей обратного распространения (см. подраздел 1.2.4). Основные алгоритмы обучения, реализованные в NASAWIN, это «обобщенноедельта-правило» (см.
пункт 1.2.4.4) и метод эластичного распространения (см.пункт 1.2.4.5). Поскольку последний метод обучения проявил себя при эксплуатации программы значительно лучше первого, то именно он и используется поумолчанию. Для уменьшения «переучивания» при обучении может быть включен один из четырех типов регуляризаторов. Кроме того, в «NASAWIN» реализованы также самоорганизующиеся карты Кохонена (см.
пункт 1.2.5.1), которые могут быть использованы кластеризации базы данных, а также специальнаядинамически наращиваемая сеть для решения классификационных задач распознавания образов. Использование последних двух нейросетевых парадигм выходит за рамки данной диссертационной работы.8.2.8. Интерпретация нейросетевых моделейВ ходе построения нейросетевых моделей рассчитываются все описанныевыше статистические параметры (см. раздел 4.2), предназначенные для анализавкладов входных параметров нейросети в получаемые модели. Эти данныепредставляются в числовом виде в диалоговых окнах, а также графически: накаждой итерации обучения нейросеть перерисовывается в соответствии с данными о значимости дескрипторов и величинах весовых коэффициентов связей.8.2.9.
Отбор дескрипторов в ходе обучения нейросетиРассчитанные характеристики значимости дескрипторов могут использоваться для отбора наиболее важных дескрипторов в ходе обучения нейросети.Для более четкого выявления значимых дескрипторов предусмотрена дополнительная возможность отсева малозначимых весовых коэффициентов.
Для того,301чтобы выявить малозначимые весовые коэффициенты, используется процедура«забывания», т.е. на каждой итерации каждый весовой коэффициент уменьшается на некую величину, пропорциональную его значению. Для вычисленияэтой пропорциональной величины в программе «NASAWIN» используются линейные, квадратичные и логарифмические функции, а также функция Гаусса.Таким образом, несущественные весовые коэффициенты сводятся к нулю, чтопозволяет сократить размерность нейросети путем удаления нейронов с нулевыми синапсами.8.2.10.
Определение момента начала «переучивания» нейросетиС целью определения момента перехода обучения нейросети из «обобщающей» в «запоминающую» фазу, то есть того момента, когда среднеквадратичная ошибка для контрольных соединений начинает возрастать и обучениенейросети должно быть прервано, в программе «NASAWIN» предусмотренаследующая процедура. Вся выборка соединений разбивается автоматически иливручную на 3 подвыборки – обучающую, контрольную и выборку прогноза. Насоединениях из обучающей выборки строится нейросетевая модель. Точка перехода обучения нейросети из одной фазы в другую определяется автоматически и соответствует моменту начала увеличения среднеквадратичной ошибкидля соединений из контрольной выборки.