Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 52

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 52 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 522019-03-132019-03-13СтудИзба

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 52)

В ходе своего дальнейшего развития в NASAWIN было включено множество дополнительных методов статистического анализа, дескрипторных блоков, методов визуализации и архитектур нейронных сетей, в резуль296тате чего NASAWIN превратился в мощный универсальный программный комплекс для построения моделей «структура-свойство» и прогнозированиясвойств органических соединений.8.2. Программный комплекс «NASAWIN»Отсутствие удобного для химика-органика инструмента, позволяющегополучать, анализировать и использовать для прогноза нейросетевые модели зависимостей структура-свойство, побудило нас к разработке компьютерной программы, базирующейся на методологии искусственных нейронных сетей и ориентированной на работу с химической информацией.Программный комплекс «NASAWIN» позволяет:1) загружать и просматривать базы данных, содержащие структуры химических соединений и их свойства;2) вычислять наборы дескрипторов, описывающих химические структуры, иотбирать наиболее значимые;3) выявлять и интерпретировать количественные зависимости между значениями дескрипторов и свойств химических соединений при помощи многослойной нейронной сети прямого распространения;4) статистически оценивать полученные модели;5) использовать полученные нейросетевые модели для прогнозированиясвойств произвольных химических соединений.Программные коды написаны на языке С++ с использованием компилятора MVC++ 6.0.

Программа содержит около 80000 строк. Наряду с общепринятыми алгоритмами работы с нейронными сетями, «NASAWIN» обладаетмножеством характерных черт, которые делают этот комплекс уникальным инструментом для исследования зависимости «структура-свойство» в химии.

Рассмотримосновныевозможности,которыепредоставляетпрограмма«NASAWIN» для получения нейросетевых моделей структура-свойство.2978.2.1. Представление химической информацииNASAWIN может работать с химическими базами данных, записаннымикак в стандартном SDF-формате, поддерживаемом основными существующимикоммерческими программами, так и в SET-STR-формате, который поддерживается рядом программ и программных комплексов, разработанных на химическом факультете МГУ (в частности молекулярный редактор «MOLED», программный комплекс «EMMA», генератор химических структур «GOLD», многочисленные дескрипторные блоки и т.д.).

При необходимости комплекс«NASAWIN» без явного вмешательства пользователей сам производит конвертацию между необходимыми форматами, благодаря чему обеспечивается егоинтегрированная работа с многочисленным ориентированным на химию программным обеспечением. Кроме того, «NASAWIN» содержит и самостоятельные средства просмотра используемых баз данных.Также важно отметить, что «NASAWIN» позволяет работать и с «разреженными» базами данных. Такие базы очень часто встречаются в химии, т.к.часто не для всех соединений, представленных в базе данных, измерены всезначения свойств или получены все значения дескрипторов.8.2.2. Интеграция с программными компонентами, осуществляющими расчетдескрипторов химических структурУправляющая программа «NASAWIN» обеспечивает согласованную работу с гибким набором многочисленных автономных программных компонент,проводящих расчет разнообразных дескрипторов химических структур: подструктурных, топологических, позиционных, физико-химических и квантовохимических.

Кроме того, «NASAWIN» предоставляет встроенную библиотеку,облегчающую разработку новых дескрипторных блоков.2988.2.3. Химически-ориентированная визуализацияПри обработке химических баз данных очень важно знать, какая химическая структура скрывается за каждой записью в базе данных и за каждой точкойна графиках зависимостей, из-за чего использование для этой цели статистических либо нейросетевых пакетов общего назначения часто оказывается крайненеудобным и неэффективным.

«NASAWIN» позволяет абсолютно на всех этапах взаимодействия пользователя с программой видеть структурные формулыхимических соединений прямо в диалоговых окнах или в окнах визуализациихода и результатов обучения, что резко повышает удобство и эффективностьработы с программой.8.2.4. Модификация дескрипторов и свойствВ настоящее время «NASAWIN» поддерживает 8 типов модификаций дескрипторов.

Кроме общеупотребительных типов модификаций дескрипторов(взятие квадрата, квадратного корня, логарифма, обратного числа и пороговогоиндикатора) предусмотрены и специфические для химии типы, вычисляемые сучетом количества неводородных атомов в молекуле («деление на число атомов», «умножение на число атомов» и «обратная величина, умноженная начисло атомов»).Также возможны следующие 3 вида модификаций для исследуемыхсвойств: взятие обратного числа, взятие логарифма, а также использование специфического типа модификации «логарифм от обратной величины», что частобывает необходимо при обработке данных по биологической активности химических соединений.8.2.5.

Предварительный отбор дескрипторовПри использовании подструктурных дескрипторов при поиске соотношений «структура-свойство» практически всегда оказывается, что их значения линейно взаимосвязаны. Для этого случая в «NASAWIN» специально предусмот299рена возможность формирования такого поднабора дескрипторов, внутри которого отсутствует линейная попарная зависимость между ними, что часто позволяет резко сократить число используемых дескрипторов. Кроме того, во многихзадачах прогнозирования физико-химических свойств химических соединенийстепень нелинейности их зависимости от значений дескрипторов оказываетсяне очень высокой, хотя и существенной для максимально точного прогнозирования, что дает возможность использовать быстрые линейно-регрессионныеметоды отбора дескрипторов.

Хотя в общем случае сформированный таким образом набор отобранных дескрипторов может оказаться неоптимальным, в реальных задачах по изучению зависимости «структура-свойство» (когда числоподструктурных дескрипторов может составить тысячи и даже десятки тысяч,что делает проблематичным использование чистых нейросетевых методов отбора дескрипторов) такой подход часто оказывается единственно возможным.Для обеспечения этого в «NASAWIN» предусмотрена специальная интерактивная процедура пошаговой линейной регрессии (БПМЛР, см. подраздел 4.1.5),которая позволяет пользователю быстро сформировать небольшой набор ценных дескрипторов, который в дальнейшем может быть использован для обучения нейронной сети.8.2.6.

Построение классификационных моделей структура-активностьОчень часто, особенно при работе с биологическими данными, значениясвойств представлены на качественном уровне (1 - есть активность, 0 - нет активности). Программа «NASAWIN» способна самостоятельно различать типыпредставления исходных данных и в зависимости от этого строить классификационные либо регрессионные. Кроме того, предусмотрена возможность ручного разбиения массива исследуемых соединений по каждому конкретному свойству на активные и неактивные, с последующим построением классификационных моделей.

Пользователь может изменять пороговую величину для такогоразбиения. Подчеркнем, что в данную диссертационную работу включено использование только регрессионных методов.3008.2.7. Нейросетевые парадигмыПрограммный комплекс «NASAWIN» основан главным образом на использовании нейросетей обратного распространения (см. подраздел 1.2.4). Основные алгоритмы обучения, реализованные в NASAWIN, это «обобщенноедельта-правило» (см.

пункт 1.2.4.4) и метод эластичного распространения (см.пункт 1.2.4.5). Поскольку последний метод обучения проявил себя при эксплуатации программы значительно лучше первого, то именно он и используется поумолчанию. Для уменьшения «переучивания» при обучении может быть включен один из четырех типов регуляризаторов. Кроме того, в «NASAWIN» реализованы также самоорганизующиеся карты Кохонена (см.

пункт 1.2.5.1), которые могут быть использованы кластеризации базы данных, а также специальнаядинамически наращиваемая сеть для решения классификационных задач распознавания образов. Использование последних двух нейросетевых парадигм выходит за рамки данной диссертационной работы.8.2.8. Интерпретация нейросетевых моделейВ ходе построения нейросетевых моделей рассчитываются все описанныевыше статистические параметры (см. раздел 4.2), предназначенные для анализавкладов входных параметров нейросети в получаемые модели. Эти данныепредставляются в числовом виде в диалоговых окнах, а также графически: накаждой итерации обучения нейросеть перерисовывается в соответствии с данными о значимости дескрипторов и величинах весовых коэффициентов связей.8.2.9.

Отбор дескрипторов в ходе обучения нейросетиРассчитанные характеристики значимости дескрипторов могут использоваться для отбора наиболее важных дескрипторов в ходе обучения нейросети.Для более четкого выявления значимых дескрипторов предусмотрена дополнительная возможность отсева малозначимых весовых коэффициентов.

Для того,301чтобы выявить малозначимые весовые коэффициенты, используется процедура«забывания», т.е. на каждой итерации каждый весовой коэффициент уменьшается на некую величину, пропорциональную его значению. Для вычисленияэтой пропорциональной величины в программе «NASAWIN» используются линейные, квадратичные и логарифмические функции, а также функция Гаусса.Таким образом, несущественные весовые коэффициенты сводятся к нулю, чтопозволяет сократить размерность нейросети путем удаления нейронов с нулевыми синапсами.8.2.10.

Определение момента начала «переучивания» нейросетиС целью определения момента перехода обучения нейросети из «обобщающей» в «запоминающую» фазу, то есть того момента, когда среднеквадратичная ошибка для контрольных соединений начинает возрастать и обучениенейросети должно быть прервано, в программе «NASAWIN» предусмотренаследующая процедура. Вся выборка соединений разбивается автоматически иливручную на 3 подвыборки – обучающую, контрольную и выборку прогноза. Насоединениях из обучающей выборки строится нейросетевая модель. Точка перехода обучения нейросети из одной фазы в другую определяется автоматически и соответствует моменту начала увеличения среднеквадратичной ошибкидля соединений из контрольной выборки.

Характеристики

Тип файла

PDF-файл

Размер

2,76 Mb

Материал

Тип материала

Докторская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

modelirovanie-svojstv-himicheskih-soedinenij-s-ispolzovaniem-iskusstvennyh-nejronnyh-setej-i-fragmentnyh-deskriptorov.rar

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.