Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 22

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 22 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 222019-03-132019-03-13СтудИзба

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 22)

одноуровневого комбинаторного подхода),так и более поздней разработки – процедуры двойного скользящего контроля,примененной в целом ряде разделов данной диссертационной работы.4.1.4. Процедура двойного скользящего контроляДля построения и объективной оценки прогнозирующей способностилинейно-регрессионных и нейросетевых моделей нами была предложенапроцедура Nx(N-1) - кратного двойного скользящего контроля [343]. В этомподходе исходная база данных систематически разбивается на 3 части:обучающую, внутреннюю контрольную и внешнюю контрольную выборки всоотношении (N-2):1:1.

Информация из внутренней контрольной выборкииспользуется для отбора моделей с наилучшей прогнозирующей способностью.Информация извнешней контрольной выборки никаким образом неиспользуется при построении и отборе моделей, и поэтому ошибкапрогнозирования на ней (как среднеквадратичная, так и средняя абсолютная)может быть использована для оценки реальной прогнозирующей способностимоделей. При таких разбиениях каждое соединение из исходной базы данныхпопадает в обучающую выборку N2-3N+2 раза, во внутреннюю контрольнуювыборку - N-1 раз и во внешнюю контрольную выборку - также N-1 раз.116Предсказанное значение свойства для каждого соединения вычисляется каксреднее из предсказанных значений при всех N-1 разбиениях, при которых онопопадаетвовнешнююконтрольнуювыборку,тогдакакдисперсияпредсказанных значений может быть использована для оценки точностипрогноза для данного соединения.

На Рис. 26 представлена диаграммаразбиения исследуемых баз данных для N = 5.- обучающая выборка- внутренняя контрольная выборка- внешняя контрольная выборкаРис. 26. Схема 5х4-кратного двойного скользящего контроляВ результате на основе усреднения Nx(N-1) частных моделей, выводимыхпри разных разбиениях исходной базы данных, получаются соответствующиекомбинированные модели. Вычисляемые статистические характеристикивключают: (1) Q2DCV - параметр Q2 (Q2=(SS-PSS)/SS, где PSS сумма квадратовошибок прогноза свойства, SS - сумма квадратов отклонения свойства отсреднего значения) для усредненных спрогнозированных значений, (2)RMSEDCV - среднеквадратичная ошибка прогнозирования, (3) MAEDCV - средняяабсолютная ошибка прогнозирования.Метод двойного скользящего контроля обеспечивает объективнуюоценку реальной прогнозирующей способности моделей, процедура отборакоторых предполагает использование контрольной выборки либо процедурыскользящего контроля.

Он не только позволяет эффективно предотвращать«переучивание» нейросетей (благодаря трехвыборочному подходу), но иобращает стохастические свойства нейросетевых моделей из кажущегосянедостатка в преимущество, поскольку благодаря этому позволяет оценивать117ожидаемую ошибку прогноза.Из описанных в математической литературе метод двойного скользящегоконтроля больше всего похож на процедуру вложенного скользящего контроля(nested cross-validation), однако между ними имеются принципиальные отличияв критериях отбора моделей, не позволяющие использовать последнюю дляаналогичной работы с нейросетями.

Подчеркнем также, что то, что иногда влитературе называется «процедурой двойного скользящего контроля» (doublecross-validation),наделеявляетсяобычнойпроцедуройдвукратногоскользящего контроля.4.1.5. Быстрая пошаговая множественная линейная регрессияТрехвыборочный подход применен нами также и в рамках метода быстрой пошаговой множественной линейной регрессии (БПМЛР) – специальноголинейно-регрессионного метода, разработанного нами для предварительногоотбора дескрипторов для нейросетей. В данном случае внутренняя контрольнаявыборка используется для определения оптимального числа включаемых в модель дескрипторов. В рамках метода БПМЛР текущий вектор ошибок (невязок)инициализируется экспериментальными значениями свойств соединений изобучающей выборки. На каждой итерации дескриптор, наилучшим образомкоррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчетатекущего вектора ошибок, который уже используется на следующей итерациидля отбора следующего дескриптора и т.д.

Интересной и нетривиальной особенностью этого приема является то, что каждый дескриптор может бытьвключен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной (т.е. включающей множество дескрипторов) модели.

Что касается регрессионного коэффициента при самом деск118рипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторови построения результирующей модели останавливается по достижению наименьшей ошибки прогнозирования на внутренней контрольной выборке, тогдакак ошибка прогнозирования на внешней контрольной выборке, информация изкоторой никаким образом не используется в проводимом статистическом анализе, используется для оценки прогнозирующей способности результирующеймногомерной линейной регрессионной модели.Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однакоза время эксплуатации он успел себя зарекомендовать как самостоятельныймощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективнообрабатывать выборки огромного размера как по числу дескрипторов (миллионы) так и соединений.

Последнее свойство очень важно при работе с фрагментными дескрипторами ввиду их очень большого числа. Из существующих методов регрессионного анализа самый близкий к БПМЛР подход – это аддитивнаярегрессия, однако между ними есть существенные различия.4.2. Подход к интерпретации нейросетевых моделейОдной из основных проблем, возникающих при применении нейросетейдля выявления количественных соотношений «структура-свойство» и «структура-активность», обычно считалась неинтерпретируемость нейросетевых моделей.

Нейросеть обычно рассматривалась как «черный ящик», способныйосуществлять прогноз, но не предоставляющий никакой возможности понять,как он это делает (см., например, [344]). Именно это и считалось основным недостатком применения нейросетевой методологии в химических исследованиях, поскольку для обоснованного использования построенных моделей часто119требуется понимание лежащих в их основе физико-химических и биологических явлений.Действительно, наборы весовых коэффициентов нейросетей не могутбыть непосредственно использованы для интерпретации нейросетевых моделей, поскольку их числовые значения, как правило, меняются при перестроениипоследних и сильно зависят от особенностей архитектуры нейросетей, например, от числа скрытых нейронов. Все это препятствует их непосредственномуиспользованию для описания моделей «структура-свойство» и «структураактивность» на содержательном уровне.Следует отметить, что задача интерпретации нейросетевых моделей осознана специалистами в области искусственного интеллекта и частично решенадля случая бинарных нейросетей (в которых сигналы на входах и выходах принимают только бинарные значения 0 и 1), для которых разработаны специальные методики извлечения явных правил (типа если..., то...) из нейросетевых моделей [16, 345-348], а также технология «вербализации», позволяющая в автоматическом режиме давать словесное описание таким моделям [349].

Тем неменее, проблема все еще оставалась неразрешенной для нейросетей с непрерывными выходами, а именно такие нейросети используются для построенияколичественных моделей «структура-свойство» и «структура-активность».Единственным из применимых для этого случая подходов является т.н. анализ«чувствительности» (sensitivity analysis), позволяющий определять относительную важность входов нейросетей путем сравнения ошибок прогнозированияисходной нейросети с ошибками прогнозирования обученных на этих же данных других нейросетей, получаемых из исходной путем удаления по одномукаждого из входных нейронов [350].

В этом случае величина возрастанияошибки при удалении входного нейрона определяет его важность (следовательно, и важность соответствующего дескриптора при построении нейросетевых моделей «структура-свойство» и «структура-активность»). Хотя такая характеристика действительно очень важна, однако ее информативность явно уступает тому, что дают методы статистического анализа (например, множественная линейная регрессия, метод частичных наименьших квадратов и др.).120Для решения этой проблемы мы предложили использовать специальныйнабор описывающих нейросетевые модели статистических характеристик, значения которых, в отличие от значений весовых коэффициентов нейросетей,почти не меняются при перестроении моделей, слабо зависят от числа скрытыхнейронов и вполне могут быть использованы для интерпретации нейросетевыхмоделей.

Более того, с их помощью можно анализировать даже такие характеристики соотношений «структура-свойство» и «структура-активность», которые обычно невозможно извлечь при помощи стандартных статистическихподходов и которые, как будет показано ниже, могут быть важны для понимания соответствующих физико-химических и биологических процессов. Но сначала, для лучшего понимания сущности предлагаемого подхода, рассмотрим,как может быть интерпретируемо уравнение множественной линейной регрессии.Пусть функция f линейна по переменным x и y:(74)f ( x, y ) = a ⋅ x + b ⋅ y + cЗначения коэффициентов a, b и c такой функции могут быть найдены по методумножественной линейной регрессии исходя из известных значений x, y и f длянабора описываемых ими объектов (точек).

Характеристики

Тип файла

PDF-файл

Размер

2,76 Mb

Материал

Тип материала

Докторская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

modelirovanie-svojstv-himicheskih-soedinenij-s-ispolzovaniem-iskusstvennyh-nejronnyh-setej-i-fragmentnyh-deskriptorov.rar

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.