Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 21

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 21 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 212019-03-132019-03-13СтудИзба

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 21)

в статье [339]). Суть эффекта «переучивания» заключается в следующем: процесс обучения нейросети может быть условно разделен на две последовательные фазы – «обобщения» (generalization) и «запоминания» (memorization). Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования их свойств постоянно уменьшается111по ходу обучения в обеих фазах.

В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается по ходу обучения в фазе «обобщения», но потом начинаетрасти в последующей фазе «запоминания». В результате этого «переобученная»нейросеть хорошо воспроизводит свойства соединений из обучающей выборки,но плохо прогнозирует свойства любых других соединений, например, содержащихся в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 25.Рис.

25. Эффект "переучивания" нейросети. Нижняя кривая показывает ходизменения (при обучении нейросети) ошибки прогнозирования для соединений,входящих в обучающую выборку, а верхняя – в контрольную выборку.Восклицательным знаком отмечена точка перехода из фазы «обобщения» вфазу «запоминания».Природу эффекта «переучивания» обычно связывают с постепенным увеличением эффективного числа дескрипторов (а вместе с этим и сложности модели) по мере обучения нейросети (см.

[18, 338]). Настраиваемые параметрынейросети, каковыми являются значения всех синаптических весов и пороговактивации, перед началом обучения инициализируются обычно случайнымичислами, близкими к нулю. В этом случае во всех нейронах функция активациисрабатывает при значениях аргумента, близких к нулю. Поскольку в окрестностях нуля любая нелинейная непрерывная функция приближается к линейной,то и нейросеть в самом начале обучения формирует на выходе сигналы, связанные со входными сигналами зависимостями, близкими к линейным. Таким образом, на начальном этапе обучения выходные сигналы представляют собой112линейные комбинации входных.

В этом случае эффективное число дескрипторов равно числу линейно независимых дескрипторов в базе, и это число не может превышать числа входных нейронов. По мере обучения нейросети значениянастраиваемых параметров растут по абсолютной величине, и в разложении вряд Тейлора-Маклорена функции активации все большую роль начинают играть члены со второй, третьей и более высокими степенями. В результате этогонейросеть постепенно переходит к моделированию квадратичных, кубическихи более сложных зависимостей, которые описываются все более возрастающимчислом параметров. Таким образом, по ходу обучения нейросети эффективноечисло параметров постоянно возрастает, пока не достигает определенного максимального числа, которое равно числу настраиваемых параметров нейросети(т.е.

суммарного числа синаптических весов и порогов активации), деленномуна порядок группы автоморфизмов помеченного графа, соответствующего нейросети. Параллельно с эффективным числом дескрипторов при обучении нейросети растет и емкость класса моделируемых функций, которая в теории статистического обучения выражается размерностью Вапника-Червоненкиса.

Упрощенно можно сказать, что в тот момент времени, когда емкость этого классаначнет превышать объем используемых для обучения данных, и наступает «переучивание».4.1.2. Методы предотвращения «переучивания» нейросетейВ литературе описано несколько методов предотвращения «переучивания» [338]. Наиболее простым из них является уменьшение общего числа настраиваемых параметров нейросети за счет уменьшения числа входных и скрытых нейронов.

В исследованиях, проведенных в рамках настоящей диссертационной работы, уменьшение числа входных нейронов осуществлялось за счетпредварительного отбора дескрипторов при помощи линейно-регрессионногометода БПМЛР (см. подраздел 4.1.5), а числа скрытых нейронов – за счет варьирования их числа и определения из них оптимального. Тем не менее, этот метод предотвращения «переучивания» не является панацеей – его недостатком113являются слишком упрощенные модели, получаемые на небольших выборках(т.н. «недоподгонка данных», т.е. underfitting).Второй способ предотвращения «переучивания», в соответствии с общими положениями теории статистического обучения и основанного на ней принципа минимизации структурного риска, состоит во введении регуляризационного члена в минимизируемую в процессе обучения нейросети функцию риска.Частным случаем такого введения регуляризаторов в нейросеть является обучение «с забыванием», имеющее очевидные нейрофизиологические аналогии.

Врамках нейросетевого программного комплекса NASAWIN нами был реализован и этот метод предотвращения переучивания за счет введения четырех разных регуляризаторов. Тем не менее, этот способ обладает существенным недостатком – для нахождения оптимального значения относительного веса регуляризатора в функции риска требуется многократно проводить полное обучение нейросети для разных его значений, что делает метод малопривлекательным с вычислительной точки зрения.Наконец, самым эффективным методом предотвращения «переучивания»является остановка обучения при достижении наименьшей среднеквадратичнойошибки прогнозирования на контрольной выборке.

Показано, что подобная остановка обучения является одной из форм регуляризации [340]. Получаемыепри этом модели сравнимы по прогнозирующей способности с моделями, припостроении которых явным образом используются регуляризаторы, но при этомтратится вычислительных ресурсов значительно меньше, так как для построения модели требуется всего лишь однократное (и к тому же неполное) обучениенейросети. Именно эта схема предотвращения «переучивания» и является основной в программном комплексе NASAWIN, разработанном в рамках даннойдиссертационной работы.Тем не менее, в ходе практического применения вышеупомянутого метода остановки обучения обнаружилась проблема, суть которой состоит в том,что поскольку контрольная выборка используется для остановки обучения, т.е.для отбора модели, содержащаяся в ней информация в неявном виде частичнопопадает в отобранную модель, и поэтому такая выборка уже не может счи114таться внешней по отношению к этой модели, а ошибка прогнозирования наней – для объективной оценки прогнозирующей способности этой модели.Иными словами, если критерий минимума средней ошибки на контрольной выборке используется для выбора статистической модели, то само это значениеявляется искаженным в оптимистическую сторону оценкой прогнозирующейспособности отобранной модели.

Ниже изложено предложенное нами в 1995 г.эффективное решение этой проблемы [341].4.1.3. Трехвыборочный подходДля решения вышеизложенной проблемы, связанной с некорректностьюиспользования одной и той же контрольной выборки для отбора модели иоценки ее прогнозирующей способности, предлагается использовать трехвыборочный подход, согласно которому производится деление всего набора данныхна 3 выборки: обучающую (training set), внутреннюю контрольную (validationset) и внешнюю контрольную (prediction set).

По обучающей выборке производится построение последовательности моделей с возрастающей сложностью(емкостью класса моделей). В случае линейно-регрессионных моделей, формируемых путем наращивания числа отбираемых дескрипторов, в качестве такогокритерия сложности может выступать число отобранных дескрипторов, а приобучении нейросети – номер шага (эпохи) обучения. Для определения оптимальной сложности модели (и тем самым отбора модели с оптимальной сложностью) используется критерий минимума среднеквадратичной ошибки прогнозирования, вычисляемой для внутренней контрольной выборки.

Посколькуинформация из внешней контрольной выборки никаким образом не участвуетни в построении, ни в отборе моделей, то среднеквадратичная ошибка прогнозирования на ней может быть использована для оценки прогнозирующей способности отобранной модели. Разбивку набора данных на три выборки можноосуществлять либо случайным образом, либо систематично в рамках процедуры скользящего контроля.115Трехвыборочный метод был нами впервые представлен в 1995 г. в рамкахприглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г.

Оберн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области нейросетей.Почти одновременно с нами и независимо от нас сходные идеи были такжеопубликованы И.Тетко с соавт. [339] и впоследствии легли в основу разработанного им позже метода ассоциативных нейронных сетей [342]. С тех портрехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области.Трехвыборочный метод, в сочетании с идеями ансамблевого подхода кпостроению QSAR/QSPR-моделей, лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н.

Характеристики

Тип файла

PDF-файл

Размер

2,76 Mb

Материал

Тип материала

Докторская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

modelirovanie-svojstv-himicheskih-soedinenij-s-ispolzovaniem-iskusstvennyh-nejronnyh-setej-i-fragmentnyh-deskriptorov.rar

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.