Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 21
Текст из файла (страница 21)
в статье [339]). Суть эффекта «переучивания» заключается в следующем: процесс обучения нейросети может быть условно разделен на две последовательные фазы – «обобщения» (generalization) и «запоминания» (memorization). Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования их свойств постоянно уменьшается111по ходу обучения в обеих фазах.
В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается по ходу обучения в фазе «обобщения», но потом начинаетрасти в последующей фазе «запоминания». В результате этого «переобученная»нейросеть хорошо воспроизводит свойства соединений из обучающей выборки,но плохо прогнозирует свойства любых других соединений, например, содержащихся в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 25.Рис.
25. Эффект "переучивания" нейросети. Нижняя кривая показывает ходизменения (при обучении нейросети) ошибки прогнозирования для соединений,входящих в обучающую выборку, а верхняя – в контрольную выборку.Восклицательным знаком отмечена точка перехода из фазы «обобщения» вфазу «запоминания».Природу эффекта «переучивания» обычно связывают с постепенным увеличением эффективного числа дескрипторов (а вместе с этим и сложности модели) по мере обучения нейросети (см.
[18, 338]). Настраиваемые параметрынейросети, каковыми являются значения всех синаптических весов и пороговактивации, перед началом обучения инициализируются обычно случайнымичислами, близкими к нулю. В этом случае во всех нейронах функция активациисрабатывает при значениях аргумента, близких к нулю. Поскольку в окрестностях нуля любая нелинейная непрерывная функция приближается к линейной,то и нейросеть в самом начале обучения формирует на выходе сигналы, связанные со входными сигналами зависимостями, близкими к линейным. Таким образом, на начальном этапе обучения выходные сигналы представляют собой112линейные комбинации входных.
В этом случае эффективное число дескрипторов равно числу линейно независимых дескрипторов в базе, и это число не может превышать числа входных нейронов. По мере обучения нейросети значениянастраиваемых параметров растут по абсолютной величине, и в разложении вряд Тейлора-Маклорена функции активации все большую роль начинают играть члены со второй, третьей и более высокими степенями. В результате этогонейросеть постепенно переходит к моделированию квадратичных, кубическихи более сложных зависимостей, которые описываются все более возрастающимчислом параметров. Таким образом, по ходу обучения нейросети эффективноечисло параметров постоянно возрастает, пока не достигает определенного максимального числа, которое равно числу настраиваемых параметров нейросети(т.е.
суммарного числа синаптических весов и порогов активации), деленномуна порядок группы автоморфизмов помеченного графа, соответствующего нейросети. Параллельно с эффективным числом дескрипторов при обучении нейросети растет и емкость класса моделируемых функций, которая в теории статистического обучения выражается размерностью Вапника-Червоненкиса.
Упрощенно можно сказать, что в тот момент времени, когда емкость этого классаначнет превышать объем используемых для обучения данных, и наступает «переучивание».4.1.2. Методы предотвращения «переучивания» нейросетейВ литературе описано несколько методов предотвращения «переучивания» [338]. Наиболее простым из них является уменьшение общего числа настраиваемых параметров нейросети за счет уменьшения числа входных и скрытых нейронов.
В исследованиях, проведенных в рамках настоящей диссертационной работы, уменьшение числа входных нейронов осуществлялось за счетпредварительного отбора дескрипторов при помощи линейно-регрессионногометода БПМЛР (см. подраздел 4.1.5), а числа скрытых нейронов – за счет варьирования их числа и определения из них оптимального. Тем не менее, этот метод предотвращения «переучивания» не является панацеей – его недостатком113являются слишком упрощенные модели, получаемые на небольших выборках(т.н. «недоподгонка данных», т.е. underfitting).Второй способ предотвращения «переучивания», в соответствии с общими положениями теории статистического обучения и основанного на ней принципа минимизации структурного риска, состоит во введении регуляризационного члена в минимизируемую в процессе обучения нейросети функцию риска.Частным случаем такого введения регуляризаторов в нейросеть является обучение «с забыванием», имеющее очевидные нейрофизиологические аналогии.
Врамках нейросетевого программного комплекса NASAWIN нами был реализован и этот метод предотвращения переучивания за счет введения четырех разных регуляризаторов. Тем не менее, этот способ обладает существенным недостатком – для нахождения оптимального значения относительного веса регуляризатора в функции риска требуется многократно проводить полное обучение нейросети для разных его значений, что делает метод малопривлекательным с вычислительной точки зрения.Наконец, самым эффективным методом предотвращения «переучивания»является остановка обучения при достижении наименьшей среднеквадратичнойошибки прогнозирования на контрольной выборке.
Показано, что подобная остановка обучения является одной из форм регуляризации [340]. Получаемыепри этом модели сравнимы по прогнозирующей способности с моделями, припостроении которых явным образом используются регуляризаторы, но при этомтратится вычислительных ресурсов значительно меньше, так как для построения модели требуется всего лишь однократное (и к тому же неполное) обучениенейросети. Именно эта схема предотвращения «переучивания» и является основной в программном комплексе NASAWIN, разработанном в рамках даннойдиссертационной работы.Тем не менее, в ходе практического применения вышеупомянутого метода остановки обучения обнаружилась проблема, суть которой состоит в том,что поскольку контрольная выборка используется для остановки обучения, т.е.для отбора модели, содержащаяся в ней информация в неявном виде частичнопопадает в отобранную модель, и поэтому такая выборка уже не может счи114таться внешней по отношению к этой модели, а ошибка прогнозирования наней – для объективной оценки прогнозирующей способности этой модели.Иными словами, если критерий минимума средней ошибки на контрольной выборке используется для выбора статистической модели, то само это значениеявляется искаженным в оптимистическую сторону оценкой прогнозирующейспособности отобранной модели.
Ниже изложено предложенное нами в 1995 г.эффективное решение этой проблемы [341].4.1.3. Трехвыборочный подходДля решения вышеизложенной проблемы, связанной с некорректностьюиспользования одной и той же контрольной выборки для отбора модели иоценки ее прогнозирующей способности, предлагается использовать трехвыборочный подход, согласно которому производится деление всего набора данныхна 3 выборки: обучающую (training set), внутреннюю контрольную (validationset) и внешнюю контрольную (prediction set).
По обучающей выборке производится построение последовательности моделей с возрастающей сложностью(емкостью класса моделей). В случае линейно-регрессионных моделей, формируемых путем наращивания числа отбираемых дескрипторов, в качестве такогокритерия сложности может выступать число отобранных дескрипторов, а приобучении нейросети – номер шага (эпохи) обучения. Для определения оптимальной сложности модели (и тем самым отбора модели с оптимальной сложностью) используется критерий минимума среднеквадратичной ошибки прогнозирования, вычисляемой для внутренней контрольной выборки.
Посколькуинформация из внешней контрольной выборки никаким образом не участвуетни в построении, ни в отборе моделей, то среднеквадратичная ошибка прогнозирования на ней может быть использована для оценки прогнозирующей способности отобранной модели. Разбивку набора данных на три выборки можноосуществлять либо случайным образом, либо систематично в рамках процедуры скользящего контроля.115Трехвыборочный метод был нами впервые представлен в 1995 г. в рамкахприглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г.
Оберн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области нейросетей.Почти одновременно с нами и независимо от нас сходные идеи были такжеопубликованы И.Тетко с соавт. [339] и впоследствии легли в основу разработанного им позже метода ассоциативных нейронных сетей [342]. С тех портрехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области.Трехвыборочный метод, в сочетании с идеями ансамблевого подхода кпостроению QSAR/QSPR-моделей, лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н.