Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 22
Текст из файла (страница 22)
одноуровневого комбинаторного подхода),так и более поздней разработки – процедуры двойного скользящего контроля,примененной в целом ряде разделов данной диссертационной работы.4.1.4. Процедура двойного скользящего контроляДля построения и объективной оценки прогнозирующей способностилинейно-регрессионных и нейросетевых моделей нами была предложенапроцедура Nx(N-1) - кратного двойного скользящего контроля [343]. В этомподходе исходная база данных систематически разбивается на 3 части:обучающую, внутреннюю контрольную и внешнюю контрольную выборки всоотношении (N-2):1:1.
Информация из внутренней контрольной выборкииспользуется для отбора моделей с наилучшей прогнозирующей способностью.Информация извнешней контрольной выборки никаким образом неиспользуется при построении и отборе моделей, и поэтому ошибкапрогнозирования на ней (как среднеквадратичная, так и средняя абсолютная)может быть использована для оценки реальной прогнозирующей способностимоделей. При таких разбиениях каждое соединение из исходной базы данныхпопадает в обучающую выборку N2-3N+2 раза, во внутреннюю контрольнуювыборку - N-1 раз и во внешнюю контрольную выборку - также N-1 раз.116Предсказанное значение свойства для каждого соединения вычисляется каксреднее из предсказанных значений при всех N-1 разбиениях, при которых онопопадаетвовнешнююконтрольнуювыборку,тогдакакдисперсияпредсказанных значений может быть использована для оценки точностипрогноза для данного соединения.
На Рис. 26 представлена диаграммаразбиения исследуемых баз данных для N = 5.- обучающая выборка- внутренняя контрольная выборка- внешняя контрольная выборкаРис. 26. Схема 5х4-кратного двойного скользящего контроляВ результате на основе усреднения Nx(N-1) частных моделей, выводимыхпри разных разбиениях исходной базы данных, получаются соответствующиекомбинированные модели. Вычисляемые статистические характеристикивключают: (1) Q2DCV - параметр Q2 (Q2=(SS-PSS)/SS, где PSS сумма квадратовошибок прогноза свойства, SS - сумма квадратов отклонения свойства отсреднего значения) для усредненных спрогнозированных значений, (2)RMSEDCV - среднеквадратичная ошибка прогнозирования, (3) MAEDCV - средняяабсолютная ошибка прогнозирования.Метод двойного скользящего контроля обеспечивает объективнуюоценку реальной прогнозирующей способности моделей, процедура отборакоторых предполагает использование контрольной выборки либо процедурыскользящего контроля.
Он не только позволяет эффективно предотвращать«переучивание» нейросетей (благодаря трехвыборочному подходу), но иобращает стохастические свойства нейросетевых моделей из кажущегосянедостатка в преимущество, поскольку благодаря этому позволяет оценивать117ожидаемую ошибку прогноза.Из описанных в математической литературе метод двойного скользящегоконтроля больше всего похож на процедуру вложенного скользящего контроля(nested cross-validation), однако между ними имеются принципиальные отличияв критериях отбора моделей, не позволяющие использовать последнюю дляаналогичной работы с нейросетями.
Подчеркнем также, что то, что иногда влитературе называется «процедурой двойного скользящего контроля» (doublecross-validation),наделеявляетсяобычнойпроцедуройдвукратногоскользящего контроля.4.1.5. Быстрая пошаговая множественная линейная регрессияТрехвыборочный подход применен нами также и в рамках метода быстрой пошаговой множественной линейной регрессии (БПМЛР) – специальноголинейно-регрессионного метода, разработанного нами для предварительногоотбора дескрипторов для нейросетей. В данном случае внутренняя контрольнаявыборка используется для определения оптимального числа включаемых в модель дескрипторов. В рамках метода БПМЛР текущий вектор ошибок (невязок)инициализируется экспериментальными значениями свойств соединений изобучающей выборки. На каждой итерации дескриптор, наилучшим образомкоррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчетатекущего вектора ошибок, который уже используется на следующей итерациидля отбора следующего дескриптора и т.д.
Интересной и нетривиальной особенностью этого приема является то, что каждый дескриптор может бытьвключен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной (т.е. включающей множество дескрипторов) модели.
Что касается регрессионного коэффициента при самом деск118рипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторови построения результирующей модели останавливается по достижению наименьшей ошибки прогнозирования на внутренней контрольной выборке, тогдакак ошибка прогнозирования на внешней контрольной выборке, информация изкоторой никаким образом не используется в проводимом статистическом анализе, используется для оценки прогнозирующей способности результирующеймногомерной линейной регрессионной модели.Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однакоза время эксплуатации он успел себя зарекомендовать как самостоятельныймощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективнообрабатывать выборки огромного размера как по числу дескрипторов (миллионы) так и соединений.
Последнее свойство очень важно при работе с фрагментными дескрипторами ввиду их очень большого числа. Из существующих методов регрессионного анализа самый близкий к БПМЛР подход – это аддитивнаярегрессия, однако между ними есть существенные различия.4.2. Подход к интерпретации нейросетевых моделейОдной из основных проблем, возникающих при применении нейросетейдля выявления количественных соотношений «структура-свойство» и «структура-активность», обычно считалась неинтерпретируемость нейросетевых моделей.
Нейросеть обычно рассматривалась как «черный ящик», способныйосуществлять прогноз, но не предоставляющий никакой возможности понять,как он это делает (см., например, [344]). Именно это и считалось основным недостатком применения нейросетевой методологии в химических исследованиях, поскольку для обоснованного использования построенных моделей часто119требуется понимание лежащих в их основе физико-химических и биологических явлений.Действительно, наборы весовых коэффициентов нейросетей не могутбыть непосредственно использованы для интерпретации нейросетевых моделей, поскольку их числовые значения, как правило, меняются при перестроениипоследних и сильно зависят от особенностей архитектуры нейросетей, например, от числа скрытых нейронов. Все это препятствует их непосредственномуиспользованию для описания моделей «структура-свойство» и «структураактивность» на содержательном уровне.Следует отметить, что задача интерпретации нейросетевых моделей осознана специалистами в области искусственного интеллекта и частично решенадля случая бинарных нейросетей (в которых сигналы на входах и выходах принимают только бинарные значения 0 и 1), для которых разработаны специальные методики извлечения явных правил (типа если..., то...) из нейросетевых моделей [16, 345-348], а также технология «вербализации», позволяющая в автоматическом режиме давать словесное описание таким моделям [349].
Тем неменее, проблема все еще оставалась неразрешенной для нейросетей с непрерывными выходами, а именно такие нейросети используются для построенияколичественных моделей «структура-свойство» и «структура-активность».Единственным из применимых для этого случая подходов является т.н. анализ«чувствительности» (sensitivity analysis), позволяющий определять относительную важность входов нейросетей путем сравнения ошибок прогнозированияисходной нейросети с ошибками прогнозирования обученных на этих же данных других нейросетей, получаемых из исходной путем удаления по одномукаждого из входных нейронов [350].
В этом случае величина возрастанияошибки при удалении входного нейрона определяет его важность (следовательно, и важность соответствующего дескриптора при построении нейросетевых моделей «структура-свойство» и «структура-активность»). Хотя такая характеристика действительно очень важна, однако ее информативность явно уступает тому, что дают методы статистического анализа (например, множественная линейная регрессия, метод частичных наименьших квадратов и др.).120Для решения этой проблемы мы предложили использовать специальныйнабор описывающих нейросетевые модели статистических характеристик, значения которых, в отличие от значений весовых коэффициентов нейросетей,почти не меняются при перестроении моделей, слабо зависят от числа скрытыхнейронов и вполне могут быть использованы для интерпретации нейросетевыхмоделей.
Более того, с их помощью можно анализировать даже такие характеристики соотношений «структура-свойство» и «структура-активность», которые обычно невозможно извлечь при помощи стандартных статистическихподходов и которые, как будет показано ниже, могут быть важны для понимания соответствующих физико-химических и биологических процессов. Но сначала, для лучшего понимания сущности предлагаемого подхода, рассмотрим,как может быть интерпретируемо уравнение множественной линейной регрессии.Пусть функция f линейна по переменным x и y:(74)f ( x, y ) = a ⋅ x + b ⋅ y + cЗначения коэффициентов a, b и c такой функции могут быть найдены по методумножественной линейной регрессии исходя из известных значений x, y и f длянабора описываемых ими объектов (точек).