Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 25
Текст из файла (страница 25)
Докажем это математически. Произвольная линейнаяфункцияотдвухаргументовxи133yможетбытьвыраженакакf ( x, y ) = a ⋅ x + b ⋅ y + c , где a, b и c – произвольные коэффициенты. Очевидно, чтов этом случае f ( x, y ) ≡ f ( y, x) тогда и только тогда, когда a = b . Следовательно,для общего случаяa ≠ b симметрическая функция f не может быть линейной.Аналогичным образом можно доказать, что общий вид симметрической функции от трех аргументов не может быть ни линейным ни квадратичным. Это означает, что такие традиционные статистические подходы, как линейный иквадратичный регрессионный анализ, метод частичных наименьших квадратов(PLS) и др., не могут быть применены для нахождения произвольной симметрической функциональной зависимости в наборе экспериментальных данных.Следовательно, только методы (например, искусственные нейронные сети),способные аппроксимировать нелинейные функции произвольного вида, могутбыть использованы для этой цели.Решение проблемы.
Для решения этой проблемы мы предлагаем: (а) расширить обучающую выборку соединений в N раз (где N – порядок группы подстановок, действующей на множестве позиций присоединения заместителей кобщей подструктуре и индуцированной действующей на ней группой автоморфизмов, см. Рис. 29) путем добавления копий соединений с той же активностью, но различающихся перестановкой топологически эквивалентных позицийприсоединения заместителей (см.
Рис. 30), и (б) использовать искусственныенейронные сети для выявления количественной зависимости «структураактивность».134R3R2R5R6Общая формула соединений выборки328145679101211Общая подструктура для выборки⎛ 1 1 1 1⎞⎛⎜⎜⎟⎜ 2 6 2 6⎟⎜2⎜ 3 5 3 5⎟⎜3⎜⎜⎟⎜ 4 4 4 4⎟⎜⎜ 5 3 5 3⎟⎜5⎜⎜⎟⎜ 6 2 6 2⎟⎜6A=⎜=> B = ⎜⎟7 7 7 7⎜⎜⎟⎜ 8 8 12 12⎟⎜⎜⎜⎟⎜ 9 9 11 11⎟⎜⎜ 10 10 10 10⎟⎜⎜⎜⎟⎜ 11 11 9 9 ⎟⎜⎜⎜⎟⎝ 12 12 8 8 ⎠⎝⎞⎟6⎟5⎟⎟⎟3⎟⎟2⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠Рис. 29.
Группа автоморфизмов A общей подструктуры (подграфа) для наборасоединений индуцирует группу B, действующую на множестве четырех положений замещения 2, 3, 5, 6. Группа B определяет каким образом исходная выборка должна быть расширена за счет добавления копий соединений с переставленными заместителями.135ClNNBrClBrNBrClBrNClNClNBrBrClClBrBrClClClClNBrBrNClРис. 30. Структуры из левой колонки таблицы должны быть дополнены структурами из правой колонки для того, чтобы нейронная сеть могла обучиться необходимым свойствам симметрии.
В некоторых случаях, когда общая подструктура замещена симметрично (как в четвертой строке), это означает, чтоподобные структуры должны быть дублированы (либо им приписан весовойфактор 2).В этом случае нейронные сети обучаются строить нелинейные зависимости «структура-активность» с необходимыми свойствами симметрии. В началеобучения нейронные сети дают разные предсказания активности для соединений с перестановкой заместителей в эквивалентных положениях (например, для2- и 6-хлорпиридинов, которые, очевидно, эквивалентны), поскольку подгоночные параметры нейросети инициализируются случайными числами, однако впроцессе обучения эта разность становится незначительной.
Следует отметить,что при построении реальных количественных зависимостей «структураактивность» на выборках небольшого размера эта разность исчезает не полностью, поскольку максимально приемлемое число скрытых нейронов, не приводящее к сильному «переучиванию», обычно меньше минимального числа скрытых нейронов, необходимого для полного ее исчезновения. На практике, одна136ко, эта разница всегда оказывается значительно меньшей, чем погрешностьнейросетевой модели. Следовательно, при осуществлении прогноза по такойнейросетевой модели для нового соединения необходимо сделать прогнозы длявсех копий соединения и результирующие значения усреднить.Пример 1. Блокаторы кальциевых каналов L-типа. В этом примерерассматривается применение концепции обучаемой симметрии к изучению количественных соотношений «структура-активность» для принадлежащих к 1,4дигидропиридиновому ряду блокаторов кальциевых каналов L-типа (II).R4R5R3R6R2H3COOCH3CCOOCH3NHCH3IIДанные по биологической активности были взяты со статьи [353].
Ранееэти данные уже были обработаны с использованием констант заместителей вкачестве дескрипторов и линейного регрессионного анализа для получения статистической модели [354], однако оценки прогнозирующей способности построенной модели в этой работе сделано не было. В работе [353] в дополнениек константам заместителей в качестве дескрипторов были использованы еще итопологические индексы, а для построения количественной модели «структураактивность» была применена искусственная нейронная сеть в комбинации сфакторным анализом для предобработки дескрипторов. Прогнозирующая способность полученной нейросетевой модели оказалась в этой работе не оченьвысокой (хотя и значительно лучшей по сравнению с линейно-регрессионноймоделью, построенной на том же наборе дескрипторов): наилучшее значениекоэффициента корреляции 0.733, а наименьшая среднеквадратичная ошибкапрогноза 1.019 логарифмических единиц.В нашем исследовании исходная выборка, состоящая из 46 соединений,была расширена в 2 раза за счет добавления копий соединений с переставлен137ными позициями присоединения заместителей, а полученная выборка из 92 соединений была случайным образом разбита на обучающую выборку из 84 соединений и контрольную выборку из 8 соединений.
Было использовано 5 дескрипторов, описывающих заместители: π-константы для пара- (R4) и двух метаположений (R3 и R5) и Es-константы двух орто-положений (R2 и R6). Эффективная концентрация, вызывающая 50% блокирование кальциевых каналов(log(1/EC50)), была взята в качестве биологической активности, которая быланами скоррелирована со значениями этих пяти дескрипторов при помощи многослойной нейросети с обратным распространением ошибок, включающей дваскрытых нейрона (при большем числе скрытых нейронов наблюдалась худшаяпредсказательная способность нейросетевых моделей).
Нейросеть была обученапо стандартному алгоритму «обобщенного дельта-правила». В процессе обучения не было «переучивания» (среднеквадратичная ошибка на контрольной выборке все время уменьшалась), и оно было остановлено после 200.000 итераций, когда изменение среднеквадратичной ошибки на обучающей выборке на100 последовательных итерациях стало меньше 0.001 логарифмических единиц.В результате обучения нейросети среднеквадратичная ошибка на обучающейвыборке составила 0.79 логарифмических единиц (коэффициент корреляции0.832), а на контрольной выборке – 0.71 логарифмическая единица.Для сравнения мы провели аналогичное исследование с тем же самым набором дескрипторов при той же самой разбивке базы на обучающую и контрольную выборки, но без дублирования соединений.
В этом случае среднеквадратичная ошибка на обучающей выборке оказалась 0.70 логарифмическихединиц (коэффициент корреляции 0.87), а на контрольной выборке – 1.59 логарифмических единиц. Таким образом, расширение базы за счет добавления копий соединений с переставленными эквивалентными позициями присоединения заместителей обеспечило значительное повышение прогнозирующей способности нейросетевой модели (среднеквадратичная ошибка на контрольнойвыборке упала с 1.59 до 0.71 логарифмической единицы). Далее, мы применилипостроенную на исходной (нерасширенной) выборке нейросетевую модель дляпрогнозирования активности всех клонов (т.е.
тех же самых соединений, но с138переставленными эквивалентными позициями присоединения заместителей).Среднеквадратичная ошибка прогноза в этом случае оказалась 1.57 логарифмических единиц. Поскольку клоны являются теми же самыми соединениями стой же самой биологической активностью, то можно сделать вывод, что нейросеть, обученная на исходном нерасширенном наборе данных, неспособна корректно воспроизвести свойства симметрии в количественных зависимостях«структура-активность».Таким образом, можно сделать вывод, что нейросеть, обученная на расширенном наборе данных делает более корректные предсказания по сравнениюс нейросетью, обученной на исходном наборе данных.
Эти эксперименты былиповторены нами для различных разбивок набора соединений на обучающую иконтрольную выборки, и во всех случаях общая картина оставалась неизменной.Пример 2. Галлюциногенная активность фенилалкиламинов. Цельюданного исследования явилось изучение применимости концепции обучаемойсимметрии на примере галлюциногенной активностей фенилалкиламинов (III).R2NH2R1IIIДанные по галлюциногенной активности этой группы соединений взятыиз работы [355]. Поскольку в исходном наборе химических структур имелосьнесколько двухпозиционных «мостиковых» заместителей для R1, для которыхне определены константы заместителей, мы их преобразовали путем «разрезания» в однопозиционные (например, «мостиковые» заместители 4,5-(OCH2O) и4,5-(OCH2CH2O) были преобразованы в однопозиционные заместители 4-OCH3и 5-OCH3).
Для поиска количественных зависимостей «структура-активность»мы использовали набор из 7 дескрипторов: σ-константы для двух ортоположений и π-константы для двух мета- и одного пара-положения в R1, атакже индикаторную переменную, указывающую на присутствие алкильного139заместителя в R2. Исходная выборка, включающая 35 соединений, была, как и впредыдущем примере, удвоена, и получившиеся 70 соединений были случайным образом разбиты на обучающую и контрольную выборки в соотношении10:1.