Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 19
Текст из файла (страница 19)
Отсюда возникает следующий парадокс, который,очевидно, противоречит всей практике применения фрагментных дескрипторов: нельзя надежно прогнозировать свойства органических соединений, отсутствующих в обучающей выборке.Одно из возможных практических рекомендаций, вытекающих из анализапроблемы «отсутствующих фрагментов», заключается в необходимости введения ограничений на классы фрагментов, вводимых в статистических анализ, врезультате чего становится возможным определить область применимости моделей QSAR/QSAR/QSPR как множество молекулярных графов, не содержащих«проблематичных» (т.е. отсутствующих, редких либо принимающих постоян101ное значение на обучающей выборке) фрагментных дескрипторов. На решениеэтой проблемы были отчасти также направлены разработанные в рамках данной диссертационной работы псевдофрагментный подход (см.
раздел 5.4) и невекторный QSAR/QSPR-анализ (см. раздел 4.5).Альтернативным подходом к решению проблемы «отсутствующих»фрагментов является оценка “ab initio” значений регрессионных коэффициентов при отсутствующих фрагментных дескрипторов, что и было реализовано врамках программы CLOGP для прогнозирования липофильности органическихсоединений [323]. В процитированной статье утверждается, что подобная операция позволяет прогнозировать липофильность органических соединений сотсутствующими фрагментами с ошибкой меньше 0.5 log единиц, но это утверждение было подвергнуто критике в статье [322].Вторая из проблем, связанных с использованием фрагментных дескрипторов, связана с необходимостью учета стереохимической информации, без чего модели QSAR/QSPR должны давать идентичный прогноз для всех диастереомеров и цис-транс-изомеров. К сожалению, полностью корректное решениеэтой проблемы невозможно осуществить в рамках представления структур органических молекул в виде графов: оно требует явное рассмотрение гиперграфов.
Тем не менее, в большинстве практически важных случаев достаточновводить специальные метки, специфицирующие стереохимическую конфигурацию хиральных центров либо конфигурацию при двойных связей, и их использовать при спецификации фрагментов, как это было, например, сделано для голографических фрагментных дескрипторов [324], а также специфицировано вспециализированном языке описания фрагментов PARTAN [325].Что же касается третьей проблемы, т.е.
невозможности предоставить физическую интерпретацию построенным с участием фрагментных дескрипторовмоделям, то многими исследователями это не считается недостатком фрагментных дескрипторов, поскольку интерпретация с точки зрения физики не являетсяприоритетной задачей в области хемоинформатики. С этой целью можно обратиться к другим областям вычислительной химии, в частности к квантовой химии и молекулярному моделированию.102ГЛАВА 3. МАТЕМАТИЧЕСКОЕ ОБОСНОВАНИЕ ВЫБРАННОГОПОДХОДА3.1.
Химическая значимость поиска базиса инвариантов помеченных графовПоиск соотношений «структура-свойство» является важнейшей проблемой современной химии, и методы описания молекул играют существеннуюроль в таких исследованиях. Один из наиболее популярных подходов к решению этой проблемы основан на представлении молекулярной структуры в видевзвешенного (помеченного) молекулярного графа и использовании инвариантов графов (т.е. числовых характеристик, не зависящих от нумерации вершинграфа) для его описания. Такими инвариантами графов являются как молекулярные дескрипторы (см. [105]), описывающие химические структуры (но неотдельные их конформации!), так и любые функции, аппроксимирующие свойства соответствующих химических соединений.
Заметим, что ряд топологических (т.е. вычисляемых без учета явного пространственного строения молекул)молекулярных дескрипторов, вычисляемых в результате формальных математических операций на графах, называют по историческим причинам топологическими индексами [326-331]. Фрагментные дескрипторы также являются топологическими молекулярными дескрипторами, но их не принято называть топологическими индексами.Возникает вопрос: существует ли конечный набор базисных инвариантовграфов, такой чтобы любой инвариант графа мог бы быть однозначно представлен в виде линейной комбинации базисных инвариантов? Если подобныйнабор существует, то его элементы образуют конечный базис алгебры инвариантов графов (множество инвариантов графов в совокупности с операциямисложения, умножения и умножения на действительное число образуют алгебруинвариантов графов).
В этом случае можно было бы выбирать молекулярныедескрипторы из этого базисного набора и рассматривать только линейные зависимости в поиске количественных соотношений «структура-свойство».Проблема нахождения базисных подграфов была рассмотрена Рандичем в1992 г. [257]. В случае ее решения стало бы возможно с их помощью однознач103но представлять химические структуры. Рандичем было предложено использовать в качестве базисных подграфов графы-пути, а в качестве значений базисных инвариантов – числа вложений базисных подграфов в молекулярный граф.Тем не менее, на нескольких примерах было показано, что разные химическиеструктуры могут содержать одинаковые наборы подграфов-путей, и поэтомупредложенные «базисные» подграфы таковыми, строго говоря, не являются.Тем не менее, анализируя математическую литературу, мы обнаружили,что строгое решение вышеупомянутой проблемы было найдено еще в 1983 г.для случая простых графов [332], однако, будучи опубликовано на русскомязыке в малодоступном для зарубежных специалистов издании, оно оставалосьпрактически неизвестным.
Суть предложенного решения заключается в следующем. Пусть Г(n) обозначает множество всех простых (т.е. с невзвешеннымивершинами и ребрами), как связных так и несвязных графов. Показано методами коммутативной алгебры [332], что любой инвариант f(G) графа G ∈ Γ (n ) может быть однозначно представлен в виде:f (G ) = ∑ c j g j (G )(70)jгде cj обозначает некоторые константы, независимые от G, gj(G) – число вложений графа G j ∈ Γ (n ) в G (т.е. количество различных подграфов G, изоморфныхGj), а суммирование идет по всем графам G j ∈ Γ (n ) . Это означает, что множество{gj} образует базис алгебры инвариантов графов из Г(n).
Кроме того, любой инвариант графа G ∈ Γ (n ) задается числом его подграфов, получаемых удалениемиз G ребер всеми возможными неэквивалентными способами.Между тем, для решения большинства задач в области химии представляют наибольший интерес не простые графы, а те, которые несут веса на своихвершинах и ребрах. Эти веса определяются типами соответствующих атомов исвязей. Вследствие этого взвешенный граф значительно точнее описывают молекулярную структуру химического соединения, чем простой граф.Кроме взвешенных графов, в математике также рассматриваются помеченные графы, которые получаются при отнесении вершин и ребер к определенным классам путем приписывания им соответствующих меток.
Если же в104качестве меток использовать действительные числа, то от помеченных графовможно перейти ко взвешенным. Таким образом, взвешенные графы в определенной мере можно рассматривать частным случаем помеченных графов. Следовательно, решение задачи нахождения базиса алгебры помеченных графовпозволило бы распространить рассмотренные выше математические результатына предсказания свойств реальных химических соединений.3.2. Две основные теоремы о базисе инвариантов графовПостроим множество помеченных графов. Рассмотрим сначала множество простых графов Г(n) и два конечных множества произвольных меток (символов), V = {v1 ,K, v p } , E = {e1 ,Ke p } , vi ≠ v j , ei ≠ e j , i ≠ j .
Поместим метки на вершины12(из V) и ребра (из E) графов из Г(n) всеми неэквивалентными способами. Обозначим через H V( n,E) множество построенных таким образом помеченных по вершинам и ребрам графов, а через N – число элементов в множестве H V( n,E) .
Возможно также, что в графах из Г(n) метятся только вершины ( E = ∅ – пустоемножество) или только ребра ( V = ∅ – пустое множество). Обозначим получаемые таким образом множества графов соответственно через H V( n ) и H E(n ) .Рассмотрим метки как переменные, принимающие вещественные числовые значения. Тогда любой граф H ∈ H V( n,E) может быть представлен как симметричная матрица A = aij , в которой диагональный элемент aii соответствует метке вершины i, а недиагональный элемент aij ( i ≠ j ) соответствует метке ребра,соединяющего вершины i и j, тогда как для несмежных вершин i и j он равеннулю.Определение.