Главная » Просмотр файлов » Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов

Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 16

Файл №1097754 Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов) 16 страницаМоделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754) страница 162019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

для случая простых графов [258]. Этот результат был далее распространен на молекулярные графы И.И. Баскиным, М.И.Скворцовой с соавт. [259, 260] (см. раздел 3.2). Из этих работ, однако, следует,что полный набор базисных инвариантов графов строится на всех возможныхподграфах, и поэтому невозможно ограничиться каким-либо небольшим их81подмножеством для получения дескрипторов, способных аппроксимировать всевозможные свойства с любой точностью. Тем не менее, для многих задач напрактике использование базисных подграфов (и соответствующих фрагментных дескрипторов) может оказаться очень полезным.М.И. Скворцова, К.С. Федяев, И.И.

Баскин и др. расширили набор базисных подграфов Рандича за счет включения как циклических фрагментов, так исоставных фрагментов, состоящих из вершины, присоединенной к циклическому фрагменту [261] (этот материал не включен в данную диссертационную работу). Предложенный набор фрагментов обладает хорошей уникальностью (т.е.разные вектора дескрипторов кодируют разные структуры) и полнотой кодирования (т.е. они могут аппроксимировать большое число зависимостей структура-свойство). Базисные фрагментные дескрипторы этого типа были использованы при построении ряда QSPR-моделей [262] (см. Рис. 15).k=2k=4k=3k=5Рис. 15. Базисные подграфы Скворцовой для максимального числа вершин 5Другим источником базисных подграфов являются результаты разложения инвариантов молекулярных графов по числам встречаемости базисныхподграфов.

Возможность подобного разложения следует из нескольких теоретико-графовых теорем [258, 259]. Эстрада (Estrada) развил эту методологию дляспектральных моментов реберной матрицы смежности молекулярных графов,которые определяются как следы разных степеней такой матрицы [263-265]:μ k = tr ( E k )(61)где: μk - это k-ый спектральный момент реберной матрицы смежности E (которая представляет собой квадратную и симметричную матрицу, элемент eij кото82рой равен 1 только в том случае, если ребра i и j являются смежными); tr – следматрицы, т.е. сумма ее диагональных элементов. Оказывается, спектральныемоменты могут быть представлены как линейные комбинации чисел встречаемости определенных связных структурных фрагментов в молекулярных графах(вышеупомянутые теоремы не гарантируют связность подграфов и простотуразложения для произвольных инвариантов молекулярных графов, и в этом, повидимому, и заключается преимущество использования спектральных моментов в качестве таких инвариантов).

Подобные линейные комбинации для простых молекулярных графов, не содержащих гетероатомов, табулированы дляациклических [263] и циклических [265] химических структур.Для иллюстрации этого подхода рассмотрим приведенную в статье [263]корреляцию между температурой кипения алканов и спектральными моментами:bp(oC) = -76.719 + 23.992μ0 + 2.506μ2 – 2.967μ3 + 0.149μ5(62)R = 0.9949, s = 4.21, F = 1650Первые шесть спектральных моментов реберной матрицы смежности Eследующим образом выражаются в виде линейных комбинаций чисел встречаемости фрагментов, приведенных на Рис. 16:μ 0 = F1(63)μ 2 = 2 × F2(64)μ 3 = 6 × F3(65)μ 4 = 2 × F2 + 12 × F3 + 24 × F4 + 4 × F5(66)μ 5 = 30 × F3 + 120 × F4 + 10 × F6(67)μ 6 = 2 × F2 + 60 × F3 + 480 × F4 + 12 × F5 + 24 × F6 + 6 × F7 + 36 × F8 + 24 × F9(68)где |Fi| обозначает число встречаемости подграфа Fi в молекулярном графе.83F3F2F1F5F8F4F7F6F9F10Рис.

16. Первые 10 структурных фрагментов, содержащихся в молекулярныхграфах алкановПодставляя в уравнение QSPR (2.4) разложения спектральных моментовиз уравнений (63)-(68), можно получить следующее уравнение QSPR, построенное на фрагментных дескрипторах:bp(oC) = -76.719 + 23.992|F1| + 5.01|F2| - 13.332|F3|+17.880|F4| + 1.492|F6|(69)В дальнейшем этот подход был распространен на молекулярные графы,содержащие гетероатомы, за счет введения весов на диагональных элементахреберной матрицы смежности [264].

В этом случае оказывается возможнымоценить вклад любого фрагмента в спектральные моменты и, следовательно, взначения свойств/активности химических соединений. Эта методология легла воснову подхода TOSS-MODE (TOpological SubStructural MOlecular DEsign, который в дальнейшем был переименован как TOPS-MODE (TOPological Substructural MOlecular DEsign), т.е.

топологический подструктурный молекулярныйдизайн [266]. Этот подход был успешно применен для предсказания физикохимических свойств органических соединений (индексов удерживания в хроматографии [267], диамагнитных и магнитооптических свойств [268], дипольногомомента [269], коэффициента проницаемости сквозь полиэтилен низкой плотности [270] и др.), пространственных характеристик структур [271], а также84множества различных типов биологической активности (седативной / гипнотической активности [266], противораковой активности [272], анти-ВИЧ активности [273], сенсибилизации кожи [274], гербицидной активности [275], сродствак A1-аденозиновому рецептору [276], ингибирования циклооксигеназы [277],антибактериальной активности [278], токсичности по отношению к Tetrahymena pyriformis [279], мутагенности [280-282] и др.).

Во всех случаях окончательные модели были проанализированы с учетом вкладов, вносимых различными структурными фрагментами в значения свойств/активностей органических соединений.2.2.1.9. Фрагменты на основе «добытых» (mined) подграфовПонятие «добытых» подграфов (mined subgraphs) тесно связано graphmining (либо subgraph mining) – направлением в data mining (однозначного перевода «data mining» на русский язык не существует, наиболее удачный вариант– интеллектуальный анализ данных), направленным на нахождение таких графов (подграфов), которые были бы наиболее полезны для решения прикладныхзадач, в частности, в исследованиях SAR/QSAR/QSPR [283-288]. Преимуществоэтого подхода заключается в том, что в его рамках оказывается возможнымосуществлять направленную генерацию только «полезных» графов (подграфов)без необходимости просмотра практически бесконечного числа всех возможных графов (подграфов).

Эта методология [289, 290] обычно основывается наиспользовании эффективных алгоритмов генерации фрагментов, наиболее часто встречающихся в наборе графов (frequent fragments). В числе подобных алгоритмов упомянем: AGM (Apriori-based Graph Mining), разработанный Инокучи (Inokuchi) с соавт. [291]; FSG (Frequent Sub-Graphs), предложенный Курамочи (Kuramochi) и Кариписом (Karypis) [292]; «алгоритм нахождения химических подструктур» (chemical sub-structure discovery algorithm), созданных Боргельтом (Borgelt) и Бертольдом (Berthold) [293]; gSpan (graph-based Substructurepattern mining), предложенный Яном (Yan) и Ханом (Han) [287]; TreeMiner,разработанный Заки (Zaki) [294]; HybridTreeMiner, предложенный Чи (Chi), Ян85гом (Yang) и Мунтцем (Muntz) [295]; CMTreeMiner этих же авторов [296].

Первоначально этот подход использовался для классификации химических структур в рамках исследований SAR [297, 298]. Специальная модификация этогоподхода с применением методики «добычи взвешенных подструктур» (weightedsubstructure mining) в сочетании со статистической процедурой linear programming boosting [299] позволяет строить количественные QSAR/QSPR регрессионные модели с использованием «добытых» фрагментных дескрипторов [288].2.2.1.10. Фрагменты на основе случайных подграфовУспех применения различных схем фрагментации в значительной степени зависит от начального выбора нужных типов фрагментов. Поскольку практически невозможно рассмотреть все возможные фрагменты из-за их гигантского числа, всегда приходится ограничиваться их небольшим подмножеством.К сожалению, любая попытка ограничиться каким-либо их фиксированным типом, например, только цепочками с заранее заданной максимальной длиной,чревата риском упустить из рассмотрения очень важные для решения даннойзадачи фрагменты.

Одно из возможных решений этой проблемы состоит в использовании рассмотренных выше «добытых» (см. пункт 2.2.1.9) либо, для чисто классификационных задач, МОП-фрагментов (см. пункт 2.2.1.5). Альтернативой этому является использование стохастических процедур генерации подструктурных фрагментов.Интересная работа в этом направлении была опубликована Грахамом(Graham) с соавт., которые получили «записи на ленту» (“tape recordings”) химических структур при помощи фрагментов атом-связь-атом, извлекаемых измолекулярных графов при помощи процедуры случайных блужданий (randomwalks) [300]. Для оценки структурного подобия химических соединений Батиста (Batista), Годден (Godden) и Байорат (Bajorath) разработали метод MolBlaster, основанный на генерации популяций фрагментов путем случайного удаления ребер в молекулярных графах [301].

Этот метод с успехов был использован86при проведении виртуального скрининга, основанного на поиске по подобию[302].2.2.1.11. Библиотечные фрагментыВо многих работах применяются фиксированные наборы фрагментов,взятых из библиотеки. Подобные библиотеки обычно содержат фрагменты, которые уже показали пользу своего использования при прогнозировании сходных свойств. Большинство аддитивных схем и методов группового вклада былиразработаны на основе фиксированных наборов фрагментов. В некоторых исследованиях SAR/QSAR/QSPR также рассматриваются фиксированные наборыбиблиотечных фрагментов.

В подобных случаях структуры фрагментов обычнозадаются при помощи специального языка либо линейной нотации, специальносозданных для описания списков фрагментов. В качестве характерных примеров можно привести: (а) экспертную систему DEREK, предназначенную дляпредсказания токсичности органических соединений, в которой используетсядля описания фрагментов специальный язык PATRAN [303]; (б) систему прогнозирования коэффициента распределения в системе октанол-вода Log P, в которой для кодирования фрагментов использован язык программирования Prolog[304]; (в) метод ALogP [180] для прогнозирования этого же свойства, основанный на использовании линейной нотации SMARTS line notation (реализованнойв программном комплексе MOE (Molecular Operating Environment) [248]) дляспецификации фрагментов.2.2.2.

Классификация по типам молекулярных структурМолекулярные графы могут быть использованы для описания не толькообычных молекулярных структур, но и супрамолекулярных комплексов, химических реакций, полимеров с периодической структурой и других видов химических объектов. Во всех этих случаях фрагментные дескрипторы могут бытьприменены для представления их структур.87Образование супрамолекулярных комплексов обычно характеризуетсябольшим разнообразием разных типов взаимодействия между их компонентами, в частности: σ-донорно-акцепторные и π-дативные взаимодействия междуметаллами и лигандами, образование водородных связей, электростатическиевзаимодействия, образование солевых мостиков, π-π-стэкинг и π-катионныевзаимодействий, ван-дер-Ваальсовы и гидрофобные взаимодействия и т.д.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее