Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 47
Текст из файла (страница 47)
В всех случаях для оценки прогнозирующей способности моделей была применена процедура двойного 5x4-кратного скользящего контроля [482]. Построение QSPRмоделей осуществляли с помощью программного комплекса NASAWIN [194].Значения параметра Q2DCV и среднеквадратичной ошибки прогноза RMSEDCVдля моделей, полученных с использованием одноуровневого и многоуровневого подходов для расчета логарифма коэффициента сорбции органических соединений в почве и логарифма растворимости фуллерена С60, приведены вТабл.
31 на стр. 270. Как видно из представленного материала, прогнозирующаяспособность QSPR моделей, полученных в рамках многоуровневого подхода,значительно превышает прогнозирующую способность одноуровневых моде268лей, хотя все модели построены на основе одинаковых наборов фрагментныхдескрипторов при помощи одного и того же метода машинного обучения. Диаграммы экспериментальных и рассчитанных значений log Koc и log S, полученных на основе нейросетевых моделей, построенных с использованием многоуровневого подхода, представлены на Рис.
60 на стр. 270.Табл. 30. Статистические характеристики моделей “структура/свойство’ первого уровня для расчета липофильности и констант Абрахама для органическихсоединений, соответственно включенных в выборки 3 и 4СвойствоЧисло соеди- Коэффициент RMSE на обу- RMSE на коннений в выкорреляциичающей вы- трольной выборкеборкеборке (1/10выборки)Log P78050.9800.3450.395Абрахам A4570.9830.0510.058Абрахам B4570.9710.0660.081Абрахам E4570.9970.0400.074Абрахам S4570.9870.0720.137Преимущество использования многоуровневого подхода продемонстрировано нами также на примере прогнозирования констант устойчивости комплексов циклодекстрина с органическими молекулами [400].
Таким образом,объединение в сеть всего лишь нескольких моделей может привести к заметному улучшению прогнозирующей способности моделей более высокого уровняза счет использования информации, содержащейся в дополнительных базахданных, использованных при построении моделей более низкого уровня. Естьоснования считать, что многоуровневый подход может дать значительный эффект не только при прогнозировании физико-химических свойств, как было показано на двух примерах в рамках данного подраздела, но и биологической активности.2697362Эксперимент, log SЭксперимент, log KocТабл.
31. Сравнительные статистические характеристики моделей “структурасвойство’, для расчета логарифма коэффициент сорбции органических соединений в почве (выборка 1) и растворимости фуллеренов С60 в органических соединениях (выборка 2), полученных в рамках одноуровневого и многоуровнегоподходов QSPR/QSARОдноуровневый подходМногоуровневый подходСвойство2Q2DCVQ DCVRMSEDCVRMSEDCVЛогарифм коэффициента сорб0.5980.7590.8000.534ции в почвеЛогарифм рас0.4480.9120.6370.739творимостифуллерена C605432110-3-2-1-10123-2-300123456-47Прогноз, log SПрогноз, log Kocб)а)Рис. 60.
Диаграммы разброса экспериментальных и рассчитанных значений: (а)логарифма коэффициента сорбции в почве (log Koc) и (б) логарифма растворимости фуллерена С60 (log S), полученных на основе нейросетевых QSPR моделей, построенных с использованием многоуровневого подхода для выборок 1 и2, включающих, соответственно, 568 и 113 органических соединений.7.3.2. Параллельный принцип построения моделей «структура-свойство». Многозадачное обучение.Многозадачным называется такой вид обучения, когда проводится одновременное построение моделей, связь между которыми осуществляется за счетиспользования общих промежуточных данных. Многозадачное обучение можетбыть, например, осуществлено при помощи нейросети обратного распространения (см.
подраздел 1.2.4), имеющей несколько выходных нейронов по числу270одновременно решаемых задач, связь между которыми осуществляется за счетсовместного использования промежуточных данных, формируемых на общемдля этих задач скрытом слое нейронов (см. Рис. 61). Это резко отличается оттрадиционного однозадачного обучения, когда задачи по построению моделейрешаются полностью независимо друг от друга (см. Рис. 58 на стр. 266).Рис. 61. Многозадачное обучение, при котором проводится одновременное построение взаимосвязанных моделей. Обмен информацией между моделямипроисходит за счет формирования единого внутреннего представления данныхв общем слое скрытых нейроновВпервые термин «многозадачное обучение» был введен в математическую литературу Р. Каруаной (R.
Caruana), который в середине 90-ых годовпровел первые систематические исследования в этом направлении [485]. В частности, им было показано, что использование многозадачного обучения приводит к улучшению прогнозирующей способности статистических моделей втом случае, если они являются взаимосвязанными [485]. Следует, однако, подчеркнуть, что само понятие взаимосвязанности моделей в данном случае неимеет ничего общего с фактом наличия корреляции между выходными свойствами: условием взаимосвязанности моделей является хотя бы частичное наличие общих или скоррелированных промежуточных данных, тогда как корреляция между выходными значениями может отсутствовать.
В частности, линейно271регрессионные модели, построенные с использованием одних и тех же входныхданных для разных выходов, не считаются взаимосвязанными даже при наличии сильной корреляции между выходными данными, поскольку при их построении не формируется общее для них представление данных. Вследствиеэтого для множественной линейной регрессии многозадачное обучение эквивалентно однозадачному. В то же время, нейросети обратного распространения,благодаря наличию промежуточного слоя скрытых нейронов, оказываются способными реализовывать многозадачное обучение, осуществляя тем самым более глубокую обработку и интеграцию данных.Впервые принципиальная возможность построения взаимосвязанных моделей «структура-свойство» была, однако, продемонстрировано нами еще в1993 г.
на примере искусственной нейронной сети с семью выходами, котораяспособна была одновременно предсказывать семь физических свойств алканов(см. раздел 6.1). Поскольку наше исследование было проведено еще до появления вышеупомянутых первых математических работ по многозадачному обучению, тогда нами не было предпринято систематическое изучение того, какойэффект дает одновременное прогнозирования нескольких свойств нейросетью снесколькими выходами по сравнению с их прогнозированием изолированныминейросетями с одним выходом.
Подобное систематическое изучение было, однако, предпринято в нашей недавней работе по прогнозированию 11 константраспределения «ткань-воздух» [477], которая была осуществлена совместно сА.Варнеком, С.Годеном и Ж.Марку из лаборатории хемоинформатики Университета им. Л.Пастера (г. Страсбург, Франция) и И.Тетко и Анил Кумар ПандеемЦентра им. Гельгольца (Мюнхен, Германия). В этом исследовании для построения моделей был использован ансамбль нейросетей обратного распространения, реализованный в рамках программы ASNN [342] (а также методPLS) и фрагментные дескрипторы. В Табл.
32 на стр. 273 для каждого сочетания типа ткани и организма приведен размер выборки, а также значения Q2 иMAE (средняя абсолютная ошибка), полученные в результате однозадачного(11 нейросетей с одним выходом) и многозадачного (одна нейросеть с 11 выходами) обучения.272Как видно приведенных в таблице данных, во всех случаях, когда имеетсялишь небольшой объем экспериментальных данных, применение многозадачного обучения приводит с существенному улучшению прогнозирующей способности при недостатке экспериментальных данных.
Эта тенденция особеннохорошо видна на Рис. 62, на котором показан тренд зависимости увеличенияпоказателя Q2 при переходе к многозадачному обучению от размера выборки.На приведенной диаграмме четко видно, что при размере выборки меньше 90соединений применение многозадачного обучения приводит к заметному роступрогнозирующей способности, которое происходит за счет неявного переносаинформации, использованной для построения моделей для связанных с нимисвойств, для которых выборки содержат почти 100 и больше соединений. Дляэтих же последних свойств применение многозадачного обучения не приводитни к какому статистически значимому эффекту.Табл.
32. Статистические характеристики нейросетевых моделей, полученныхпри однозадачном и многозадачном многозадачном обучении для константраспределения «ткань-воздух»Многозадачное обучеТкань / организм Число со- Однозадачное обучениениеединений22QQMAEMAEЖир человека420.200.460.570.32Мозг человека350.480.480.590.35Печень человека300.200.380.550.27Почки человека340.230.600.550.35Мышцы челове380.370.550.510.43каКровь человека1380.660.480.680.42Жир крысы990.700.730.730.70Мозг крысы590.250.250.430.43Печень крысы1000.720.720.670.67Почки крысы270.120.120.270.27Мышцы крысы970.720.720.670.672730.40.350.3Повышение Q20.250.20.150.10.050-0.05050100150-0.1Размер выборкиРис.