Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 3
Текст из файла (страница 3)
Первые две главы, составляющие обзор литературы, посвящены математическому аппарату искусственных нейронных сетей и фрагментным дескрипторам. В третьей главе, составляющей начало обсуждения результатов, приводится математическое обоснование выбранного подхода, основанного на сочетании многослойных нейронных сетей и фрагментных дескрипторов. Следующие две главы посвящены, соответственно, разработкам нейросетевых и фрагментных подходов. Шестаяглава посвящена сочетанию нейросетей с фрагментными дескрипторами, седьмая – вышеупомянутым интегрированным подходом.
В последней восьмой главе диссертационной работы рассматриваются разработанные программныесредства.12ГЛАВА 1. ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ1.1. ВведениеПервые исследования, посвященные применению нейронных сетей (илиперсептронов) для решения химических задач, были осуществлены еще в начале 70-х годов в СССР [1, 2], но эти пионерные работы не были должным образом оценены и оказались практически забытыми. Лишь в конце 80-х годов возродился интерес химиков к подобному подходу, и он начал стремительно расти[3].Нейронные сети (часто называемые искусственными нейронными сетями,вычислительными нейронными сетями или просто нейросетями) представляютсобой упрощенную математическую модель обработки информации головныммозгом человека [4-9].
Однако большинство современных архитектур нейронных сетей не воспроизводят в точности биологическую модель мозга, скорее,они могут рассматриваться в рамках класса алгоритмов статистического анализа данных [10-24], объединенных под общим названием нейроинформатики.Кроме того, нейронные сети часто рассматривают как высоко-паралелльныеметоды решения задач вычислительной математики в «нейросетевом базисе»(что составляет предмет особой области вычислительной математики – нейроматематики [25]), на базе которых работают основанные на пороговой логикевысокопроизводительные высоко-параллельные вычислительные устройства –нейрокомпьютеры [26-29].Благодаря своей способности обучаться и обобщать данные, нейросетиначали успешно применяться в химии, особенно в тех случаях, когда неизвестен аналитический вид зависимости между структурой и свойствами соединений [30-40].131.2.
Основные принципы нейросетевого моделирования1.2.1. Общая терминологияВсе нейросетевые методы имеют в своей основе определенные идеи, отражающие те или иные аспекты обработки информации в человеческом мозгу.Искусственные нейронные сети (или просто нейросети) состоят из определенного количества «искусственных нейронов», являющихся упрощенной математической моделью биологических нейронов, и связей между ними, соответствующих контактам через синапсы между аксонами и дендритами биологических нейронов (см. Рис. 1). В процессе работы нейросети осуществляется преобразование сигналов (кодирующих обрабатываемые данные) внутри нейронови их передача между соседними нейронами.Рис. 1.
Биологические нейроныАрхитектура нейронной сети определяется топологией соединений нейронов между собой. Нейроны внутри сети, как правило, организованы в группы, называемые слоями. Для всех нейронов, принадлежащих одному слою, характерно одинаковое число входных связей, соединяющих нейрон с предыдущим слоем или с внешними устройствами ввода и вывода данных. Нейроны,принимающие внешние данные для последующей обработки, называются14входными; нейроны, выводящие уже обработанные данные, называются выходными. Остальные же нейроны, участвующие в промежуточной обработкеданных, называются скрытыми. В соответствии с типом нейронов, их слои также называются входными, выходными либо скрытыми.1.2.2.
Нейрон МакКаллока-ПиттсаВпервые математическая модель искусственного нейрона была предложена в 1943 г. У.С.Мак-Каллоком и В.Питтсом [4]. Подобно тому, как биологические нейроны, вследствие наступающей под действием нейромедиаторов деполяризации мембраны, способны возбуждаться и проявлять спайковую активность, так и их искусственные аналоги (т.н. нейроны Мак-Каллока-Питса) характеризуются определенным уровнем активности (обычно в интервале от 0,соответствующего нейрону в состоянии покоя, до 1, что соответствует возбужденному нейрону). Этот уровень активности передается в виде сигнала на соседние искусственные нейроны, что имитирует биологический процесс распространения деполяризации мембраны по аксону, выделения молекул нейромедиатора, их диффузии через синаптические щели и воздействия на рецепторы,расположенные на мембранах дендритов соседних нейронов.
Весь этот сложный процесс передачи сигнала от одного нейрона к другому описывается в методологии искусственных нейронных сетей одним числом, называемым «весомсвязи», которое является аналогом понятия синаптической проводимости биологических нейронов. Обычно считается, что степень воздействия искусственного нейрона j на другой нейрон i равна произведению уровня активности первого нейрона oj на вес связи (синаптическую проводимость) ωji между ними.Положительное значение синаптической проводимости соответствует прохождению через синаптические контакты возбуждающих нейромедиаторов, например, глутамата или ацетилхолина, а отрицательное – тормозящих, например,гамма-аминомасляной кислоты.
В то же время абсолютная величина этого числа отражает легкость передачи сигнала, что в случае биологических нейроновопределяется количеством и разветвленностью синаптических контактов, уровнем экспрессии и активности постсинаптических рецепторов, легкостью выде15ления нейромедиаторов и многими другими факторами, управляемыми как генетически, так и при помощи разнообразных сигнальных систем.В рамках методологии искусственных нейронных сетей функционирование отдельного нейрона обычно описывается уравнением (см.
Рис. 2):oi = f (ai ), ai = ∑ o j w ji − t i(1)jгде: ai – общий сетевой вход нейрона i; oj – выходной сигнал нейрона j; wji –вес связи (синаптическая проводимость) между нейронами j и i; ti – порог активации нейрона i (превышение этого порога суммой воздействий со сторонысоседних нейронов приводит его в возбужденное состояние); oi – результирующий выходной сигнал, равный уровню активности данного нейрона i; f(x)– т.н. функция активации нейрона (или передаточная функция), которая в простейшем случае, к примеру, может быть определена как пороговая:⎧1, x ≥ 0f ( x) = ⎨⎩0, x < 0(2)wai = Σwjioj-tioi = f(ai)Рис. 2.
Нейрон МакКаллока-Питтса16wТаким образом, уравнение (1) в сочетании с определением функции (2)упрощенно описывает функционирование биологического нейрона, находящегося, в частности, в коре головного мозга человека.Подобно своему биологическому прототипу, нейроны МакКаллокаПиттса способны обучаться путем настройки параметров w, описывающих синаптическую проводимость.Как правило, вместо использования пороговых величин ti в нейросеть добавляют так называемые «псевдонейроны смещения» (bias pseudoneurons) с постоянным выходным сигналом, равным 1.1.2.3.
Персептрон РозенблаттаНа приведенном выше описании искусственного нейрона были основаныразработанные более 40 лет назад первые типы искусственных нейронных сетей, получивших название «персептроны» [5-7] (в русскоязычной литературепишутся иногда как «перцептроны»), а вместе с ними и первые попытки создать искусственный интеллект путем имитации работы головного мозга человека на клеточном уровне. Название «персептрон» происходит от английскогослова perception – восприятие. Оно было предложено в 1958 г. Фрэнком Розенблаттом в попытках имитировать с помощью нейронов МакКаллока-Питтсачеловеческое восприятие (прежде всего зрение) и распознавание с его помощьюобъектов внешнего мира. Персептрон Розенблатта имел многослойную архитектуру (см.
Рис. 3), причем только последний (выходной) содержал нейроны снастраиваемыми весами, а формируемые ими выходные сигналы свидетельствовали о принадлежности анализируемого объекта к определенному классу.Само описание объекта в персептронах Розенблатта формировалось на входномслое нейронов, названном рецепторным полем по аналогии с биологическимпрототипом. Сигналы с рецепторного поля поступали на необязательный скрытый слой нейронов по связям, веса которых инициировались случайными числами и в процессе обучения не менялись, а сформированные на нейронах скры-17того слоя сигналы уже, в свою очередь, поступали на выходной слой нейроновдля дальнейшей обработки (см.
Рис. 3).Эти попытки имитации человеческого восприятия на нейронах МакКаллока-Питтса, однако, оказались не совсем удачными, поскольку они не оправдали всех возлагавшихся на них надежд [7]. Поскольку в то время был известенспособ настройки весов связей, идущих лишь к нейронам одного (выходного)слоя, то на практике персептроны Розенблатта оказались неспособными обучаться распознаванию сложных образов, и их реальная распознающая способность оказалась не выше, чем у более простых и понятных стандартных методов дискриминатного анализа. Все это привело к разочарованию и, как следствие, прекращению практически всех проводившихся работ в области искусственных нейронных сетей.входной слойскрытый слойвыходной слойРис.
3. Многослойный персептрон Розенблатта. Преобразования сигналовпроизводится по формулам (1) и (2) на скрытых и выходных нейронах,изображенных кружками, тогда как изображенные квадратами входныепсевдонейроны служат исключительно для ввода данных.181.2.4. Нейросети обратного распространения (backpropagation)1.2.4.1.
Общая характеристикаК середине 80-ых годов стало ясно, что одна из причин неудач кроется вконкретном виде пороговой функции активации (2). Оказалось, что замена пороговойфункции(2)нанепрерывную,ограниченнуюимонотонно-возрастающую, например, сигмоидную функцию (3), способна привести к построению многослойных персептронов, все веса связей которых способны эффективно обучаться при помощи алгоритма обратного распространения ошибок(error backpropagation) [41, 42].
Именно благодаря открытию (точнее, переоткрытию) этого алгоритма, с конца 80-ых годов начался этап активного развитияи использования аппарата искусственных нейронных сетей в разных областяхнауки и техники (см. книги и учебные пособия [10-24]), а с начала 90-ых – вразличных областях химии (см. [30-34]) и, в частности, в области исследованиязависимости структура-свойство для органических соединений [35-39].f ( x) =11 + e−x(3)Кроме чисто математических причин, переход к подобным непрерывнымдифференцируемым функциям имеет и определенное нейрофизиологическоеобоснование.