Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов (1097754), страница 8
Текст из файла (страница 8)
пункт 1.2.5.2). Предложенные рядом авторов в 1989 г. [67],они предназначаются, прежде всего, для решения задач аппроксимации функ41ций и классификации (распознавания образов) [68, 69]. Как и нейросетивстречного распространения, RBF-сети состоят из 3 слоев: входного, скрытого(служащего для кластеризации входных векторов) и выходного для формирования выходных сигналов (см.
Рис. 8).Рис. 8. Нейронная сеть с радиальной базисной функцией (RBF-сеть)Скрытый слой у RBF-сетей состоит из RBF-нейронов, функционированиекаждого из которых можно описать следующей формулой:⎞⎛ M⎜ ∑ ( x j − w ji ) 2 ⎟j =1⎟,yi = exp⎜⎜ −⎟2σ i2⎟⎟⎜⎜⎠⎝(40)где: xj – j-ый компонент вектора входных значений; wji - j-ый компонент вектора весов RBF-нейрона i; σi – дисперсия, характеризующая ширину радиальнобазисной функции для RBF-нейрона i; M – размерность входного вектора. Вектор весов i-ого RBF-нейрона Wi = {w1i , w2i ,K wMi } задает положение центра его радиально-базисной функции.
Выходные нейроны RBF-сети обычно берутся линейными, т.е. обладающими линейной активационной (передаточной) функцией.Обучение RBF-сети проводится в два этапа. На первом, проходящем «безучителя», определяются положения центров радиально-базисных функций для42всех RBF-нейронов, а также их дисперсии. Для этого проводится кластерныйанализ исходных данных либо при помощи нейросети Кохонена, либо, чащевсего, алгоритма k-means [70, 71], после чего центры найденных кластеров используются как центры радиально-базисных функций, ширины которых можно,в частности, определить как средние расстояния между центрами кластеров иего ближайшими соседями.
Второй этап обучения RBF-сетей проводится «сучителем» - либо итерационно, в соответствии с алгоритмом обратного распространения ошибки, либо с использованием одного из алгоритмов построения линейных регрессионных моделей, в частности, при помощи регрессии наглавных компонентах (SVD-регрессии) [72]. Различные варианты RBF-сетейразличаются выбором: а) метода кластеризации (если она вообще проводится);б) способов определения положения центра и ширины радиально-базиснойфункции; в) способов построения линейно-регрессионной модели для обучениявыходных нейронов. Ширина радиально-базисной функции иногда беретсяединой для всех RBF-нейронов, и ее значение, обеспечивающее наибольшуюпрогнозирующую способность нейронной сети, определяется с помощью процедуры скользящего контроля.Важными модификациями RBF-сетей являются вероятностная нейроннаясеть (Probabilistic Neural Network – PNN, P-нейросеть), предложенная Спехтом(Specht) в 1990 г.
[73], и нейронная сеть обобщенной регрессии (Generalized Regression Neural Network – GRNN, GR-нейросеть), введенная этим же авторомгодом позже [74].GR-нейросети. Функционирование GR-нейросетей основано на использовании математического аппарата непараметрической ядерной регрессии Надарая-Ватсона (Nadaraya-Watson) [75, 76], идея которой заключается в оценкефункции плотности вероятности совместного распределения случайной векторной величины x и случайной скалярной величины y по методу Парзена (Parzen) [77]:f ( x, y ) =1N (2π ) ( M +1) / 2 σ ( M +1)⎡ ( x − xi ) T ( x − xi ) ⎤⎡ ( y − yi ) 2 ⎤⋅ ∑ exp ⎢−⎥ ⋅ exp ⎢−⎥,2σ 22σ 2 ⎦i =1⎣⎦⎣N43(41)где: N – количество примеров в обучающей выборке; M – размерность входныхвекторов (т.е.
количество дескрипторов при QSAR/QSPR-анализе); xi – входнойвектор для i-ого примера из обучающей выборки (т.е. вектор дескрипторов дляi-ого соединения); yi – известное значение выходной величины y для i-ого примера (т.е. экспериментальное значение прогнозируемого свойства y для i-огосоединения); σ – единый параметр, соответствующий ширине Гауссовых функций, и называемый в контексте регрессионного анализа параметром сглаживания.При известной функции f(x,y) наиболее вероятное значение (т.е.
математическое ожидание) y для произвольного вектора x может быть найдено поформуле:+∞yˆ ( x) = E ( y | x) =∫ yf ( x, y)dy−∞+∞.(42)∫ f ( x, y)dy−∞Подставляя (41) в (42) после некоторых преобразований можно получитьокончательное выражение оценки y для произвольного x:⎡ ( x − xi ) T ( x − xi ) ⎤yexp∑i⎢−⎥2σ 2i =1⎣⎦.ˆy ( x) =TN⎡ ( x − x i ) ( x − xi ) ⎤exp ⎢−∑⎥2σ 2i =1⎣⎦N(43)Легко заметить, что числители стоящих в экспоненте дробей представляют собой квадраты Эвклидовых расстояний между произвольным вектором x ивектором xi из i-ого примера обучающей выборки:x − xi2≡ ( x − x i ) T ( x − xi ) .(44)Заметим, однако, что при наличии существенных корреляций между компонентами входных векторов x более корректно в статистическом плане (хотя иболее трудоемко в вычислительном плане) использовать в формуле (43) вместоквадратов расстояний Эвклида квадраты расстояний Махаланобиса (x-xi)TΣ-1(xxi), где Σ – матрица ковариации компонентов векторов x.
Таким образом, согласно формуле (43), наиболее вероятное значение y для произвольного вектораx прогнозируется как взвешенная сумма значений yi для всех примеров из обу44чающей выборки, причем каждому примеру придается вес, экспоненциальноубывающий при возрастании квадрата расстояния от него до вектора x, а скорость этого убывания контролируется параметром сглаживания σ.Как архитектура, так и функционирование GR-нейросетей описываетсяформулой (43).
GR-нейросеть состоит из 4 слоев: 1) входного; 2) скрытого; 3)слоя суммирования; 4) выходного слоя (см. Рис. 9). Число нейронов во входномслое равно количеству компонент входного вектора x. Скрытый слой GRнейросети состоит из RBF-нейронов, функционирующих в соответствии с формулой (40). Число нейронов в скрытом слое равно количеству примеров в обучающей выборке, а вес связи wji между входным нейроном j и скрытым нейроном i устанавливается равным значению j-ой компоненты вектора xi (т.е. значению j-ого дескриптора для i-ого соединения из обучающей выборки в случаеQSAR/QSPR-анализа).
Слой суммирования GR-нейросети состоит из двух линейных нейронов, причем первый из них вычисляет значение числителя в формуле (43), а второй – знаменателя. Вес связи, идущей от скрытого нейрона i кпервому из нейронов суммирования, устанавливается равным yi (т.е. экспериментальному значению прогнозируемого свойства y для i-ого соединения изобучающей выборки), а все веса связей, идущих от нейронов скрытого слоя ковторому нейрону слоя суммирования устанавливаются равными единице. Выходной слой GR-нейросети состоит из одного нейрона, который выполняет деление числителя на знаменатель в соответствие с формулой (43) (подобныенейроны, формирующие в процессе вычислений два сетевых входа и осуществляющие деление одного на другой, называют Паде-нейронами).Таким образом, единственным настраиваемым параметром GR-нейросетиявляется фактор сглаживания σ. Его оптимальное значение обычно подбираетсяисходя из критерия максимизации прогнозирующей способности нейросети,оцениваемой при помощи процедуры перекрестного скользящего контроля.45Рис.
9. Архитектура GR-нейросетиP-нейросети. В отличие от GR-нейросетей, предназначенных для проведения регрессионного анализа, P-нейросети служат для классификации входных векторов. В соответствии с этим, Р-нейросети оценивают функцию плотности вероятности распределения случайной векторной величины x отдельно длякаждого из классов с по формуле:f С ( x) =⎡ ( x − xi ) T ( x − xi ) ⎤1⋅exp∑ ⎢−⎥,N С (2π ) M / 2 σ M i: xi∈С2σ 2⎣⎦(45)где суммирование идет только по NС примерам из обучающей выборки, относящимся к классу С, остальные же обозначения те же, что и для формулы (41).P-нейросеть состоит из тех же четырех слоев, что и рассмотренная вышеGR-нейросеть (см.
Рис. 10). Структура и функционирование первых двух слоев(т.е. входного и скрытого, называемого в некоторых публикациях слоем образов [patterns]) упомянутых двух нейросетей также практически совпадают. Вчастности, RBF-нейроны скрытого слоя формируют следующие выходные сигналы:p ( x) =ci1(2π ) M / 2 σ M⎡ ( x − xi ) T ( x − xi ) ⎤⋅ exp ⎢−⎥.2σ 2⎣⎦46(46)Рис. 10. Архитектура P-нейросетиОтличия же начинаются в третьем слое (слое суммирования), который состоит из такого количества линейных нейронов, которое равно числу классов. Вотличие от других RBF-сетей, в каждый нейрон с из слоя суммирования входятсвязи только с тех нейронов скрытого слоя, которые соответствуют примерам,принадлежащим классу С.
Веса этих связей выбираются таким образом, чтобывыполнялось условие (47):NC∑πi =1ci= 1, c = 1,K, M C ,(47)где: π ic - вес связи, ведущей из i-ого нейрона скрытого слоя в c-ый нейрон слоясуммирования, отвечающий за формирование функции плотности вероятностиfC(x) для класса C; NC – число примеров из обучающей выборки, относящихся кклассу C; MC – число нейронов в слое суммирования, равное общему числуклассов в классификационной задаче.