Хайкин С. - Нейронные сети (778923), страница 62
Текст из файла (страница 62)
306 Глава 4. Мноюслойный персептрон 1. Искусственные нейронные сети, осуществляющие локальные вычисления, часто выступают в качестве модели биологических нейронных сетей. 2. Использование локальных вычислений вызывает плавное снижение производительности при сбоях в аппаратном обеспечении. Это обеспечивает отказоустойчивость таких систем. 3. Локальные вычисления хорошо подходят для параллельной архитектуры, которая применяется в качестве эффективного метода реализации искусственных нейронных сетей.
Рассматривая эти три причины в обратном порядке, можно сказать, что третья вполне объяснима в случае обучения методом обратного распространения. В частности, этот алгоритм был успешно реализован многими исследователями в параллельных компьютерах, а архитектура Н[.Я1 была специально разработана для аппаратной реализации многослойного персептрона [411~, [4121. Пункт 2 описывает некоторую меру предосторожности, принимаемую при реализации алгоритма обратного распространения [5571. Что же касается пункта 1, относящегося к биологическому правдоподобию алгоритма обратного распространения, то он может быть серьезно оспорен на следующем основании [2321, [9761, [10211.
1. Синаптические связи между нейронами многослойного персептрона могут быть как возбуждающими, так и тормозящими. Однако в реальной нервной системе каждый нейрон может играть только одну из этих ролей. Это одно из самых нереалистичных допущений, принимаемых при создании искусственных нейронных сетей. 2. В многослойном персептроне гормональные и прочие типы глобальных связей не учитываются. В реальной нервной системе эти типы глобальных связей играют важную роль для реализации таких функций, как внимание, обучение и раздражение.
3. При обучении методом обратного распространения синаптические веса изменяются только на основе предсинаптической активности и сигнала ошибки [обучения), независимо от постсинаптической активности. Очевидно, что нейробиология доказывает обратное. 4.
В контексте нейробиологии реализация обучения методом обратного распространения требует быстрой обратной передачи информации по аксону. Очень маловероятно, чтобы такие действия на самом деле происходили в мозге. 5. Обучение методом обратного распространения предполагает наличие "учителя", который в контексте работы мозга должен представляться отдельным множеством нейронов с неизвестными свойствами.
Существование таких нейронов неправдоподобно с точки зрения биологии. 4.16. Преимущества и ограничения обучения методом обратною распространения 307 6. Тем не менее эта несогласованность с результатами нейробилогии не умаляют инженерной ценности обучения методом обратного распространения как средства обработки информации.
Это было уже доказано множеством успешных применений в различных областях деятельности человека, в том числе и при моделировании нейробиологических явлений (например, в [893]). Извлечение признаков Как уже говорилось в разделе 4.9, скрытые нейроны многослойного персептрона, обучаемого методом обратного распространения, играют роль детекторов признаков. Это важное свойство многослойного персептрона было использовано совершенно неожиданным образом: было предложено использовать многослойный персептрон в качестве релликатора (герйса1ог) или каруны идентичности (ЫепШу шар) [216), [915). На рис.
4.23 показано, как этого можно достичь в случае многослойного персептрона с одним скрытым слоем. Архитектура сети удовлетворяет следующим структурным требованиям (см. рис, 4.23, а). ° Входной и выходной слои имеют одинаковый размер — т. ° Размер скрытого слоя М меньше значения т. ° Сеть является полносвязной.
Образ х синхронно подается во входной слой в качестве возбудителя и в выходной слой в качестве желаемого отклика. Фактический отклик выходного слоя х расценивается как "оценка" вектора х. Сеть обучается с помощью алгоритма обратного распространения, при этом в качестве сигнала ошибки выступает вектор ошибки оценивания (х — х) (см. рнс. 4.23, б).
Можно сказать, что обучение производится без учителя. С помощью специальной структуры, встроенной в конструкцию многослойного персептрона, сеть осуществляет идентификацию посредством своего скрытого слоя. Закодированная (епсодед) версия входного образа, обозначаемая символом я, является выходным сигналом скрытого слоя (см. рис. 4.23, а). В результате полноспю обученный многослойный персептрон выполняет роль системы кодирования.
Для того чтобы воссоздать оценку х исходного входного сигнала х (т.е. выполнить декодирование), закодированный сигнал передается скрытому слою сети репликации (см. рис. 4.23, в). В результате эта часть сети выполняет роль декодера. Чем меньше размер скрытого слоя М по сравнению с т, тем более эффективна эта система в качестве средства сжатия данных)з.
'т В [44б) описывается нейронная сеть репликации, представленная в форме многослойного персептрона с тремя скрытыми и олним выходным слоем. Функции активации всек нейронов второго и четвертого )скрытых) слоев описываются функцией гиперболического тангепса Ег~)(о) = грГ~)(о) =й(о), где ч — индуцироваиное локальное пате нейронов пих сяоев 308 Глава 4. Мнолгслойный персептрон Мяогослойный персептрои Оценка входною сигнала, х Вхолиой сигнал х Закодированный сигнал а а) б) Фуикции активации всех нейронов среднего (скрытого) слоя описывмотся следующей функцией: где а — коэффициент усиления (ймп рагащезег); ч — иидуцироваииое локальное поле иейроиов этого слоя.
Фуикиия ф(з) описывает гладкую смулелчамую (апйгсаае) функцию активации с )г( ступеньками, выповияющую квантование веатора выходов соответствующих иейроиов иа Н = )т'" эвемеитов, где и — количество нейронов средиего скрытого слоя. Нейроны выходкою слоя являются лииейиыми и используют функцию активации гр(~)(о) = е.
На основе эюй структуры иейроииой сети Хехт-Нильсеи доказал теорему об оптимальном сжатии данных для произвольиых входных векторов. 4.16. Преимущества и ограничения обучения методом обратною распространения 309 деколврованниа епгнел, к Рис. 4.23. Сеть репликации (карта идентичности) с одним скрытым слоем (а), используемым в качестве системы кодирования; блочная диаграмма обучения сети репликации с учителем (б) и часть сети репликации, используемая в качестве декодера (в) Аппроксимация функций Многослойный персептрон, обученный согласно алгоритму обратного распространения, используется в качестве вложенной сигмоидальной схемы, которую для случая одного выхода можно записать в следующем компактном виде: Г(х,и) = гр ~е венгр ~г есюгр ... гр ~> гсих,, (4.113) где гр( ) — сигмоидальная функция активации общего вида; иг,ь — синаптический вес связи между нейроном Й последнего скрытого слоя и единственным выходным нейроном о, и т.д, для всех остальных синаптических весов; хе — т-й элемент входного вектора х.
Вектор и содержит полное множество синаптических весов, упорядоченное сначала по слоям, затем по нейронам каждого отдельного слоя и, наконец, по синапсам отдельных нейронов. Представление в виде вложенной нелинейной функции, описываемой выражением (4.113), не является традиционным для классической теории аппроксимации. Как следует из раздела 4.13, это соотношение описывает универсальный аппроксиматор (пшуегза) арргохппатог). Использование метода обратного распространения открывает еще одно полезное свойство в контексте аппроксимации.
Интуитивно понятно, что для многослойного персептрона с гладкой функцией активации производные результирующей функции должны аппроксимировать производные исходного реализуемого персептроном отображения "вход-выход". Доказательство этого результата представлено в [485]. 310 Глава 4. Мноюслойный персептрон В частности, в этой работе показано, что многослойный персептрон может аппроксимировать функции, не дифференцируемые в классическом смысле.
При этом в случае кусочно-дифференцируемых функций он обеспечивает обобщенные производные. Полученные в этой статье результаты обеспечили ранее отсутствовавшее обоснование применения многослойного персептрона в приложениях, требующих аппроксимации функций и их производных. Вычислительная эффективность Анализ чувствительности Еще одним преимуществом обучения методом обратного распространения с вычисли- тельной точки зрения является эффективность анализа чувствительности отображе- ния "вход-выход" с помощью этого алгоритма. Под чувствительностью (зепз)1п41у) функции Г по отношению к некоторому ее параметру ш понимается величина дГ/Г дш!ш' (4.))4) Вычислительная сложность (согпрп1айопа! сошр!ехйу) алгоритма обычно измеряется в терминах количества операций сложения, умножения и хранения, используемых в его реализации (см.