Хайкин С. - Нейронные сети (778923), страница 186
Текст из файла (страница 186)
15.5. Вычислительная мощность рекуррентных сетей Рекуррентные сети (примерами которых являются модель в пространстве состояний (см. рис. 15.2) и модель )ч)АРхХ (см. рис. 15.1)) имеют внутреннюю способность имитировать конечные авгломаглы (йпйе-зза1е ап1оша1а).Авгломагл (ац1оша1а) представляет собой абстракцию устройств обработки информации, таких как компьютеры.
На самом деле история развития нейронных сетей и автоматов имеет много общегое. 938 Глава 15. Динамически управляемые рекуррентные сети Вход к(л) Выход у(л) Рмс. 1$.7. Сеть НАЯХ сч = з скрытыми нейронами В [74Ц приводится следующее утверждение. Любая машина с конечными состояниями эквивалента некоторой нейронной сети и может быть имитирована ею. Это значит, что для любой машины с конечными состояниями М можно построить определенную нейронную сеть ]Ч]~, которая, если ее рассматривать как "черный ям(ик ", будет работать в точности как машина М. Эта ранняя работа по рекуррентным сетям использовала для функции активации нейрона жесткую логику единичного скачка, а не мягкую сигмоидальную функцию.
Пожалуй, первая экспериментальная демонстрация того, сможет ли рекуррентная сеть обучиться особенностям, содержащимся в небольшой грамматике с конечны- и рекуррентным нейронным сетям [714]. Рекуррентные сати (с немедленной обратной связью), описанные во второй части этой книги, в [562] были интерпретированы как конечные автоматы. Последний труд [972] появился под редакцией Шеннона и Маккарти (среди авторов этой удивительной книг» были также Мур (Мооге), Минский (М(пз1гу), фон Нейман (топ Хепшапп) и Аттли (ПП(еу)). Иногда [5б2] упоминается как первый труд, посвященный конечным машинам (йп!ш-выш шасьше) [827]. Автоматы и нейронные сети рассмотрены в [741].
Все ранние работы, посвященные автоматам и нейронным сетям, были связаны с синтезом, т.е, встраиванием автоматов в нейронные сети. Так как большая часть автоматов (реализованных как последоштельные машины) требует обратной связи, нейронные сети также должнм были быть рекуррентными. Заметим, что в ранних работах (за исключением [741)) ие делалось четкого разграничения между автоматами (направленными, маркированными, ацикличными графами) и последовательными машинами (задержки логики и обратной связи) и больше внимания уделялось конечным автоматам.
Проявлялся только небольшой интерес (за исключением [741]) к переходу к иерархии автоматов, развитию автоматов и машины Тьюринга. После времен застоя в области нейронных сетей исследования автоматов возобновились в ! 980-х годах. Эча работа может быть условно разбита на три направления: обучаемые автоматы; синтез автоматов, извлечение и структурирование знаний; представление. Впервые об автоматах и нейронных сетях упоминалось в [522].
15.5. Вычислительная мощность реиуррентных сетей 939 Линейная яеитв Рис. 15.8. Машина Тьюринга пиеаии мн состояниями, приведена в 11981. В данной работе простая рекуррентная сеть (см. рис. 15.3) была представлена строками, полученными из грамматики и требуемыми для прогнозирования на каждом шаге следующей буквы. Прогнозирование было контекстно-зависимым, так как каждая буква появлялась в грамматике дважды и каждый раз за ней следовали различные буквы. Было показано, что такая сеть способна выработать таюе внутреннее представление в скрытых нейронах, юторое соответствует состояниям автомата (машины с конечными состояниями).
В [5981 было представлено формальное доказательство того, что простая рекуррентная сеть имеет такую же вычислительную мощность, как и любая машина с конечными состояниями. В обобщенном смысле вычислительная мощность рекуррентных сетей раскрывается двумя основными теоремами.
Теорема 1 19901. Любую машину Тьюринга можно имитировать полносвязной рекуррентнай сетью, построенной на нейронах с сигмоидальньаии функциями активации. Машина Тьюринга (Тшзпй шасЬше) является абстрактным вычислительным устройством, изобретенным Тьюрингом в 1936 году. Она состоит из трех функциональных блоков (рис. 15.8): элемента управления, который может иметь одно из конечного числа возможных состояний; линейной ленты (в предположении, что она бесконечна в обоих направлениях), которая разбита на дискретные ячейки, а каждая ячейка способна хранить только один символ из конечного их множества; головки чтения-записи, которая перемещается вдоль ленты и считывает и записывает информацию в элемент управления 12951.
В рамках нашей дискуссии будет достаточно сказать, что машина Тьюринга является абстракцией, которая имеет вычислительную мощность компьютера. Эта идея известна под названием гипотезы Чарча — Тьюринга (СЬшсЬ-Тпппй ЬуртяЬеа)з). 940 Глава 35. Динамически управляемые рекуррентные сети Теорема 2 [989]. Сети МАЯХ с одним слоем скрытых нейронов, имеющих ограниченную функцию активации с односторонним насыщением, и одним ввтходным нейронам могут имитировать лолносвязные рекуррентные сети с ограниченными функциями активации с односторонним насыщением с учетам линейного замедления (Ввеаг в[вил[отри).
Под "линейным замедлением" понимается следующее: если полиосвязиая рекуррситиая сеть с М нейронами решает интересующую задачу за время Т, то общее время, затрачиваемое эквивалеитиой сетью )з]АКХ, составит (и + 1)Т. Функция ф( ) называется ограниченной функцией с односторонним насыщением (Ьоппс]ес], опе-з[с)ес] защга[ед бзпс[[оп — ВОББ), если выполняются следующие условия. 1. Функция ф( ) имеет ограниченную область значений, т.е, для всех х Е Я выполняется а < ср(х) < Ь, где а ф Ь.
2. Функция ср(.) имеет иасьпцеиие с левой стороны, т.е. существуют такие значения в и о', что ф(х) = о' для всех х < в. 3. ФуНКцИя Ср( ) ИЕ яВЛяЕтея КОНСтавтНОй, т.Е. СущЕСтВуЮт таКИЕ Х, И Хвп Чта ф(Х,) ф ср(х ). Пороговые ([ЬгезЬо[д) и кусочно-линейные функции удовлетворяют условиям ВОЯК.
Однако в прямом смысле сигмоидальиая функция ие является функцией ВО88, так как нарушает условие 2. Тем ие менее после небольшой модификации ее можно сделать таковой, записав (иа примере логистической функции): ф(Х) = '+' р( в] х) в, О, Х<5, где в е Я. В результате при х < в логистическая функция "обрезается".
Следствием из теорем 1 и 2 может служить следующее утверждение. Сети МАЯХ с одним скрытым слоем нейронов, имеющих ВОЯ-функции активации, и одним выходным нейроном эквивалентны сетям Тьюринга. На рис. 15.9 графически изображены теоремы 1 и 2 и их следствие. Однако следует заметить, что если сетевая архитектура ограничена, то вычислительная мощность рекурреитиой сети ие является эквивалеитиой конечным автоматам [1012).
Ссылки иа примеры ограниченных сетей представлены в примечании 77. Однослойные рекуррентные сети, использующие нейрон Мш-Квллокв — Питии не могли имитнроввть какую-либо конечную машину [373]. В то же время простая рекуррентнвя сеть Эливнв мажет зто оделять [598). Рекуррентние сети, содержащие только локальные обратные связи, не потуг представлять еле конечные няшины [307], [352), [597]. 16.6. Алгоритмы обучении 941 а Псянссяязная Машина Тьюринга Сà — — у' Реялгрентная сеть Рис. 19.9. Графическое изображение теорем 1 и 2 и их следствия 16.6. Алгоритмы обучения Теперь обратимся к вопросу обучения рекуррентных сетей. В главе 4 уже говорилось, что существуют два режима обучения обычного (статичесюго) многослойного персептрона: пакетный и последовательный.
В пакетном режиме перед коррекцией свободных параметров вычисляется чувствительность сети для всего множества обучения. С другой стороны, в последовательном режиме настройка параметров выполняется после подачи каждого примера обучения. Подобно этому для обучения рекуррентной сети также существуют два метода обучения [1156). Обучение по эпохам (еросЬчт)ае па)пгпк). В заданной эпохе рекуррентная сеть начинает свою работу с некоторого исходного состояния и развивается, пока не достигнет некоторого другого состояния.
В этой точке обучение приостанавливается, и сеть сбрасывается в исходное состояние, после чего начинается следующая эпоха обучения. Исходное состояние не обязательно должно быть одинаковым для всех эпох. Важно только, чтобы исходное состояние каждой эпохи отличалось от конечного состояния предыдущей. Для примера рассмотрим использование рекуррентной сети для имитации работы конечного авгпомагпа (бп)те-агате птасЫпе), т.е. устройства, число различных внутренних конфигураций (состояний) которого конечно. В такой ситуации будет вполне обоснованным использование обучения по эпохам, так как представляется удобная возможность имитации рекуррентной сетью множества различных начальных и конечных состояний автомата.
При обучении рекуррентных сетей по эпохам термин "эпоха" используется в смысле, несколько отличном от того, который использовался для обычного многослойного персептрона. В текущей терминологии эпоха для рекуррентной сети соответствует одному примеру обучения для обычного многослойного персептрона. непрерывное обучение (соп1тппопз па)п)пя). Второй метод обучения подходит для ситуаций, когда недоступны состояния сброса и (или) требуется обучение в реальном времени. Отличительной чертой непрерывного обучения является то, что сеть обучается во время самой реальной обработки сигнала, т.е. процесс обучения никогда не останавливается. Для примера рассмотрим использование рекуррентной сети для моделирования несгационарного процесса, такого как речевой сигнал.
В такой 942 Глава 10. Динамически управляемые рекуррентные сети ситуации непрерывность работы сети не предполагает наличия удобного времени для астапова обучения и последующего его начала с другими значениями свободных параметров сети. Помня об этих двух режимах обучения, в последующих двух разделах рассмотрим следующие алгоритмы обучения рекуррентных сетей. ° Алгоритм обратного распространения во времени (Ьаск-ргорайайоп-бзгопйЬ-11ше) рассматривается в разделе 15.7. Он работает в предположении того, что временные операции рекуррентной сети могут быть представлены посредством многослойного персептрона. Это может открыть путь для применения стандартного алгоритма обратного распространения.