Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 30
Текст из файла (страница 30)
каковой и является машина Больцмана, предложенная в [267, 2681 и всесторонне исследованная в 14, 7, 9, 27, 2361. Основное отличие машины Больцмана, имеющей ту же архитектуру, что и сеть Хопфилда, определяется ее строительными блоками-узлами, в качестве которых используются стохастические нейроны, рассмотренные в подразделе 1.6 и принимающие состояния 1 с' вероятностью Ру(И), х,(Ус+1) = 0 с' вероятностью1 — Руф), (9.32) где РУ(й) = 1 1+ ехр— (9.33) ч,. (Ус) — управляющий параметр; Т вЂ” положительная псевдотемпература. Заметим, что при малых значениях Т машина Больцмана аппроксимирует динамику сети Хопфилда в пространстве состояний, образованном 2" вершинами п-мерного гиперкуба, а благодаря тому, что Т > О, всегда сохраняется вероятность перехода из одной вершины в другую.
Это означает, что эта ИНС не может «застрять» в каком-то одном состоянии, хотя в процессе минимизации (9.30) в какие-то моменты значения Е(й) могут возрастать. Отметим также, что на синаптические веса накладываются ограничения, присутствующие и в сети Хопфилда (9.34) Принимая во внимание (9.7), (9.9) и (9.34), несложно записать приращение энергетической функции сети при изменении состояния У -го нейрона на ®+ 1)- м такте в виде и КЕМ=-Ы, Еи„х,(й)+ВУ г=1 (9.35) или, что то же самое (9.36) 198 Тождественность (9.35) и (9.36) следует из следующих элементарных соображений: если состояния ху(й)= — 1, а ху(1+1)=1, то Ьху =2= — 2ху(й). Если же хУ (Ус) = 1, а хУ (Ус +1) = — 1, то ЛхУ = — 2 = — 2хУ (Ус) . 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ Полагая в качестве управляющего параметра ~,.
(й) изменения энергетической функции, можно записать вероятность перехода машины Больцмана, работающей в последовательном режиме, из одного состояния в другое в виде РЯ)— 1+ ехр— 1+ехр (9.37) П Ем',;х;И)+В, 1+ ех р 2х . (й) '=' Т причем выбор конкретного нейрона, изменяющего свое состояние, осуществляется случайным образом, Более сложным вариантом машины Больцмана является архитектура, содержащая скрытые нейроны так, как это показано на рис, 9.1б.
Входной слой Скрытый слой Выходной слой Рис. 9.16 — Машина Больцмана с видимыми и скрытыми нейронами 199 Данная сеть образована стохастическими нейронами Ьй, связанными друг с другом через элементы задержки синаптическими весами, при этом видимые нейроны, сгруппированные во входной и выходной слои, обеспечивают взаимодействие ИНС с окружающей средой. Особенностью этой сети является возможность обучения, в процессе которого на видимые нейроны подаются входной и обучающий сигналы, а скрытые нейроны настраивают свои параметры пропорционально уровню корреляции между входным и обучающим образами. Поскольку основной задачей машины Больцмана является отыскание глобального минимума энергетической функции, для ее функционирования может быть использован любой из методов глобального случайного поиска, рассмотренных в подразделе 4.5.1, хотя исторически сложилось так, что с понятием «машина Больцмана» связывается процедура, известная под названием «обучение отжигом» ~269).
Алгоритм обучения отжигом представляет собой стохастическую стратегию поиска состояний нейронов сети, соответствующих глобальному минимуму энергетической функции, и имеет ясную аналогию с физическим процессом закалки металла. При высокой температуре, когда металл принимает жидкую фазу, все атомы находятся в непрерывном случайном движении.
Как любая физическая система, частицы расплавленного металла стремятся к состоянию, соответствующему минимуму энергии, однако высокая внешняя температура препятствует этому, Состоянию минимума энергии соответствует упорядоченная структура типа бездефектной кристаллической решетки. Для получения такой кристаллической структуры и производится отжиг металла, когда он сначала нагревается до температуры выше точки плавления, а затем медленно охлаждается до тех пор, пока не сформируется правильный кристалл.
Такой процесс может повторяться несколько раз. Процесс отжига помогает избежать возникновение дефектных структур, обладающих более высокими энергетическими уровнями, за счет того, что динамика частиц металла, кроме всего прочего, определяется и температурнозависимой компонентой, благодаря которой отдельные частицы не только теряют энергию в процессе охлаждения, но могут случайным образом приобретать дополнительную энергию так, как это показано на рис.
9.17. Рис. 9.17 — Эффект теплового шума 200 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ Если динамика системы такова, что сходится к локальному минимуму, то система, попав в состояние х', «застрянет» в нем, хотя глобальный экстремум находится в точке х'. Современные процедуры обучения отжигом восходят к так называемому Метрополис-алгоритму 12701, концепция которого совпадает с основной процедурой случайного поиска (4.224), подразумевающей случайное возмущение системы и принятие решения на основе анализа приращения ЛЕ(й) . В случае ЛЕ(й) < 0 сделанный шаг признается удачным, а х(й + 1) принимается в качестве исходной точки для последующих итераций.
В противном случае (ЛЕ(й) > 0) новое состояние не обязательно отвергается, но может быть принято с некоторой вероятностью ДЕ® Р(/с) — е (9.38) 1 1 ЛЕЖ) ~9.39) Для больших значений Т(й) Р,. Я) = 0.5, т.е. обновление состояний происходит в половине случаев. При Т(й) — > 0 принимаются только те состояния, которые уменьшают Е(1). Выбор функции (9.39) связан с тем, что подобные конструкции используются в статистической термодинамике для исследования теплового равновесия, что упрощает анализ поведения системы, Сам же температурный параметр Т(й) обычно уменьшается экспоненциально от начальных достаточно больших значений согласно соотношению (9.40) Т(й + 1) = аТ(й), О < а < 1. В 127, 2361 машина Больцмана анализируется с позиций статистической механики, при этом вероятность достижения термического равновесия в точке х(й) описывается выражением 201 где Т(й) — температурная характеристика, изменяемая некоторым образом (чаще всего программно).
В [41 рассмотрена достаточно простая процедура, заключающаяся в том, что состояние любого нейрона х,.(й) изменяется всегда, если изменение Аг,. (й) = х,. (1 +1) — х,. (й) приводит к уменьшению энергетической функции Е(/с); в случае же, если ЛЕ(й) > О, новое состояние х,. (й + 1) принимается с вероятностью (9.41) (здесь суммирование осуществляется по всем возможным состояниям системы) известным как распределение Больцмана-Гиббса.
В этом случае для энергетической функции (9.30) вероятность пребывания /'-го нейрона в состояниях +1 или — 1 может быть записана в виде (9.42) где (9.43) На практике стохастический характер обучения отжигом, обеспечиваемый тепловым шумом, может достигаться любым из способов, применяемых в случайном поиске, хотя простейшим является введение в каждый нейрон зондирующего случайного сигнала !,/(й) так, как это принято в адаптивных системах [27Ц. Тогда состояние каждого нейрона может быть описано с помощью рекуррентного соотношения П х/(/с+1) = яд!! ~! и,!х,(й)+О, +Ь/(/с) !=! (9.44) а сети в целом — следующим образом: х(/~+1) =.5/Ел(йх(/~)+О+Ь(/~)), (9,45) 202 где ь(/с) =(ь,(й),~ (/с),...,~.(/с)) Заметим также, что сеть описываемая уравнением (9.45), в литературе иногда называется машиной Гаусса [4, 27~.
В общем случае процедура обучения отжигом состоит из следующей последовательности шагов: ) задание начального состояния сети х(0); )~ задание достаточно большого псевдотемпературы Т(0); ) ~ случайное изменение начального состояния; 9 НЕЙРОДИНАМИКА И РЕКУРРЕНТНЫЕ СЕТИ )~ """ оценка приращения энергетической функции ЛЕ; ~' "'"" в случае улучшения состояния использовать его в качестве начального для следующего шага, в противном случае перейти к новому состоянию с вероятностью Р = ехр( — АЕ/Т); повторение шагов ~ — """": до достижения устойчивого состояния; )~ изменение псевдотемпературы Т и повторение шагов * - ~"~"~~. Процедура заканчивает свою работу, когда температура становится достаточно малой, а система достигает устойчивого состояния. Алгоритм обучения отжигом обеспечивает отыскание глобального минимума энергетической функции, однако его практическое использование ограничивается низкой скоростью сходимости.
Эффективный подход к увеличению скорости обучения отжигом связан с процедурой, использующей так называемое поле усредненных значений (МеапР)е1Й Аппеа11пд — МРА) [27~, когда вместо нейронов с активационной сигнумфункцией, принимающих только два состояния +1, применяются нейроны с аналоговым выходом, представляющим среднее значение переменной х,(1с) при температуре Т(1с) и,, (к) х (й) = Р(х, (/с) =+1) — Р(х. (й) = — 1) = 1апЬ ТИ) (9.4б) Приняв в качестве энергетической функции выражение и и И Е(й) = — — ~~и„х,(й)х,(й) — ~х,(lс)0,, г,„, "' (9.47) можно записать МГА-алгоритм его минимизации, обеспечивающий сглаживание локальных экстремумов в процессе обучения, в виде Л ~ и„х,(/с)+О, ~=! (9.48) х,.
(/с + 1) = 1апй ! =1,2,...„п. Т(й) 203 При высоких псевдотемпературах нейронная сеть ведет себя как линейная динамическая система, поскольку активационные функции близки к линейным. При малых ТЯ) активационная функция приближается к сигнум-функции (см.
рис. 1.4 ж), и сеть переходит в обычный режим машины Больцмана с двоичными состояниями. Таким образом чисто случайная процедура обучения отжигом заменяется детерминированным рекуррентным алгоритмом, имеющим более высокую скорость сходимости. Используя термин «обучение отжигом», следует помнить, что он относится к поиску глобального минимума энергетической функции, а не к настройке синаптических весов сети. Многослойная машина Больцмана, приведенная на рис. 9.1б, наряду с поиском экстремума может обучаться в общепринятом понимании этого термина, целенаправленно изменяя свои параметры [4, 2571. В силу того, что машина Больцмана является стохастической системой, для ее обучения целесообразно использовать вероятностные критерии типа функции правдоподобия.
В этом случае в соответствии с принципом максимума правдоподобия процесс настройки синаптических весов, называемый больцмановским обучением, сводится к поиску максимума выбранной (обычно логарифмической) функции правдоподобия. Обозначим Х множество двоичных векторов-образов, формирующих обучающую выборку, а х — множество возможных состояний сети, содержащее два подмножества: х' - состояния видимых нейронов и к" - состояния скрытых нейронов.
Очевидно, что векторы состояний х,х и хв являются возможными реализациями случайных векторов Х, Х и Х ". Процесс больцмановского обучения разделяется на две фазы: позитивную или фазу фиксации, когда на видимые нейроны сети подаются входные и обучающие сигналы, и )~ негативную или свободного выполнения, когда сеть функционирует «свободно» без воздействия внешних сигналов. Обозначив вероятность нахождения видимых нейронов в состоянии х' через Р(Х =х ) и допустив, что эти состояния статистически независимы, можно записать логарифмическую функцию правдоподобия в виде Ци) =1од Д Р(Х =х ) = ~Г 1одР(Х' =х ), (9.49) Х ЕХ где ехр— Е(х) Р(Х =х" )= ~ ~~ ехр —— (9.50) Е(и) = ~ 1од~~1 ехр — — 1од~ехр— Е(к) Е(х) Т Т (9.51) 204 (суммирование в числителе осуществляется по всем возможным состояниям скрытых нейронов, а в знаменателе — по всем возможным состояниям сети).














