Хайкин С. - Нейронные сети (778923), страница 144
Текст из файла (страница 144)
Если машина использует для этой цели значения 0 и 1, получим следующее; Е(я) = — ) ) ш китлт. Равенство (11.37) описывает свойство симметрии, а равенство (11.38) — отсутствие собственных обратных связей. Использование порога (Ь(аз) достигается за счет добавления веса связи ю,о между фиктивным узлом с постоянным сигналом +1 и нейроном 7 (для всех 7). По аналогии с термодинамикой энергия машины Больцмана определяется следующим образомт: 716 Глава 11.
Стохастические машиныи их аппроксимациив статистической механике при температуре Т): 1 / Е(х) 1 Р(Х = х) = — ехр ~ — — ~, г (, Т/' (11.40) Р(С) = (А,В) = — ехр — ~~ ~~У ш„х,х, )'1 (11.41) Р(В) = "У (А,В) = — ~> ехр — ~ ~~1 зи;х,т. /1 л (11.42) Экспоненты в равенствах (11.41) и (11.42) могут быть выражены суммами двух компонентов — первая из них включает х„а вторая не зависит от х . Компонент, содержащий х„имеет следующий вид: х, е 2Т ~, ь~Ф1 Соответственно, принимая х, = х = х1, можно выразить условную вероятность А для данного В следующим образом: Р(А~В) = Р(В) 1+ ехР— У 2' ,телх, ' гзнз Это значит, что можно записать: Р(Х, = х~(Х, = х,)~,з = д — ~~1 ю,,х, ~з~з (11.43) где Я вЂ” функция разбиения (рагбйоп йщсг(оп). Для упрощения выкладок определим событие А н связанные события В и С следующим образом: А:Х, =х„ В: (Х; = х )к П,Е1, С: (Х, = х,)к,.
В результате совместное событие В исключает событие А, а совместное событие С включает оба события — А и В. Вероятность В является граничной вероятностью С по отношению к А. Исходя из этого, используя выражения (11.39) и (11.40), можно записать: 11.7. Машина Больцмана 71 7 Рис.
11.$. Сигмоидальная функция г(ь) где гр( ) — сигмоидальная функция своего аргумента, т.е. 1 р()= 1+ ехр( — о) (11.44) Обратите внимание на то, что, несмотря на изменение х в диапазоне между значениами — 1 и +1, весь аРгУмент г ~; ш„х, пРи больших йг может ваРьиРоватьсЯ между — оо и +ос (рис.
11.5). Заметим также, что при выводе равенства (11.43) не использовалась функция разбиения У. Этот результат очень желателен, так как прямое вычисление Я невозможно в сетях большой сложности. Использование квантования Гиббса обеспечивает совместное распределение Р(А, В). В своей основе (см. раздел 11.6) стохастическое моделирование начинается с присвоения сети некоторого произвольного состояния, после чего нейроны посещаются в естественном порядке.
При каждом посещении нейрона выбирается новое значение состояния, в соответствии с распределением вероятности этого нейрона, в зависимости от состояний всех остальных нейронов сети. Предполагая, что стохастическое моделирование будет проводиться достаточно долго, сеть достигнет термального равновесия при температуре Т. К сожалению, время, затраченное на достижение термального равновесия, может быть слишком большим.
Для того чтобы избежать этой пролблемы, используется моделирование отжига для конечной последовательности температур Те, Т„..., Твене„ная (см. раздел 11.5). Таким образом, начальная температура устанавливается в значение Тс, обеспечивая быстрое достижение термального равновесия. После этого температура Т медленно снижается до своего окончательного значения Ткоисчнак, и в этой точке состояния нейронов достигнут (надеемся) своих желаемых граничных распределений.
71 8 Глава 11. Стохастические машииыи их аппроксимациив статистической механике Правило обучения Больцмана Так как машина Больцмана является стохастической, для поиска индекса ее производительности следует обратиться к теории вероятности. Один из таких критериев носит название функции правдоподобия (!йсе!йзоод йшсйоп). Используя этот критерий в качестве основы, в соответствии с принципом максимального правдоподобия, можно определить цель обучения Больцмана как максимизацию функции правдоподобия или (эквивалентно) функции логарифмического правдоподобия. Обозначим символом Т множество примеров обучения, отобранных из интересующего нас распределения.
Предполагается, что зти примеры могут иметь два значения. Количество повторений примеров обучения соответствует частоте появления аналогичных случаев на практике. Обозначим символом х„подмножество вектора состояний х, соответствующих видимым нейронам сети. Оставшуюся часть вектора х обозначим символом хб. Она будет соответствовать состояниям скрытых нейронов.
Векторы состояний х, х„и хб являются реализациями случайных векторов Х, Х и Хб соответственно. Существуют две фазы работы машины Больцмана. ° Положительная фаза. В этой фазе сеть работает в своем фиксированном (с[а)пред) состоянии (т.е. под непосредственным воздействием множества примеров Т). ° Отрицательная фаза. В этой фазе сеть работает в свободном режиме и не подвержена влиянию среды. Если предположить, что вектор ду содержит все синаптические веса сети, то вероятность нахождения видимого нейрона в состоянии хп равна Р(Хп =х„). Предполагая, что большинство возможных примеров, содержащихся в множестве обучения Т, являются статистически независимыми, общее распределение вероятности можно представить факториальным распределением Пх Р(Х„= хп).
Для того чтобы сформулировать функцию логарифмического правдоподобия А(тв), возьмем логарифм " Традиционно в качестве индекса производительности машины Больцмана использовалась относительнал энтропия (или расстояние Кулбека —.Лейблера) [91, [464). Этот критерий реализовывал меру несоответствия между средой и внутренней моделью сети. Он определялся в следующем виде: /в+ о в где р„— вероятность того, что видимый нейрон находится в состоянииа в момент нахождения сети в фиксираввином режиме, а р„— вероятность топь, что тот же нейрон находится в состоянии а в момент нахождения сети в свободном режиме. Синаптические веса сети корректируются с целью минимизации величины Р з я 1ЬЬ (см. задачу 11.10).
Принцип минимума дивергенции Кулбека-Лейблерв и максимального правдоподобия эквивалентны, когда применяются к множеству примеров обучения. Для того чтобы заметить эту эквивалентность, обратите внимание на то, что дивергенция Кулбека — Лейблера между распределениями у и д определяется по формуле Рубя — — Н(У) — д тУ)об(д). Если распределение Г определяется множеством примеров обучения, а модель я дана для оптимизации, то первое слмаемое является константой, а второе — логарифмическим правдоподобием, взятым с обратным знаком, что и доказывает эквивалентность принципов минимума ливер~вицин Куябека-Лейблера и максимума правдоподобия.
11.7. Машина Больцмана 719 этого факториального распределения. При этом будем рассматривать хт как вектор неизвестных параметров: Ци) = 1о8 П Р(Х„= х,„) = ~~) 1о8Р(Ха — — х,„). х~еТ х„ЕТ (11.45) Для того чтобы определить выражение для граничной вероятности Р(Х х,„) в терминах функции энергии Е(х), воспользуемся следующими фактами. ° Исходя из (1!.40), вероятность Р(Х = х) равна — ' ехр( — Е(х)/т). ° По определению вектор состояния х является совместной комбинацией вектора х„ (содержащего состояния видимых нейронов) и вектора х!З (содержащего состояния скрытых нейронов). Исходя из этого, вероятность нахождения видимых нейронов в состоянии х„с любым ха определяется по следующей формуле: Р(Х„ = х,„) = — ~) ехр 1 — ), 1 / Е(х) т "в (11.46) где случайный вектор Хв является подмножеством Х.
Функция разбиения У опре- деляется следующим выражением (см. (11.6)); х=т' р(- ). (11.47) Таким образом, подставляя (11.46) и (11.47) в (11.45), получим искомое выражение для функции максимального правдоподобия: Цхт) = р 1о8 ~~ ехр 1 — ) — 1об ~) ехр 1 — ) . (11.48) рг Е(х) '~ рг Е(х) 1 т) т) х Ст хх х Здесь зависимость от зт содержится в функции энергии Е(х) (см. (11.39)). дА(хт) 1 — Р(Ха = ха~Х,„= х„)х хх — ~~~ Р(Х = х)хххх .
(11.49) хат хз х Дифференцируя Е(и) по ир„., в свете (11.39), после перестановки слагаемых получим следующий результат (см. задачу 11.8): 720 Глава 11. Сгохастические машиныи их аппроксимациив статистической механике Для упрощения выкладок введем два следующих определения: р+« =( х,х, >~= ~~) ~~~ Р(Х« = хВ~Х,„= х,„)хзх, (11. 50) «„ет «, р,=(хх; > = ~> ~~~ Р(Х=х)х х,. (11.51) «ет « В некотором смысле первое среднее р+з можно рассматривать как средний уровень возбуждения (теап бппя гаге) или корреляцию между состояниями нейронов г н 1 при работе сети в своей положительной фазе. Аналогично, второе среднее р,, можно рассматривать как корреляцию между состояниями нейронов 1 и у при работе сети в своей отрицательной фазе.
Используя эти обозначения, можно упростить выражение (11.49) следующим образом: дЬ (ъч) 1 д Т юп (11. 52) Целью обучения Больцмана является максимизация функции правдоподобия Б(зч). Для достижения этой цели можно использовать градиелянчый спуск (ягаг)1- епг азсепГ) и записать; ьш,« =а =1!(р,', — р,,), дБ(зч) дгл„ (11.53) где 1) — ларамеглр скоросгли обучения (!еапппя гаге рагатегег); его можно определить в терминах а и рабочей температуры Т следуюшим образом: а Т (11.54) Правило градиентного спуска (11.53) называется правилом обучения Больцмана (Во!гхгпапп 1еагп!пя ги!е).