Хайкин С. - Нейронные сети (778923), страница 151
Текст из файла (страница 151)
Это привело к тому, что детерминированная машина Больцмана стала намного быстрее стандартной стохастической. К сожалению, на практике их использование ограничивается одним слоем скрытых нейронов. В (540) было доказано, что при корректном применении теории среднего поля в машине Больцмана корреляция должна вычисляться с помощью теоремы линейного отклика (йпеаг гезропзе 1леогет).
Сущность этой теоремы состоит в замене фиксированной и свободной корреляций в правиле обучения Больцмана (11.53) их линейными алпроксимацияии отклика (йпеаг гезропзе арргохппабоп). Согласно этой работе, новую процедуру обучения можно применять как к сетям со скрытыми нейронами, так и без них. Детерминированная форма сигмоидальных сетей доверия была получена с помощью другой формы теории среднего поля, в которой строгая форма нижней границы функции логарифмического правдоподобия была выведена с использованием неравенства Йенсена. Более того, эта теория берет на вооружение принципиальные достоинства трактуемой подструктуры, выводя этот класс нейронных сетей в разряд важного дополнения к сетям доверия. В этой главе также рассматриваются два приема оптимизации: моделирование отжига и детерминированный отжиг.
Отличием метода моделирования отжига является его случайное блуждание по поверхности энергии, что может сделать этот метод достаточно медленной процедурой, неприменимой в большинстве приложений. В противоположность этому детерминированный отжиг включает случайность в функцию стоимости, которая затем детерминированным образом оптимизируется, начиная с высокой температуры, которая затем постепенно снижается. Однако следует заметить, что моделирование отжита гарантированно достигает глобального минимума, в то время как это свойство для детерминированного отжига пока еще не доказано. Несмотря на то что основное внимание в этой главе было сосредоточено на методах оптимизации и стохастических машинах, предназначенных для решения задач обучения без учителя, их можно также использовать по мере необходимости и для задач обучения с учителем.
752 Глава 11. Стохастические машиныи их аппроксимациив статистической механике Задачи Цели Маркова 11.1. Вероятность перехода за п шагов из состояния 1 в состояние 1 обозначается как р„. Используя метод индукции, покажите, что !и) (1-1-и) Х и )и) Ро Р~ьри1 11.2. На рис. 11.12 показана диаграмма перехода состояний для процесса случайной прогулки (гапдош парк), в котором вероятность перехода р больше нуля, Будет ли бесконечно длинная цепь Маркова, показанная здесь, несократимой? Обоснуйте ответ. 11.3. Рассмотрим цепь Маркова, показанную на рис.
11.13. Она несократима. Идентифицируйте классы состояний, содержащиеся на этой диаграмме. 11.4. Вычислите вероятности устойчивых состояний цепи Маркова, показанной на рис. 11.14. Приемы моделирования 11.5. Алгоритм Метрополиса и квантователь Гиббса представляют собой два альтернативных подхода к моделированию крупных задач. Обсудите основные сходства и различия между ними.
11.6. В этой задаче рассмотрим использование отжита для решения задачи коммивояэсера ()гаче11!ля за!еапап ргойеш). Дано: ° 1т' городов; ° расстояние между всеми парами городов равно с(; ° маршрут представляет собой замкнутый путь, содержащий в себе посещения всех городов только по одному разу. Целью является поиск такого маршрута (т.е.
последовательного обхода всех городов), который имеет минимальную общую длину Ь. В этой задаче различные маршруты представляют собой конфигурации, а минимизации подлежит функция стоимости, которой является длина маршрута. а) Разработайте итеративный метод генерации допустимых конфигураций. б) Общая длина маршрута определяется по формуле ~р = ~~' Г(Р!)1 !ик1) 1=1 где Р— перестановка с Р(п + 1)=Р(1). Следовательно, функцией разбиения будет следующая: Задачи 753 Рис. 11.12. Диаграмма перехода состояний для процесса случайной прогулки Рис.
11.13. Несократимая цепь Маркова Рис. 11.14. Еще один пример цепи Маркова Я ='~" с-ь.!т Р где Т вЂ” параметр управления. Выведите алгоритм моделирования отжига для описанной задачи коммивояжера. 764 Глава 11. Стохастическне машннын нх аппрокснмацнив статистической механике Машина Больцмана 11.7. Рассмотрим стохастический нейрон у, который может принимать два состояния. Его рабочей температурой является Т. Этот нейрон меняет свое состояние с хт на — хт с вероятностью 1 1+ ехр( — ЬЕ,(Т) ' где ЬЕт — изменение энергии, возникшее в результате такой смены состояний. Общая энергия машины Больцмана определяется следующей формулой; 1 Е = — — ~ ~ю„ххт, 2 1 ьччат где ш, — синаптнческий вес, ведущий от нейрона т к нейрону у.
В машине Больцмана тс,з = тс,, и юп — — О. а) Покажите, что ЬЕ, = — 2ээот, где о, — индуцированное локальное поле нейрона у. б) Исходя из этого, покажите, что для начального состояния х = — 1 вероятность перехода нейрона 7' в состояние +1 равна 1/(1 + ехр( — 2с,/Т)). в) Покажите, что формула в п. б сохраняется и для вероятности перехода нейрона у из состояния — 1 в состояние +1. 11.8.
Выведите формулу (11.49), которая определяет производную функции логарифмического правдоподобия Ци) по синаптическим весам тс; в машине Больцмана. 11.9. Распределение Гиббса может быть выведено с помощью полноценного математического подхода„не лолагакнцегося на концепции статистической физики. В частности, модель стохастической машины в виде двухитаговой цени Маркова может использоваться для формализации допущения, вытекающего из уникальных свойств машины Больцмана (710). Это не будет неожиданностью, так как моделирование отжига, положенное в основу работы машины Больцмана, само обладаег свойством Маркова [1079]. Теперь рассмотрим модель перехода между состояниями нейронов в стохастической машине, состоящей из двух случайных процессов.
Задачи 765 ° Первый процесс решает, какой переход состояния осуществить. ° Второй процесс решает, принять ли предложение перехода. а) Выражая вероятность перехода р„через произведение двух множителей, Р,.; = ттд„. дла 1 ф г, покажите, что ри — — 1 — ~ те д;,. кы б) Предполагается, что матрица интенсивности попыток симметрична, т.е. тт=т,, Также предполагается, что вероятность успешности попытки перехода удовлетворяет свойству дополнения условной вероятности перехода: <Ь=1 йз.
Принимая эти два предположения, покажите, что ~~> т,;(д„л, + д,р; — я ) = О. в) Для я фО используйте результат п. а настоящей задачи, чтобы показать, что 1 1+ (к;/к,) г) В заключение выполним замену переменных: Е; = — Т1ояк,+Т*, где Т и Т* — произвольные константы. Исходя из этого, получите следу- ющий результат: 766 Глава 11. Стохастические машиныи их аппроксимациив статистической механике к, = — ехр = -(-'-) 1 1 + ехр( — ЬЕ/Т) ' где ЬЕ = ń— Е; д) Какие выводы можно сделать из полученных результатов? 11.10.
В разделе 11.7 принцип максимального правдоподобия использовался в качестве критерия для вывода правила обучения Больцмана (11.53). В этой задаче вернемся к этому правилу обучения, но с использованием другого критерия. В главе 10 была определена дивергенция Кулбека-Лейблера между двумя распределениями вероятности р,+, и р,, в следующем виде: + 1ра1 с „1~~( +~ Ра где суммирование выполняется по всем возможным состояниям а. Символ р,+„ обозначает вероятность того, что видимые нейроны сети находятся в состоянии а в то время, когда сеть находится в фиксированном (положительном) состоянии.
Символ Р,, обозначает вероятность того, что те же нейроны сети находятся в состоянии а в то время, когда сеть находится в свободном (отрицательном) состоянии. С помощью 13р~ ар- выведите правило обучения Больцмана. 11.11. Рассмотрим машину Больцмана, видимые нейроны которой делятся на входные и выходные. Состояния этих нейронов обозначим символами а и 7 соответственно. Состояния скрытых нейронов обозначим символом ~3.
Дивергенция Кулбека-Лейблера для этой машины определяется следующей формулой: ))к+йк- = т Ра ~ Риа 1оя а т Риа~ где Ра — веРоатность состолнил м во всех входных нейРонах; Рт,а — Условная вероятность того, что выходные нейроны зафиксированы в состоянии а, если входным состоянием является а; р„„а — условная вероятность того, что выходные нейроны находятся в состоянии термального равновесия зада и т5т т, при условии, что только входные нейроны находятся в состоянии а. Как и раньше, верхние индексы "плюс" и "минус" обозначают соответственно положительную (фиксироваииую) и отрицательную (свободиую) фазы. а) Выведите формулу для Рг+~~., для машины Больцмаиа, имеющей входиые, скрытые и выходные нейроны.
б) Покажите, что правило обучения Больцмаиа для коррекции сииаптических весов гс з в этой конфигурации сети будет выражаться той же формулой, которая описана выражением (11.53), ио с новой интерпретацией обозначеиий р~~, и р,, Сигмоидальные сети доверия 1!.12. Обобшите сходства и различия между машиной Больцмаиа и сигмоидальиыми сетями доверия. 11.13. В задаче 11.9 показано, что машина Больцмаиа описывается моделью двух- шаговой цепи Маркова. Допускает ли сигмоидальиая сеть доверия описание моделью цепи Маркова? 11.14.