Хайкин С. - Нейронные сети (778923), страница 145
Текст из файла (страница 145)
Описанное здесь обучение выполняется пакетным методом. Это значит, что изменения в сннаптических весах происходят после представления всего множества примеров обучения. Согласно этому правилу обучения, синаптнческие веса машины Больцмана корректируются с использованием только локально наблюдаемых значений при следуюгцих двух разных условиях: фиксированной н свободной фазе работы. Это важное свойство обучения Больцмана упрощает архитектуру сети, что особенно чувствуется при работе с большими сетями. Еще одним важным свойством обучения Больцмана (оно может стать приятным сюрпризом) является то, что правило коррекции синап- 11.7.
Машина Больцмана 721 тических весов между нейронами 1 и з не зависит от того, являются ли оии оба видимыми, скрытыми нли же один является скрытым, а второй — видимым. Все эти прекрасные свойства обучения Больцмана являются результатом глубоких исследований в [464], [465]. В этой работе абстрактная математическая модель машины Больцмана и нейронные сети были связаны с помощью комбинации двух факторов. ° Распределения Гиббса для описания стохастических свойств нейронов. ° Функции энергии, взятой из статистической физики (11.39), используемой для определения распределения Гиббса. С точки зрения обучения, два слагаемых, составляющих правило обучения Больцмана (1!.53), имеют прямо противоположные значения.
Первое слагаемое, соответствуюшее фиксированному состоянию сети, можно рассматривать как правило обучения Хебба (НеЪЬ!ап!еапппй гп!е). Второе слагаемое, соответствующее свободному состоянию сети, можно рассматривать как слагаемое забывания (Гогйеп!пй 1епп). И в самом деле, правило обучения Больцмана представляет собой не что иное, как обобщение правила повторяющегося забывания и обучения (йепегайгабоп о( 1Ье гереагеб (огйезбпй апб ге!еагшпй гп!е), описанного в [852] для случая симметричных нейронных сетей, не содержащих скрытых нейронов. Интересно отметить следующее.
Так как алгоритм обучения машины Больцмана требует, чтобы скрытые нейроны чувствовали разницу между стимулируемым и свободным режимами, при наличии (скрытой) внешней сети, посылающей сигналы этим скрытым нейронам стимулируемой машины, получим примитивную форму механизма внимания (анепйоп шесЬашяп) [227]. Потребность в отрицательной фазе и ее применение Комбинированное использование положительной и отрицательной фаз стабилизирует распределение синаптических весов в машине Больцмана.
Эта потребность может быть обоснована и с другой точки зрения. Интуитивно можно утверждать, что потребность в отрицательной фазе наряду с положительной в машине Больцмана возникает в связи с наличием функции разделения (рагббоп йпсбоп) с в выражении для вектора вероятности состояний нейрона.
Применение этого утверждения заключается в том, что направление наискорейшего спуска в пространстве энергии отличается от направления наискорейшего спуска в пространстве параметров. В результате для учета этого несоответствия и возникла потребность в отрицательной фазе [778]. Использование отрицательной фазы в обучении Больцмана имеет два существенных недостатка.
1. Увеличенное время вычислений. Во время положительной фазы отдельные нейроны фиксируются внешней средой, в то время как во время отрицательной фазы 722 Глава 11. Стохастические машиныи их аппроксимацииа статистической механике все нейроны работают свободно. В результате этого время, затраченное стохастическим моделированием машины Больцмана, возрастает. 2. Чувствительность к статистическим ошибкам. Правило обучения Больцмана учитывает различия между двумя средними корреляциями. Одна из них вычисляется для положительной фазы, а вторая — для отрицательной. Когда зти две корреляции подобны, наличие шума делает это различие еще более заметным. Эти недостатки машины Больцмана можно обойти с помощью использования сигмоидальных сетей доверил 1з18шо!д Ье!1еГ пепчог)с). В этом новом классе стохастических машин управление процедурой обучения осуществляется посредством фазы, отличной от отрицательной.
11.8. Сигмоидальные сети доверия Сигмоидальные сети доверия (я!8тпо)д ЬейеГ пепчогк) или логистические сети доверия (1ой!з!1с Ьейет пе!) были разработаны в 1778) в попытке найти стохастнческую машину, которая была бы способна обучаться произвольному распределению вероятности на множестве двоичных векторов, но не имела бы, в отличие от машины Больцмана, потребности в отрицательной фазе. Эта цель была достигнута заменой симметричных связей в машине Больцмана прямыми соединениями, формирующими аиикличный граф.
Говоря более точно, снгмоидальные сети доверия имеют многослойную архитектуру, состоящую из двоичных стохастических нейронов (рис. 11.б). Ацикличная природа этих машин облегчает осуществление вероятностных вычислений. В частности, эта сеть использует сигмоидальную функцию (11.43), по аналогии с машиной Больцмана, для вычисления условной вероятности того, что нейрон будет акгивирован в ответ на свое собственное нндуцированное локальное поле.
Фундаментальные свойства сигмоидальных сетей доверия Пусть вектор Х, состоящий из случайных двоичных переменных Х„Хз, ..., Х,ч, определяет сигмоидальную сеть доверия, состоящую из Х стохастических нейронов. Родители элемента Х, в векторе Х обозначаются следующим образом: ра(Х,) ~ 1Х„Х„...,Х,,). (11.55) Другими словами, значением ра(Х,) является наименьшее подмножество случайного вектора Х, для которого Р(Х; = т,.~Х1 — — хы...,Х,, = т,) = Р(Х, = х,1ра(Х )). (11.56) 11.8. Снгмондальные сети доверия 723 Выходы Входы Скрытый слой слой Рнс. 11.6. Структурный граф снлыондальной сети доверия Важным достоинством сигмоидальных сетей доверия является их способность явно представлять условные зависимости исследуемых вероятностных моделей входных данных.
В частности, вероятность активации 1-го нейрона определяется следующей сигмоидальной функцией (см. (11.43)): Р(Х, = х,~ра(Х,)) = ф — ~ ~~к ш„.х, л<у (11.57) 1, ш„=О для всех Х„не принадлежащих ра(Х, ). 2. ш; =О для всех 1 ) 7'. Первое условие вытекает непосредственно из определения родителей. Второе условие следует из того факта, что сигмоидальные сети доверия являются направленным ацикличным графом. где и~;, — синаптический вес, идущий от нейрона 1 к нейрону 7' (см. рис. 11.б). Это значит, что условная вероятность Р(Х, = х, ~ра(Х,)) зависит от ра(Х,) только через сумму взвешенных входов. Таким образом, выражение (11.57) создает базис для распространения доверия по сети.
При осуществлении расчетов вероятности в сигмоидальных сетях доверия нужно учесть два следующих условия. 724 Глава 11. Стохастические машиныи их аппроксимациив статистической механике Как следует из самого названия, сигмоидальные сети доверия принадлежат к общему классу селтей доверия (Ъе((е1 пепиог)с)Р, интенсивно изучаемых в литературе 1822]. Стохастическая работа сигмоидальных сетей доверия немного сложнее работы машин Больцмана. Тем не менее обе этн системы используют обучение методом градиентного спуска в пространстве вероятностей, основанное на локально доступной информации.
Обучение в сигмоидальных сетях доверия Обозначим символом Т множество примеров обучения, отобранных из интересующего нас распределения вероятности. Предполагается, что каждый из примеров является двоичным и представляет некоторый атрибут. При обучении допускаются повторения примеров с частотой, пропорциональной частоте встречи на практике подобной комбинации атрибутов.
Для моделирования распределения, из которого отобрано множество Т, выполним следующие действия. 1. Для сети определим размер вектора состояний х. 2. Выберем подмножество этого вектора (обозначенное хп), представляющее атрибуты примеров обучения. Это значит, что х„представляет собой вектор состояний видимых нейронов. 3.
Оставшаяся часть вектора состояний (обозначенная хб) определяет вектор состояний скрытых нейронов (т.е. расчетных узлов, для которых значения не устанавливаются). Архитектура сигмоидальной сети доверия в значительной мере зависит от организации состояний видимых и скрытых элементов в векторе х. Таким образом, разные композиции состояний скрытых и видимых нейронов могут привести к разным конфигурациям. Как и в случае с машиной Больцмана, мы выведем искомое правило обучения для сигмоидальной сети доверия, максимизировав функцию логарифмического правдоподобия, вычисленную на множестве примеров Т. Для удобства представления еще раз приведем функцию логарифмического правдоподобия Ь(рр) (см.
(11.45)): Цуг) = ~ 1ойР(Хц = х„), х бт я Сети доверия изначально были введены с целью представления вероятностных знаний в экспертных системах 18221. В литературе они также иногда называются сетями Байеса, или байесааскини семяна (Вауеяап пепхогхх 11.8.
Сигмоидальные сети доверия 728 дА(зг) ~ 1 дР(Х„= х„) дюэ«Р(Хи = ха) дюп Далее вспомним два вероятностных соотношения: Р(Хе = х,„) = э Р(Х = (х,„,хя)) =~1 Р(Х = х), (11.58) «г где случайный вектор Х относится ко всей сети, а вектор состояний х = (х, хр) является его реализацией, и Р(Х = х) = Р(Х = х~Х„= х„)Р(Х = х„), (11.59) где определяется вероятность совместного события Х = х = (х„, хр). В свете этих двух соотношений можно определить частную производную дА(эг)!диан в эквивалентном виде: дА(эт) Х Х Р(Х = х~Хо — — х„) дР(Х„= хе) дин ~ ~ Р(Х=х) дю, «ет «« (11.60) В свете выражения (11.43) можно записать: (11.61) где гр( ) — сигмоидальиая функция своего аргумента.
Отсюда следует: 1 дР(Х=х) д д 1оя Р(Х = х) = — ~~г 1оя гр — ' ~~ ю„х, (х, ,(Х=х) д „д „ дю,, 1 «<э 1 1 ,(х; «<з где тя — вектор сииаптических весов сети, который считается неизвестным. Вектор состояний х,„, относящийся к видимым нейронам, является реализацией случайного вектора Хя. Обозначим символом ю„ Д-й элемент вектора и (те. сииаптический вес, направленный от нейрона г к нейрону т). Дифференцируя функцию Х,(тя) по ю „получим: 726 Глава 11. Стохастические машииыи их аппроксимациив статистической механике где ф'( ) — первая производная сигмоидальной функции ф( ) от своего аргумента. Однако из определения функции ф(.) (см. (11.44)) видно, что (11.62) где ф( — с) получается из ф(о) заменой о на — ю Исходя из этого, можно записать, что = — ~> ф — — ' ,'~ ш„х, х,х,.
(11.63) 1 дР(Х=х) 1 ( х, з<~ Следовательно, подставляя (11.63) в (11.60), получим: дт (тт) 1 — Р(Х = х!Хи — — х„)ф — — ' ~> ш,х, х,х,. (11.64) 1 х, к ет т<г Для упрощения определим среднее но множеству (епвещЫе ачегаяе) как р„=<ф — х ~~~ ш,х, хх;)= и<1 Р(Х = х~Х„= х„)ф — — ' ~~~ ш„х< х,х,. х„ет кк $ <.7 (11.65) Это выражение представляет усредненную корреляцию (ачегаяе согге!айоп) между состояниями нейронов 1 и г, взвешенную множителем ф — тг 2, ш,,х, . Это а<1 среднее значение берется по всем возможным значениям х„(выбранным из множества Т), равно как и по всем возможным значениям хр. Здесь х„относится к видимым нейронам, а ха — к скрытым.