Хайкин С. - Нейронные сети (778923), страница 148
Текст из файла (страница 148)
В свете (11.78) можно записать: ц.) > ~ ох, = „и. = ..) ~„~ Р(Х = х) ФХа = ха~Х. = «.) *о или, эквивалентно: 1-(тт) > — ,'1 ®Ха = ха~Хе = х„) 1ой фХа = ха~Х,„= х,„) + хк + ~~> Я(Ха = ха~Х„= х„) 1ой Р(Х = х). (11.79) Первое слагаемое в правой части (11.79) представляет собой энтропию распределения среднего поля Я(Ха =ха~Х„=х,„). Не следует путать его с условной энтропией! Второе слагаемое представляет собой среднее логарифма 1ой Р(Х=х) по всем возможным состояниям скрытых нейронов. При единичной температуре (см.
рассуждения о распределении Гиббса в разделе 11.2) энергия сигмоидальной сети доверия равна — 1од Р(Х = х). Таким образом, с учетом (11.61) при Т = 1, получим: Р(Х = х) = П~р х, ~> юлхк 3 $<~ Следовательно, Е = — 1ойР(Х = х) = — ~~) 1ойд х, ~и„х, 3 к<э (11.80) Используя определение сигмоидальной функции 1 ехр(о) 1+ ехр( — о) 1+ ехр(о) ' Е = — ~> ~ш„х,х, + ~~ '1ой 1+х, ',к ш„,т,, (11,81) як<э з ю<э функцию энергии сигмоидальной сети доверия можно формально выразить следующим образом: 11.12.
Детерминированные сигмоидальные сети доверия 737 За исключением множителя 1/2, в первом слагаемом правой части (11.81) можно узнать функцию энергии Марковской системы (например, машины Больцмана). Однако второе слагаемое уникально только для сигмоидальных сетей доверия. Нижняя граница (11.79) подходит для любого распределения среднего поля Я(Хр =хр]Х„=х„). Однаю для удобства использования необходимо выбрать таюе распределение, которое позволит оценить эту границу.
Для этого используем факториальное расиределение (Гас!от(а! д1аатЬпг!оп) 1936]: ФХр ха]Ха = ха) — П Р~ (1- Нз) (11. 82) зен где Н вЂ” множество всех скрытых нейронов, а состояния скрытых нейронов представляют собой независимые переменные Бернулли (Вегпоп!й тапаЫе) с корректируемым средним !з,. (Веглоп!!! (О) определяется как двоичная случайная переменная, принимаюшая значение 1 с вероятностью О.) Исходя из этого, подставляя (11.82) в (11.79), после упрошения получим; Е(тт) > 2, [)г 1ОК)г + (1 — 1гт) 1ОК(1 — р )]+ зен +2; 2; п„)г,.)зт — 2; 1оК 1+ехр 2'ю,,х; (11.84) Чтобы обойти эту сложность, снова обратимся к неравенству йенсена.
Прежде всего, для любой переменной гт и произвольного действительного числа с (1оК[1+ ехр(зт)]) можно выразить в отличной, но эквивалентной форме: < 1оК(1 + е" ) > = < 1оК[е~з" е ~з" (1 + е" )] >= = Рт < г, > + < 1оК[е 4 *' + ец ь !" ] >, (11.85) где под <.> подразумевается среднее по множеству распределение среднего поля, а выражение з Е Н означает принадлежность данного нейрона к скрытому слою. Первое слагаемое в правой части (11.83) является энтропией среднего поля, а второе — энергией среднего поля.
Оба эти слагаемые относятся к факториальному распределению (11. 82). К сожалению, остается одна нерешенная проблема: невозможно вычислить точное среднее формы (1оК[1+ ехр(ат)]). Это слагаемое содержится в (11.83) с учетом подстановки 738 Глава 11. Стохастнческие ыашиныи их аппроксимациив статистической механике где <л, > — среднее по множеству значение д,. Теперь применим неравенство Йенсена в другой форме. Ограничивая сверху среднее в правой части (11.85), получим: 1 < 1оя(1+ е" ) >< Р, < гу > + 108 < е ьг" + ен " 1" > .
(11.86) Присваивая Р, значение нуль, получим соотношение < 1оя(1+ е") >< 108 < 1+ е" > . Применяя ненулевое значение ~~, можно ограничить среднее <108[1ьехр(г ))> более точно, чем это возможно при стандартном ограничении (965). Это будет продемонстрировано на следующем примере. Пример 11.3 Перемениаи с гауссовым распределением Для демонстрации полезности ограничения (11.86) рассмотрим пример переменной с гауссовым распределением, нулевым средним и единичной дисперсией.
Для зтого частного случая точным значением <1ой[1еехр(з;) 1> является 0,806. Ограничение, описываемое (1!.86), принимает вид если + ес'зц ь 1. Оно достигает своего минимального значения 0,818 при Ч =0,5. Это значение гораздо ближе к истинному значению, чем значение 0,974, полученное из стандартного ограничения при Е, =0 [9361. Возвращаясь к рассматриваемому вопросу, подставляя (11.85) и (11.86) в (11.83), получим нижнюю границу логарифмического правдоподобия события Хо =кв в следующем виде: 1.(тт) > — ~~1 [[з, 108 [15 + (1 — [гу) 108(1 — [гу)) + ~~„~~~ ш,"[гз([гу — 15)— зби зен г<у — 1оя (ехр( — ~,.гу) + ехр((1 — ~у)г,)), (11.87) урн где само зу определяется выражением (11.84). Это выражение и является искомым ограничением функции логарифмического правдоподобия Е(тт), вычисляемой в последовательном режиме алгоритма.
Процедура обучения для аппроксимации среднего поля сигмоидальной сети доверия При выводе ограничения (11.87) было введено множество вариациолных ларамезиРов: )гу дла 7 Е Н и ~, дла всех 7' без опРеделениЯ их в Явном виде. Эти паРаметРы являются настраиваемыми. Так как основной целью является максимизация функции логарифмического правдоподобия, естественно осуществлять поиск таких значений 11.12.
Детерминированные снгмондапьные сети доверия 739 )г, и ~, которые максимизируют выражение в правой части (11.87). Для достижения этой цели будем использовать двухшаговую итеративную процедуру, которая описана в [9361. Сначала рассмотрим ситуацию, в которой среднее значение р, фиксировано, а требуется найти такие параметры Г,, которые обеспечивают самое близкое к реальному ограничение функции логарифмического правдоподобия Е(эг). Следует заметить, что выражение в правой части (11.87) не обьединяегл слагаемые с Р,, которые относятся к разным нейронам сети. Исходя из этого, минимизация выражения по г,, сводится к Х независимым операциям минимизации на интервале (О, 1], где М вЂ” общее юличество нейронов в сети.
Теперь рассмотрим ситуацию, в которой значения Р, фиксированы, а требуется найти такое среднее значение )г,, которое обеспечивает самое точное ограничение функции логарифмического подобия Е(зт). С этой целью введем следующее определение; К, = — — 1ок (ехр( — Г,з,) + ехр((1 — Р,,)гз)), (11.88) д где случайная переменная г, определяется выражением (11.84). Частная производная К, является мерой влияния родительского состояния х, нейрона 1 на состояние х, нейронами' для данного примера х„б Т.
Как и в случае с синаптическими весами сигмоидальных сетей доверия, К, будут иметь ненулевое значение только в том случае, когда состояние х; является родительским по отношению к состоянию х . Используя факториальное распределение (11.82), можно оценить среднее по множеству величин ехр( — Р„х ) и ехр((1 — Р ) х ), а затем — частную производную К,, (формула для вычисления последнего приведена в табл. 11.3). Имея значение К„, можно продолжить решение задачи вычисления параметра )г., максимизирующего функцию логарифмичесюго правдоподобия Ь(эг) для фиксированного Рт В частности, дифференцируя (11.87) по р,, приравнивая результат к нулю и переставляя слагаемые, получим: Эквивалентно, можно записать: )г, = ф ~) (ш,М, +ш„(Н, — ~,) + Ко), у Е Н, (11.89) 1<7 где у( ) — сигмоидальная функция. Равенство (11.89) называется уравнением среднего паяя (шеап-йеЫ ейпа11оп) для сигмоидальной сети доверия.
Аргумент сигмоидальной функции в этом уравнении образует так называемое покрытие Маркова (Магкоч Ыалкег), характеризуемое следующим образом. 740 Глава 11. Стокастические машиныи их аппроксимациив статистической механике Роантелн нейрона / Потомки нейрона/ Рмс. 11.9. Покрытие Маркова ° Родители и потомки нейРона 3 пРедставлены слагаемыми тс,,ц, и воце соответственно. ° Другие родители потомков нейрона т учитываются через частную производную К, дВ(тт) тстз = т) дтсзе (11.90) где 11 — параметр скорости обучения; В(и) — нижняя граница функции логарифмического правдоподобия 1.(тт), т.е.
В(тт) — выражение в правой части формулы (11.83). Используя эту формулу, несложно вычислить и частные производные дВ(и)/дтстз. Процесс обучения для приближения среднего поля к сигмоидальной сети доверия представлен в табл. 11.3. В этой таблице содержатся формулы для оценки частных производных Кз и дВ(тт)/дтс,.
Покрытие Марюва нейрона т' показано на рис. 11.9. Понятие "покрытия Маркова" было введено в [821). В этой работе утверждалось, что эффективный вход нейрона т' составлен из слагаемых, относящихся к его родителям, потомкам и родителям последних. Если выполняется условие того, что выбор факгориального распределения (! 1.82) в качестве аппроксимации апостпериорного распределения Р(Ха =ха~Х» =х») не точен, уравнение среднего поля (11.89) устанавливает параметры ()г ) нн в такие оптимальные значения, которые делают аппроксимацию насколько возможно точной. Это, в свою очередь, приводит к точному ограничению среднего поля функции логарифмического правдоподобия Е(и), вычисляемой в последовательном режиме [936).
После вычисления сюрректированных значений параметров (Р!) и ()а ) переходим к вычислению коррекции синаптических весов тлтз по следующей формуле: 11.12. Детерминированные снгмоидапьные сети доверия 741 ТАБЛИЦА 11.3. Процедура обучения дпя приближения среднего поля к сигмои- дальной сети доверия Инициализация. Сеть инициализируется присвоением весам и»,, сети случайных значений, равномерно распределенных в интервале [ — а, а[, где в качестве а обычно выбирают число 0.5 Вычисления. Для примера х„, выбранного из множества обучения Т, выполняем следующие вычисления 1. Коррекция (~1) при фиксированных (р ) Фиксируем средние значения (цз),ен, относящиеся к факториальному приближению апостериорного распределения Р(Хк =ха~Х =х ), и минимизируем следующую границу функции логарифмического правдоподобия: В(тг) = — х [»г, 1ой»г, + (1 — р,.) 1ов(1 — р,)[+ ~~' ~~' ш,,црз— уен » зенл<З вЂ” ш,,р»с, — ~~» 1ой(ехр( — с,хз) + ехр((1 — Г )ху)), зен » зенл<з где х = ',»; ш,,х,.