Хайкин С. - Нейронные сети (778923), страница 146
Текст из файла (страница 146)
Градиентный спуск в пространстве параметров осуществляется с помощью определения пошагового изменения синаптических весов ш,: Ью„= гдг,(тг)гдш,, = т!рго (11.66) где г! = а!Т вЂ” параметр скорости обучения, а р,, определяется выражением (11.65). Равенство (11.65) называется правилом обучения сигмоидальной сети доверия (1еагп!пя гп!е Гог а к!яшо!д Ье!!еГ пепиогк). Процедура обучения сигмоидальной сети доверия в сжатом виде представлена в табл. 11.2. В ней обучение осуществляется в пакетном режиме.
Это значит, что изменения, применяемые к синаптическим весам сети, проводятся на основе всего множества примеров обучения. В алгоритме, представленном в табл. 11.2, не учтено 11.8. Сигмоидальные сети доверия 727 ТАБЛИЦА 11.2. Процедура обучения сигмоидальной сети доверия Инициализация. Сеть инициализируется путем присвоения весам ш„сети случайных значений, равномерно распределенных в диапазоне [ — а, а). Обычно значением а является число 0,5. Для данного множества примеров обучения Т видимые нейроны сети фиксируются в состояниях х„, где х,„еТ. Для каждого х„выполняется отдельное квантование Гиббса при некоторой рабочей температуре Т, после чего наблюдается полученный вектор состояний х всей сети. Предполагая, что моделирование проводится достаточно долго, значения х для разных классов, содержащихся в Т, должны принять условное распределение соответствующего случайного вектора Х, соответствующего данному множеству примеров.
Вычисляется среднее по множеству: р, = ч ~, '~ Р(Х = х~Х,„= х,„)х,х,<р — х, 2 ш„х, к ет хр ~<з где случайный вектор Х„является подмножеством вектора Х и х = (х„, ха). Векторы х„и ха соответствуют состояниям видимых и скрытых нейронов, х является ~-м элементом вектора состояний х (т.е. состоянием нейрона 7), а гл,, — синаптическим весом, направленным от нейрона 1 к нейрону у. Сигмоидальная функция ~р( ) определяется следуюшим образом: 1+ехр( — ю) 4.
Каждый из синаптических весов подвергается коррекции на величину Ью,, = з(Рлн где з) — параметр скорости обучения. Эта коррекция должна перемещать синаптические веса сети в направлении градиента в сторону локального максимума функции логарифмического правдоподобия Ь(тя) в соответствии с принципом максимального правдоподобия. использование модели отжига. Именно поэтому температура Т устанавливается в значение единицы. Тем не менее, как и в машине Больцмана, моделирование отжига в случае необходимости может быть внедрено в процедуру обучения сигмоидальной сети доверия для ускорения достижения точки термального равновесия.
В отличие от машины Больцмана для обучения сигмоидальной сети доверия требуется всего одна фаза. Причиной такого упрощения является то, что нормировка распределений вероятности по векторам состояния выполняется на локальном уровне каждого из нейронов с помошью сигмоидальной функции ф( ), а не глобально посредством сложного вычисления функции разбиения Я, при котором учитываются все возможные конфигурации состояний. Как только условное распределение вектора Х для данных значений х,„из множества примеров обучения Т было корректно 728 Глава 11.
Стохастические машиныи их аппроксимацинв статистической механике промоделировано с помощью квантования Гиббса, роль отрицательной фазы процедуры обучения машины Больцмана выполняет весовой множитель г[) — -ка 2, ш„х, т<з участвующий в вычислении усредненной по множеству корреляции р, между нейронами з и 7. Когда достигается локальный минимум функции логарифмического правдоподобия, этот весовой множитель становится равным нулю, если сеть обучалась детерминированному отображению; в противном случае его усредняющий эффект сводится к нулю.
В (778] представлены экспериментальные результаты, которые показази, что сигмоидальные сети доверия способны обучаться моделированию нетривиальных распределений. Эти сети способны обучаться быстрее машин Больцмана; такие преимущества сигмоидальных сетей доверия перед машиной Больцмана появились вследствие устранения из процедуры обучения отрицательной фазы. 11.9. Машина Гельмгольца Сигмоидальные сети доверия реализуют мощную многослойную систему для представления статистических взаимосвязей высокого порядка между сенсорными входами (и обучения без учителя).
В машине Гельмгольца'с (Не!ш]зо](2 шасЫпе), впервые описанной в [245) и [4601, предлагается другая удачная многослойная среда для достижения аналогичной цели, но уже без использования квантования Гиббса. Машина Гельмгольца использует два совершенно противоположных множества синаптических связей (рис. 11.7) для случая, когда двухслойная сеть состоит из двоичных стохастических нейронов. Прямые связи, показанные на рисунке сплошными линиями, составляют модель распознавания (гесодпвйоп шог]е!).
Целью этой модели является производство логических (шгег) о распределении вероятности, исходя из всех представленных примеров входных векторов. Обратные связи, показанные на рисунке пунктирными линиями, составляют порождающую модель (депегайуе шо(]с[). 'е Машина Гельмгольца принадлежит к классу нейронных сетей, характеризуемых прямыми и обратными проекциями (Гопчагб-Ьасйтчагб рго)есбоп). Идея таких проекций была предложена в 13921, гле изучалась теория адаптивного резонанса (айарйче шзопапсе бтеогу) [!751. В этой модели прямая адаптивная фильтрация комбинировалась с обратным сопоставлением моделей. При этом происходил адмпивный реюнанс (т.е.
усиление и пролонгация нейронной активности). В противоположность теории адаптивного резонанса Гроссберга машины Гельмгольца используют статистический подход к самообучающимся системам в качестве одной нз составляющих обобщенной модели, нацеленной на точное извлечение структуры входных данных. Другими тесно связанными с этой задачей работами являются [686], [687]. В первой из ннх была введена идея свернутых цепей Маркова (Гомеб Мшхоч сЬаш или РМС).
За прямыми переходами в иих следовали обратные переходы (использующие теорему Байеса) через калию той же цепи. Во второй работе рассматривалась связь между РМС и машиной (ельмгольца. Среди других работ можно упомянуть [547], в которой прямая модель распознавания н обратная порождающая модель рассматривались аналогично машине Гельмпшьца, однако без вероятностного подхода. В [244] рассматривалось множество различных вариаций машины Гельмгольца, атом числе схемы обучения с учителем. 11.9. Машина Гепьмпюьца 729 Распознавание Рнс.
11.7. Структурный граф машины Гельмгольца, состоящей нз взаимосвязанных нейронов со связями распознавания (сппошные линии) н порождающими связями (пунктнрные линии) р й слой Вхолно слой Первый скрытый слой в предыдущем слое. Во время фазы засыпания веса распознавания отключаются. Сеть работает послойно в обратном направлении с помощью порождающих весов, начиная с самого дальнего скрытого слоя и заканчивая входным слоем.
Благодаря тому что нейроны являются стохастическими, повторение этого процесса обычно приводит к созданию массы "фантастических" векторов во входном слое. Эти "фантазии" составляют Эта модель предназначена для аппроксимации исходных входных векторов на основе представлений, созданных скрытыми слоями сети, путем самоорганизации. Обе эти модели работают на основе метода прямого распространения, не имеют обратных связей и взаимодействуют друг с другом посредством процедуры обучения. В (460) описан стохастический алгоритм, названный алгоритмом засыпанияпробуждеиия (хуа(ге-з1еер а!яог(т(зт), предназначенный для вычисления связей распознавания и порождающих весов в машине Гельмгольца.
Как следует из названия этого алгоритма, он содержит две фазы: пробуждения и засыпания. В фазе пробуждения проход по сети осуществляется в прямом направлении с использованием связей распознавания, вследствие чего в первом скрытом слое создается представление входных векторов. Затем, в свою очередь, следует второе представление первого представления, которое создается во втором скрытом слое, и т.д. для всех скрытых слоев сети.
Множество созданных таким способом представлений в различных скрытых слоях сети обеспечивает полное описание множества входных векторов в данной сети. Несмотря на то что сигналы передаются по распознающим весам, на самом деле во время фазы пробуждения на основе локально доступной информации обучаются только порождающие связи. В результате эта фаза процесса обучения повышает качество восстановления для каждого из слоев общего представления, сформированного 730 Глава 11. Стохастические машинын нх аппроксимацннв статистической механике иесмещеииый образ порождающей модели мира в данной сети. После создания такой "фантазии" для коррекции весов распознавания применяется обычное дельта-правило (см.
главу 3). Целью этого является максимизация вероятности восстановления действий скрытых слоев, вызвавших данную фантазию. Подобно фазе пробуждения, фаза засыпания использует только локально доступную информацию. В процессе обучения порождающих весов (т.е. обратных связей) также используется простое дельта-правило. Однако вместо градиента функции логарифмического правдоподобия в этом правиле используется градиент ииирафной функции логарифмического правдоподобия (репа11хео 1од-1йе!гпоод бзпсг(оп). Слагаемое штрафа представляет собой дивергеицию Кулбека — Лейблера между истинным апостериориым распределением и фактическим распределением, создаваемым моделью распознавания 14601. Дивергенция Кулбека-Лейблера (или относительная энтропия) рассматривалась в предыдущей главе.
В результате штрафная функция логарифмического правдоподобия выступает как нижняя граница функции логарифмического правдоподобия входных данных, и эта нижняя граница улучшается в процессе обучения. В частности, в процессе обучения происходит корректировка порождающих весов с целью получения истинного апостериориого распределения, максимально приближенного к распределению, вычисленному моделью распознавания. К сожалению, обучение весов модели распознавания точно ие соотве'гствует штрафной функции правдоподобия. Процедура пробуждения-засыпания ие гарантирует работоспособность во всех практических ситуациях — иногда оиа завершается неудачей. 11.10. Теория среднего поля Обучаемые машины, рассмотренные в предыдущих трех разделах, имеют одно общее свойство: в иих используются стохастические нейроны, вследствие чего можно обеспечить только медленный процесс обучения.