Хайкин С. - Нейронные сети (778923), страница 143
Текст из файла (страница 143)
Предположим, что известно условное распределение Хь при заданных значениях всех з Квантование Гиббса связано со статиспгчесюй физиюй и широко используется в обработке изображений, нейронных сетях и статистике, что последовало за его формальным описанием в [342], [343]. В последней работе также рассматриваются другие подходы к квантованию, основанные на иных способах получения числовых оценок граничнык распределений вероятности.
В [431] было представлено обобщение алгоритма Метрополиса, относительно которого квантование Гиббса является частным случаем, и был показан его потенциал в решении числовых задач статистики. Состояние (агате), конфигурация Энергия (епегйу) Температура Энергия основного состояния (ягоппт[-зта[е епегйу) Конфигурация основного состояния (йтоппт[-зтатс сопййпта6оп) 11.6. Распределение Гиббса Экземпляр задачи (ртоЫеш ш- зтапсе) Конфигурация (сопййтпа6оп) Функция стоимости (созт йтпст[оп) Параметр управления Минимальная стоимость 712 Глава 11.
Стохастические машииыи их аппроксимациив статистической механике остальных компонентов вектора Х (/с = 1, 2, ..., К). Ставится задача получения числовой оценки граничной плотности (щагя(па! депе(гу) случайной переменной Хь для всех к. Схема квантования Гиббса генерирует значения для условного распределения каждого из компонентов вектора Х при заданных значениях всех остальных его компонентов. В частности, начиная с произвольной конфигурации (х,(0),хз(0),...,хк(0)), первой итерации квантования Гиббса создаются следующие подвыборки: х~ (1) выбирается из распределения Х, при известных хз(0), хз(0),...,хк(0).
хз(1) выбирается из распределения Хз при известных хг(1), хз(0),...,хк(0). хь(1) выбирается из распределения Хь при известных хг(1), хь ~(1), хне, (0),...,хк(0). хк(1) выбирается из распределения Хк при известных х,(1), хз(1),...,хк г(1). Аналогичные действия выполняются на следующих итерациях схемы квантования. При этом следует особо отметить следующие вопросы. 1. Каждый из компонентов случайного вектора Х "посещается'* в естественном порядке. В результате на каждой итерации формируется К случайных величин. 2. Новое значение компонента Хь, используется сразу же после создания, при формировании случайного значения Хь, !г =2, 3,..., К.
Из представленного материала видно, что схема квантования Гиббса является итеративной адаптивной схемой (йегабче адарйче зслепзе). После п итераций получается К случайных значений Х, (п), Хз (п),...,Хк(п). При относительно мягких условиях для схемы квантования Гиббса выполняются следующие теоремы (342), (343). 1. Теорема о сходимости. Случайная переменная Хь(п) сходится по распределению к истинному распределению вероятности Хь для (с = 1, 2,..., К при стремлении п к бесконечности, т.е. 1пп Р(Х~Ь"~ < х(хь(0)) = Ех„(х), (с = 1, 2,..., К, (1!.35) где Рх, (х) — функция граничного распределения вероятностиХю В (343) был доказан более строгий результат.
В частности, в ней не требовалось посещение каждого компонента случайного вектора Х в естественном порядке. Сходимость квантования Гиббса сохраняется и при произвольном порядке посещения компонентов Х. Это значит, что эта схема не зависит от значений переменных и что каждый из компонентов Х посещается "бесконечно часто". 2. Теорема о скорости сходимости. Совместное распределение вероятности случайных переменных Хг(п), Хз(п),...,Хк(п) сходится к истинному совместному распределению вероятноспш Х,, Хз,...,Хк пропорционально п. 11.7. Машина Больцмаиа 713 В теореме предполагается, что компоненты вектора Х посещаются в естественном порядке.
Однако если используется произвольное, но бесконечно частое посещение, скорость сходимости претерпевает незначительное изменение. 3. Теорема об эргодичности. Для любой измеримой функциид от (к примеру) случайных переменпыхХ„Хз,...,Хк, озкидания которой известны, с вероятностью 1 выполняется: 1 1пп — ,'! д(Х,(!),Х,(!),,ХкЯ) — ~ Е(д(Х!,Хз,,Хк)) (11.36) г=! Теорема об эргодичности предлагает способ использования выхода квантователя Гиббса для вычисления числовых оценок искомых граничных плотностей.
Квантователь Гиббса используется в машине Больцмана для квантования на основе распределений скрытых нейронов. Эта стохастическая машина рассматривается в следующем разделе. В контексте стохастических машин, использующих двоичные элементы (т.е, машин Больцмана), следует заметить, что квантователь Гиббса является вариантом алгоритма Метрополиса. В стандартной форме алгоритма Метрополиса движение происходит вниз по склону с вероятностью !. В противоположность этому в альтернативной форме алгоритма Метрополиса мы движемся вниз по склону с вероятностью единица минус экпоненциал дефицита энергии (епегйу Бар) (т.е. вклад в правило движения вверх по склону). Другими словами, если изменение энергии Е произошло в сторону уменьшения или энергия осталась неизменной, то изменение принимается.
Если изменение предполагает увеличение энергии, оно принимается с вероятностью ехр( — ЬЕ), в противном случае оно отвергается, сохраняя предыдущее состояние (777). 11.7. Машина Больцмана Машина Больцмана (Во!1хшапп шасЬ(пе) представляет собой стохастическую машину, компонентами которой являются стохастические нейроны. Стохастический нейрон находится в одном из двух возможных вероятностных состояний. Этим двум состояниям формально можно присвоить значения +1 (соответствующее включенному состоянию) и — 1 (соответствующее выключенному состоянию). Аналогично, можно принять значениями этих состояний +1 и О соответственно. Примем первое допущение.
Еще одним отличительным свойством машины Больцмана является использование симметричных синаптических связей (зупппе1пс зупар1!с соппесгюп) между нейронами. Использование этой формы синаптической связи обусловлено соглашениями статистической физики. г14 Глава 11. Стохастнческне машнныи их аппрокснмациив статистической механике Скрытые нейроны Рмс. 11.4. Структурный граф машины Больцмана (где К вЂ” количество види- мых, а Ь вЂ” количество скрытых нейро- нов) Видимые нейроны ° Каждый входной вектор внешней среды подается иа вход сети достаточно долго, чтобы система достигла температурного равновесия.
° Не существует определенной последовательности подачи векторов среды в видимые элементы сети. а Видимые нейроны в машине Больцмана можно дополннтельно подразделить на входные н выходные. В этой второй конфнгурацнн машина Больцмана реализует ассоциации под руководством учителя. Входные нейроны получают информацию от окружаюшей среды, а выходные довозят результаты вычислений до конечного пользователя. Стохастические нейроны машины Больцмаиа разбиваются иа две функциональные группы: видимые (ига)Ые) и скрытые (ЬЫдеп) (рис. 11.4).
Видимые иейроиые предоставляют интерфейс между сетью и средой, в которой оиа работает. Во время этапа обучения сети видимые нейроны фиксируются в своих специфичных состояниях, определяемых средой. С другой стороны, скрытые нейроны всегда работают свободно — оии используются для выражения ограничений, содержащихся во входных векторах. Скрытые нейроны выполняют эту задачу с помошью извлечения статистических корреляций высокого порядка в ограиичиваюших векторах. Сеть, описанная выше, является частным случаем машины Больцмаиа. Ее можно рассматривать как процедуру обучения без учителя моделированию распределения вероятности, которое применяется к видимым нейронам с соответствующими вероятностями.
Таким образом, сеть может осуществлять дополнение образов (рапегп сагир!ебоп). В частности, если вектор с неполной информацией поступает в подмножество видимых нейронов, сеть (в предположении правильности процедуры обучения) дополняет зту информацию в оставшихся видимых нейронах [457]. Главной целью обучения Больцмаиа является создание нейронной сети, которая правильно моделирует входные образы в соответствии с распределением Больцмаиа. При использовании этой формы обучения делаются два предположения.
11.7. Машина Больцмана 716 Считается, что множество синаптических весов реализует совершенную модель структуры среды, если она приводит к точно такому же распределению вероятности состояний видимых элементов (при свободной работе сети), к какому приводит подача входных векторов среды. В общем случае, если количество скрытых нейронов не является экспоненциально большим по сравнению с количеством видимых элементов, такой совершенной модели достичь невозможно. Если же среда имеет упорядоченную структуру, а сеть использует скрытые элементы для извлечения этих закономерностей, можно достичь хорошего соответствия при достаточном количестве скрытых элементов. Квантование Гиббса и моделирование отжига в машине Больцмана Обозначим символом х, состоящим из компонентов х;, соответствующих состояниям нейронов г, вектор состояний машины Больцмана.
Это состояние х представляет собой реализацию случайного вектора Х. Синаптические связи между нейронами ( и 7' обозначим символами ю о При этом ю„= ю„. для всех пар (т, у) (11.37) ют, = О для всех г. (11.38) Е(х) = — — ~~1 ~~з ю„хтх . 1 (11.39) Вводя распределение Гиббса (11.5), можно определить вероятность того, что сеть находится в состоянии х (при этом предполагается, что она находится в равновесии т Формула 1! 1.39) применима к машине Еольпмана, в которой состояния "вкл" и "выкл" задаются значениями Э1 и -1 соответственно.