Хайкин С. - Нейронные сети (778923), страница 150
Текст из файла (страница 150)
Для того чтобы найти минимальное значение Лагранжиана Р, подставим распределение Гиббса (11.97) в (11.92) и (11.96) и полученное выражение используем в формуле Лагранжиана Р (11.95). Результат будет иметь следующий вид (см. задачу 11.22): В этом выражении ясно видна роль ассоциативной вероятности Р(Ъ'=у~Х=х). Поэтому, помня о соответствии между задачами условной оптимизации кластеризации и статистической физикой и применяя принцип минимума свободной энергии (см. раздел 11.2), обнаруживаем, что минимизация Лагранжиана Р по отношению к ассоциативным вероятностям приводит к распределению Гиббса: 746 Глава 11.
Стохастические машиныи их аллроксимациив статистической механике Р' = ппп Е = — Т ~ Р(Х = х) 1обУ,. ыт=т|х=*> и (11.99) Для того чтобы минимизировать Лаграижиаи по оставшимся свободным параметрам (т.е. по вектору кодирования у), приравияем градиент Р* по у к нулю и получим следующее уравнение: д ~~> Р(Х = х,У = у) — г((х,у) = О для всех у Е Х, (11.100) ду где х' — множество всех векторов кодирования.
Используя формулу (11.93) и иормируя выражение по Р(Х = х), можно переопределить условие минимизации следующим образом; 1 д Х ду — ~> Р( х' = у~Х = х) — д(х, у) = О для всех у Е к', (11.101) 1. Векторы кодирования фиксируются, и для определенной меры искажения г((х, у) используется распределение Гиббса с целью вычисления ассоциативных вероятностей. 2. Ассоциации фиксируются, и выражение (11.101) используется для оптимизации меры искажения Щ у) по векторам кодирования у. В этой двухшаговой итеративной процедуре функция монотонно ие возрастает по Р", что гарантирует сходимость к минимуму.
При высоких значениях температуры Т Лаграижиаи Р* достаточно гладок и является выпуклой функцией у (при выполнении мягких допущений относительно меры искажения о(х, у), сделанных ранее). Глобальный минимум Лаграижиаиа Р* может быть найден при высоких температурах. По мере понижения температуры Т ассоциативные вероятности становятся жесткими, что приводит к жесткому решению задачи кластеризации. где ассоциативная вероятность Р(х'=у~Х=х) определяется из распределения Гиббса (11.97). В выражение (11.101) множитель 1/Х включен исключительно из соображений последовательности изложения. Здесь Ат — количество доступных примеров.
Теперь можно описать алгоритм детерминированного отжига для кластеризации (895). Алгоритм состоит из минимизации Лаграижиаиа Е' по векторам кодирования при достаточно высокой температуре и тщательным подбором точки минимума при постепенном понижении температуры. Другими словами, детерминированный отжиг работает со специфичным расписанием, в котором температура понижается упорядоченно. При каждом из значений температуры Т выполняются два шага, составляющие итерацию алгоритма. 11.13. Детерминированный отжиг 747 При понижении температуры Т в процессе выполнения расписания отжита система проходит через последовательность фазовых переходов, состоящих из естественных разбиений кластеров. При этом размер модели кластеризации увеличивается (т.е. увеличивается количество кластеров) [896), [898!.
Это явление имеет важное значение по следующим причинам. ° Оно реализует удобный механизм управления размером модели кластеризации. ° При обычном физическом отжиге фазовые переходы являются критическими точками (спйса[ ро!п1) детерминированного процесса отжига, в которых отжигу должно уделяться большое внимание. ° Критические точки являются вычисляемыми (сошрц(аЫе), и эта информация может использоваться для ускорения алгоритма между фазовыми переходами. ° С помощью проведения процедуры проверки с последовательностью решений, полученных на различных фазах (являющихся решениями задачи при различных размерах модели), можно получить модель оптимального размера (орйпццп шабе! а[хе).
Пример 11.4 На рнс. 11.!О, !1.11 показана эволюция кластерного решения, использующего детерминированный отжиг на различных фазах по мере понижения температуры Т нлн увеличении обратной величины В = УТ [896). Множество данных, использованных для генерации этих рисунков, состояло нз шести множеств с гауссовымн распределениями. Их центры на рисунке отмечены крестиками. Центры вычисленных кластеров на рисунке отмечены кружочками. Так как решения задачи кластеризации прн ненулевых температурах не являются жесткими, для получаемых контуров принадлежности к кластеру использовалась одинаковая вероятность (в данном случае — 1/3).
Весь процесс начинается с одного естественного кластера, содержащего все множество обучения (см. рнс. !!.10, а). Прн первом фазовом переходе он разделяется на два кластера (см. рнс. 11.10, б), после чего происходит еще несколыю фазовых переходов, пока не достигается естественное количество кластеров — шесть. Последующий фазовый переход инициирует "взрыв", прн котором все кластеры разбиваются. На рнс. 11.11 показана фазовая диаграмма, отображающая значения среднего искаженна во время процесса отжита, н количество естественных кластеров на каждой фазе.
На этом рисунке среднее искажение (нормированные по отношению к своему минимальному значению) отображается по отношению к величине, обратной температуре (т.е. В), также нормированной по опюшению к своему минимальному значению. На обеих осях использовался соответствующий логарифмический масштаб. 748 Глава 11. Стохастнческне машнныи нх аппроксимацинв статистической механике Аналогия с алгоритмом ЕМ Чтобы описать еще один важный аспект алгоритма детерминированного отжига, рассмотрим ассоциативную вероятность Р(Ъ' = у~Х = х) как ожидаемое значение двоичной случайной переменной Ъ;„, определенной следующим образом: ~ 1, если входной вектор х назначен вектору кодирования у, 1 0 — в противном случае.
Исходя из этого, заметим, что двухшаговая итерация алгоритма детерминированного отжига принимает форму алгоритма ож.идания-максимизации (ехресГайопшахпшгабоп — ЕМ) (см. главу 7) оценки максимального правдоподобия. В частности, первый шаг, на котором вычисляются ассоциативные вероятности, является эквивалейтом шага ожидания. Второй шаг, на котором минимизируется Лагранжиан Р*, является эквивалентом шага максимизации. Воспользовавшись такой аналогией, заметим, что детерминированный отжиг является более общим алгоритмом„чем оценка максимального правдоподобия.
Это можно утверждать, поскольку, в отличие от оценки максимального правдоподобия, детерминированный отжиг не налагает никаких требований на вид рассматриваемого распределения данных, — минимизируются ассоциативные вероятности, производные от Лагранжиана Г". 11 14. Резюие и обсуждение Эта глава посвящена использованию идей статистической механики в качестве математического базиса формулировки методов оптимизации для обучаемых машин.
Рассмотренные обучаемые машины можно разбить на две категории. ° Стохастические мацзины, рассмотренные на примерах машины Больцмана, сигмоидальных сетей доверия и машины Гельмгольца. ° Детерминированные машины, полученные на основе машин Больцмана и сигмоидальных сетей доверия с помощью введения аппроксимаций среднего поля. Машина Больцмана использует скрытые и видимые нейроны, представляющие собой стохастические двоичные элементы. Они учитывают прекрасные свойства распределения Гиббса, предлагая, таким образом, следующие привлекательные особенности.
° Посредством обучения распределение вероятности, представляемое нейронами, становится сходным с распределением вероятности среды. ° Эта сеть предлагает обобщенный подход, применимый к основным вопросам поиска, представления и обучения ~4571.
11.14. Резюме и обсуждение 749 Рис, 11.10. Кластериэация на различных фазах. Линии представляют собой контуры равной вероятности р = 1/2 на РисУнке (б) и р = 1/3 на всех остальных: 1 кластер (В=О) (а); 2 кластера (В=0,0049) (б); 3 кластера (В=0,0066) (в); 4 кластера (В=0,0100) (г); б кластеров (В=0,0156) (ц); 6 кластеров (В=0,0347) (в); 19 кластеров (В=О 0606)(ж) 760 Глава 11. Стохастические машиныи их аппроксимациив статистической механике Е к кз ь! Рис. 11.11. Фазовая диаграмма для примера с несколькими гауссовымн распределениями.
Количество эффективных кластеров показано для каждой фазы !ха(я/я~~~! ° Сеть гарантирует нахождение глобального минимума на поверхности энергии по отношению к состоянггям, при условии, что расписание отжига в процессе обучения предполагает достаточно медленное уменьшение температуры [343]. К сожалению, допустимое расписание отжига слишком медленно, чтобы иметь какое-то значимое практическое применение.
Однако этот процесс обучения может быть ускорен для особых классов машин Больцмана, для которых не требуется запускать алгоритм квантования или применять аппроксимацию среднего поля. В частности, в машинах Больцмана, в которых скрытые нейроны скомпонованы в цепочки, дерево или цепочки деревьев, обучение может достигать полиномиального времени. Это достигается с помощью одного алгоритма стохастической механики, известного под названием прореживания (десппабоп). Это простая и элегантная процедура, которая рекурсивно удаляет связи и узлы из графа, подобно решению цепи резисторкоиндукгливкой емкости (гез[з!апсе [пг(ис1апсе сарасйапсе сггсшг — й!.С) [937], [938].
Сигмоидальные сети доверия предлагают существенное улучшение по сравнению с машинами Больцмана, устраняя потребность в использовании отрицательной фазы алгоритма. Этого они достигают путем замены симметричных связей машины Больцмана направленными ацикличными связями. В то время как машина Больцмана является рекуррентной сетью с избытком обратных связей, сигмоидальные сети доверия имеют многослойную архитектуру с отсутствием обратных связей. Как следует из названия, сигмоидальные сети доверия тесно связаны с классическими сетями доверия, введенными в [822], таким образом, связывая предметную область нейронных сетей с областью вероятностных рассуждений и графических моделей (ргоЬаЪг!кайс геазоп!пй апг) 8гарЬгса! шог(е(з) [523], [524].
11.14. Резюме и обсуждение 751 Машины Гельмгольца представляют собой отдельный класс. Их создание было осяовано на том, что зрение является обратной графикой (461], (484). В частности, они используют стохастические порождающие модели, работающие в обратном направлении, для преобразования абстрактных представлений изображений в сами изображения.
Сами абстрактные представления изображений (т.е. собственные знания сети об окружающем мире) изучаются стохастической моделью распознавания, работающей в прямом направпении. Посредством интеграции моделей генерации и распознавания (т.е. прямой и обратной проекции) машины Гельмгольца играют роль самообучающейся машины, устраняя тем самым потребность в учителе. Теперь рассмотрим класс детерминированных машин. Детерминированные машины Больцмана были получены из стохастических посредством применения простейшей формы аппроксимации среднего поля, в которой корреляция между двумя случайными переменными была заменена произведением их средних значений.