Хайкин С. - Нейронные сети (778923), страница 149
Текст из файла (страница 149)
ь<1 Минимизация В(зт) сводится к А» независимым операциям минимизации на интервале (О, 1) 2. Коррекция (р ) при фиксированных (Р,) Фиксируя значения параметров (Д,), повторяем уравнения среднего поля: р, =ф ~~',[ ВН,+ 0(Н,— 1)+К*А »<1 где д — — 1ок(ехр( — с,х ) + ехр((1 — ~.)а )) = (1 — О )(1 — ехр( — ~ и»,,)) 0,(1 — ехр((1 — Ц)ш»н)) 1 — р,. + р»ехр( — сзш,;) 1 — р, + р»ехр((1 — ст)ш„) (ехр((1 — ~1)х,)) (ехр( — с, х,) + ехр((1 — Гз)х,.)) н к ц ни ф ( ) Я ад~ » е г с Я с и» и о ил а л ь н о н» в ( и )»» е ~ р ( р ) 3.
Коррекции синаптических весов Для скорректированных параметров (нз) и (с,, ) вычисляем коррекции Ьш,; синаптических весов ю.,: дВ(зт) с'шп =Ч н ош»я 742 Глава 11. Стохастнческне машиныи нх аппрокснмацние статистической механике Окончание табл. 11.3 где 71 — параметр скорости обучения, дВ(зу) (1 — 0~)~ ]81 ехр( — ча ш;)) = -К,-ну)й,+ дшэг ' ' ' 1 — ]81 + ]4, ехР( — г,,ш]1) о, (1 — ~,)]4,(1 — ехр((1 — с )и~,,)) 1 — ]81 + ]81 ехр((1 — Гу) шэз) где оэ уже определено выше. Теперь корректируем синаптические веса: и~уз — и~,, + глш, 4.
Цикл по всему множеству примеров Т Проводим все операции 1 — 3 для всех примеров, содержащихся в обучающем множестве Т, таким образом максимизируя их правдоподобие за фиксированное число итераций, нли до тех пор, пока не обнаружатся признаки чрезмерного соответствия (очегбнш8) с использованием, к примеру, перекрестной проверки 11.13. Детерминированный отжиг Теперь можно перейти к завершающему вопросу настоящей главы, касающемуся детерминированного отжнга. В разделе 11.5 рассматривался метод моделирования отжига — прием стохастического ослабления, реализующий мощный метод решения невыпуклых задач оптимизации. Однако в них при выборе расписания отжита следует соблюдать осторожность. В частности, глобальный минимум достигается только в том случае, когда снижение температуры происходит не быстрее логарифмической функции. Это требование делает моделирование отжига непрактичным для применения в большинстве приложений.
При моделировании отжига производятся случайные перемещения по поверхности энергии. В противоположность этому в детерминированном отжиге (де(епшшзйс аписа!шй) в саму функцию стоимости или энергию внедряется некоторая форма случайности, которая затем детерминировано оптимизируется на последовательности поннжающихся температур (895), (898). Не следует путать детерминированный отжиг с отжигом среднего полл (последний термин иногда используется для ссылки на детерминированную машину Больцмана). В последующих разделах описывается идея детерминированного отжига в контексте одной из задач обучения без учителя — кластеризации". ' ' Детерминированный отжиг успешно применялся во многих задачах обучения.
Векторное квантование (737], (897]. Построение статистичесиого классификатора (734]. Нелинейная регрессия, используюшая смесь экспертов (870]. Скрьггые модели Маркова в задачах распознавания речи (87! ]. 11.13. Детерминированный отжиг 743 Кластеризация посредством детерминированного отжига Кластеризация (с1пиеппй) — это деление заданного множества точек данных на подгруппы, каждая из которых, насколько это возможно, гомогенна. Обычно кластеризация представляет собой невыпуклую задачу оптимизации, так как практически все функции искажения, используемые в кластеризации, представлякп собой невыпуклые функции входных данных.
Более того, график функции искажения относительно данных наполнен локальными минимумами, что делает задачу поиска глобального минимума еще более сложной. В [895), (896] описана вероятностная среда кластеризации с помощью рандомизации разбиения (гапдоппгабоп от раг66оп), или рандомизации правила кодирования (гапдош]габон ог 6зе епсод]пй гп1е). Главный используемый здесь принцип заключается в том, что каждая точка данных ассоциирована о вероятности (аззосга!ед ш ргоЬаЬгриу) с некоторым кластером (подгруппой). Для примера пусть случайный вектор Х обозначает (входной) вектор истогагика, а случайный вектор Х вЂ” наилучший восстановленный вектор из соответствующей кодовой книги.
Отдельные реализации этих двух векторов обозначим соответственно символами х и у. Для кластеризации требуется некоторая мера искажения (гйзгогбоп гпеазпге), которую обозначим как г](х, у). Предполагается, что эта мера с((х, у) должна удовлетворять двум требованиям: быть выпуклой функцией аргумента у для всех х и быть конечной для конечного аргумента. Этим мягким требованиям удовлетворяет, к примеру, квадратичная Евклидова мера искажения: 6(х, у) = 1]х — у]]з. (11.91) Олсидаеиое искажение (ехресгед сйзгогт]оп) случайных образов определяется по следующей формуле: )Э=~ ~.Р(х=х,т=у)жх,у) = х у Р(Х = х) — ~~1 Р(Ъ' = у~Х = х)61(х, у), (11.92) где Р(Х = х, У = у) — совместная вероятность событий Х = х и х' = у.
Во второй строке (11.92) использована формула совместной вероятности событий: Р(Х = х, д' = у) = Р(Ъ' = у]Х = х)Р(Х = х). (11.93) Скрытал модель Маркова (Ьныеп Мажоч пюбе1) аналогична цепи Маркова в том, что в обоих случаях переход из одного состояния в другое носит вероятностный характер. Однако они отличаются друг от друга в фунламентальном смысле. В цепи Марюва выходной результат детерминирован. В скрытых моделях Маркова выходной результат вероятностный, при этом общий результат может находиться в любом из возможных состояний.
Таким образом, имея все состояния скрытой модели Маркова, получаем распределение вероятности всех выходных символов. Скрытые модели Маркова рассматриваются в 1514], (865], (866]. г44 Глава 11. Стохастические машиныи их аппроксимациив статистической механике Условная вероятностьР( к' = у~Х = х) называется ассоциативной вероятностью (аззос)а11оп ргоЬаЬййу), т.е. вероятностью ассоциирования кодового вектора у со входным вектором х. Ожидаемое искажение Р обычно минимизируется по свободным параметрам кластеризуемой модели: восстановленному вектору у и ассоциативной вероятности Р(Х = у~Х = х).
Эта форма минимизации дает на выходе "жесткое" решение задачи кластеризации. Здесь под жесткостью подразумевается то, что входной вектор х назначается ближайшему кодовому вектору у. С другой стороны, при детерминированном отжиге задача оптимизации формулируется иначе: как поиск такого распределения вероятности, которое минимизирует ожидаемое искажение при заданном уровне случайности (зрес)бед 1ече! оГ гапдопшезз). В качестве меры уровня случайности будем использовать энтропию Шеннона (см.
раздел 10.4): Н(Х,Ъ') = — ,'~ ~~> Р(Х = х, х'= у)1окР(Х = х,Ъ'= у). (11.94) Тогда условная оптимизация ожидаемого искажения выражается как минимизация Лагранжиана: (11.95) где Т вЂ” множитель Лагранжа. Из выражения (11.95) вытекает следующее. ° При больших значениях Т энтропия Н максимизируется. ° При малых значениях Т минимизируется ожидаемое искажение Р, что приводит к жесткой (неслучайной) кластеризации. ° При средних значениях Т минимизация Е приводит к балансу между повышением энтропии Н и уменьшением ожидаемого искажения Р. И, что более важно, сравнивая (11.95) с (11.11), можно выявить соответствие между задачей условной оптимизации (кластеризации) и статистической механикой (табл. 11.4).
В соответствии с этой аналогией величину Т будем называть температурой. Теперь рассмотрим Лагранжиан Р. Обратите внимание на то, что совместная энтропия Н(Х, к') может быть разложена в сумму двух слагаемых: Н(Х, Ъ') = Н(Х) + Н(Ъ'~Х), где Н(Х) — энтропия источника; Н(Ъ'~Х) — условная энтропия вектора восстановления х' для данного вектора источника Х.
Энтропия источника не зависит от кла- 11.13. Детерминированный отжиг 74$ ТАБЛИЦА 11.4. Соответствие между условной кпастеризацией и статистической физикой Статистическая физика Условная актииизация кластеризации Свободная энергия Р Средняя энергия <Е> Энтропия Н Температура Т Лагранжиан Р Ожидаемое искажение зз Энтропия Шеннона Н Множитель Лагранжа Т стеризации. Следовательно, ее можно исключить из определения Лагранжиана Р и сфокусировать внимание на условной энтропии Н(Х,Ъ') = — ~~) Р(Х = х) ~> Р(К = у~Х = х) 1обР(К = у~Х = х).
(11.96) Р( х' = у~Х = х) = — ехр ~— 1 / р((х, у) 1 г, '1, т (11.97) где Я, — функция разбиения нашей задачи. Ее можно определить следую- щим образом: (11.98) Когда температура Т стремится к бесконечности, ассоциативная вероятность достигает равномерного распределения (см. (11.97)). Использование этого утверждения заключается в том, что при достаточно высоких температурах любой входной вектор равно ассоциирован со всеми кластерами.
Такая ассоциация может рассматриваться как "предельно нечеткая". В другом предельном случае, когда температура Т достигает нуля, ассоциативная вероятность превращается в дельта-функцию. Следовательно, при очень низких температурах классификация сильно усложняется и с вероятностью 1 каждый входной вектор назначается ближайшему вектору кодирования.