Хайкин С. - Нейронные сети (778923), страница 66
Текст из файла (страница 66)
Формула (4.133), определяющая вектор )3(п), подразумевает точное знание матрицы А. С вычислительной точки зрения хоте- 'т Классической работой, посвященной методу сопряженных градиентов, считается [454]. Обсуждение вопросов сходимости этого алгоритма содержится в [125), [682]. В 1994 году был выпугпен учебник, раскрываюгпнй множество аспектов алгоритма сопряженных градиентов [981]. Доступное описание этого алгоритма в свете нейронных сетей содержится в [515].
где ]3(п) — множитель масштабирования, который необходимо определить. Умножая обе части равенства на А, а затем скалярно умножая результат на вектор в(п— 1), учитывая свойство А-сопряженности векторов направлений и решая полученное уравнение относительно !3(п), получим: 4.18, Обучение с учителем как задача оптимизации 323 ТАБЛИЦА 4.7. Соответствие между !(к) и Ет(чя) Квадратичная функцияГ(х) Функция стоимости Е„(и) Вектор параметров х(п) Вектор градиента ду (х)/дх Матрица А Вектор синаптических весов зч(п) Вектор градиента дЕ,„/дзч Матрица Гессе Н 1. Формула Полака-Рибьера (Ро!а1с-КзЬ!еге !оппп! а): )3(п) =— гг (п) (г(п) — г(п — 1) ) гт (и — 1) г(п — 1) (4.
134) 2. Формула Флетчера — Ривза (Р)еГсйег-Кеечез (оппп!а): гг(п),(п) !3(п) =— "(п- ) (п- ) (4. 135) Чтобы использовать метод сопряженных градиентов для решения задачи безусловной минимизации функции стоимости Ет(зч), вытекающей из проблемы обучения многослойного персептрона, выполним две операции. ° Аппроксимируем функцию стоимости Ет(чч) квадратичной функцией. Это значит, что третье и следующие слагаемые выражения (4.117) не будут учитываться.
Таким образом, мы предполагаем работу в непосредственной близости от точки локального минимума на поверхности ошибок. Сравнивая выражения (4.117) и (4.122), можно сделать выводы, приведенные в табл. 4.7. ° Зададим формулы вычисления !3(п) и з) (п) в алгоритме сопряженных градиентов так, чтобы для определения этих параметров требовалась информация только о градиенте. Последний пункт является особенно важным в контексте многослойного персептрона, так как он позволяет избежать вычисления матрицы Гессе Н(п), что сопряжено с известными вычислительными сложностями.
Для вычисления коэффициента !3(п), определяющего направление поиска з(п), без точного знания матрицы Гессе Н(п) можно использовать формулу Полака — Рибьера (4.134) или Флетчера — Ривза (4.135). Обе эти формулы используют только уже имеющиеся данные. Для линейной формы метода сопряженных градиентов (имеется в виду квадратичная функция) эти формулы эквивалентны.
С другой стороны, при неквадратичной функции стоимости зта эквивалентность теряется. лось бы оценить р(п) без точного знания матрицы А. Такую оценку можно получить с помощью любой из следуюших формул (298). 324 Глава 4. Мнолуслойный лерсептрон Что касается задачи неквадратичной оптимизации, форма алгоритма сопряженных градиентов на основе формулы Полака — Рибьера явно выигрывает по сравнению с модификацией алгоритма на базе формулы Флетчера — Ривза, чему можно дать эвристическое объяснение (124).
Из-за наличия в формуле функции стоимости Е,„(уу) слагаемых третьего и более высоких порядков и возможной неточности линейного поиска сопряженность генерируемых направлений поиска постепенно теряется. Это может, в свою очередь, привести к нарушению работы алгоритма (его "заеданню" илн "застопориванию"), поскольку вектор направления 8(п) и вектор г(п) станут приблизительно ортогональными. Если это случится, то будет выполнено равенство г(п) = г(п — 1) и, следовательно, скаляр [3(п) будет равен нулю. Тогда направление й(п) будет близко к вектору г(п), что обеспечит "прорыв" блокировки продолжения поиска.
В противоположность этому при использовании формулы Флетчера — Ривза при аналогичных условиях алгоритм сопряженных градиентов обычно продолжает "заедать". Однако в некоторых случаях метод Полака — Рибьера может зацикливаться и нс сходиться.
К счастью, сходимость алгоритма Полака — Рнбьера можно гарантировать, приняв (981) [3 = шах03 „О), (4.136) где (3 „— значение, получаемое из формулы Полака — Рибьера (4.134). Использование значения [3 из выражения (4.136) эквивалентно повторному запуску метода сопряженных градиентов в случае [3<0. Повторный запуск алгоритма эквивалентен "забыванию" последних направлений поиска и его продолжению в направлении наискорейшего спуска [981). Теперь вернемся к следуюшему параметру — 71 (п), определяющему скорость обучения алгоритма сопряженных градиентов.
Как и в случае с [3(п), предпочтительнее использовать метод, не подразумевающий вычисления матрицы Гессе Н(п). Напомним, что линейная минимизация, основанная на (4.126), приводит к той же формуле для 71(п), которая была выведена из соотношения (4.125). Таким образом, требуется линейный поиск ([ше зеагсЬ)'~, целью которого является минимизация функции Е„(и + 718) по 71. При фиксированных значениях векторов тт и и задача сводится к изменению параметра Ч с целью минимизации этой функции. По мере изменения параметра 7) аргумент (ут47[8) очерчивает в чт'-мерном пространстве векторов и прямую линию, откуда поиск и получил название "линейного". Алгоритм линейного поиска (йпе зеагс[з а[йог[г[тш) является итеративной процедурой, генерируюшей последова- 'ь Стандаргнжг форма алгоритма сопряженных градиентов требует использования линейного поиска, что из-за его характера "проб н ошибок" может занять много времени.
В [7491 описана модифицированная версия алгоритма сопряженных градиентов, названная алгоритмом масштабируемьш сопряженных градиентов, в которой линейный поиск стсутствуег. Линейный поиск был просто заменен одномерной формой алгоритма ЛевенбергаМаркардта [Ьечепьегй-Магйоагж). Основанием для использования именно этого метода было желание обойти сложности, вызываемые неположительной определенностью матрицы Гессе [2981. 4.18. Обучение с учителем как задача оптимизации 325 тельность оценок (11(п)) для алгоритма сопряженных направлений. Этот алгоритм поиска останавливается по достижении удовлетворительного решения.
Линейный поиск должен осуществляться в каждом из направлений поиска. В литературе предлагается множество алгоритмов линейного поиска, и важно сделать хороший выбор, так как зто оказывает первостепенное влияние на производительность алгоритма сопряженных градиентов, частью которого является линейный поиск. Алгоритмы линейного поиска включают две фазы [298). ° Фаза группировки (Ьгас1себп8 рЬазе). В ней находится группа, представляющая собой нетривиальный интервал, гарантированно содержащий минимум.
° Фаза разделения (зесбопш8 рЬаве). В ней группа делится на подгруппы, опреде- ляющие последовательность отрезков, постепенно уменьшающихся по длине. Опишем процедуру подбора кривых (сшие-бн1пй ргоседпге), которая объединяет в себе эти две фазы. Пусть Е.,(Ч) — функция стоимости многослойного персептрона, зависящая от параметра Ч. Предполагается„что функция Е„(Ч) является унилзодальной (т.е. имеет единственный минимум в окрестности текущей точки и(п)), дважды непрерывно дифференцнруемой.
Процедура начинается с поиска вдоль одной линии, пока не будут найдены тРи такие точки, Ч„Чз и т)з, длЯ котоРых бУдУт выполнЯтьсЯ следУющие условия (рис. 4.25): Еаь(Ч1) ~ Еаз(Чз) ~ Еа (Чз) ддл Ч1 < Чз < Чз. (4. 137) Так как Е,„(Ч) является непрерывной функцией параметра Ч, соотношение (4.137) гарантирует, что ее минимум находится в пределах отрезка [т),, т)з). Предполагая достаточную гладкость функции Е„,(11), можно заключить, что в окрестности точки минимума она является приблизительно параболической.
Следовательно, для выполнения разделения можно использовать обратную параболическую интерполяцию (шчегзе рагаЬо1(с (пГегро!а11оп) [858). Эта параболическая функция должна проходить через три имеющиеся точки — Ч„Чз и Ч (рис. 4.26). На рис. 4.26 сплошная линия соответствует функции стоимости, а пунктирная — первой итерации процедуры разделения. Пусть минимум параболы, проходящей через точки 11„11 и Чз, достигается в точке Ч4.
В примере, показанном на рис. 4.26, Е,„(Ч4) < Е,„(т)з) и Е„(Чл) < Е„(Ч,). Следовательно, точку Чз можно заменить точкой Ч4. Процедура группировки-разделения повторяется несколько раз до тех пор, пока не будет найдена точка, достаточно близкая к минимуму функции Е, (Ч). После зтого линейный поиск прекращается. 326 Глава 4. Мноюслойный персептрон Еи(Ч) евч(ч~) Е,„(ча) Еи(Ч,) Рис. 4.25.