Хайкин С. - Нейронные сети (778923), страница 60
Текст из файла (страница 60)
На этом третьем уровне вычислений структура сети наатраивается посредством изменения количества нейронов и структурных связей между ними. При этом используется следующий критерий: если ошибка оцениаания (после определенного числа итераций обучении) больше некоторого заданного значения, в сеть добавляется новый нейрон. Причем он добаважтся в то место, где потребность в нем максимальна. Это местоположение определяется с помощью мониторинга поведения сети при обучении. В частности, если после продолжгпельного периода адаптации компоненты вектора синаптических весов, относящиеся к данному нейрону, продолжают сильно колебаться, значит, этому нейрону не хватает вычислительной мощности для обучения.
В процессе структурной адаптапии допускаетсл также аннулирование (иаключение) нейронов. Нейрон аннулируется, если он не является функциональным элементом сети или является ее избыточным элементом. Эпп метод наращивания сети является очень ресурсоемким и требует интенсивных вычислений. 296 Глава 4. Мноюспойный персептрон Регуляризация сложности При создании многослойного персептрона строится нелинейная модель физического явления, обеспечивающая обобщение примеров типа "вход-выход", использованных при обучении сети.
Поскольку архитектура сети по своей природе статична, необходимо обеспечить баланс между достоверностью данных обучения и качеством самой модели. В контексте обучения методом обратного распространения или любого другого метода обучения с учителем этого компромисса можно достичь с помощью минимизации общего риска: В(зг) = Е,(Ж) + ХЕ„(зг). (4.94) 1 Г д" Е,(е', )с) = — / — „Г(х, зг) )г(х)дх, (4.95) Первое слагаемое — Е,(и) — это стандартная мера эффективности (рег(оппапсе шеазцге), которая зависит как от самой сети (модели), так и от входных данных.
При обучении методом обратного распространения она обычно определяется как средне- квадратическая ошибка, которая вычисляется по всем выходным нейронам сети на всем обучающем множестве примеров для каждой эпохи. Второе слагаемое — Е,(и')— ианраф за сложность (сошр!ехйу репа! гу), который зависит исключительно от самой сети (модели). Его оценка основывается на предварительных знаниях о рассматриваемой модели. На самом деле формула общего риска, определяемая соотношением (4.94), является одним из утверждений теории регуллризании Тихонова. Этот вопрос подробно обсуждается в главе 5. Следует подчеркнуть, что Х является параметром регуляризаиии (геяц1аг1ха6оп рагашегег), который характеризует относительную значимость слагаемого штрафа за сложность по сравнению со слагаемым, описывающим меру производительности.
Если параметр Х равен нулю, процесс обучения методом обратного распространения ничем не ограничивается и архитектура сети полностью определяется предоставленными примерами обучения. С другой стороны, если параметр Х является бесконечно большим, то ограничение, представляющее штраф за сложность, самодостаточно для определения архитектуры сети. Другими словами, в этом случае примеры обучения считаются недостоверными. В практических реализациях этой процедуры взвешивания параметру регуляризации Х назначается некоторое среднее значение. Описываемая здесь точка зрения на использование регуляризации сложности для улучшения обобщающей возможности сети вполне согласуется с процедурой минимизации структурного риска, представленной в главе 2.
В общем случае одним из вариантов выбора слагаемого штрафа за сложность является сглаживающий интеграл й-го порядка: 4.15, Методы упрощения структуры сети 297 где Е(х, зч) — выполняемое моделью отображение входа на выход; р(х) — некоторая весовая функция, определяющая область входного пространства, на которой функция Г(х, зч) должна быть гладкой. Это делается для того, чтобы )е-я производная функции Г(х, эе) по входному вектору х принимала малое значение.
Чем больше величина )с, тем более гладкой (т.е. менее сложной) будет функция Г(х, зч). Далее описываются три процедуры регуляризации сложности (в порядке усложнения) для многослойного персептрона. Снижение весов В процедуре снижения весов (ве18)П десау) [458) слагаемое штрафа за сложность определяется как квадрат нормы вектора весовых коэффициентов тч (т.е, всех свобод- ных параметров) сети: Ве(')=~! Я = ~ ш,, (4.96) где С„„1 — множество всех синаптических весов сети. Эта процедура обеспечивает близость к нулю отдельных синаптических весов сети, одновременно допуская достаточно большие значения остальных синаптических весов.
В результате синаптические веса группируются в две категории: те, которые оказывают большое влияние на сеть (модель), и те, которые имеют малое влияние. Синаптические веса, относящиеся ко второй группе, называют избыточными (ехсеьа зче18)п). Без регуляризации сложности эти веса приводят к снижению качества обобщения, так как они могут принимать совершенно произвольные значения, а также заставляют сеть для незначительного уменьшения ошибки выполнять обучение на больших объемах данных (495).
Использование процедуры регуляризации сложности приводит к уменьшению значений избыточных весов до значений, близких к нулю, что повышает качество обобщения. В процедуре снижения весов ко всем весам многослойного персептрона применяется единый подход. Таким образом, предполагается, что центр упомянутого ранее распределения в пространстве весов находится в начале координат.
Строго говоря, снижение весов не явпяется корректной формой регуляризации сложности многослойного персептрона, так как эта процедура не вписывается в логику соотношения (4.95). Тем не менее этот алгоритм достаточно прост и неплохо работает в некоторых приложениях. 288 Глава 4. Многослойный персептрон -5,0 -4,0 -3,0 -2,0 -1,0 0 1,0 2,0 3,0 4,0 5,0 нз Рнс. 422. Зависимость значения штрафа за сложность (м,Гмо)зД1 ч(м*/мо) ) От м*/мо Исключение весов Во второй по сложности процедуре исключения весов (ъ'е18Ы ейпплайоп) штраф за сложность определяется следующей величиной [1122): (1111/ЮО ) +( ! .)' гас~а ~ (4.97) где юо — некоторый предопределенный параметр; юг — вес г-го синапса сети. Под С„„г понимается множество всех синаптнческих связей сети.
Отдельные слагаемые штрафа за сложность симметричны относительно частного ю,/юо, что наглядно показано на рис. 4.22. Если (юг ~ ) > юо, штраф за сложность (стоимость) для этого веса достигает максимального значения — единицы. Это значит, что вес юг имеет высокую ценность для процесса обучения методом обратного распространения. Таким образом, слагаемое штрафа за сложность в выражении (4.97) выполняет свою задачу— позволяет выявлять синаптические веса, оказывающие первостепенное влияние на сеть.
Обратите внимание, что снижение весов является частным случаем процедуры исключения весов. В частности, для больших значений ю, выражение (4.97) сводится к (4.96) (не учитывая коэффициента масштабирования). 4.15. Методы упрощения структуры сети 299 Строго говоря, процедура исключения весов тоже не является корректной формой регуляризации сложности многослойного персептрона, так как она также не вписывается в определение (4.95). Тем не менее при правильном подборе параметра ше она позволяет лучше корректировать отдельные веса сети, чем метод снижения весов 1494).
Сглаживающая аппроксимация В 1752) для многослойного персептрона с одним скрытым слоем и одним нейроном в выходном слое предложено следующее слагаемое штрафа за сложность: Е,(ът) = ~~) и~~ )(тт~((~, т=1 (4.98) где то, — веса выходного слоя;и, — весовой вектор з-го нейрона скрытого слоя, а показатель степени р определяется выражением 2 Й вЂ” 1 для глобального сглаживания, 2Й для локального сглаживания, (4.99) где Й вЂ” порядок дифференцирования функции г (х, и) по х. Процедура сглаживающей аппроксимации в задаче регуляризации сложности многослойного персептрона оказалась более строгой, чем снижение или исключение весов.
В отличие от ранее описанных методов она выполняет следующие задачи. 1. Разделяет роли синаптических весов нейронов скрытого и выходного слоев. 2. Отслеживает взаимодействие этих двух множеств весов. Упрощение структуры сети на основе Гессиана Главной идеей этого подхода к упрощению структуры сети (усечению сети) является использование информации о вторых производных поверхности ошибок для обеспечения компромисса между сложностью сети и величиной ошибки обучения.