Хайкин С. - Нейронные сети (778923), страница 48
Текст из файла (страница 48)
з Вывод апоритма обратного распространения с учетом постоянной момента содержится в [408]. Основываясь на этом выражении, можно сделать следующие интуитивные наблюдения [505[,[1117). 4.3. Алгоритм обратною распространения 237 1. Текущее значение коррекции весов Ьгл„(п) представляет собой сумму экспоненциально взвешенного временного ряда. Для того чтобы этот ряд сходился, постоянная момента должна находиться в диапазоне О < ~а~ < 1. Если константа а равна нулю, алгоритм обратного распространения работает без момента. Следует также заметить, что константа а может быть и отрицательной, хотя эти значения не рекомендуется использовать на практике. 2. Если частная производная дЕ(п)/дглэз(п) имеет один и тот же алгебраический знак на нескольких последовательных итерациях, то экспоненциально взвешенная сумма Ьп |н(п) возрастает по абсолютному значению, поэтому веса гл,|(п) могут изменяться на очень большую величину.
Включение момента в алгоритм обратного распространения ведет к ускорению спуска (ассе!ега1е дезсепг) в некотором постоянном направлении. 3. Если частная производная дЕ(п)/дгсзз(п) на нескольких последовательных итерациях меняет знак, экспоненциально взвешенная сумма Ьгг„(п) уменьшается по абсолютной величине, поэтому веса гл„(п) изменяются на небольшую величину. Таким образом, добавлениемомента в алгоритм обратного распространения ведет к стабилизирующему эффекл|у (ашЪ|11гег( е(Тес|) для направлений, изменяюших знак. Включение момента в алгоритм обратного распространения обеспечивает незначительную модификацию метода корректировки весов, оказывая положительное влияние на работу алгоритма обучения.
Кроме того, слагаемое момента может предотвратить нежелательную остановку алгоритма в точке какого-либо локального минимума на поверхности ошибок. При выводе алгоритма обратного распространения предполагалось, что параметр интенсивности обучения представлен константой |1. Однако на практике он может задаваться как |1гн Это значит, что параметр скорости обучения является локальным и определяется для каждой конкретной связи. В самом деле, применяя различные параметры скорости обучения в разных областях сети, можно добиться интересных результатов.
Более подробно на этом вопросе мы остановимся в последующих разделах. Следует отметить, что при реализации алгоритма обратного распространения можно изменять как все синаптические веса сети, так и только часть из них, оставляя остальные на время адаптации фиксированными. В последнем случае сигнал ошибки распространяется по сети в обычном порядке, однако фиксированные синан|ические веса будут оставаться неизменными. Этого можно добиться, установив для соответствующих синаптических весов н|гт параметр интенсивности обучения з), равным нулю. 238 Глава 4. Мноюслойный персептрон Последовательный и пакетный режимы обучения В практических приложениях алгоритма обратного распространения в процессе обучения многослойного персептрона ему многократно предъявляется предопределенное множество обучающих примеров. Как уже отмечалось, один полный цикл предъявления полного набора примеров обучения называют эпохой.
Процесс обучения проводится от эпохи к эпохе, пока синаптические веса и уровни порога не стабилизируются, а среднеквадратическая ошибка на всем обучающем множестве не сойдется к некоторому минимальному значению. Целесообразно случайным образаи изменять порядок представления примеров обучения для разных эпох. Такой принцип предьявления образов делает поиск в пространстве весов стохастическим, предотвращая потенциальную возможность появления замкнутых циклов в процессе эволюции синаптических весов. Замкнутые циклы рассматриваются в главе 14.
Для данного обучающего множества алгоритм обратного распространения можно реализовать двумя способами. 1. Последовательный режим 2. Пакетный режим В пакетном релсиме (Ъа~сЬ щоде) обучения по методу обратного распространения корректировка весов проводится после подачи в сеть примеров обучения (эпохи). Для конкретной эпохи функция стоимости определяется как среднеквадратическая ошибка (4.2) и (4.3), представленная в составной форме: М Е„(п) = — ~~> у е~(п), в=1 тес (4.42) Последовательный режим (зеопепба! пюде) обучения по методу обратного распространения также иногда называют стохастическим (з1осЪаайс) или интерактивным (опгйпе). В этом режиме корректировка весов проводится после подачи каждого примера. Это тот самый режим, для которого мы выводили алгоритм обратного распространения ранее в этой главе.
Для примера рассмотрим эпоху, состоящую из Ф обучающих примеров, упорядоченных следующим образом; (х(1), п(1)),..., (х(Х), д()ч')). Сети предъявляется первый пример (х(1), й(1)) этой эпохи, после чего выполняются описанные выше прямые и обратные вычисления. В результате проводится корректировка синаптических весов и уровней порогов в сети. После этого сети предъявляется вторая пара (х(2), д(2)) в эпохе, повторяются прямой и обратный проходы, приводящие к следующей коррекции синаптических весов и уровня порога.
Этот процесс повторяется, пока сеть не завершит обработку последнего примера (пары) данной эпохи — (х(М), 6(Л) ). 4кк Алгоритм обратною распространения 239 где сигнал ошибки е, (и) соответствует нейрону з для примера обучения и и определяется формулой (4.1).
Ошибка е,(п) равна разности между т(з(п) и у,(п) для з-го элемента вектора желаемых откликов 6(и) и соответствующего выходного нейрона сети. В выражении (4.42) внутреннее суммирование по з' выполняется по всем нейронам выходного слоя сети, в то время как внешнее суммирование по и выполняется по всем образам данной эпохи. При заданном параметре сюрости обучения В корректировка, применяемая к сииаптнческому весу тозн связывающему нейроны г и з, определяется следующим дельта-правилом: Ьтозт(и) = —  — = — — ~~~ е, (п) дЕ„В де,. (и) (4.43) ° Этот алгоритм прост в реализации. ° Обеспечивает эффективное решение сложных и больших задач. Для вычисления частной производной де, (и) (дтлзт нужно проделать тот же путь, что и ранее. Согласно (4.43), в пакетном режиме корректировка веса Ьто„выполняется только после прохождения по сети всего множества примеров.
С точки зрения процессов реального времени, последовательный режим является более предпочтительным, чем пакетный, так как требует зненыаего объема внутреннего хранилища для каждой сииаптической связи. Более того, предъявляя обучающие примеры в случайном порядке (в процессе последовательной корректировки весов), поиск в пространстве весов можно сделать действительно стохастическим. Это, в свою очередь, сокращает до минимума возможность остановки алгоритма в точке какого-либо локального минимума.
Следует отметить, что стохастическая природа последовательного режима усложняет построение теоретического фундамента для нахождения условий сходимости алгоритма. В противовес этому использование пакетного режима обеспечивает точную оценку вектора градиента. Таким образом, сходимость алгоритма к локальному минимуму гарантируется при довольно простых условиях. Помимо того, в пакетном режиме легче распараллелить вычисления. Если данные обучения являются избыточными (тет(цш(алт) (т.е.
содержат по иесколью юлий одних и тех же примеров), то предпочтительнее использовать последовательный режим, так как примеры все равно подаются по одному. Это преимущество особенно заметно при больших наборах данных с высокой степенью избыточности. В заключение можно сказать, что несмотря иа многие недостатки последовательного режима алгоритма обратного распространения, ои остается очень популярным (особенно при решении задач распознавания образов) по двум практическим причинам.
240 Глава 4. Многослойный персептрон Критерий останова В общем случае не существует доказательства сходимости алгоритма обратного распространения, как не существует и какого-либо четко определенного критерия его астапова. Известно лишь несколько обоснованных критериев, которые можно использовать для прекращения корректировки весов.
Каждый из них имеет свои практические преимущества. Для того чтобы сформулировать таюй критерий, вполне логично рассуждать в терминах уникальных свойств локального (1оса1) и глобального (я1оЬа[) минимумов поверхности ошибока. Обозначим символом хч* вектор весов, обеспечивающий минимум, будь то локальный или глобальный. Необходимым условием минимума является то, что вектор градиента й(зт) (т.е.
вектор частных производных первого порядка) для поверхности ошибок в этой точке равен нулевому. Следовательно, можно сформулировать разумный критерий сходимости алгоритма обучения обратного распространения [596). Считается, что алгоритм обратного распространения сошелся, если Евклидова норма вектора градиента достигает достаточно малых значений. Недостатком этого критерия сходимости является то, что для сходимости обучения может потребоваться довольно много времени. Кроме того, необходимо постоянно вычислять вектор градиента й(зу). Другим уникальным свойством минимума является то, что функция стоимости (или мера ошибки) Е,„(и ) в точке хч = тч* стабилизируется.