Хайкин С. - Нейронные сети (778923), страница 63
Текст из файла (страница 63)
главу 2). Алгоритм обучения считается вычислительно эффективным (сошрп1а1юпа!!у ейс(еп1), если его вычислительная сложность является лолиномиальной (ро!упоппа!) по отношению к числу настраиваемых параметров, которые должны изменяться на каждой итерации. Основываясь на этом, можно утверждать, что алгоритм обратного распространения является вычислительно эффективным.
В частности, при использовании этого алгоритма для обучения многослойного персептрона, содержащего И~ синаптических весов (включая пороги), его вычислительная сложность линейно зависит от Иг. Зто важное свойство алгоритма обратного распространения может быть проверено с помощью прямого подсчета количества операций, осуществляемых при прямом и обратном проходах, описанных в разделе 4.5. При прямом проходе синаптические веса задействованы только для вычисления индуцированных локальных полей отдельных нейронов сети. Из формулы (4.44) видно, что эти вычисления линейны по синаптическим весам.
При обратном проходе синаптические веса используются при вычислении локальных градиентов скрытых нейронов и при изменении самих синаптических весов, что следует из формул (4.46) и (4.47) соответственно. Таким образом, все вычисления линейны по синаптическим весам сети. Отсюда следует вывод, что вычислительная сложность алгоритма обратного распространения является линейной по И~, т.е. составляет 0(И~).
4.16. Преимущества н ограничения обучения методом обратного распространения 311 Рассмотрим многослойный персептрон, обучаемый с помощью алгоритма обратного распространения. Пусть функция Г(зч) описывает осуществляемое сетью отображение входа на выход, а зг — это вектор всех синаптических весов сети (включая пороги). В разделе 4.10 было показано, что частные производные функции Г(зч) по всем элементам вектора весов и' могут быть вычислены достаточно эффективно.
В частности, исследуя выражения (4.81)-(4.83) совместно с формулой (4.114), можно увидеть, что сложность вычисления каждой отдельной частной производной линейно зависит от Иг — общего количества весов, содержащихся в сети. Эта линейность сохраняется всюду, где рассматриваемые синаптические веса присутствуют в цепочке вычислений. Робастность В главе 3 уже указывалось, что алгоритм 1.М8 является робастным, т.е. возмущения с малой энергией незначительно влияют на ошибку оценивания.
Если рассматриваемая модель наблюдений является линейной, алгоритм ЕМ8 представляет собой Н -оптимальный фильтр (4261, (427). Это значит, что алгоритм ЕМ8 минимизирует возрастание максимальной энергии (тахппшп епегйу йа1п) ошибки оценивания в результате возмущений. С другой стороны, в [429] показано, что в случае нелинейной модели алгоритм обратного распространения является локальным Н -оптимальным фильтром.
Под термином "локальный" здесь подразумевается то, что исходные значения вектора весов, используемые в алгоритме обратного распространения, должны быть достаточно близки к оптимальному значению вектора весов зг', чтобы гарантировать непопадание алгоритма в неверный локальный минимум. В концептуальном смысле приятно осознавать, что алгоритмы ЬМ8 и обратного распространения относятся к одному и тому же классу Н -оптимальных фильтров. Сходимость В алгоритме обратного распространенияиспользуется аекун1ая оценка ()пз1ап1апеоиз ез1ппаге) градиента поверхности ошибок в пространстве вссов. Этот алгоритм является вероятностным по своей природе.
Это значит, что движение в направлении минимума на поверхности ошибок происходит по зигзагообразной траектории. В самом деле, алгоритм обратного распространения является одной из реализаций статистического метода, известного под названием пнохастической аллрокспмации (зюсЬазг)с арргохппа1юп) и предложенного в (892). Данный метод отличается медленной сходимостью, что может объясняться двумя причинами (505).
312 Глава 4. Мноюслойный лерселтрон 1. Поверхность ошибок является достаточно плоской вдоль направления некоторого весового коэффициента, поэтому частная производная в этом направлении невелика по амплитуде. В этом случае коррекции, применяемые к синаптическим весам, также являются малыми, и, следовательно, для достижения алгоритмом минимальной ошибки может потребоваться достаточно большое количество итераций. Если же поверхность ошибок по некоторым измерениям достаточно искривлена, то в этих направлениях частные производные велики по амплитуде. Значит, синаптические веса на каждом шаге будут подвергаться значительной коррекции. Это может привести к прохождению мимо точки локального минимума на поверхности ошибок. 2. Направление антиградиента (т.е.
производная функции стоимости по вектору весов, взятая с противоположным знаком) может не соответствовать направлению к точке минимума на поверхности ошибок. Тогда коррекция весовых коэффициентов может привести к движению алгоритма в неправильном направлении. Следовательно, скорость сходимости метода обратного распространения относительно невелика, что, в свою очередь, ведет к большой продолжительности вычислений.
Согласно экспериментальным исследованиям, описанным в !919), скорость локальной сходимости алгоритма обратного распространения является линейной. Авторы работы объяснили это тем, что матрица Якоби, а следовательно и матрица Гессе, имеют неполный ранг. Эти наблюдения являются следствием плохой обусловленности самой задачи обучения нейронной сети.
В [9! 9) линейную локальную сходимость алгоритма обратного распространения авторы прокомментировалн следующим образом. ° Преимуществом алгоритма обратного распространения по сравнению с другими методами более высокого порядка является то, что последние, при незначительном ускорении процесса сходимости, требуют существенно больше вычислительных ресурсов. ° Крупномасштабные задачи обучения нейронных сетей яапяются настолько трудными для реализации, что для них не существует приемлемой стратегии обучения с учителем и зачастую требуется предварительная обработка данных. Проблема сходимости более подробно рассматривается в разделе 4.17, а вопрос предварительной обработки данных — в главе 8. Локальные минимумы Характерной особенностью поверхности ошибок, которая влияет на производительность алгоритма обратного распространения, является наличие не только глобального, но и локальных минимумов (!оса! пппппа) (т.е.
изолированных впадин). Так как в процессе обучения методом обратного распространения направление спуска опреде- 4.16. Преимущества и ограничения обучения методом обратного распространения 313 ляется направлением вектора градиента (наибольшего наклона поверхности), всегда существует риск попадания в точку локального минимума, в которой любое приращение синаптических весов будет приводить к увеличению функции стоимости. Однако при этом в другой области пространства весовых коэффициентов могут существовать другие множества синаптических весов, для которых функция стоимости имеет меньшее значение, чем в данной точке локального минимума. Понятно, что остановка процесса обучения в точке локального минимума является крайне нежелательной, если зта точка находится выше точки глобального минимума. Проблема локальных минимумов при обучении методом обратного распространения описывается в заключение расширенного издания классической книги Минского и Пейперта [744), где основное внимание фокусировалось на обсуждении двухтомника [912], посвященного параллельным распределенньсы вычислениям (раш[[е[ гйзп1Ьп(ег[ ргосезяш8).
В главе 8 упомянутой книги утверждается, что попадание в точку локального минимума редко встречается в практических приложениях алгоритма обратного распространения. Минский и Пейперт отвергли это утверждение, указав, что вся история распознавания образов доказывает обратное. В [370) описывается простой пример, в котором, несмотря на потенциальную обучаемость сети (с одним скрытым слоем) решению задачи классификации нелинейно-разделяемым множеств, обучение методом обратного распространения прекращалось в точке локального минимума'з.
Иасштабирование В принципе, нейронные сети, подобные многослойному персептрону, обучаемому с помощью алгоритма обратного распространения, создают потенциал для создания универсальных вычислительных машин. Однако, для того чтобы такой потенциал был реализован в полной мере, нужно преодолеть проблему масштабирования (зса[эп8). Суть этой проблемы состоит в сохранении эффективности сети по мере увеличения и сложности поставленной задачи. Мерой в данном вопросе выступает время обучения, необходимое для достижения сетью наилучших показателей в обобгцении.
'э Изначально существовала потребность в создании теоретической базы двя обучения мел!дом обратного распространения, учитывающей и объясняющей проблему локальных минимумов, Эта задача была сложной для выполнения. Тем не менее в литершуре по данному вопросу наблюдался некоторый прогресс. В (989 году в [871 была рассмотрена задача обучения для многослойных сетей прямого распространения с линейными функциями активации на основе метода обратною распространения. Главным результатом этой работы бьшо утверждение, что поверхность ошибок имеет единственный минимум, соответствующий ортогональной проекции на подпространство, порожденное первыми наибольшими собственными числами матрииы ковариации, связанной с обучающими примерами. Все остальные критические точки поверхности являются седловыми.
В !992 году в [3701 был рассмотрен более общий случай обучения методом обрапюго распространения для сети, содержшцей нелинейные нейроны. Основным результатом этой работы является утверждение, что для линейно-разделимых обраюв гарантируется сходимость к оптимальному решению (те.
к глобальному минимуму). Это достигается с помощью кумулятивною (пакетного) режима обучения методом обратного распространения. При этом сеть в части обобщения новых примеров превосходила возможности персептрона Розенблатга. 314 Глава 4. Многослойный персептрои Среди возможных способов измерения размера или сложности вычислительных задач наиболее полезной и важной мерой, по мнению автора, является порядок предиката, определенный в [744), (745).
Для того чтобы объяснить, что подразумевается под предикатом, опишем функцию г(г(Х), которая может принимать только два значения. Обычно под этими двумя значениями подразумеваются числа 0 и 1. Однажг, приравнивая эти две величины к логическим значениям ТИРЕ и ГААЗЕ, функцию цг(Х) можно рассматривать как лредикавг (ргед(саге), т.е. переменную величину, значение истинности которой зависит от выбора аргумента Х. Например, функцию г(г(Х) можно определить в виде ~ 1, если фигура Х вЂ” круг, „„„(Х)=1 1 О, если фигура Х вЂ” не круг. (4.