Хайкин С. - Нейронные сети (778923), страница 44
Текст из файла (страница 44)
3.12. Покажите, что выражения (3.68К3.71), отражающие алгоритм сходимости персептрона, согласуются с соотношениями (3.54) и (3.55). э да 2зт 3.13. Рассмотрите два одномерных класса, С, и Сз, с гауссовым распределением, дисперсия которого равна 1. Их средние значения соответственно равны )г, = — 10, )гз — — +10. Эти классы являются линейно-разделимыми. Постройте классификатор, раз- деляющий эти два класса. 3.14. Предположим, что на графе передачи сигнала персептрона (см. рис.
3.6) строгая пороговая функция заменена сигмоидальной ф (о) = йт Я где с — индуцированное локальное поле. Классификация, выполняемая пер- септроном, описывается следующим образом. Вектор наблюдения х принадлежит к классу Сз, если выходной сигнал д > 9, где 9 — порог (йгевйоЫ). В противнаи случае х принадлежит к классу Сз. Покажите, что построенная таким образом поверхность решений является гиперплоскостью.
3.15. а) Персептрон можно использовать для выполнения многих логических функций. Опишите перспетронную реализацию функций логического И, логического ИЛИ и дополнения. б) Основным ограничением персептрона является его неспособность реали- зовать логическую функцию исключающего ИЛИ. Обьясиите почему. 3.16. Уравнения (3.86) и (3.87) определяют вектор весовых коэффициентов и пороговое значение байесовского классификатора для гауссовой среды. Модифицируйте этот классификатор для случая, когда матрица ковариации определяется выражением С = о~1, где и — константа.
2 Многослойный персептрон 4.1. Введение Эта глава посвящена важному классу нейронных сетей — многослойным сетям прямого распространения. Обычно сеть состоит из множества сенсорных элементов (входных узлов или узлов источника), которые образуют входной слой; одного или нескольких скрытых слоев (ЬкЫеп 1ауег) вычислительных нейронов и одного выходного слоя (оп1рп1 1ауег) нейронов. Входной сигнал распространяется по сети в прямом направлении, от слоя к слою. Такие сети обычно называют многослойньиии лерселтронами (пш!В1ауег регсе1гоп).
Они представляют собой обобщение однослойного персептрона, рассмотренного в главе 3. Многослойные персептроны успешно применяются для решения разнообразных сложных задач. При этом обучение с учителем выполняется с помощью такого популярного алгоритма, как алгоритм обратного распространения ошибки (епог Ьас1с-ргорадабоп а)допйпп). Этот алгоритм основывается на коррекции ошибок (еггосопесбоп 1еапшщ гп1е). Его можно рассматривать как обобщение столь же популярного алгоритма адаптивной фильтрации — вездесущего алгоритма минимизации среднеквадратической ошибки ((.МБ), описанного в главе 3 для частного случая отдельного линейного нейрона.
Обучение методом обратного распространения ошибки предполагает два прохода по всем слоям сети: прямого и обратного. При лрлмом проходе (Гогтчаго раья) образ (входной вектор) подается на сенсорные узлы сети, после чего распространятся по сети от слоя к слою. В результате генерируется набор выходных сигналов, который и является фактической реакцией сети на данный входной образ.
Во время прямого прохода все синаптические веса сети фиксированы. Во время обраашого прохода (Ьасквап( раав) все синаптические веса настраиваются в соответствии с правилом коррекции ошибок, а именно: фактический выход сети вычитается из желаемого (целевого) отклика, в результате чего формируется сигнал ошибки (еггог з(япа1). Этот сигнал впоследствии распространяется по сети в направлении, обратном направлению синаптических связей. Отсюда и название — алгоритм обратного распространения ошибки.
Синаптические веса настраиваются с целью максимального приближения выходного 220 Глава 4. Мноюслойный лерселтрон сигнала сети к желаемому в статистическом смысле. Алгоритм обратного распространения ошибки в литературе иногда называют упрощенно — алгоритмом обратного распространения (Ьас1г-ргорадайоп а[кап!Ьш). Это название мы и будем использовать в настоящей главе. Процесс обучения, реализуемый этим алгоритмом, называется обучением на основе обратного распространения (Ьас[с-ргораяапоп [еаш[пк). Многослойные персептроны имеют три отличительных признака.
1. Каждый нейрон сети имеет нелинейную функцию активации (поп!гпеаг асбча[юп баас[[оп). Важно подчеркнуть, что данная нелинейная функция является гладкой (т.е. всюду дифференцируемой), в отличие от жесткой пороговой функции, используемой в персептроне Розенблатга. Самой популярной формой функции, удовлетворяющей этому требованию, является сигиоидальналг (б[йгпои[а[ поп!гпеап$у), определяемая логистической функцией ([оп[а[[с Йщсйоп) 1 Рз = 1+ ехр( — и,) где оз — индуцированное локальное поле (т.е. взвешенная сумма всех синаптических входов плюс пороговое значение) нейрона 7; у, — выход нейрона.
Наличие нелинейности играет очень важную роль, так как в противном случае отображение "вход-выход" сети можно свести к обычному однослойному персептрону. Более того, использование логистической функции мотивировано биологически, так как в ней учитывается восстановительная фаза реального нейрона. 2. Сеть содержит один или несколько слоев скрытых нейронов, не являющихся частью входа или выхода сети. Эти нейроны позволяют сети обучаться решению сложных задач, последовательно извлекая наиболее важные признаки из входного образа (вектора). 3. Сеть обладает высокой степенью связности (соппесбчйу), реализуемой посредством синаптических соединений.
Изменение уровня связности сети требует изменения множества синаптических соединений или их весовых коэффициентов. Комбинация всех этих свойств наряду со способностью к обучению на собственном опыте обеспечивает вычислительную мощность многослойного персептрона. Однако эти же качества являются причиной неполноты современных знаний о поведении такою рода сетей.
Во-первых, распределенная форма нелинейности и высокая связ- ' Сигмоидальные функции получили свое название благодаря форме своего графика (в виде буквы ЗЬ В [7271 исследованы лва класса сигмоид. !7росмые сисмонды. Произвольные асимптотически ограниченные и строю монотонные функции одной переменной.
Гиперболические сигиоиды. Полное подмножество простых сигмоид, являющихся обобщением функции гиперболического тангенса. 4.1. Введение 221 ность сети существенно усложняют теоретический анализ многослойного персептрона. Во-вторых, наличие скрытых нейронов делает процесс обучения более трудным для визуализации. Именно в процессе обучения необходимо определить, какие признаки входного сигнала следует представлять скрытыми нейронами. Тогда процесс обучения становится еще более сложным, поскольку поиск должен выполняться в очень широкой области возможных функций, а выбор должен производиться среди альтернативных представлений входных образов [4581.
Термин "обратное распространение" активно используется после 1986 года, когда он был популяризован в известной книге 1912]. Более подробные исторические сведения об алгоритме обратного распространения приводятся в разделе 1.9. Появление алгоритма обратного распространения стало знаковым событием в области развития нейронных сетей, так как он реализует вычислительно эффективный (сошрп1абопайу е(йс(еп1) метод обучения многослойного персептрона. Было бы слишком самоуверенноутверждать, что алгоритм обратногораспространенияпредлагает действительно оптимальное решение всех потенциально разрешимым проблем, однако он развеял пессимизм относительно обучения многослойных машин, воцарившийся в результате публикации 1745).
Структура главы В данной главе рассматриваются основные аспекты работы многослойного персептрона, а также его обучение методом обратного распространения. Эта глава разбита на семь частей. В первой части (разделы 4.2-4.6) мы обсудим вопросы, связанные с обучением по методу обратного распространения. Начнем с раздела 4.2, подготавливающего почву для дальнейшего изложения этого вопроса.
В разделе 4.3 будет представлено детальное описание алгоритма в виде последовательности правил вычисления (сла1п пз|е оТ са1сп!пз). Алгоритм в сжатом виде приводится в разделе 4.4. В разделе 4.5 мы продемонстрируем использование алгоритма обратного распространения на примере задачи исключающего ИЛИ (ХОК), которая неразрешима с точки зрения однослойного персептрона. В разделе 4.6 приводятся некоторые эвристические и практические рекомендации по повышению производительности алгоритма обратного распространения. Вторая часть (разделы 4.7 — 4.9) посвящена использованию многослойного персептрона для распознавания образов. В разделе 4.7 приводится решение статистической задачи распознавания образов с помощью многослойного персептрона.