Хайкин С. - Нейронные сети (778923), страница 51
Текст из файла (страница 51)
Если же синаптическим весам присвоить малые начальные значения, алгоритм будет очень вяло работать в окрестности начала координат поверхности ошибок. В частности, это верно для случая антисимметричной функции активации, такой как гиперболический тангенс. К сожалению, начало координат является седяовой точкой (аа<Ы!е ро(пг), т.е, стационарной точкой, где образующие поверхности ошибок вдоль одной оси имеют положительный градиент, а вдоль другой — отрицательный.
По этим причинам нет смысла использовать как слишком большие, так и слишком маленькие начальные значения синаптических весов. Как всегда, золотая середина находится между этими крайностями. Для примера рассмотрим многослойный персептрон, в котором в качестве функции активации используется гиперболический тангенс. Пусть пороговое значение, применяемое к нейронам сети, равно нулю. Исходя из этого, индуцированное локальное поле нейрона 1 можно выразить следующим образом: т оу ~~~ ггггт уг Предположим, по входные значения, передаваемые нейронам сети, имеют нуле- вое среднее значение и дисперсию, равную единице, т.е.
)г„= Е[у,] = О для всех г, оз = Е[(у, — рг)з] = Е[уз] = 1 для всех г. Далее предположим, что входные сигналы некоррелированны: [ 1 для гг = г, ( О для Й ~ г', и синаптические веса выбраны из множества равномерно распределенных чисел с нулевым средним р = Е[ш,;] = О для всех пар (1', г) 262 Глава 4. Многослойный персептрон и дисперсией сг~ = Е[[ш г — )г )~] = Е[ш8 ] для всех пар ()', г). Следовательно, математическое ожидание и дисперсию индуцированного локаль- ного поля можно выразить так: т тл р„= Е[из] = Е ~~г шзгуг = ~~ Е[ш,,]Е[у;] = О, г=г г=1 сг~ = Е[(и — 1г„)з] = Е[из] = Е ~~г ~~г штш .у,у„ г=1 к=1 ~~г Е[ш,гш,ь]Е[угуь] = ~~г Е[шз] = тсг~, (4.48) г=1 ь=1 где т — число синаптических связей нейрона.
На основании этого результата можно описать хорошую стратегию инициализации синаптических весов таким образом, чтобы стандартное отклонение индуцированного локального поля нейрона лежало в переходной области между линейной частью сигмоидальной функции активации и областью насыщения. Например, для случая гиперболического тангенса с параметрами а и 1г (см. определение функции) эта цель достигается при гг„= 1 в (4.48). Исходя из этого, получим [617): -г!г о =т (4.49) Таким образом, желательно, чтобы равномерноераспределение, из которого выби- раются исходные значения синаптических весов, имело нулевое среднее значение и дисперсию, обратную корню квадратному из количества синаптических связей нейрона. 7.
Обучение ло подсказке (Ыпгз). Обучение на множестве примеров связано с аппроксимацией неизвестной функцией отображения входного сигнала на выходной. В процессе обучения из примеров извлекается информация о функции Д ) и строится некоторая аппроксимация этой функциональной зависимости. Процесс обучения на примерах можно обобщить, добавив обучение ло лодсклзке, которое реализуется путем предоставления некоторой априорной информации о функции Д ) 14).
Такая информация может включать свойства инвариантности, симметрии и прочие знания о функции Д ), которые можно использовать для ускорения поиска ее аппроксимации и, что более важно, для повышения качества конечной оценки. Использование соотношения (4.49) является одним из примеров такого подхода. 4.?. Представление выхода и решающее правило 253 У( г Уг хг Рис. 4.12. Блочная диаграмма классификатора входных сигналов 8. Скорость обучения (1еагшпй гагев). Все нейроны многослойного персептрона в идеале должны обучаться с одинаковой скоростью.
Однако последние слои обычно имеют более высокие значения локальных градиентов, чем начальные слои сети. Исходя из этого параметру скорости обучения т) следует назначать меньшие значения для последних слоев сети и большие — для первых. Чтобы время обучения для всех нейронов сети было примерно одинаковым, нейроны с большим числом входов должны иметь меньшее значение параметра обучения, чем нейроны с малым количеством входов. В [617) предлагается назначать параметр скорости обучения для каждого нейрона обратно пропорционально квадратному корню из суммы его синаптических связей. Более подробно о параметре скорости обучения речь пойдет в разделе 4.17.
4.7. Представление выхода и решающее правило Теоретически для задачи классификации на М классов (М-с1авв с!авяйсайоп ргоиеш), в которой объединение М классов формирует все пространство входных сигналов, для представления всех возможных результатов классификации требуется М выходов (рис. 4.12). На этом рисунке вектор ху является 1'-м прототипом (рго1отуре) (т.е.
отдельной реализацией) гп-мерного случайного вектора х, который должен быть классифицирован многослойным персептроном. Й-й из М возможных классглв которому принадлежит данный входной сигнал, обозначается Сю Пусть уь. — й-й вГхрод сети, генерируемый в ответ на прототип х: уь =Гь(х), Й=1,2,...,М, (4.50) где функция гь( ) определяет отображение, которому обучается сеть при передаче входного примера на )с-й выход. Для удобства представления обозначим у = [ргд, "йгд,,рмд] = [Рг(ху), Йз(хз),..., Рм(хт)] = Р(ху), (4.51) где к'( ) — вектор-функция. Главный вопрос этого раздела звучит так. Каким долвгсно быть оптимальное решающее правило, применяемое длл классификации М вьподов сети после обучения многослойного пврсвптрона? 264 Глава 4.
Многослойный лерселтрон Естественно, решающее правило должно основываться на знании вектор-функции (4,52) Р:% Эх — ~уЕЯ В общем случае о вектор-функции Р( ) определенно известно лишь то, что это непрерывная функция, минимизирующая функционал эмпирического риска (ешр(пса! пзк йшсйопа1): (4.53) где й . — желаемый (целевой) выход для прототипа х; ! ! ( ! — Евклидова норма вектора; )ч' — общее число примеров, представленных сети для обучения.
Сущность критерия (4.53) та же, что и у функции стоимости (4.3). Вектор-функция Р( ) строго зависит от выбора примеров (х,, й, ), использованных для обучения сети. Это значит, что разные значения пар (х, 6 ) приведут к построению различных вектор-функций Р(.). Обратите внимание, что используемое здесь обозначение (х, й ) является эквивалентом употреблявшегося ранее обозначения (х(э), 6(2)). Предположим, что сеть обучается на двоичных целевых значениях (когорые случайно совпадают с верхней и нижней границами области значений логистической функции): ( 1, если прототип х, принадлежит классу С„, Иьт = 1( ( О, если прототип х, не принадлежит классу Сь.
Основываясь на этом допущении, класс С„можно представить М-мерным целевым вектором 1 — к-й элемент. Напрашивается предположение, что многослойный классификатор персептронного типа, обученный по алгоритму обратного распространения на конечном множестве независимых и равномерно распределенных примеров, обеспечивает асимптотическую аппроксимацию соответствующей апостериорной вероятности класса.
Это свойство можно обосновать следующим образом (881], [1133). 4.7. Представление выхода и решающее правило 26$ ° Согласно закону больших чисел, при бесконечном увеличении размера )т' обучающего множества вектор зт, минимизирующий функционал стоимости )т из (4.53), достигает оптимального значения и ', минимизирующего ожидание случайной величины 1/2()6 — я(тт, х)йз, где й — вектор желаемого отклика; Г(тт, х) — аппроксимация, реализованная многослойным персептроном для вектора весовых коэффициентов тт и входа х (1133]. Функция х(тт, х), в которой явным образом показана зависимость от вектора тт, — зто не что иное, как использованная ранее функция Е(х). ° Оптимальный вектор весов тт' обладает тем свойством, что соответствующий ему вектор фактического выхода сети г'(тт', х) является аппроксимацией, построенной по методу наименьших квадратов и минимизирующей ошибку условного ожидания вектора желаемого отклика при данном входном векторе х [1133].
Этот вопрос уже обсуждался в главе 2. ° Для задачи классификации входных сигналов на М классов к-й элемент вектора желаемого отклика равен единице, если входной вектор х принадлежит к классу Сь, и нулю в противном случае. Отсюда следует, что условное ожидание вектора желаемого отклика при данном векторе х равно апостериорной вероятности класса Р(Сь ~к), к = 1, 2,..., М (881]. Случайный вектор х относится к классу Сы если Рь(х) ) Р (х) для всех т ф. Й, где Гь(х) и Р,(х) — элементы векторфункиии отображения (4. 55) Р1(х) р( ) Р2(х) Рм (х) Единственное наибольшее значение выходного сигнала существует с вероятностью 1, если соответствующие апостериорные распределения классов различаются.
(Здесь предполагается использование арифметики с бесконечной точностью.) Это решающее правило имеет определенное преимущество по сравнению с моделью "отжи- Отсюда следует, что многослойный персептрон (с логистической активационной функцией) действительно аппроксимирует апостериорную (а ров1епоп) вероятность распознавания класса при условии, что размерность обучающего множества достаточно велика и что процесс обучения методом обратного распространения не прекратится в точке локального минимума. Теперь можно ответить на поставленный ранее вопрос.
В частности, можно утверждать, *по соответствующее решающее правило является (приближенно) байесовским правилом, обобщенным для аностериорной вероятности оценок. 266 Глава 4. Многослойный лерселтрон га", поскольку позволяет разделить однозначные (ппагпЬ(уюпз) решения. Это значит, что вектор х относится к определенному классу, если соответствующее выходное значение превышает заданный порог (в логистических формах функции активации обычно используется значение 0,5), в противном случае классификация не однозначна. В разделе 4.6 было указано, что двоичные целевые значения (О, Ц, соответствующие логистической функции (4.30), на практике во время обучения сети должны измениться на небольшое значение е, во избежание насыщения синаптических весов (в связи с далеко не бесконечной точностью представления чисел).
В результате этой модификации целевые значения перестают быть двоичными, и асимптотические аппроксимации Гь(х) не являются апостериорными вероятностями Р(С„~х) интересующих нас М классов (414]. Вместо этого Р(Сь ~х) линейно отображается на закрытый отрезок (е, 1 — е) так, что Р(Сь~х) = 0 соответствует выходу е, а Р(Сн~х) = 1— выходу 1 — е. Так как это отображение сохраняет относительный порядок, это не влияет на результат применения выходного решающего правила (4.55). Интересно также отметить следующее. Если граница решений формируется пороговым отсечением выходов многослойного персептрона относительно некоторых фиксированных значений, ее общая форма и ориентация могут быть выражены эвристически (для случая единственного скрытого слоя) в терминах количества скрытых нейронов и относительных величин связанных с ними синаптнческнх весов [683). Однагаз такой анализ не применим к границе решений, сформированной в соответствии с выходным решающим правилом (4.55).
Скрытые нейроны лучше рассматривать как нелинейные детенгноры признаков (попйпеаг Геаппе Йегесгог), призванные отобразить классы исходного входного пространства Я ' (возможно, линейно- неразделимые) в пространство активности скрытого слоя, где нх линейная разделимость более вероятна.
4.8. Компьютерный эксперимент В этом разделе с помощью компьютерного моделирования будет проиллюстрировано поведение многослойного персептронного классификатора в процессе обучения. Целью обучения является разделение двух перекрывающихся двумерных классов с гауссовым распределением, обозначенных цифрами 1 и 2. Пусть С, и Сз — множества событий, для которых случайный вектор х принадлежит к классам 1 и 2 соответственно. Функцию плотности условной вероятности можно представить в следующем виде.