Хайкин С. - Нейронные сети (778923), страница 54
Текст из файла (страница 54)
где )1, — среднее значение сигнала г,(п). Соответственно матрица Р желаемых откликов размерности М х Х, представляемых выходному слою сети, имеет вид 4.9. Извлечение признаков 271 где р„„ вЂ” среднее значение ь(ь(п). Минимизация функции Е„, определяемой выра- жеиием (4.70), — это линейная задача, решение которой описывается уравнением (4.72) где Х вЂ” псевдообратиая матрица для Х.
Минимальное значение функции Е,„можио представить в виде (см. упражнение 4.7) (4.73) где и[) — оператор следа. Так как целевые образы, представленные матрицей Р, фиксированы, задача минимизации функции стоимости Е„отиосительио сииаптических весов многослойного персептроиа эквивалентна максимизации дискриминантной функции [1120]: (4.74) где матрицы Сь и С, определяются следующим образом. ° С, — матрица общей ковариации размером ть х ть (гоьа1 сочапапсе ша1пх) выходов скрытых нейронов при представлении )ц входных сигиалов С,=Х2 . (4.75) Матрица С;~ является псевдообратиой по отношению к матрице С,. ° Матрица Сь размерности т, х т, определяется выражением Сь=ХР РХ . (4.76) Обратите внимание, что дискримииаитиая функция Р согласно (4.74) определяется исключительно скрытыми нейронами многослойного персептроиа.
Заметим также, что количество скрытых слоев, участвующих в нелинейном преобразовании и генерации дискримииаитиой функции, ие ограничено. Если многослойный персептрои содержит несколько скрытых слоев, то матрица Х описывает все множество образов (сигиалов) в пространстве, определенном последним слоем скрытых нейронов. Чтобы интерпретировать матрицу С», рассмотрим частный случай схемы кодирования "один из М" (опе-Тгош-М сод(пй зсЬеше) [1120). Это значит, что й-й элемент целевого вектора (желаемого отклика) равен единице, если входной сигнал прииадлежит классу Й, и нулю в противном случае: 272 Глава 4.
Мноюспойный персептрон О 1 — )с-й элемент, д(п) Е Сь. О д(п) = Таким образом, для М классов Сь,к = 1, 2, ..., М, к каждому из которых относится Хь образов, таких, что м Хь — — Х, к=1 матрицу Сь для данной схемы кодирования можно представить в виде (4.77) Связь с линейным дискриминантом Фишера Дискриминантная функция, определенная в (4.74), характерна лишь для многослойного персептрона. Однако она тесно связана с линейным дискриминантом Фишера (Р)зЬег'з йпеаг д)зсг1ш)пап1), который описывает линейное преобразование многомерной задачи в одномерную. Рассмотрим переменную у, представляющую собой линейную комбинацию элементов входного вектора х.
Более точно, пусть у является скалярным произведением вектора х и вектора настраиваемых весов и (содержащего в качестве первого элемента порог 6): где вектор 1ь,л размерности гп1 х 1 является средним значением вектора выходов скрытых нейронов для Х входных образов. В соответствии с (4.77) матрицу С~ можно интерпретировать как матрицу взвешенной мелсклассовой ковариации (ие)йЪ1ед Ъепчееп-с1аая сочапапсе шапзх) выходных сигналов скрьпого слоя. Таким образом, для схемы кодирования "один из М" многослойный персептрон максимизирует дискриминантную функцию, представляющую собой след произведения двух величин: матрицы взвешенной межклассовой ковариации и псевдообратной матрицы для матрицы общей ковариации. Из этого примера видно, что при обучении многослойного персептрона методом обратного распространения в качестве предварительной информации учитываются пропорции образов в рамках отдельных классов.
4.9. Извлечение признаков 273 Вектор х выбирается из множества С, или Сз, которые, в свою очередь, отличаются векторами средних значений (Н, и Нг соответственно). Критерий Фииьера (г(зйег'з сп1епоп), определяющий степень различия между двумя классами, задается следующим образом: итСьи ()=„, '„, где Сь — матрица межклассовой ковариации (Ьецчееп-с1азз сочапапсе ша1пх), Сь = (Нз — НзННг — Н|) а С, — общая матрица внутриклассовой ковариации (тчЖ1п-с1азз сочапапсе ша1пх), с = ~ (х. — н,Нх. — н,)'+ ~ (х. — н,Нх.
— н,)'. несг несь Матрица внутриклассовой ковариации С, пропорциональна матрице ковариации обучающего множества. Это симметричная и неотрицательно определенная матрица, которая обычно является несингулярной, если размер множества обучения достаточно велик. Матрица межклассовой ковариации Сь также является симметричной и иеотрицательно определенной, однако она сингулярна. Следует отметить, что матричное произведение Сьзч всегда направлено в сторону вектора разности между средними значениями н, — н . Это свойство непосредственно следует из определения матрицы Сь.
Выражение, определяющее критерий Фишера,7(чг), называют обобщенным фактором Рэлея (йепега1(гед йау!е18Ь 1рюбеп1). Вектор зч, максимизирующий эту величину, должен удовлетворять условию Сь|ч = ХС,зч. (4.78) Уравнение (4.78) описывает обобщенную задачу нахождения собственных чисел. В нашем случае матричное произведение Сьзч всегда направлено в сторону разности н, — нз, так что уравнение (4.78) достаточно легко разрешить относительно зч; = с, '(н, — н,). (4.79) Это решение называется линейным дискриминантом Фишера (г)зйег'з 1)пеаг д)зсппппап1) [2б9). Возвращаясь к вопросу извлечения признаков, вспомним, что дискриминантная функция Р, определяемая формулой (4.74), связывает матрицы межклассовой и общей ковариации образов, трансформированных в пространство скрытых нейронов сети.
Дискриминантная функция Р аналогична линейному дискриминанту Фишера. Именно поэтому нейронные сети так хорошо решают задачу классификации. 274 Глава 4. Мноюслойный персептрон 2 х е Первый скрытый слой Входной слой Второй скрытый слой Выходной слой Рис. 4.1В. Многослойный перселтрон с двумя скрытыми слоями и одним выходным нейроном 4.10. Обратное распространение ошибки и дифференцирование Метод обратного распространения ошибки является специфической реализацией градиенгпного спуска (йгасйеп1 дейсеп1) в пространстве весов многослойных сетей прямого распространения. Основная идея этого метода заключается в эффективном вычислении частных производных (раг6а! депчабче) функции сети Е(тч, х) по всем элементам настраиваемого вектора весов тч для данного входного вектора х.
В этом и заключается вычислительная мощность алгоритма обратного распространенияз. Для большей конкретизации рассмотрим многослойный персептрон с входным слоем, состоящим из тс узлов, двумя скрьпыми слоями и одним выходным нейроном (рис. 4.18). Элементы вектора весов тч упорхшочены по слоям (начиная с первого скрытого), затем по нейронам и, наконец, по синаптическим связям каждого нейрона. Пусть та,в — синаптический вес, связывающий нейрон т с нейроном ) слоя 1 = 0,1,.... Для первого скрытого слоя (1 = 1) индекс т относится не к нейрону, а к входному узлу. Для 1 = 3, что соответствует выходному слою, у = 1.
Требуется вычислить производные функции Е(чу, х) по всем элементам вектора весов тч для заданного входного вектора х = г[с„хз,...,х ,)т. Заметим, что для 1 = 2 (те. для второго скрытого слоя) функция Г(тч,х) имеет форму, аналогичную правой части выражения (4.69). Вектор весов тч включен в список аргументов функции Е(тч, х), чтобы привлечь к нему внимание. Э Первое документиромнное описание обратного распространения ошибки для эффективной оценки градиента было предложено в [1128). Материал, представленный в раэделе 4.10, соответствует подходу, предложенному в [919).
Более полно этот вопрос освешен в [1126). 4.10. Обратное распространение ошибки и дифференцирование 276 Многослойный персептрон на рис. 4.18 определяется архитектурой А (представляющей собой дискретный параметр) и векторам весов тт (составленным из вещественных элементов). Пусть А, — часть архитектуры, включающая в себя фрагмент (0 нейронной сети от входного слоя (1 =О) до узла 7' слоя 1(1 = 1, 2, 3). Соответственно можно записать Г()в,х) = ())(А, )), (4.80) где (р — функция активации.
Однако А, необходимо интерпретировать исключи(з) тельно как символ обозначения архитектуры, а не переменную. Таким образом, адаптируя выражения (4.1), (4.2), (4.11) и (4.23) к данной ситуации, получим следуюп(ий результат: дГ(., х) = (р (А1 )(р(А( )), (4. 81) дшы (з) дГ(а, х) (4.82) д„, (2) дГ(тк, х) (р~(А(ь))< ~(А(ц) ~ (3) г(А(2)) (2) (4.83) дш,(," где (р' — частная производная нелинейной функции ф по своим аргументам; х;— (-й элемент входного вектора х. Аналогично можно вывести выражения для частных производных любой общей сети с большим числом слоев и выходных нейронов.