Хайкин С. - Нейронные сети (778923), страница 77
Текст из файла (страница 77)
обобщение распределения, описываемого формулой (5.59). Решение задачи аппроксимации, представленное формулой (5.70), открывает возможность для создания обобщенных сетей на основе радиальных базисных функций (ВВР), имеющих структуру, показанную на рнс. 5.5. Конструкция этой сети предусматривает использование порога (т.е, независимой от данных переменной), применяемого к выходному узлу сети. Это делается путем установки одного из линейных весов выходного слоя сети равным порогу и назначения соответствующей радиальной базисной функции постоянного значения +1. Использование взвешенной нормы можно интерпретировать двумя способами. Вопервых, как применение аффинного преобразования (ай1пе 1гапз(оппабоп) к исходному входному пространству.
В принципе, возможность такого преобразования не искажает результаты, так как оно фактически соответствует единичной матрице взвешивания нормы. Во-вторых, взвешенная норма вытекает непосредственно из незначительного обобщения тс-мерного Лапласиана в определении псевдодифференциального оператора (5.63) (см. задачу 5.6). Использование взвешенной нормы может быть обосновано в контексте гауссовых радиальных базисных функций следующим образом.
Гауссова радиальная базисная функция С(((х — т,)~с) с центром в точке т, и матрицей взвешивания нормы С может быть представлена следующим образом: 5.7. Обобщенные сети на основе радиальных базисных функций 37$ В структурных терминах обобщенная сеть КВЕ на рис. 5.5 аналогична КВЕ-сети регуляризации, представленной на рис. 5.4. Однако они имеют два важных отличия. 1. Количество улов скрытого слоя в обобщенной сети КВЕ равно т„где т, обычно меньше количества примеров обученияАГ. С другой стороны, количество скрытых узлов в КВЕ-сетях регуляризации строго равно Х.
2. В обобщенных сетях КВЕ (см. рис. 5.5) линейные веса, связанные с выходным слоем, положение центров радиальных базисных функций и матрица взвешенной нормы, соответствующая скрытому слою, являются неизвестными параметрами, которые определяются в процессе обучения. В функции активации скрытого слоя в КВЕ-сетях регуляризации (см. рис.
5.4) известны, так как определяются множеством функций Грина с центрами в точках примеров обучения. Единственными неизвестными параметрами этой сети являются линейные веса выходного слоя. Рецептивные поля Матрица ковариации Е определяет рецептивное ноле, или ноле чувствительности (гесербче бе1д), гауссовой радиальной базисной функции С())х — г,!)с), определенной формулой (5.81). Для известного центра Ф, поле чувствительности С(/)х — г,)/с) обычно определяется как опорная функция Ф(х) = Щх — Ф,!),) — а, (5.83) где а — некоторая положительная константа [1169).
Другими словами, поле чувствительности функции С(~(х — т,!)с) является подмножеством области определения входного вектора х, в которой эта функция принимает особенно большие значения (больше заданного уровня а). Аналогично определению матрицы взвешенной нормы С можно выделить три различных способа задания матрицы ковариации и, отражающие ее влияние на форму, размеры и ориентацию поля чувствительности.
1. Е = пз1, где 1 — единичная матрица; сгз — общая дисперсия. В этом случае поле чувствительности функции С(Йх — т,(~с) представляет собой гиперсферу с центром т, и радиусом и. 2. Е = б1а8(п1„п~~,..., п~,), где п~ — дисперсия з-го элемента входного вектора х; 2 = 1, 2,..., гпв. В этом случае поле чувствительности функции С(~ (х — г,) ~с) представляет собой гиперэллипсоид, полуоси которого совпадают с осями входного пространстваи имеют длину а,.
3. Š— недиагональная матрица. По определению матрица ковариации Е является положительно-определенной. Исходя из этого, можно использовать 376 Глава 6. Сети на основе радиальных базисных функций преобразование подобия из алгебры матриц для декомпозиции матрицы Е следующим образом: Х = О'ЛО.
(5.84) где Л вЂ” диагональная матрица; Π— матрица ортогонального вращения. Матрица й определяет форму и размер поля восприятия, а матрица Π— его ориентацию. 5.8. Задача ХОР (повторное рассмотрение) Рассмотрим еще раз задачу ХОК (исключающего ИЛИ), которая уже была решена в главе 4 с помощью многослойного персептрона с одним скрытым слоем.
В этом разделе приводится решение этой же задачи, но уже с помощью сетей КВЕ Исследуемая сеть КВР состоит из пары функций Гаусса вида С([]х — х,[]) = екр( — ]]х — г,][~), з = 1,2, (5.85) с центрами т, и тз, определяемыми выражением т, = [1,1]", Хз = [0,0]т. Для описания выходного элемента введем следующие предположения. 1.
Функционирование выходною элемента основано на совместном использовании весов (зпе(8Ы-зйаппй), что обусловлено симметричностью задачи. Это одна из форм встраивания априорной информации в конструкцию сети. Таким образом, при наличии двух скрытых элементов нам придется определить всего один вес зс. 2. Выходной элемент имеет порог 6 (независимую от данных переменную). Важность этого порога объясняется тем, что функция ХОК имеет среднее значение, отличное от нуля. Описываемая таким образом структура сети, предназначенной для решения задачи ХОК, показана на рис. 5.6. Соотношение "вход-выход" для этой сети имеет следующий вид: (5.86) нный вхол =+! Функции Гаусса выхолной наврав В соответствии с табл.
5.2 выход сети должен удовлетворять следующему требованию: у(х,) = х(,, у = 1, 2, 3, 4, (5.87) где х, — входной вектор; Н, — соответствующее ему значение желаемого отклика. Пусть д; = С(]]х, — тв][), т' = 1,2,3,4;т = 1,2. (5.88) Тогда, используя значения из табл. 5.2 в выражении (5.88), можно получить следующую систему уравнений, записанную в матричном виде: Сту = 6, (5.89) где (5.90) 6 = [010Цт, ж = [шало]~. (5.91) (5.92) Описанная здесь задача является сверлолределенной (оч шЪетепп(паГед) в том смысле, что количество точек данных превышает число свободных параметров. Это объясняет неквадратную форму матрицы С.
Следовательно, обратная ей матрица определяется неоднозначно. Чтобы обойти эту трудность, мы будем использовать минимальное но норме (ппшшшп-попп) решение уравнения (5.77): (5.93) ха Рис. 5.6. вхВР-сеть, созданная для ре- Вхолвыв шения задачи ХОЙ уавы 6.8. Задача ХОГх (повторное рассмотрение) 377 1 0,1363 1 0,3678 0.3678 1 0,1363 1 1 0,3678 0,3678 1 378 Глава 5. Сети на основе радиальных базисных функций ТАБЛИЦА 5.2. Преобразование "вход-выход", вычисляемое для задачи ХОР Входной крамер, х, Желаемый отклик, Ыу Точка данных, / (1,1) (0,1) (0,0) (1,0) Обратите внимание, что СтС вЂ” квадратная матрица, для которой существует единственная обратная ей матрица. Подставляя (5.90) в (5.93), получим: 1, 8292 -1, 2509 О, 6727 -1, 2509 О, 6727 -1, 2509 1, 8292 -1, 2509 -О, 9202 1, 4202 -О, 9202 1, 4202 (5.94) В заключение, подставляя (5.91) и (5.94) в (5.93), получим: -2, 5018 -2, 5018 +2, 8404 что и завершает определение архитектуры сети КВЕ 5.9.
Оценивание параметра регуляризации У =з(х)+а,, (=1,2,...,Х (5.95) где Дх,) — гладкая кривая; а; — одна из реализаций процесса белого шума с нулевым средним значением и дисперсией оз, т.е. Параметр регуляризации к играет важную роль в теории регуляризации сетей на основе радиальных базисных функций, которая рассматривалась в разделах 5.5-5.7.
Для того чтобы сполна использовать возможности этой теории, необходимо применить столь же принципиальный подход к оценке параметра Х. Чтобы лучше понять идею, рассмотрим задачу нелинейной регрессии (поп! шеаг гейгеьзюп ргоЫеш), описываемую моделью, в которой наблюдаемый выход у; в момент времени 1 зависит от входного вектора х;: 5.9. Оценивание параметра ре~уляризации 379 Е(а,) = 0 для всех г, (5.96) ( оз, к = г', Е[в,сь[ — — ) (О, /сфг.
(5.97) Задача состоит в восстановлении функции модели 7(х,) на основе данных обучения ((х;, у,));",. Пусть Гл(х) — регуляризированная оценка функции ~(х) для некоторого значения параметра регуляризации )л. Это значит, что Гл(х) минимизирует функционал Тихонова, построенный для задачи нелинейной регрессии в следующем виде: Е(Г) = — ,'~. [у* — Г(**) Г + — [[РГ(*) [[' 2 ' ' 2 (5.98) Выбор подходящего значения параметра 2, является нетривиальной задачей.
Значение этого параметра должно обеспечивать компромисс между следующими двумя противоречивыми моментами. ° Грубость (гопйлпезз) решения, определяемая слагаемым [[РГ(х) [[~. ° Недостоверность (1пбде1)гу) данных, определяемая слагаемым 2; [у; — Г(х,)~з. Среднеквадратическая ошибка Пусть В(Х) — среднеквадратическая ошибка на данном множестве примеров между двумя функциями; функцией регрессии )(х), соответствующей модели, и функцией аппроксимации Гл(х), представляющей решение для некоторого значения )л, т.е. % Гг()л) = — ~~> [Д(х;) — Гл(х,)) .