Хайкин С. - Нейронные сети (778923), страница 76
Текст из файла (страница 76)
В выражении (5.66) отдельные слагаемые функции Гаусса, определяющие функцию аппроксимации Г(х), в качестве аргументов содержат разные переменные. Для упрощения изложения в Г(х) часто принимается условие гт, = гг для всех г, Несмотря на то что определенные таким образом функции имеют несколько ограниченный вид, они остаются универсальными аппроксиматорами [815]. 5.6. Сети регуляризации Для реализации разложения регуляризованной функции аппроксимации гх(х), представленной в (5.55) в терминах функции Грина С(х, х,) с центром в точке х„можно использовать нейросетевую структуру, показанную на рис.
5.4. По очевидным причинам такие сети называются сетями регуляризачии (гейп!апгагюп пепчог1г) (847). Как и сеть, представленная в разделе 5.1, эта сеть имеет три слоя. Входной слой состоит из входных узлов, количество которых равно размерности те вектора входного сигнала х (т.е. количеству независимых переменных в задаче). Второй слой является скрытым. Он состоит из нелинейных элементов, которые непосредственно связаны со всеми узлами входного слоя.
Для каждой точки данных х, (1 = 1, 2,..., Ю, где Х вЂ” размер множества примеров обучения) существует свой скрытый узел. Функциями активации отдельных узлов скрытого слоя являются функции Грина. Следовательно, выходной сигнал 1-го нейрона скрытого слоя определяется как С(х, х,). Выходной слой состоит из единственного линейного нейрона, связанного со всеми узлами скрытого слоя. Под "линейностью*' подразумевается то, что его выход является линейно-взвешенной суммой всех выходных сигналов скрытого слоя.
Веса выходного слоя являются неизвестными коэффициентами разложения, определяемого в терминах функций Грина С(х, х,) и параметра регуляризации Х (см. (5.54)). На рис. 5.4 310 Глава 5. Сети на основе радиальных базисных функций х, хз Нх) х„, х„ Входной слой Скрытый слой, состоящий из %функций Грина Выходной слой Рнс. 5.4. Сеть регуляризации х, х х„ Входной слой Скрытый слой, состоящий из ы, радиальных базисных функций Выходной слой Рнс.
5.5. Сеть на основе ради- альных базисных функций показана архитектура сети регуляризации с одним выходом. На рисунке видно, что такая архитектура может быть расширена для выходного сигнала любой размерности. В сети регуляризации, показанной на рис. 5.5, предполагается, что функция Грина кз(х, хт) является лоложительно-определенной для всех хь При выполнении этого условия (например, если функция Грина имеет вид функции Гаусса (5.59)) решение, генерируемое сетью, будет являться оптимальной интерполяцией в смысле минимизации функционала Е(г ).
Более того, с точки зрения теории аппроксимации сети регулярнзации обладают следующими положительными свойствами [847). 5.7. Обобщенные сети на основе радиальных базисных функций 371 1. Сеть регуляризации является универсальным аппроксиматором в том смысле, что при большом количестве скрытых элементов она способна довольно хорошо аппроксимировать любую непрерывную функцию на компактном подмножестве из Я'"о. 2. Так как схема аппроксимации, вытекающая из теории регуляризации, является линейной относительно неизвестных коэффициентов, то сети регуляризации обладают свойством наилучшей аллроксимаиии (Ьезьарргохппабоп ргореггу).
Это значит, что для неизвестной линейной функции 7" всегда существует такой набор коэффициентов, который аппроксимирует функцию у лучше любого другого набора. 3. Решение, обеспечиваемое сетью регуляризации, является оптимальным. Под оптимальностью здесь понимается то, что сеть регуляризации минимизирует функционал, измеряющий удаленность решения от своего истинного значения, представленного примерами обучения. 5.7.
Обобщенные сети на основе радиальных базисных функций Однозначное соответствие между данными обучения х; и функциями Грина С(х, х,) для 1 = 1, 2, ..., Х явилось основой создания сети регуляризации, которая в вычислительном смысле при больших значениях Х является очень ресурсоемкой. В частности, вычисление линейных весов сети (т.е. коэффициентов разложения в (5.55)) требует реализации операции обращения матрицы размерности Х х Х, вычислительная сложность которой возрастает пропорционально Хз. Более того, для больших матриц ухудшается обусловленность, поскольку число обусловленности (сопй6оп пшпЬег) матрицы определяется как отношение ее максимального собственного числа к минимальному. Для того чтобы обойти эти вычислительные трудности, необходимо уменьшить сложность сети, т.е.
найти некоторую аппроксимацию регуляризированного решения. Такой подход предполагает поиск субоптимального решения в пространстве меньшей размерности, аппроксимирующего регуляризированное решение (5.55). Для этого используется стандартный прием, получивший в вариационных задачах название метода Голеркина (Оа!егк1п'з шегйоб). Согласно этой технологии приближенное решение г'"(х) находится как разложение по конечному базису, т.е. 1847) (5.67) где (<р,.(х))( = 1, 2, ..., гп1) — новое множество базисных функций, которые без потери общности предполагаются линейно-независимыми, а ш; — новое множество весов. Обычно количество базисных функций меньше числа точек данных обучения 372 Глава б.
Сети на основе радиальных базисных функций (т.е. т1 < Х). Для радиальных базисных функций можно принять 1р,(х) = С(//х — Х,Й), 1 = 1,2,...,т„ (5.68) где множество центров (1,~ 1 = 1, 2,..., т1) необходимо определить. Только такой выбор базисных функций гарантирует, что в случае т1 = Х и 1 = 1, 2,..., 1'г! Х, = Х1, корректное решение (5.58) будет полностью восстановлено. Таким образом, подстав- ляя (5.68) в (5.67), можно переопределить Г'(х) следующим образом; г" (х) = ~~> ю,С(х, Х,) = У 111,С(8Х вЂ” Г,~~).
(5.69) г=1 Для данного разложения (5.69) функции аппроксимации Е" (х) задача сводится к определению нового множества весов (ю1 ~ 1' = 1, 2,..., т1), которое минимизирует новый функционал стоимости Е(Е*), определяемый следующим образом: и ггг! 2 Е(Е*) = ~~> с(1 — ~~1 п11СДХ1 — 11!/) + )1 )!ВГ*// г=1 1=1 (5.70) Первое слагаемое в правой части (5.70) может быть выражено как квадратичная Евклидова норма 011 — — Си((з, где 11 = 114, г(г г, 11Й (5.71) С(Х„Х1) С(х1,1,) ... С(Х„Х...) С(хзг $1) С(хзг Фя) ... С(хзг Х~! ) (5.72) С(хг1г11) С(хг1гхз)... С(хнгт„, ) т (5.73) Вектор желаемого отклика остается, как и ранее, )11'-мерным. Однако размерности матрицы С функций Грина и вектора весов тк изменяются.
Матрица С теперь имеет размер Ж х тг и, таким образом, перестает быть симметричной. Вектор тк имеет размерность т1 х 1. Из выражения (5.69) видно, что функция аппроксимации Е' является линейной комбинацией функций Грина для стабилизатора О. Следовательно, второе слагаемое в правой части (5.70) можно выразить следующим образом: 6.7. Обобщенные сети на основе радиальных базисных функций 373 ~~1)Р 11 («УГ,«)Р )„ т! !ь ! ю;С(х,«!),«У«)~~к ю,С(х,«,) !=1 !=! н ь! ! П! ! »а,С(х, 1,), х! и!,Ь 1, !=! !=1 и (5.74) т! !ь! и! ш,С(1, 1;) = !=! !=! тт Сот»! где во второй и в третьей строках используется определение сопряженного оператора и выражение (5.35) соответственно.
Матрица Со является симметричной матрицей размерности т, х т,: С(1,,1,) С(1„«з) ... С(1„1, ) С(«ъ 1, ) С(1„1,) ... С(1„1„„) Со = (5.75) С(1 „1,) С(1 „«,) ... С(» „1,) Таким образом, минимизация (5.70) по отношению к вектору тт приводит к следующему результату (см. задачу 5.5); (Ст С + Хсо)тв = Стд. (5.76) .=С'б, Л=о, (5.77) где С~ — матрица, псевдообратиая матрице С, т.е. С' = (СТС)-1Ст. (5.78) Взвешенная норма Норма в приближенном решении (5.69) обычно рассматривается как Евклидова. Однако если отдельные элементы входного вектора х принадлежат разным классам, более целесообразным будет использование общей взвешенной нормы (тне18Ыеб попп)— Если параметр регуляризации Х принимает значение, равное нулю, вектор тт сходится к псевдообратиому (по минимальной норме) решению сверхонределенной (оуегде»епп)под) задачи подбора кривой иа основе ме!нада наименьших квадратов (!еаз«-з»«пагеа да«а-йп)пй ргоЫеш) для т, ( Ф (160]: 374 Глава 6. Сети на основе радиальных базисных функций квадратичной формы, имеющей вид (847] ))х~~~, = (Сх)т(Сх) = хтСтСХ, (5.79) где С вЂ” матРица взвешенной ноРмы (попп а е(8)П шалтх) РазмеРности тс х тс', тс— размерность входного вектора х.
Используя определение взвешенной нормы, выражение для аппроксимации регуляризированного решения (5.69) можно переписать в более общей форме [675], (847]: (5.80) Щх — тс/и) = ехР( — (х — т,)тС С(х — Ф,)) = 1 = ехр — -(х — $,)~Е '(х — т,) 2 (5. 81) где обратная матрица Е ' определяется соотношением 1 -Е ! = Стс. 2 (5.82) Выражение (5.81) представляет собой многомерное распределение Гаусса с вектором среднего значения т, и матрицей ковариации Е, т.е.