Хайкин С. - Нейронные сети (778923), страница 84
Текст из файла (страница 84)
Сети на основе радиальных базисных функций 5.15. Резюме и обсуждение Структура сетей КВГ является необычной в том смысле, что архитектура скрытых элементов в корне отличается от структуры выходных. Поскольку основой функционирования нейронов скрытого слоя являются радиальные базисные функции, теория сетей КВГ тесно связана с теорией радиальных базисных функций, которая в настоящее время является одной из основных областей изучения в численном анализе [995). Интересным также является тот факт, что настройка линейных весов выходного слоя позволяет обеспечить хорошее качество классификации. В этом можно удостовериться, изучив литературу по адаптивным линейным фильтрам (434), (435).
В отличие от многослойных персептронов, обучаемых алгоритмом обратного распространения, архитектура сетей КВГ создается в соответствии с некоторыми принципиальными установками. В частности, теория регуляризации Тихонова, вкратце рассмотренная в разделе 5.5, является прочным математическим фундаментом для теории сетей КВК В этой теории главную роль играет функция Грина С(х, Гк).форма функции Грина как базисной функции сети определяется формой ограничения на гладкость (згпооййпй сопзгга(пг), задаваемого в теории регуляризации. Это условие, определяемое оператором дифференцирования 0 из (5.63), приводит к построению многомерной функции Гаусса для функции Грина.
Используя различные варианты оператора дифференцирования О, можно прийти к совершенно различным формам функции Грина. Напомним, что при ослаблении требования на меньшее количество базисных функций по сравнению с количеством точек важным фактором в определении сглаживающего регуляризатора становится уменьшение вычислительной сложности. Это является еще одной причиной использования некоторых других функций в качестве базисных для регуляризирусмых сетей КВГ (см.
рис. 5.5). Каким бы ни был выбор базисных функций, для получения наилучшего результата применения теории регуляризации к сетям КВГ требуется принципиальный подход к оценке параметра регуляризации Х. Этому требованию удовлетворяет обобщенная перекрестная проверка, описанная в разделе 5.9. Теория, обосновывающая применение обобщенной перекрестной проверки, является асимптотической. В ней предусмотрено следующее условие: для достижимости хорошей оценки параметра регуляризации Х множество примеров должно быть достаточно большим. Еще одним принципиальным подходом к построению сетей КВГ является теория регрессии ядра.
В этом подходе на вооружение берется оценка плотности, для которой радиально базисные функции в сумме дают единицу. Многомерное распределение Гаусса обеспечивает удобный метод удовлетворить это требование. В заключение отметим, что функции отображения в гауссовых сетях КВГ напоминают функции, реализованные на основе учета мнения группы экспертов, которые рассматриваются в главе 7. Задачи 409 Задачи Радиальные базисные функции 5.1.
Рассмотрим функцию следующего вида: ф(г)=( — ) 1о8( — ), где о')Овгз%. Обоснуйте использование этой функции в качестве инварианта для операций вращения и переноса для функции Грина. 5.2. Множество значений, представленных в разделе 5.8 для вектора весов и в сети КВР, показанной на рис. 5.6, представляет одно из возможных решений задачи ХОК.
Исследуйте еше одно множество значений вектора весов зт для решения той же задачи. 5.3. В разделе 5.8 представлено решение задачи ХОК с помощью сети КВР, имеющей два скрытых элемента. В этой задаче рассмотрим точное решение задачи ХОК с помощью сети КВР с четырьмя скрытыми элементами. Центры радиальных базисных функций определяются соответствующими образами входных данных. Четыре возможных входных примера определены координатами (0,0), (0,1), (1,О) и (1,1), представляюшими циклический обход вершин квадрата. а) Постройте матрицу интерполяции Ф для полученной сети КВР и вычислите для нее обратную.
б) Вычислите линейные веса выходного слоя этой сети. 5.4. Функция Гаусса является единственной факторизуемой радиальной базисной функцией. Используя это свойство, покажите, что функция Грина С(х,1), определенная как многомерное распределение Гаусса, может быть факгоризована следующим образом; где х, и 1, являются соответственно(-ми элементами векторов х и К 410 Глава б.
Сети на основе радиальных базисных функций Сети регуляризации 5.5. Рассмотрим следующий функционал стоимости: 12 т1 2 Е(Г ) = ~~) 111 — ~~1 гс,С (!!хг — 11)/) + Х !!РГ*))~, 1=1 1=1 который относится к функции аппроксимации т1 Г" (*) = ~ ~' ьга йк - М). Используя дифференциал Фреше, покажите, что функционал стоимости Е(Г*) достигает минимума при (СтС+ ~Со)м = Стй где С вЂ” матрица размерности )1! х т1; Се — матрица размерности т1 х т1; и — вектор размерности л21 х 1; 6 — вектор размерности Л х 1. Эти элементы определяются соответственно выражениями (5.72), (5.73), (5.75) и (5.46). 5.б.
Предположим, что определено соотношение чгг (РР) о — ~~о ( 1) —,„, ь=о где то то !72 1=1 1=1 о Матрица Ю размерности те х тс, угьй элемент которой обозначается как и11, является симметрической и положительно определенной. Исходя из этого, для нее существует обратная матрица Ю '. Это позволяет выполнить следующую декомпозицию: 1)-1 ут~у тГтт 1/2~!Угу СтС Задачи 411 где У вЂ” ортогональная матрица; Š— диагональная матрица; Е1»2 — квадрат- ный корень из последней, а матрица С определяется следующим образом: С вЂ” Е»!2У Требуется решить задачу нахождения функции Грина С(х, 1), удовлетворяющей следующему условию (в смысле распределения): (60)цС(х, С) = Ь(х — 1).
Используя многомерное преобразование Фурье для решения этого уравнения для С(х, 1), покажите, что С(х,х) = ехр — — »»х — 1»» (, 2 2 где (~х)!', = х~С Сх. .7. Рассмотрим слагаемое регуляризации, представленное в следующем виде: У»»" »'=Е"У»' »" я=о где озЬ аь — — —. »с»2ь Пусть линейный оператор дифференцирования определен в терминах оператора градиента»»7 и оператора Лапласа Ч2 следующим образом: г)22 (~уг)ь 412 Глава 5. Сети на основе радиальных базисных функций Покажите, что сгзй Глг (х) = ~) — T г'(х).
ь=с 5.8. В разделе 5.5 с помощью соотношения (5.65) была выведена функция аппроксимации Рх(х), представленная в выражении (5.66). В данной задаче для получения формулы (5.66) воспользуемся выражением (5.65) и многомерным преобразованием Фурье. Выведите эту формулу, используя следующее определение многомерного преобразования Фурье функции Грина С(х): С(в) = / С(х) ехр( — гаях)пх, ,/и а где г = ьУ вЂ” 1; в — тс-мерная переменная преобразования. 5.9. Рассмотрим задачу нелинейной регрессии, описываемую выражением (5.95).
Пусть ам — г)с-й элемент обратной матрицы (С + Х1) '. Исходя из этого, начиная с формулы (5.58), покажите, что оценка функции регрессии 1(х) может быть описана как где иь — выход модели, соответствующий входному сигналу хы и у(х,хь) ~> С(11х — х;11)авь,к=1, 2,...,Х, где С(1( ~1) — функция Грина. 5.10. Сплайн-функция (вр1ше йшс11оп) представляет собой пример полиномиального аппроксиматора (950). Основная идея, положенная в основу этого метода, заключается в следующем. Область аппроксимации разбивается на конечное число частей посредством деления (1спог), которое может быть фиксированным.
В этом случае аппроксимация является линейно-параметризованной. Однако если деление не равномерное, аппроксимация считается нелинейно- параметризованной. В обоих случаях на каждом из участков для аппроксимации используется полипом степени не меньшей п. Единственным условием является (и — 1)-кратная дифференцируемость всей функции. Полиномиальные сплайны являются относительно гладкими функциями, которые легко хранить, выполнять с ними операции и оценивать на компьютере.
Задачи 413 Среди сплайн-функций, реально используемых на практике, самыми популярными являются кубические сллайны (сиЪ)с зрйпе). Функция стоимости для такого сплайна (подразумевая одномерный входной сигнал) определяется следующим выражением: Е(г) = — ~~~ 1у — .г(х )) +— где на языке сплайнов Х называется параметром сглаживания (зшоойппя рагаше$ег).
а) Обоснуйте следующие свойства решения Ях). 1. Функция Ях) является кубическим полиномом между двумя точными значениями х. 2. Функция Ях) и ее первые две производные являются непрерывными, за исключением граничных точек, в которых значение второй производной равно нулю. б) Так как функция стоимости Е(1') имеет единственный минимум, для любого д, взятого из того же класса дважды дифференцируемых функций, что и ~ы выполняется соотношение Е();+ад) > Е()',), где а — действительная положительная константа. Это значит, что Е®„+ ад), интерпретируемая как функция от а, должна иметь локальный минимум в точке а =О.
Исходя из этого, покажите, что Это соотношение называется уравнением Эйлера-Лагранжа для задачи кубического сплайна. Порядок аппроксимации 5.11. Уравнение (5.124) определяет верхнюю границу ошибки обобщения в гауссовой сети КВР, созданной для обучения функции регрессии, принадлежащей определенному пространству Соболева. Используя это ограничение, выведите формулу (5.125) оптимального размера такой сети для заданного размера множества примеров обучения. 414 Глава б.