Хайкин С. - Нейронные сети (778923), страница 75
Текст из файла (страница 75)
(5.44) Введем следующие определения; [ЕЛ(Х1)|РЛ(Х2)1 ~ КЛ(ХМ)[ [11111121. 1111т[ С(х, х,) С(х, хз) ... С(х, хн) С(Х2 Х1 ) С(Х2 Х2 ) ... С(Х2 ХФ ) (5.45) (5.46) рл = б= (5.47) С(Х1д Х1 ) С(Х1д Х2 ) ... С(Х1т Х1т) [ш11 11121 ш1т] т (5.48) Теперь (5.42) и (5.44) можно переписать в матричной форме: 1 и' = -(и — рл) )1 (5.49) Рл = Сук. (5.50) ния в (5.41) являются, во-первых, линейными относительно ошибки оценки, опре- деленной как разность между желаемым откликом д, и соответствующим выходным сигналом г'(х,), вычисляемым сетью, и, во-вторых, обратно пропорциональными па- раметру регуляризации Х.
6.5. Теория регуляризации 385 Подставляя выражение для Рх из (5.50) и (5.49) и переставляя слагаемые, получим: (С + Ы)чч = о, (5.51) где 1 — единичная матрица размерности 1ч' х Х. Матрица С называется матриией Грина (Сгееп'з ша1г(х). Оператор дифференцирования Е, определяемый выражением (5.39), является самосо~рлженным (зе11-ао)о1пг). Это значит, что оператор, сопряженный Е, равен ему самому.
Отсюда следует, что ассоциированная функция Грина С(х, х,) является симметричной, т.е. С(х„х,) = С(х„х;) для всех 1 и з1 (5.52) Уравнение (5.52) означает, что позиции двух точек х и ~ можно поменять местами, при этом значение функции Грина С(х, ~) не изменится. Аналогично, матрица Грина, определяемая выражением (5.52), является симметричной, т.е. Сг= С. (5.53) Теперь можно применить теорему об интерполяции, сформулированную в разделе 5.3, в контексте матрицы интерполяции Ф. Во-первых, заметим, что матрица Грина С играет в теории регуляризации роль, аналогичную той, которую матрица Ф играет в теории интерполяции на основе сетей ИВЕ Обе матрицы, Ф и С, являются симметричными и имеют размерность 1ч' х 1ч'.
Следовательно, можно утверждать, что матрица С для некоторых классов функций Грина является положительно определенной при условии, что точки х„..., хн различны. Классы функций Грина, охватываемые теоремой Мичелли, включают обратные параболические функции и функции Гаусса, но не включают параболические функции. На практике всегда можно выбрать значение Х„достаточно большое для обеспечения положительной определенности матрицы (С + Х1) и, таким образом, для возможности ее инвертирования. А зто, в свою очередь, значит, что система линейных уравнений (5.51) имеет единственное решение, определяемое следующим образом [847]: (5.54) Таким образом, выбрав оператор дифференцирования Р и имея набор функций Грина С(х„хз), где 1 = 1, 2,..., )ч', соотношение (5.44) можно использовать для получения вектора весов чч, соответствующего вектору желаемого отклика о и данному значению параметра регуляризации Х.
366 Глава б. Сети на основе радиальных базисных функций В заключение можно утверждать, что решение задачи регуляризации задается следующим разложениемр: Гз(х) = ~г пгг([(х,хч), (5.55) где С(х, х,) — функция Грина для самосопряженного оператора Е = РР; иге — з-й элемент вектора весов и. Эти два равенства задаются выражениями (5.35) и (5.54) соответственно.
Уравнение (5.55) означает следующее 1847). ° Регуляризационный подход эквивалентен разложению решений в терминах множества функций Грина, характеристики которых зависят от принятой формы оператора дифференцирования Р и соответствующих граничных условий. ° Количество функций Грина, используемых в разложении, равно количеству примеров, используемых при обучении. Однако нельзя не заметить, что решение задачи регуляризации, представленное выражением (5.55), является неполным, так как представляет собой лишь решение по модулю д(х), лежащее в нуль-пространстве оператора Р [847). Это объясняется тем, что все функции, лежащие в нуль-пространстве оператора Р, являются "невидимыми" для слагаемого сглаживания ~ ~РГ~ [2 в функционале стоимости Е(Р) (5.23). Под нуль- пространством оператора Р понимается множество всех функций д(х), для которых выполняется Рд =О.
Точная форма дополнительного слагаемого д(х) определяется для конкретной задачи в том смысле, что она зависит от выбранного стабилизатора и граничных условий данной задачи. Например, оно не требуется для стабилизатора Р, соответствующего колоколообразной функции Грина, такой как функция Гаусса. Поскольку включение дополнительного слагаемого не влияет на основные выводы, в дальнейшем мы его учитывать не будем. з В [361) представлен другой метод вывода формулы (5.55) на основе связывания слагаемого регуляризации Кс(Н) с гладкостью функции аппроксимации Р(х) непосредственно.
Гладкость в этой работе рассматривалась как мера колебания функции. В частности, считалось, что одна функция является более гладкой, нежели другая, если ее колебания меньше по амплитуде. Другими словами, мерой гладкости функции считалась частота ее колебаний. Предполагая именно такую меру гладкости, обо- значим термином Н(з) многомерное преобразование Фурье функпии Н(х), где з — многомерная переменная преобраювания.
Пусть Н(з] — некоторая положительная функция, которая стремится к нулю при стремлении нормы аргумента в к бесконечности, так что 1ггН(я) представляет собой фнльмр яеркиш частое (Иай-рвлз ййег). Согласно вышеупомянутой работе можно определить гладкий функционал для слагаемого регуляризацни в следуюшем виде: кс(н) = — / 1 Г [Н( )[2 га, 2 .Iи с Н(з) где гпо —. размерность вектора х. Согласно меорене Нарсееаы (Рагзечагз Феогегп) из теории Фурье этот функционал является мерой мошносги выходного сигнала фильтра веркних частот 1/Н(з).
Таким образом, переводя теорию регуляризации в плоскость теории Фурье и используя свойства преобразования Фурье, в вышеупомянутой работе была выведена формула (5.55). 5.5. Теория ре~уляриэации 367 Характеристика функции Грина С(х, х;) для заданного центрах, зависит только от фермы стабилизатора Р (согласно априорному предположению касательно искомого отображения "вход-выход").
Если стабилизатор Р является инвариантным к преобразованиям (!тапа)аг)опа!!у 1пчаг1ап!), то функция Грина С(х, х,) с центром в х„будет зависеть только от разности между аргументами х и х;, т.е. С(х,х,) = С(х — х,). (5.56) Если же стабилизатор Р инвариантен как к преобразованиям, так и к поворотам (гогабопа11у), то функция Грина С(х, х,) будет зависеть только от Евклидовой нормы вектора разности (х — х,), те. С(х, х;) = С(!!х — х;!!). (5.57) При этих условиях функция Грина должна быть радиальной базисной функцией. В таком случае решение задачи регуляризации (5.55) принимает следующую частную форму (847): н Г„(х) ~~> 'ю СО!х х !!) я (5.58) Многомерные функции Гаусса Функция Грина С(х, х,), линейный дифференциальный оператор ТЭ которой инвари- антен к трансформациям и вращению и удовлетворяет условию (5.57), представляет на практике большой интерес.
Примером такой функции Грина является многомерная функция Гаусса (пш!йчапаге Оапэгйап бзпсг!оп), определяемая следующим образом: С(х,х;) = ехр — — ((х — х !! ), 2 (~2 (5.59) Решение (5.58) определяет пространство линейных функций, зависящее от известных точек данных и с учетом Евклидова расстояния. Решение, описанное выражением (5.58), называется строгой интерполяцией (а!по! 1п!егро1а!юп), так как для интерполяции функции г'(х) используются все Л точек, доступных для обучения.
Однако при этом важно отметить, что это решение в корне отличается от решения (5.11): оно регуляризировано с помощью определения (5.54) для вектора весов тч. Только при достижении параметром регуляризации значения, равного нулю, эти два решения становятся идентичными. 368 Глава 6. Сети на основе радиальных базисных функций где хт — центр функции; пт — ее ширина. Самосопряженный оператор Ь = РР определяет функцию Грина в (5.59), имеющую вид [847) Ь = , '( — 1)"сь„Ч2", =о (5.60) где Огп а„= и!2" ' (5.61) а Чго — итврирОВаННЫй ОпвратОр ЛаПЛаеа дпя то ИЗМЕрЕНИй дг дг 2 дх дх дхг що (5.62) (5.63) Е дп атт' дх'дхь ..дх" аь+..
+Ь= ' 2 ''' "'е в=~(-1гъ„*(',. ',..., " ) (5.64) — 1пау д" — (-') "' дх.дха дхь а.~-Ь+... -|- а = и т 2 '' ще 'в Самой обшей формой оператора дифференцирования является следующая: да П = р(хт, хг,..., х о) ь, а -~- 6+... -~- Ь = и, ' ах;ахьг...б тле хт,хг,..., х — элементы вектора к; р(хт, хг,..., х „) — некоторая функция этих элементов. Сопряженный оператор в этом случае выглядит следующим образом (7571: д" й = ( — 1) (р(хт, хг,..., х )1, а ф 6 -~-... + ь = и. дхатде~~... дх' При стремлении количества слагаемых в (5.60) к бесконечности Ь становится дифференциальным оператором в обычном смысле. Поэтому оператор Ь в формуле (5.60) называется псевдодифференциальньтм операпэо)эом (рзецс)о-ь((йегеп()а1 орега1ог).
Исходя из определения Ь = РР, можно сделать вывод, что оператор Р и сопряженный ему Р можно представить в виде'6 5.6. Сети регуляризации 369 Таким образом, регуляризированное решение (5.58) достигается за счет использования стабилизатора, включающего все возможные частные производные. Используя выражения (5.59) — (5.61) в (5.35) и приравнивая ~ к х„можно записать: ( — 1)"' — *зг "ехр ~ — ))х — х,!) ~ = б(х — х,). 2 и!2" ~, 2пз (5.65) Определяя функцию Грина С(х, х,) в специальном виде (5.59), регуляризируемое решение (5.55) принимает форму линейной комбинации многомерных функций Гаусса: г( ~=К . «( — ь — *э*). 2ог ~=1 г (5.66) где сами линейные веса ш, определяются по формуле (5.42).