Хайкин С. - Нейронные сети (778923), страница 74
Текст из файла (страница 74)
Сети на основе радиальных базисных функций Считается, что теория регуляризации обеспечивает практическое решение дилеммы смещения и дисперсии, которая рассматривалась в главе 2. В частности„оптимальный выбор параметра регуляризации Х позволяет обеспечить удовлетворительное соотношение между смещением и дисперсией модели (глоде! Ь!аз ос люде! чапапсе) при решении задачи обучения с учетом некоторой априорной информации. Дифференциал Фреше функционала Тихонова Теперь принцип регуляризации (геяп!апхаг!оп рппс!р(е) можно записать в следую- щем виде.
Найти функцию Р1 (х), минимизирующую функционал Тихонова Е(Г): Е(Г) = Е,(Г) + ХЕ,(Р), где Е, (Р) — слагаемое стандартной ошибки; Е,(Р) — слагаемое регуляризации; Х— параметр регуляризации. Для того чтобы продолжить рассмотрение задачи минимизации функционала стоимости Е[Г), нужно задать правило оценки его дифференциала. Это можно осуществить с помощью дифференциала Фреизе (ггесЬе! д(йегеп!!а1).
В элементарной математике касательной к кривой называется прямая, которая дает наилучшую аппроксимацию кривой в окрестности точки касания. Аналогично, дифференциал Фреше функционала можно интерпретировать как наилучшую локальную линейную аппроксимацию. Таким образом, дифференциал Фреше функционала Е(Г) формально определяется выражением [246), [250), [263) аЕ(Г,6) = ~ — Е(Г+ )36) аьо (5.24) г!Е[Р, 6) = аЕ,(Г, 6) + МЕ,(Г, 6) = О, (5.25) где ИЕ,(Г,6) и с!Е,(Г,6) — дифференциалы Фреше функционалов Е,(Р,6) и Е,[Г, 6) соответственно.
где 6(х) — фиксированная функция вектора х. В выражении (5.24) используются обычные правила дифференцирования. Необходимым условием того, чтобы функция Г(х) была относительным экстремумом функционала Е(Г), является равенство нулю дифференциала Фреше г(Е(Г, 6) по г(х) для всех 6 Е Н, т.е. 5.6. Теория регупиризации 359 Оценивая дифференциал Фреше слагаемого стандартной ошибки Е,(с, 6), определяемого формулой (5.21), имеем: бЕ,[~,й) = [ —,",Е,(Р+[)б)~ = з,лб Е И. — Р(хг) — ))б(хг)Г г '"'г=! 1 О=о = — Е И вЂ” Р(*!) — ))б(*.)) й~*) 1~=. = т=! = — ~ И, — Р(х,))б(х!).
(5.26) з' = (гзг )го)н для всех Ьо щ Н, при этом !!Лн = !~бо!!и где Й вЂ” пространство, сопряженное Гильбертову пространству Н. Пространством скллярльы лролзведелпй (!пнет рпгбосг зрасе) называется лннейное пространство векторов, в котором скалярное произведение двух векторов и н ч, обозначаемое как (н, ч], обладает следующими свойспюмн: (н,ч) = (ч,п), (ов, ч) = о(н, ч), о — константа, (в+ч,м) = (н,н) + (ч;л), (н,в) > Одлян~о. Пространство скалярных пронзведеннй Н является потным (сошр[еге) н называется Гнльбертовым простран- ством, если любая последовательность Коши, выбранная нз зюю пространства, сходится по норме к какому- либо пределу.
Последовательность векторов (х„) называется лослсдоллаельлосюью Коши, если для любого е > О существуег число !Ч, такое, что [2461 [(х — х )[ С Е для всех (п,гл) > М. Здесь будет уместным привести теорему Ритца о представлении (%евх гергезеп(айоп б!естес), которая формулируется следующим образом [246, 561]. Пусть З вЂ” ограниченный линейный функционал в Гильбертовом пространстве (т.е. в полном пространстве скалярных произведенигр~, которое обозначается символом Н. Тогда существует единственное значение )го Е Н, такое, что 360 Глава б. Сети на основе радиальных базисных функций Символом (, ) и здесь обозначается скалярное произведение двух функций в пространстве Н. В свете теоремы Ритца о представлении дифференциал Фреше г(Е, (Г, 6) из (5.26) можно переписать в эквивалентном виде: с(Е,(Г,6) = — 6, ~~1 (а, — Г)Ь„, о=1 н (5.27) где ܄— дельта-распределениеДарана (Вйгас дена д(зптЬп!(оп) вектора х, с центром в точке хо т.е.
б„, = б(х — х;). (5.28) Аналогично рассмотрим следующую оценку дифференциала Фреше слагаемого регуляризации Е,(Г) из (5.22): Ы 11( Г с)Е,(Г,6) = — Ео(Г+!36) !а о — — — — / (0(Г+Щ) 1(к~а=-о = ф 2 ф,/я ., (5.29) = / 0(Г+!36)06,1х!а, = / РГ06дх=(РГ,06)„, д Я"'о 1Я о где (РГ, Р6)» — скалярное произведение функций Р6(х) и РГ(х), которые являются результатом применения оператора дифференцирования Р к 6(х) и Г(х) соответственно. Уравнение Эйлера-Лагранжа Г и(х)Ро(х)г(х = / п(х)РРи(х)с(х. Я уя (5.30) Равенство (5.30) получило название тождества Грина (Огеел'з (деп!(1у). Оно подводит математический базис под определение сопряженного оператора 0 в терминах данного дифференциала Р. Если рассматривать 0 как матрицу, сопряженный оператор Р играет роль, аналогичную транспонированной матрице.
Сравнивая тождество (5.30) с предпоследней выкладкой (5.29), можно установить следующие соответствия: и(х) = РГ(х), Рг(х) = 06(х). Для данного оператора Р можно найти такой уникально определенный сопряженный оператор Р, что для любой пары днфференцируемых функций и(х) и о(х), удовле- творяющих соответствующим граничным условиям„можно записать [609): 5.5. Теория ре~уляризации 361 Используя тождество Грина, (5.29) можно переписать в эквивалентной форме; г(Е,(Р,6) = / 6(х)00Р(х)йх = (6,0РР')н, ,/и о (5.31) где 0 — оператор, сопряженный Р. Возвращаясь к условию экстремума, описанному выражением (5.25), н подставляя в него дифференциалы Фреше из (5.27) и (5.31), дифференциал Фреше пЕ(Г, 6) можно представить в следующем виде: (5.32) Так как параметру регуляризации Х обычно присваивается некоторое значение из открытого интервала (О, оо), дифференциал Фреше равен нулю для любого 6(х) в пространстве Н тогда и только тогда, когда выполняется следующее условие в смыс- ле распределения: М РОР' — — ~ (а, — Р')б, — О, Х или, что эквивалентно, Ю РРГ~(х) = — ~~~ [г(, — Е(х,))б(х — х,).
(5. 33) Уравнение (5.33) называется уравнением Эйлера — Лагранжа (Еп!ег-1.аягапяе ес~найоп) для функционала Тихонова Е(г'). Оно является необходимым условием существования экстремума функционала Тихонова в точке Рь(х) (24б). Функция Грина 1. Для фиксированного ~ С(х, ~) является функцией от х и удовлетворяет граничным условиям. Соотношение (5.33) представляет собой уравнение в частных производных функции аппроксимации Г. Решение этого уравнения состоит в интегральном преобразовании его правой части. Пусть С(х, с) — функция, в которой векторы х и с используются для разных целей: вектор х используется как параметр, а с — как аргумент.
Предполагается, что для данного оператора линейного дифференцирования 1. функция С(х, Р) удовлетворяет следующему условию (217). 362 Глава б. Сети на основе радиальных базисных Функций 2. Во всех точках, за исключением х = Ьк, все производные С(х, ск) по х являются непрерывными. Количество производных определяется порядком оператора Е. 3.
Если рассматривать С(х, Ь) как функцию от х, она удовлетворяет уравнению в частных производных ЕС(х,р,) = О, (5.34) всюду, за исключением точки х = Ьк, где она имеет особенность. Это значит, что функция С(х, ~) удовлетворяет уравнению в частных производных (в смысле распределения) 1С(х,с) = Ь(х — с), (5.35) где, как говорилось ранее, Ь(х — ~) — дельта-функция Дирака с центром в точке х=ф. Г(х) = С(х,Рк)д(Ьк)~(Ьк (5.36) является решением дифференциального уравнения 1.Г(х) = ф(х), (5.37) где С(хД) — функция Грина для линейного оператора дифференцирования 1.
[217). Для того чтобы доказать правильность выбора Г(х) в качестве решения уравнения (5.37), применим к выражению (5.36) оператор дифференцирования 1., в результате чего получим: 1Х(х) = 1. / С(х,Ь)ф(г)аг, = 1 ЕС(х,Ь)ф(Ь)ас. (5.38) ,/Я О ля О Оператор дифференцирования Е использует Рк как константу, работая с функцией Грина только как с функцией от аргумента х. Используя в выражении (5.38) формулу (5.35), получим: Описанная таким образом функция С(х,гк) называется функцией Грина (Огееп'з йзлсйоп) для оператора дифференцирования Ь. Функция Грина играет ту же роль для оператора дифференцирования, которую в матричном исчислении играет обратная матрица.
Пусть ф(х) — непрерывная или кусочно-непрерывная функция аргумента х Е Я '. Тогда функция б,б. Теория регупяризации 363 И, в заключение, используя просеивающее свойство дельта-функции Дирака, а именно грД)Ь(х — сЩ = !р(х), получим ЕГ(х) = гр(х), что н было описано в выражении (5.37). Решение задачи регуляризации Возвращаясь к нашей задаче, а именно к решению уравнения Эйлера — Лагранжа (5.33), определим: Е = 61) (5.39) гр(г) = — ~~! [д, — Г(х!)]ЬД вЂ” х,). 1 Х а=! (5.40) Тогда можно использовать (5.3б) и записать: ( М Гк(х) = / С(х,г) ~ — ~ ~[!(! — Г(х,)]б(с — х,) г(гл = 1=1 =-2 н.— !*,з)' !*,г!кг-*.м, 1 Х и о где в последней строке изменен порядок интегрирования и суммирования.
Используя свойство просенвания дельта-функции Дирака, получим требуемое решение уравне- ния Эйлера-Лагранжа: Жх) = - ,'у . [(! — р'(х,)]г'(х, х,). 1 (5.41) Выражение (5.41) означает, что минимизирующее решение Гк(х) задачи регуляризации является линейной комбинацией Х функций Грина. Векторы х; представляют собой центры разложения (сепгег о( ехрапиоп), а веса !гав, — е(х!))!х — коэффициенты разложения (спей!с(еп! оТ охране!оп). Другими словами, решение задачи регуляризации лежит в Х-мерном подпространстве пространства гладких функций, а множество функций Грина (С(х, х,)), с центром в х„! = 1, 2,..., )!г, определяет базис этого подпространства [847). Обратите внимание, что коэффициенты разложе- 364 Глава б.
Сети на основе радиальных базисных функций Определение коэффициентов разложения Следующим вопросом является определение коэффициентов разложения в выраже- нии (5.41). Пусть ш1 = [111 — Е(х,)[, 2 = 1, 2,..., Ю. Тогда выражение для минимизирующего решения (5.41) можно упростить: (5.42) М Гл(х) = — ~~1 ш1С(х, х1). (5.43) Вычисляя (5.43) в точке х„з = 1, 2,..., Х, получим: Рл(хэ) = ~ ш1С(х„х,), 1 = 1, 2,..., Ж.