Хайкин С. - Нейронные сети (778923), страница 79
Текст из файла (страница 79)
Практический опыт работы с обобщенной функцией перекрестной проверки показал, что этот метод робастен относительно неоднородности дисперсии и негауссова шума [1105). Однако если шум представляет собой хорошо коррелированный процесс, метод дает неудовлетворительную оценку параметра регуляризации А. В заключение хотелось бы привести некоторые комментарии относительно вычисления обобщенной функции перекрестной проверки ь'(Х). Для данных пробных значений параметра регуляризации Х нахождение знаменателя [Фу[1 — А(Х)[/Х[з в формуле (5.121) является самой затратной частью работы по вычислению функции !г(А). Для вычисления следа матрицы А(Х) можно использовать метод рандамизмрованного вычисления следа (гапг]оппгес[ 1гасе) описанный в [1106).
Применение этого метода в особо больших системах будет оправданным. 5.10. Свойства аппроксимации сетей йВР В главе 4 уже рассматривались свойства аппроксимации многослойного персептрона. Сети на основе радиальных базисных функций также демонстрируют хорошие свойства аппроксимации. Семейство сетей ВЗГ является достаточно широким, чтобы равномерно аппроксимировать любую непрерывную функцию на компактном множестве 'т В приложении к [853] содержится благодарность за результат, полученный в !98) году А.
Брауном (А.С.Вюмп), согласно жнорому сети КВР позволяют отобразить произвольную функцию из замкнутой области в 8) с в пространство 8[. 386 Глава б. Сети иа основе радиальных базисных функций Универсальная теорема об аппроксимации Пусть С: Я ' — Я вЂ” ограниченная, непрерывная и интегрируемая функция, такая, что С(х)с[х ~ О. Пусть Оо — семейство сетей КВР, включающих функции Г: Я ' — ь Я следующего вида: где п>0, из! Е Я и [! Е Я ' для з = 1, 2, ..., Пз!.
Тогда выполняется следующая теорема об универсальной аппроксимации (шпчегза! арргохнпабоп бтеогеш) для сетей ЙВЕ Для любой непрерывной функции [['х) найдется сеть йВс с множеством центров (зс),. '! и общей шириной и > О, такая, что функция с'(х), реализуемая сетью, будет близка к Г(х) по норме 1р,р Е [1, оо]. Обратите внимание, что в сформулированной таким образом обобщенной теореме об аппроксимации ядро С: Я ' — + Я не обязательно должно удовлетворять условию радиальной симметрии. Таким образом, теорема является более строгой, чем это необходимо для сетей КВгк И что более важно, она подводит теоретический базис под построение нейронных сетей на основе радиайьных базисных функций с целью их практического применения.
"Проклятие размерности" (продолжение) Помимо свойства универсальной аппроксимации сетей ЙВР, необходимо рассмотреть вопрос порядка аппроксимации, обеспечиваемого этими сетями. Как было сказано в главе 4, внутренняя сложность класса аппроксимирующих функций экспоненциально возрастает с увеличением отношения то/в, где то — размерность входного сигнала; в — индекс гладкости (зшообтлезз шдех), определяемый как количество ограничений, накладываемых на аппроксимирующие функции этого конкретного класса. Проблема' "проклятия размерности", сформулированная Беллманом (Ве[!шап), означает, что независимо от используемого метода аппроксимации при постоянном ин- В [423] рассматриваются гауссовы функции и аппроксимации на компактных подмножествах и о, ко.
торые являются выпуклыми. Показано, что сети НВЕ с единственным скрытым слоем тауссовых злементов являются универсальными аппроксимшорами, Однюю самое стропы доказательство свойства универсальной аппроксимации сетей КВР представлено в [8! 51, когорая была завершена еше до выхода в свет [4231. 6.10. Свойства аппроксимации сетей йВг 387 ТАБЛИЦА 5.3. Два способа аппроксимации и соответствующие функциональные пространства с одинаковой скоростью сходимости 0(1/ /т,), где тпг — размер- ность скрытого пространства Функциональное иросгиранство Норма Техника аппроксшиации , ((яф(я)Ыз < оо, где Г(а) — многомерное преобразование Фурье для функции аппроксимации Р(х) а) Многослойный персептрон: ит г Е(х) = 2; а,зР(ту~'х + 6т), где ь=з гр( ) — сигмоидальная функция активации б) ВЗЕ-сети: Е(х) = у а,ехр ( — "-*:- —,*')-) Ьз(й) Т (Я') Пространство функций Соболе- ва, производные которых до по- рядка 2гп ) тц являются инте- грируемыми 'з Пусть П вЂ” сграниченная область в пространстве бг" с границей Г.
Рассмотрим множество С непрерывных вешественнсзначных функций, жипрые имеют непрерывный градиент на множестве П-~-Г, Билинейная фоРма )о (азаб и: агами с+ ис)дх Явлаетса допУстимым скалЯРным пРоизведением на множестве С. Замыкание С пс нсрмв сгенерирсваннсй этим скалярным произведением, нюыаается яросмралсмесм Ссбслеаа Р 46). Пространства Соболева играют важную роль а теории уравнений в частных производных и являются важным примерам гильбергсвых пространств. дексе гладкости а количество параметров, необходимых для достижения требуемого уровня точности функции аппроксимации, зкспоненциально возрастает в зависимости от размерности входного пространства тп. Единственный способ добиться независимости скорости сходимости от размерности входного сигнала тс и, таким образом, избежать "проклятия размерности" — это увеличить индекс гладкости пропорционально увеличению количества параметров в аппроксимирующей функции, что, свою очередь, ведет к увеличению ее сложности.
Это продемонстрировано в табл. 5.3, которая взята из ~360). В таблице приведены ограничения на функциональные пространства, которым должны удовлетворять рассматриваемые способы аппроксимации — многослойный персептрон и ВВЕ-сети, для того чтобы скорость сходимости не зависела от размерности входного пространства тс. Естественно, эти условия для различных методов аппроксимации отличаются. В случае сетей КВг используется пространство Соболева'з фУнкций, пРоизводные котоРых до поРЯдка 2т ) тс ЯвлаютсЯ интегРиРУемыми. Другими словами, для того чтобы скорость сходимости не зависела от роста размерности, необходимо с ростом размерности входного пространства гап увеличивать количество производных функции аппроксимации, которые должны быть интегрируемыми.
Как уже говорилось в главе 4, аналогичное условие накладывается на многослойный персептрон, однако несколько неявным способом. Проанализировав табл. 5.3, можно сделать следующий вывод. 388 Глава б. Сети на основе радиальных базисных функций Пространства функций аппроксимации, достижимые многослойным персептроном и сетями КВК становятся все более ограниченными по мере роста размерности входного пространства тс. В результате оказывается, что "проклятие размерности" нельзя преодолеть ни с помощью нейронных сетей, будь то многослойный персептрон или сети КВР, ни при использовании других методов аналогичной природы. Связь между сложностью обучающего множества, вычислительной сложностью и эффективностью обобщения Обсуждение задачи аппроксимации будет неполным без упоминания того факта, что на практике не существует неограниченной выборки данных.
Обычно под рукой оказывается некоторое множество примеров вполне ограниченного размера. Аналогично, не существует нейронных сетей, обладающих бесконечно большой вычислительной мощностью, — она всегда ограничена. Следовательно, существуют два момента, приводящих к ошибке обобщения в нейронных сетях, обучаемых на конечных наборах примеров и тестируемых на не встречавшихся ранее данных. Этот вопрос уже обсуждался в главе 2.
Один из этих моментов, называемый ошибкой аппроксимации (арргохппабоп епог), возникает вследствие ограниченной мощности сети, недостаточной для представления интересующей целевой функции. Другой момент, ошибка оценивания (езбшабоп епог), является результатом недостаточности ограниченного обьема информации, содержащегося в примерах обучения. С учетом этой информации в (787) получен предел ошибки обобщения, генерируемой КВР-сетью с функциями Гаусса, который выражается в терминах размеров скрытого слоя и обучающего множества. Вывод получен для случая обучения функции регрессии в моделях вида (5.95). Функция регрессии принадлежит некоторому пространству Соболева. Этот предел в терминологии РАС-обучения (см.
главу 2) можно сформулировать следующим образом [787). Пусть С вЂ” класс гауссовых ЯВс-сетей с тв входными и т1 скрытьини узлами. Пусть 1'(х) — функция регрессии, принадлежащая некоторому пространству Соболева. Предполагается, что множество примеров обучения Т = ((х„6,))н, составляется с помощью случайной выборки из регрессивной модели, основанной на функции ) (х). Тогда для любого параметра чувствительности Ь Е (О, 1] ошибка обобщения, генерируемая сетью, ограничена сверху числом ( 1 1 (твт1 1 (1х Пз Π— ~ + О 1об(гл, Ат) + — 1об — ) (5.124) с вероятностью, превышающей 1 — Ь. Из выражения (5.124) можно сделать следующие выводы.
5.11. Сравнение сетей КВР и многослойных персептронов 389 ° Ошибка обобщения сходится к нулю только в том случае, если количество скрытых элементов т~ возрастает медленнее, чем размер обучающей выборки Х. ° Длл фиксированного количества примеров обучения )Ц оптииальное количество скрытых элементов т* ведет себя как (см.