Хайкин С. - Нейронные сети (778923), страница 57
Текст из файла (страница 57)
Эта сеть обучалась с помощью алгоритма обратного распространения, после чего тестировалась на новых данных. Во время обучения сети предъявлялись выбранные точки аппроксимируемой функции у, в результате чего была получена аппроксимирующая функция г, определяемая выражением (4.86). Если сети предъявлялись не использованные ранее данные, то функция Р "оценивала" новые точки целевой функции, т.е. г' = У. Гладкость целевой функции ~ выражалась в терминах ее разложения Фурье.
В частности, в качестве предельной амплитуды функции 7' использовалось среднее значение нормы вектора частоты, взвешенного значениями амплитуды распределения Фурье. Пусть Дш) — многомерное преобразование Фурье функции Дх), хЕ Я ', где ш — вектор частоты. Функция Д(х), представленная в терминах преобразования Фурье Дш), определяется следующей инверсной формулой; 284 Глава 4. Многослойный лерселтрон где )' = 1/ — 1.
Для комплекснозначной функции ((ю) с интегрируемой функци- ей оз)'(оз) первый абсолютный момент (бгзт аЬзо1пте шошепт) распределения Фурье (Еоппег шайшпн)е гйзгпЬцтюп) функции ( можно определить следующим образом: С) — — / (о (оз)) х 'зоз(('('ггго, ,/и а (4.88) где ) /оз( ! — Евклидова норма вектора ш; /)(ш) ! — абсолютное значение функции Гт(и2). Первый абсолютный момент С~ является мерой гладкости (зшоойгпезз) функции 1'. Первый абсолютный момент С) является основой для вычисления пределов ошибки, которая возникает вследствие использования многослойного персептрона, представленного функцией отображения "вход-выход" г'(х), аппроксимирующей функцию ((х). Ошибка аппроксимации измеряется интегральной квадратичной ошибкой (1птейгагед зг(цагед епог) по произвольной мере вероятности )г для шара В, =(х: (~х0 < г) радиуса г > О.
На этом основании можно сформулировать следующее утверждение для предела ошибки аппроксимации (96). Для любой непрерывной функции ((х) с конечным первым моментом С( и любою т1 > 1 существует некоторая линейная комбинация сигмоидальных функций г'(х) вида (4.86), такая, что С' ( 1(х) — Г(х)) )г(Ых) < †, в. т1 где С~т — — (2гСу) ~. Если функция )(х) наблюдается на множестве значений (х,)~ 1 входного вектора х, принадлежащего шару В„, этот результат определяет следующее ограничение для эмпирического риска (ешргг1са! пзК): (4.89) В (95] результат (4.89) использовался для описания границ риска В, возникающего при использовании многослойного персептрона с то входными узлами и т1 скрытыми нейронами: Я<о ( — ') 2о( ' '22н). (4.90) Два слагаемых в этом определении границ риска гь отражают компромисс между двумя противоречивыми требованиями к размеру скрытого слоя. 4.13.
Аппроксимация функций 286 1. Точность наилучшей аппроксимации (асспгасу ог" гйе Ьезг арргохппайоп). В соответствии с теоремой об универсальной аппроксимации для удовлетворения этого требования размер скрытого слоя т, должен быть большим. 2. Точность эмпирического соответствия аппроксимации (асспгасу оКешр)пса1 бг Го гйе арргохппабоп).
Для того чтобы удовлетворить этому требованию, отношение т,/Ю должно иметь малое значение. Для фиксированного объема Аг обучающего множества размер скрьпого слоя тг должен оставаться малым, что противоречит первому требованию. Ограничение для риска В, описанное формулой (4.90), имеет еще одно интересное применение. Дело в том, что для точной оценки целевой функции не требуется зкспоненциально большого обучающего множества и большой размерности входного пространства гол, если первый абсолютный момент С/ остается конечным. Это еще больше повышает практическую ценность многослойного персептрона, используемого в качестве универсального аппроксиматора. Ошибку между эмпирическим соответствием (егпр)пса! йг) и наилучшей аппроксимацией можно рассматривать как ошибку оценивании (еиппабоп епог), описанную в главе 2.
Пусть ел — среднеквадратическое значение ошибки оценивания. Тогда, игнорируя логарифмический множитель во втором слагаемом неравенства (4.90), можно сделать вывод, что размер Аг обучающего множества, необходимый для хорошего обобщения, должен иметь порядок тот,/ал. Математическая структура этого результата аналогична эмпирическому правилу (4.85), если произведение тот, соответствует общему количеству свободных параметров И' сети. Другими словами, можно утверждать, что для хорошего качества аппроксимации размер обучающего множества должен превышать отношение общего количества свободных параметров сети к среднеквадратическому значению ошибки оценивания. "Проклятие размерности" Из ограничения (4.90) вытекает еще один интересный результат.
Если размер скры- того слоя выбирается по следующей формуле (т.е. риск Л минимизируется по А/): т,=С/ - р ° и н ° в о~с„/ЙКБцУ/м). н„~ в этого результата состоит в том, что в терминах поведения риска В скорость сходимости, представленная как функция от размера обучающего множества Аг, имеет порядок (1/Х)'/з (умноженный на логарифмический член). В то же время обычная гладкая функция (например, тригонометрическая или полиномиальная) демонстрирует несколько другое поведение. Пусть в — мера гладкости, определяемая как степень 286 Глава 4.
Мноюслойиый персептрон дифференцируемости функции (количество существующих производных). Тогда для обычной гладкой функции минимаксная скорость сходимости общего риска Л имеет порядок (1/Х)~'~1ы+ '1. Зависимость этой скорости от размерности входного пространства ть называют "проклятием размерности" (сшзе оТбппепз)опа111у), поскольку это свойство ограничивает практическое использование таких функций. Таким образом, использование многослойного персептрона для решения задач аппроксимации обеспечивает определенные преимущества перед обычными гладкими функциями.
Однако это преимущество появляется при условии, что первый абсолютный момент СГ остается конечным. В этом состоит ограничение гладкости. Термин "проклятие размерности" (ешьте оГ бппепяопа1йу) был введен Ричардом Белманом (В]сЬагд Ве1шап) в 1961 году в работе, посвященной процессам адаптивного управления [117]. Для геометрической интерпретации этого понятия рассмотрим пример, в котором х — ть-мерный входной вектор, а множество [(хз, з]з)), з = 1, 2,..., )з', задает обучающую выборку.
Плотность дискретизации (зашр1]пй бепз)Гу) пропорциональна значению №~ '. Пусть 7(х) — поверхность в то-мерном входном пространстве, проходящая около точек данных[(хо а,));ч,. Если функция 7(х) достаточно сложна и (по большей части) абсолютно неизвестна, необходимо уплотнить (белле) точки данных для более полного изучения поверхности. К сожалению, в многомерном пространстве из-за "проклятия размерности" очень сложно найти обучающую выборку с высокой плотностью дискретизации. В частности, в результате увеличения размерности наблюдается экспоненциальньяй рост сложности, что, в свою очередь, приводит к ухудшению пространственных свойств случайных точек с равномерным распределением. Основная причина "проклятия размерности" обосновывается в [321].
Функция, определенная в пространстве большой размерности, скорее всего, является значительно более сложной, чеи функция, определенная в пространстве меньшей размерности, и эту сложность трудно разглядеть. Единственной возможностью избежать "проклятия размерности" является получение корректных априорных знаний о функции, определяемой данными обучения.
Можно утверждать, что для практического получения хорошей оценки в пространствах высокой размерности необходимо обеспечить возрастание гладкости неизвестной функции наряду с увеличением размерности входных данных [787]. Эта точка зрения будет обоснована в главе 5. Практические соображения Теорема об универсальной аппроксимации является очень важной с теоретической точки зрения, так как она обеспечивает необходимый математический базис для доказательства применимости сетей прямого распространения с одним скрытым слоем для решения задач аппроксимации. Без такой теоремы можно было бы безрезуль- 4.13. Аппроксимация функций 287 татно заниматься поисками решения, которого на самом деле не существует. Однако эта теорема не конструктивна, поскольку она не обеспечивает способ нахождения многослойного персептрона, обладающего заявленными свойствами аппроксимации. Теорема об универсальной аппроксимации предполагает, что аппроксимируемая непрерывная функция известна, и для ее приближения можно использовать скрытый слой неограниченного размера.
В большинстве практических применений многослойного персептрона оба эти предположения нарушаются. Проблема многослойного персептрона с одним скрытым слоем состоит в том, что нейроны могут взаимодействовать друг с другом на глобальном уровне. В сложных задачах такое взаимодействие усложняет задачу повышения качества аппроксимации в одной точке без явного ухудшения в другой. С другой стороны, при наличии двух скрытых слоев процесс аппроксимации становится более управляемым. В частности, можно утверждать следующее [190], [329].
1. Локальные признаки (1оса! Теапзге) извлекаются в первом скрытом слое, т.е. некоторые скрытые нейроны первого слоя можно использовать для разделения входного пространства на отдельные области, а остальные нейроны слоя обучать локальным признакам, характеризующим эти области. 2. Глобальные признаки (й1ооа1 (еноте) извлекаются во втором скрытом слое.
В частности, нейрон второго скрытого слоя "обобщает" выходные сигналы нейронов первого скрытого слоя, относящихся к конкретной области входного пространства. Таким образом он обучается глобальным признакам этой области, а в остальных областях его выходной сигнал равен нулю.