Хайкин С. - Нейронные сети (778923), страница 56
Текст из файла (страница 56)
Это выливается в нежелательное изменение входного пространства из-за шума, который содержится в синаптических весах сети. Пример плохого обобщения вследствие простого запоминания (шешопг)пй) обучающих образов показан на рис. 4.19, б для тех же данных, которые показаны на рис. 4.19, а. Результат запоминания, в сущности, представляет собой справочную таблицу — список пар "вход-выход", вычисленных нейронной сетью. При этом отображение теряет свою гладкость. Как указывается в [847], гладкость отображения входа на выход непосредственно связана с критерием моделирования, который получил название бритвы Оккама (Оссаш'з гагог). Сущность этого критерия состоит в выборе простейшей функции при отсутствии каких-либо дополнительных априорных знаний. В контексте предыдущего обсуждения "простейшей" является самая гладкая из функций, аппроксимирующих отображение для данного критерия ошибки, так как такой подход требует минимальных вычислительных ресурсов.
Гладкость свойственна многим приложениям и зависит от масштаба изучаемого явления. Таким образом, для плохо обусловленных (111-розед) отношений важно искать гладкое нелинейное отображение. При этом сеть будет способна корректно классифицировать новые сигналы относительно примеров обучения 11146). Достаточный объем примеров обучения для корректного обобщения Способность к обобщению определяется тремя факторами: размером обучающего множества и его представительностью, архитектурой нейронной сети и физической сложностью рассматриваемой задачи.
Естественно, последний фактор выходит за пределы нашего влияния. В контексте остальных факторов вопрос обобщения можно рассматривать с двух различных точек зрения 14951. 280 Глава 4. Многослойный персептрон Выход Вход а) Выход ое ие Вход б) Рис. 4.19. Корректная интерполяция (хорошее обобщение) (а) и результат избыточною обучения (плохое обобщение) (б) ° Архитектура сети фиксирована (будем надеяться, в соответствии с физической сложностью рассматриваемой задачи), и вопрос сводится к определению размера обучающего множества, необходимого для хорошего обобщения.
° Размер обучаюшего множества фиксирован, и вопрос сводится к определению наилучшей архитектуры сети, позволяющей достичь хорошего обобщения. 4.13. Аппроксимация функций 281 Обе точки зрения по-своему правильны. До сих пор мы фокусировали внимание на первом аспекте проблемы. Вопрос адекватности размера обучающей выборки рассматривался в главе 2. Там указывалось, что ЧС-измерение обеспечивает теоретический базис для принципиального решения этой важной задачи. В частности, были получены независимые от распределения пессимистические (д!знтЪцг!оп-згее, ччогм-сазе) формулы оценки размера обучающего множества, достаточного для хорошего обобщения (см.
раздел 2.14). К сожалению, часто оказывается, что между действительно достаточным размером множества обучения и этими оценками может существовать большой разрыв. Из-за этого расхождения возникает задача сложности выборки (зашр!е сошр1ехйу ргоиеш), открывающая новую область исследований. На практике оказывается, что для хорошего обобщения достаточно, чтобы размер обучающего множества Л удовлетворял следующему соотношению: А! = 0(И'/в), (4.85) где И' — общее количество свободных параметров (т.е. синаптических весов и порогов) сети; а — допустимая точность ошибки классификации; О( ) — порядок заключенной в скобки величины. Например, для ошибки в 1088 количество примеров обучения должно в 1О раз превосходить количество свободных параметров сети. Выражение (4.85) получено из эмпирического правила Видроу (%1дгои"з гц!е оГ !ЪшпЪ) для алгоритма 1.М8, утверждающего, что время стабилизации процесса линейной адаптивной временной фильтрации примерно равно обьему памяти (шепюгу арап) линейного адаптивного фильтра в задаче фильтра на линии задержки с отводами (!арред-де!ау-1!пе 611ег)„деленному на величину рассогласования (ш(зад)цзнпеп1) [1144).
Рассогласование в алгоритме 1.МБ выступает в роли ошибки е из выражения (4.85). Дальнейшие выкладки относительно этого эмпирического правила приводятся в следующем разделе. 4.13. Аппроксимация функций Многослойный персептрон, обучаемый согласно алгоритму обратного распространения, можно рассматривать как практический механизм реализации нелинейного отображения "вход-выход" (поп1шеаг шрцыоШрпг шарр!п8) общего вида.
Например, пусть те — количество входных узлов многослойного персептрона, М = ть— количество нейронов выходного слоя сети. Отношение "вход-выход" для такой сети определяет отображение те-мерного Евклидова пространства входных данных в М-мерное Евклидово пространство выходных сигналов, непрерывно дифференцируемое бесконечное число раз (если этому условию удовлетворяют и функции активации). при рассмотрении свойств многослойного персептрона с точки зрения отображения "вход-выход" возникает следующий фундаментальный вопрос. 282 Глава 4.
Мнопюлойный лерселтрон Каково минимальное количество скрытых слоев многослойного пврсептрона, обеспе- чивающего аппроксимацию некоторого непрерывного отображения? Теорема об универсальной аппроксимации Ответ на этот вопрос обеспечивает теорема об универсальной аппроксимации8 (пп[- чегва! арргохппайоп й)еогещ) для нелинейного отображения "вход-выход", которая формулируется следующим образом. Пусть (р( ) — ограниченная, не постоянная монотонно возрастающая непрерывная функция.
Пусть 1, — то-мерный единичный гиперкуб [О, 1] '. Пусть пространство непрерывных на 1, функций обозначается символом С(1,). Тогда для любой функции у' Э С(1 ) и В > О существует такое целое число тт и множество действительных констант с(;, 6, и в,з, где т = 1,..., тт, у' = 1,..., то, что шг гпс Р(х„...,х,) = ~~) а!!р ~~! тат х, + [гт т=! 7=1 (4.86) является реализацией аппроксимации функции [(.), т.е.
!1Л(Хт~. ~Хите) )(Х1~ ~Хшс)~ ( Е для всех хт, хз,..., х „принадлежащих входному пространству. а универсальную теорему аппроксимации можно рассматривать как естественное расширение теоремы Вейерштрасса [1124]. Эта теорема утверждает, что любая непрерывная функция на замкнутом интервале действительной оси мажет быть представлена абсолютно и равномерно сходящимся рядом полиномов. Интерес к исследованию мнопюлойных персептронов в качестве механизма представления произвольных непрерывных функций впервые был проявлен в [448], в которой использовалась усовершенствованная теорема Колмогорова (Ко!щобогоч) о суперпозиции [1014].
В [3331 показано, что многослойный персептрон с одним скрытым слоем, мюинусоидааьной пороговой функцией и линейным выходным слоем представляет собой частный случай "сети Фурье'*, обеспечивающей на выходе аппроксимш!ию заданной функции рядом Фурье. Однако в контексте обычного многослойного персептрона Цыбенко (Суьелйо) впервые строго продемонстрировал, что одного скрытою слоя достаточно для аппроксимации произвольной непрерывной функции, заданной на единичном гиперкубе.
Эта работа была опубликована в Техническом отчете университета штата Иллинойс в 1988 году и вышла отдельным изданием год спустя [236], [237]. В 1989 году независимо друг ст друга были опубликованы две работы по использованию персептронов в качестве универсальных аппроксиматоров [329], [486]. Другие вопросы аппроксимации описаны в [642].
Теорема об универсальной аппроксимации непосредственно применима к многослойному персептрону. Во-первых, заметим, что в модели многослойного персептрона в качестве функции активации используется ограниченная, монотонно возрастающая логистическая функция 1/(1еехр(-о)], удовлетворяющая условиям, накладываемым теоремой на функцию (р( ).
Во-вторых, заметим, что выражение (4.86) описывает выходной сигнал персептрона следующего вида. 4.13. Аппроксимация функций 283 1. Сеть содержит ть входных узлов и один скрытый слой, состоящий из т, нейронов. Входы обозначены х„хз,..., х,. 2. Скрытый нейрон з имеет синаптические веса ю;„..., го, и порог 6,. 3. Выход сети представляет собой линейную комбинацию выходных сигналов скрытых нейронов, взвешенных синаптическими весами выходного нейрона— а„..., а„,. Теорема об универсальной аппроксимации является теоремой существования (ех1згепсе глеогеш), т,е. математическим доказательством возможности аппроксимации любой непрерывной функции.
Выражение (4.86), составляющее стержень теоремы, просто обобщает описание аппроксимации функции конечным рядом Фурье. Таким образом, теорема утверждает, что многослойного персептрона с одним скрытым слоем достаточно для построения равномерной аппроксимации с точностью а для любого обучающего множества, представленного набором входов хы хз,..., х, и желаемьп откликов Дхм хз, ..., х,). Тем не менее из теоремы не следует, что один скрытый слой является оптимальным в смысле времени обучения, простоты реализации и, что более важно, качества обобщения, Пределы ошибок аппроксимации )(х) = / Дш)ехр(уш х)йо, /и о (4.87) В (96) были исследованы аппроксимирующие свойства многослойного персептрона для случая одного скрытого слоя с сигмоидальной функцией активации и одного линейного выходного нейрона.