Хайкин С. - Нейронные сети (778923), страница 72
Текст из файла (страница 72)
В основном для трансформации нелинейной задачи классификации в линейную применяетсянслинейное отображение. Аналогично, нелинейное отображение можно использовать для преобразования сложной задачи нелинейной фильтрации в более простую задачу линейной фильтрации. Рассмотрим сеть прямого распространения с одним входным, одним скрытым и выходным слоем, содержащим единственный нейрон. Один нейрон в выходном слое выбран специапьно для упро|цения выкладок без потери общности. Эта сеть предназначена для нелинейного отображения входного пространства в скрытое, за которым следует линейное отображение скрытого пространства в выходное. Пусть то — размерность входного пространства.
Тогда сеть в целом реализует отображение то-мерного входного пространства в одномерное выходное: (5.9) Полученный результат подтверждает, что 2гп| является совершенно естественным определением разделяюичей способности (верагайпй сарасйу) семейства поверхностей решений, имеющих пз, степеней свободы. Следовательно, разделяющая способность поверхности тесно связана со значением УС-измерения, которое рассматривалось в главе 2.
360 Глава 5. Сети на основе радиальных базисных функций Отображение в можно рассматривать как гиперповерхность (график) Г с Я '"', аналогично тому, как отображение ьчЯ' — в Я1 представляется в двумерном пространстве Яз в виде параболы в(х) = хз. Поверхность Г является многомерным графиком изменения выходного сигнала в зависимости от входного. В практической реализации поверхность Г остается неизвестной, а на данные обучения накладывается шум. Этапы обучения и обобщения можно представить следующим образом [160). ° На этапе обучения (Ггаш(пй рЬаве) поверхность Г оптимизируется на основании известных точек данных, представляемых сети в форме маркированных примеров типа "вход-выход".
° Фаза обобщения (8епега11хабоп рйазе) равносильна интерполяции на интервалах между точками данных. Эта интерполяция осуществляется на ограниченной поверхности, сгенерированной процедурой подбора (бейб ргоседпге) в качестве оптимальной аппроксимации истинной поверхности Г. Таким образом, мы приходим к теории интерполяции функции многих переменных (пш! Г(чапаЫе 1п1егро! абоп) в многомерном пространстве, которая имеет свою долгую историю (243). Задачу интерполяции в ее изначальном смысле можно сформулировать следующим образом.
Дла данногомножества из веточек (хв Е Я "~1' = 1,2,...,1'ч') и соответствУюЩего множества из Х двйствительнык чисел (1(, Е Я1 ~1 = 1, 2,..., 1ч') найти функцию с': Ян — в Я1, удовлетворяющую следующему условию интерполяции: р'(х1) = 111, 1 = 1, 2,..., Х. (5.10) Для определенной таким образом задачи поверхность интерполяции (т.е. функция с') проходит через все точки примеров обучения.
Метод радиальных базисных функций (КВР) сводится к выбору функции с', имеющей следующий вид 1854): с(х) = ~) ш,<р(8х — х;//), (5.11) в=1 где (ц1(/!х — х, Й) )1 = 1, 2,..., )ч') — множество из 1ч' произвольных (и обычно нелинейных) функций, которые называются радиальными базисными функциями (гад)а1- Ьаз1з б1псиоп); (~ Й вЂ” норма, обычно Евклидова. Известные точки данных х, Е Я ', 1 = 1, 2,..., 1'ч', выбираются в качестве центров радиальных базисных функций. 5.3. Задача интерполяции 351 Подставляя в (5.11) условие интерполяции (5.10), получим следующую систему линейных уравнений для неизвестных весовых коэффициентов (ю,): (5.12) грлч 9кг ° 9кк где у„= ~р([[хт — х,~~), (т, т') = 1, 2,..., Х. (5.13) Пусть Векторы д и и размерности г"ч — это веюлор желаемого огпклика (дез(ген гезропзе честог) и вектор весов (и е1 я)тт честог) соответственно.
Пусть Ф вЂ” матрица размерности г'ч' х 111 с элементами гр,,: Ф = (у,,[(~, () = 1, 2,..., Ж). (5.14) Назовем ее маглриией интерполяции. Теперь выражение (5.12) можно переписать в следующем виде: Фи =х. (5.15) Предполагая, что матрица Ф является несингулярной (и, следовательно, для нее существует обратная матрица Ф '), можно приступить к решению уравнения (5.15) относительно вектора весов тч: чч=Ф 'х. (5.16) Прн этом возникает жизненно важный вопрос: как убедиться в несингулярности матрицы Ф? Для большого класса радиальных базисных функций при определенных условиях ответ на этот вопрос дает следующая важная теорема. Фы гргг . чгк Фгг чгг ' ' ' гггк д, г"г 352 Глава б.
Сети на основе радиальных базисных функций Теорема Мичелли В [733) была доказана следующая теорема. Пусть [ х,),. — множество раззичныл точек из Я '. Тогда матрица интерполяции Ф размерности з"з' х Л с элементами <рл = <р(~ ~х, — х, ( ~) является несингулярной. Теорема Мичелли охватывает широкий класс радиальных базисных функций. В этот класс входят следующие функции, представляющие интерес при изучении сетей на основе радиальных базисных функций, или сетей КВЕ 1. Мультиквадратичная функция (шп!гк)падг(с): зр(г) = (гз + с ) Пз для некоторых с > О и г е я.
(5.17) 2. Обратная мультиквадратичная функция (шчегзе пш)гн(падг)с): 1 Е(г) =, для некоторых с > О и т. Е Я. (5.18) (гз + сз) Пз 3. Функция Гаусса (Оапзпйап бзпсг(оп): , 2 <р(г) = ехр — — ) для некоторых зт > О и г е Я. (5.19) 1, 2<гз) Выражения для прямой и обратной мультиквадратичных функций даны согласно [419). Дпя того чтобы радиальные базисные функции (5.17) — (5.19) были несингулярныи ми, все точки [х,),, должны различаться. Больше для несингулярности матрицы Ф ничего не требуется, кроме размерности )ч' множества примеров н размерности тв векторов х,. Обратная мультиквадратичная функция, представленная формулой (5.18), и функция Гаусса (5.19) имеют одно общее свойство; они являются локализованными (1оса1ьтед) в том смысле, что ~р(г) — ~ О при г — со.
В обоих этих случаях матрица Ф является положительно определенной. В отличие от них мультиквадратнчная функция (5.17) не является локализованной в том смысле, что при г — оо функция неограниченно возрастает. Соответствующая ей матрица Ф имеет )ч' — 1 отрицательных собственных чисел и только одно положительное, следовательно, не является положительно определенной [733]. Однако примечательно, что матрица интерполяции Ф, основанная на мультнквапратичной функции Харди, является несингулярной и, таким образом, пригодной для использования в конструкции сетей КВгр 5.4.
Обучение с учителем как плохо обусловленнаи задача... 333 Еще более важным является тот факт, что радиальные базисные функции, неограниченно возрастающие при стремлении аргумента к бесконечности (например, мультиквадратичные функции), можно использовать для аппроксимации гладких отображений с большей точностью, чем при использовании положительно-определенной матрицы. Этот удивительный результат рассматривается в [854]. 5.4.
Обучение с учителем как плохо обусловленная задача восстановления гиперповерхности Описанная ранее стандартная процедура интерполяции может не подходить для обучения нейронных сетей КВГ в некоторых классах задач из-за плохой обобщающей способности, вызванной следующей причиной: если количество точек данных обучающего множества значительно превышает количество степеней свободы самого физического процесса, а нам требуется иметь столько же радиальных базисных функций, сколько точек в обучающем множестве, задача оказывается избыточно определенной (очегдегегпипед).
Следовательно, сеть может завершить свою настройку в неверном положении, приняв во внимание сторонние шумы во входных данных, что, в свою очередь, станет причиной плохого обобщения [160]. Чтобы глубже понять проблему избыточного подбора (очегб!бпй) и выбрать способы ее устранения, вспомним, что конструирование нейронной сети, призванной генерировать выходной сигнал в ответ на входной пример, эквивалентно обучению сети построению гиперповерхности (т.е. многомерному отображению), определяющей выходной вектор в терминах входного.
Другими словами, обучение рассматривается как задача реконструкции гиперповерхности на основе множества точек, которое может быть довольно разреженным. Согласно [554], [561] две задачи считаются обратными (!пчегзе) друг другу, если формулировка каждой из них требует полного или частичного знания о другой. Обычно оказывается, что одна из задач уже решалась ранее и, возможно, даже более детально, чем другая. В таком случае первая задача называется прямой (гйгесг ргоЬ- )еш), а вторая — обратной (!пчегзе ргоЫегп). Однако с точки зрения математики существует еще одно более важное отличие между прямой и обратной задачами. Задача может быть плохо или хорошо обусловлена (чче!!-розед, !П-розед).
Термин "хорошая обусловленность" используется в прикладной математике еще со времен Адамара (Надагпагд) — с начала 1900-х годов. Для того чтобы объяснить эту терминологию, предположим, что область Х и диапазон У являются метрическими пространствами, юторые связаны неюторым фиксированным, но неизвестным отображением у. Задача реконструкции отображения у считается хорошо обусловленной, если выполняются следующие три условия [561], [756], [1056]. 364 Глава б. Сети на основе радиальных базисных функций 1.