Хайкин С. - Нейронные сети (778923), страница 70
Текст из файла (страница 70)
ТАБЛИЦА 4.9. Вес глазных линз дикого австралийского кролика Возраст Вес (дни) (мг) Возраст Вес (дни) (мг) Возраст Вес (дни) (мг) Возраст Вес (дни) (мг) 15 15 15 18 28 29 37 37 44 50 50 60 61 64 65 65 72 75 21,66 75 94,6 22,75 82 92,5 22,3 85 105 31 25 91 101,7 44,79 91 102,9 40,55 97 110 50,25 98 104,3 46,88 125 134,9 52,03 142 130,68 63,47 142 140,58 61,13 147 155,3 81 147 152,2 73,09 150 144,5 79,09 159 142,15 79,51 165 139,81 65,31 183 153,22 71,9 ! 92 145,72 86,1 195 161,1 218 218 219 224 225 227 232 232 237 246 258 276 285 300 301 305 312 317 174,18 173,03 173,54 178,86 177,68 173,73 159,98 161,29 187,07 176,13 183,4 186,26 189,66 186,09 186,7 186,8 195,1 216,41 338 347 354 357 375 394 513 535 554 591 648 660 705 723 756 768 860 203,23 188,38 189,7 195,31 202,63 224,82 203,3 209,7 233,9 234,7 244,3 231 242,4 230,77 242,57 232,12 246,7 Сети на основе радиальных базисных функций 5.1.
Введение Процесс создания нейронных сетей, обучаемых с учителем, можно упростить множеством способов. Описанный в предыдущей главе алгоритм обратного распространения для многослойного персептрона можно рассматривать как реализацию рекурсивной технологии, которая в статистике называется стохастической аппроксимацией (8]осйазбс арргохппа[юп). В этой главе описывается еще один подход, в рамках котороп! построение нейронной сети рассматривается как задача аппроксимации кривой по точкам (спгче-йп[пй ргоЬ]еш) в пространстве высокой размерности. В соответствии с такой точкой зрения обучение эквивалентно нахождению такой поверхности в многомерном пространстве, которая наиболее точно соответствует данным обучения.
При этом критерий "наилучшего соответствия" выбирается в некотором статистическом смысле. Таким образом, обобщение эквивалентно использованию этой многомерной поверхности для интерполяции данных тестирования. Такой подход лежит в основе метода радиальных базисных функций, состоягцего в традиционной интерполяции в многомерном пространстве. В контексте нейронных сетей скрытые нейроны реализуют набор "функций", являющихся произвольным "базисом" для разложения входных образов (векторов). Соответствующие преобразования называют радиальными базисмыми функциями (гагйа]-Ьаз[8 йупс6оп)!. Понятие радиальных базисных функций впервые было введено при решении задачи интерполяции вещественных функций нескольких переменных. Анализ ранних работ по этой тематике представлен в [855), а более новых — в [642]. В настоящее время радиальные базисные функции составляют одно из главных направлений исследований в области численного анализа.
' Радиальные базисные функции впервые использовались при решении задачи многомерной интерпол я пи ~ ~ Анализ первых работ по этой тематике содержится в [855]. В настоящее время это одно из главных направлений исследований в области численного анализа. В [!60] радиальные базисные функции впервые использовались для построения нейронных сетей. Важный вклад в теорию и методологию проектирования сетей на основе радиальных базисных функций внесла работа. в которой основное внимание уделяется вопросам применения теории регуларизации к э~ему классу сетей с целью повышения качества обобгцения на новых данных [847].
342 Глава б. Сети на основе радиальных базисных функций Базовая архитектура сетей на основе радиальных базисных функций (габ1а1-Ъаз)з Йпс6оп пегзког1с — КВР), или КВР-сетей, предполагает наличие трех слоев, выполняющих совершенно различные функции. Входной слой состоит из сенсорных элементов, которые связывают сеть с внешней средой. Второй слой является единственным скрытым (Ь|<Ыеп) слоем сети. Он выполняет нелинейное преобразование входного пространства в скрытое.
В большинстве реализаций скрытое пространство имеет более высокую размерность, чем входное. Математическое обоснование целесообразности последовательного применения нелинейного и линейного преобразований приведено в [219). Согласно этой работе, задача классификации данных в пространстве более высокой размерности с большей вероятностью удовлетворяет требованию линейной разделимости. Поэтому в КВР-сетях размерность скрытого слоя, как правило, существенно превышает размерность входного слоя. Также важно отметить тот факт, что размерность скрытого пространства непосредственно связана со способностью сети аппроксимировать гладкое отображение "вход-выход" 1731), (787].
Чем выше размерность скрытого слоя, тем более высокой будет точность аппроксимации. Структура главы Эта глава организована следующим образом. В разделах 5.2 и 5.4 будут заложены основы построения КВР-сетей. Это будет сделано в два этапа. В первую очередь будет описана теорема Колера (Серег) о разделимости образов. Дая иллюстрации применения этой теоремы мы рассмотрим задачу ХОК. Раздел 5.3 посвящен задаче интерполяции и ее связи с сетями КВК После изучения основ функционирования КВР-сетей мы перейдем ко второй части главы, состоящей из разделов 5.4-5.9.
В разделе 5.4 будет показано, что обучение с учителем является плохо обусловленной задачей восстановления гиперповерхности. В разделе 5.5 детально описывается теория регуляризации Тихонова и рассматривается ее применение в сетях КВЕ Эта теория естественным образом приводит к формулировке понятия сетей регуляризации в разделе 5.6. Этот класс КВР-сетей является очень требовательным к вычислительным ресурсам.
Чтобы уменьшить эту сложность, в разделе 5.7 описываются специальные сети регуляризации, которые называются обобщенными КВР-сетями. В разделе 5.9 мы снова вернемся к задаче ХОК и покажем, как ее можно решить с помощью КВР-сетей. В разделе 5.9 изучение теории регуляризации будет завершено описанием метода обобщенной перекрестной проверки для выбора подходящего параметра регуляризации. В разделе 5.10 обсуждаются свойства аппроксимации КВР-сетей.
В разделе 5.11 проводится сравнительный анализ сетей на основе радиальных базисных функций и многослойных персептронов. Оба этих типа сетей являются важными примерами многослойных сетей прямого распространения. 5.2. Теорема Ковера о разделимости множеств 343 В разделе 5.12 предлагается еще один подход к изучению ВВЕ-сетей — с позиций оценивания регрессии ядра. Здесь область ВВР-сетей связывается с вопросами оценки плотности и теорией регрессии ядра. В последней части настоящей главы (разделы 5.13 и 5.14) описываются четыре различные стратегии обучения нейронных сетей на основе радиальных базисных функций (раздел 5.13), а также компьютерный эксперимент по решению задачи классификации образов с использованием кВР-сетей (раздел 5.14). Глава завершается несколькими заключительными рассуждениями о ВВР- сетях (раздел 5.15).
5.2. Теорема Ковера о разделимости множеств Если сеть на основе радиальных базисных функций (ВВР-сеть) используется для решения сложных задач классификации образов, то основная идея решения обычно состоит в нелинейном преобразовании входных данных в пространстве более высокой размерности. Теоретическую основу такого подхода составляет теорема Ковера о разделимости образов (Сочег'з гЬеогеш оп гЬе зерагаЬ|Иу оТ рапегпз), которая утверждает следующее [219). Нелинейное преобразование сложной задачи «лассифи«алии образов в пространство более высокой разиерности повышает вероятность линейной разделимости образов.
ф(Х) = [ф,(Х), фз(Х), ..., ф (Х)] (5.1) Из главы 3, посвященной однослойному персептрону, известно, что задача классификации линейно-разделимых множеств относительно легко разрешима. Следовательно, для более четкого понимания принципов работы КВР-сети в качестве классификатора необходимо глубже изучить вопрос разделииости образов (зерагаЬ(1йу оТ рапегпа). Рассмотрим семейство поверхностей, каждая из которых делит входное пространство на две части.
Пусть Х вЂ” множество, состоящее из )ч' образов (векторов) х„хз, ., хн, каждый из которых принадлежит одному нз двух классов— Х, или Хз. Эта дихотомия (бинарное разбиение) точек называется разделимой по отношению к семейству поверхностей, если в этом семействе существует поверхность, которая отделяет точки класса Х1 от точек класса Хз. Для каждого образа х Е Х определим вектор, состоящий из множества действительнозначных функций (<р,(х)~ г = 1,2,...,т,), вида 344 Глава 5. Сети на основе радиальных базисных функций Предположим, что образ х является вектором в то-мерном входном пространстве.
Тогда векторная функция !Р(х) отображает точки то-мерного входного пространства в новое пространство размерности т,. Функции <р,(х) называются скрытыми, поскольку они играют роль скрытых элементов нейронных сетей прямого распространения. Соответственно пространство, образованное множеством скрытых функций (<р,(х))™',, называется скрытовм пространством (ЬкЫеп зрасе) или пространствам признаков (Теа$аге зрасе). Дихотомия (Х„Хз) множества Х называется ~р-разделимой(<р зерагаЫе), если существует т1-мерный вектор лг, для которого можно записать 1219) тг~!Р(х) ) О, х е Х„ лг !Р(х) ( О, х Е Хз.