Хайкин С. - Нейронные сети (778923), страница 80
Текст из файла (страница 80)
задачу 5. 11) ~,т~)з 1 (5.!25) ° Сети ЯВг обеспечивают скорость аппроксимации порядка 0(1/тд), что близко к значению, полученному в (96) для многослойного персептрана с сигмоидальной функцией активации (см. раздел 4.12). 5.11. Сравнение сетей ЙВР и многослойных персептронов Сети на основе радиальных базисных функций (КВГ) и многослойный персептрон (МЕР) являются примерами нелинейных многослойных сетей прямого распространения.
И те и другие являются универсальными аппроксиматорами. Таким образом, неудивительно, что всегда существует сеть КВР, способная имитировать многослойный персептрон (и наоборот). Однако зти два типа сетей отличаются по некоторым важным аспектам. Е Сети КВР (в своей основной форме) имеют один скрытый слой, в то время как многослойный персептрон может иметь большее количество скрытых слоев.
2. Обычно вьлчислительные (сотри1а1(опа)) узлы многослойного персептрона, расположенные в скрытых и выходном слоях, используют одну и ту же модель нейрона. С другой стороны, вычислительные узлы скрытого слоя сети КВГ могут в корне отличаться от узлов выходного слоя и служить разным целям. 3. Скрытый слой в сетях КВР является нелинейным, в то время как выходной— линейным. В то же время скрытые и выходной слои многослойного персептрона, используемого в качестве классификатора, являются нелинейными. Если многослойный персептрон используется для решения задач нелинейной регрессии, в качестве узлов выходного слоя обычно выбираются линейные нейроны. 4. Аргумент функции активации каждого скрытого узла сети КВР представляет собой Евклидову норму (расстояние) между входным вектором и центром радиальной функции.
В то же время аргумент функции активации каждого скрытого узла многослойного персептрона — зто скалярное произведение входного вектора и вектора синаптических весов данного нейрона. 390 Глава б. Сети иа основе радиальных базисных функций 5. Многослойный персептрон обеспечивает глобальную аппроксимацию нелинейного отображения.
С другой стороны, сеть ВЗР с помощью экспоненциально уменьшающихся локализованных нелинейностей (т.е. функций Гаусса) создает локальную аппроксимацию нелинейного отображения. Это, в свою очередь, означает, что для аппроксимации нелинейного отображения с помощью многослойного персептрона может потребоваться меньшее число параметров, чем для сети ВВР при одинаковой точности вычислений. Линейные характеристики выходного слоя сети ВВР означают, что такая сеть более тесно связана с персептроном Розенблатга, чем с многослойным персептроном.
Тем не менее сети ВВР отличаются от этого персептрона тем, что способны выполнять нелинейные преобразования входного пространства. Это было хорошо продемонстрировано на примере решения задачи ХОВ, которая не может быть решена ни одним линейным персептроном, но с легкостью решается сетью ВВЕ 5.12. Непараметрическая регрессия и ее связь с сетями ЙВР Представленная выше теория сетей ВВР создавалась с прицелом на решение задач интерполяции.
В настоящем разделе мы примем другую точку зрения; займемся задачей построения непараметрической регрессии ()согде! геягезз!оп) на основе оценки плотности (деля!у ез!ппабоп). В качестве примера рассмотрим модель нелинейной регрессии (5.95), которую повторно приведем в этом разделе для сохранения последовательности рассуждений: у, = Г'(х ) +в„! = 1,2,...,)ч'. В качестве обоснованной оценки неизвестной функции регрессии Дх) можно выбрать среднее по наблюдениям (т.е. значениям выходного сигнала у) в окрестности точки х. Однако для успешной реализации такого подхода локальное среднее должно быть ограничено малой окрестностью (т.е.
полем чувствительности) точки х, так как в общем случае наблюдения, соответствующие точкам, удаленным от х, будут иметь другие средние значения. Чтобы конкретизировать этот вопрос, вспомним, что функция !(х), равная условному среднему значений у для данного х (т.е. регрессия у по х), задается в следующем виде: Дх) = Е(у!х!. 6.12. Непараметрическая ре~рессия и ее связь с сетями йВЕ 391 Используя формулу для математического ожидания случайной переменной, можно записать: ((х) = р [~ (у~х)с(у, (5.126) где 7~ (у)х) — функция плотности условной вероятности г' для данного х. Из теории вероятностей известно, что ~(~) з х(х) (5. 127) где ух(х) — плотность вероятности х; ~кт(х, у) — плотность совместной ве- роятности Х и У. Подставляя (5.127) в (5.126), получим следующую формулу для функции регрессии: [" РУх.(х,Р) Ь зх(х) (5.
128) ° Ядро К(х) является непрерывной, ограниченной и действительнозначной функцией аргумента х. Оно симметрично относительно начала координат, где достигает своего максимального значения. ° Общий объем, находящийся под поверхностью ядра К(х), равен единице, т.е. для любого т-мерного вектора х: (5.129) Иас интересует ситуация, в которой функция плотности условной вероятности [хг(х, у) неизвестна.
Имеется лишь множество примеров обучения ((ход,))н,. Для того чтобы оценить функцию ух г(х, у), а значит и ух(х),можно использовать непараметрическую функцию оценивания, получившую название функции оценки плотности Парзена — Розенблатта (Раггеп-КогепЫап депз!!у ез1ппа!ог) [819), [903), [904].
Основой для описания этой функции оценивания служит ядро ([серпе!), обозначаемое как К(х) и обладающее свойствами, сходными со свойствами функций плотности вероятности. 392 Глава 5. Сети на основе радиальных базисных функций Предполагая, что множество х„хз,..., хи состоит нз независимых равномерно распределенных случайных векторов, можно формально определить оценку плотности Парзена — Розенблатга функции [(х) следующим образом: .ь)*)= ~к( '), *як 4=1 (5.130) 1пп Ь(Х) = О, д) оо выполняется равенство 1[ш ЕУх(х)! = Ух(х).
Для его выполнения необходимо, чтобы точка х была точкой непрерывности функции [тх(х). Аналогично можно получить и функцию оценки плотности Парзена-Розенблатта для функции плотности совместной вероятности [к, (х, у): 1„„)*,з)=,~к( ')к( '), *ян ',зяи. )5131) 4=1 Интегрируя ~х у (х, у) по у, из выражения (5.130) получим ~х(х), что и требовалось доказать. Более того, ~ ттл г)*,З)ят= „'.„КК(*-„*1) ~ ° ("-„") ° Изменяя переменную интегрирования путем подстановки г = (у — уз)/Ь и воспользовавшись свойством симметрии ядра К( ), получим следующий результат: кь ~зч( 4 )' (5.
132) '4 Доказательство асииптотическото свойства функции оценки плотности Парзена — Розенблатта содержится в [)бб] и [819]. где параметр сглаживания Ь является положительным числом, называемым шириной полосы (Ьапе]вкЫбз), или просто шириной (апз]]Ь).
(Не путайте используемый здесь параметр Ь с одноименным параметром, используемым в определении производной Фреше из раздела 5.5.) Важным свойством функции оценки плотности Парзена— Розенблатта является то, что она обеспечивает состоятельную оценку (сопя)з[еп[ езпшасог) 14, т.е. при выборе Ь(Х) как функции от 1")', такой, что 6.12. Непараметрическая регрессия и ее связь с сетями йВР 393 (5.133) где в знаменателе для простоты использовался индекс суммирования 1 вместо 1. Как и в обычных сетях ВВг, функция оценки регрессии ядра г (х), определяемая формулой (5.133), является универсальным аппроксиматором.
функцию аппроксимации Г(х) можно рассматривать с двух позиций. 1. Функция оценки регрессии Надарайя — Ватсона (Хадагауа-%агзоп гейгезяоп езб1па1ог). Определим нормированную функцию взвешивания (поппа1гвед иге18Ь1)п8 1ППСПОП): К (х-тг) И'нв(х) = ", 1'=1,2,...,Ю, ~к(*-„" ) (5. 134) где ,'1 Игн,1(х) = 1 для всех х. г=1 (5. 135) Тогда функцию оценки регрессии ядра (5.133) можно переписать в упрощен- ном виде: Г(х) = ,'~ Игн„(х)у1. (5.136) г=1 Это не что иное, как взвешенное среднее (1не)8Шед ачегайе) наблюдений у.
Частный случай формулы для Игн1(х), формула (5.136), был предложен учеными Надарайя (Хадагауа) и Ватсоном (%агвоп) в (769) и [1118). Поэтому функцию аппроксимации (5.136) часто называют функцией оценки регрессии Оадарайя-Ватсона (М%КЕ). Используя (5.132) и (5.130) в качестве оценки значений числителя и знаменателя для формулы (5.128), можно вычислить следующую оценку функции регрессии у'(х) (после приведения подобных членов): 394 Глава б. Сети на основе радиальных базисных функций 2. Нормированные ЯВгсети (поппа1[хед ВВЕ пегчгогк).
В этом случае предполагается сферическая симметрия ядра К(х), те. [601) К = К для всех(, (5.137) где !) !) — Евклидова норма вектора аргумента. Соответственно нормированная радиальная базисная функция имеет вид К (В=„-101) у (х, х;) =, г = 1, 2,..., )ч', ~- к (~~*-„-*4) (5.138) где ~> цг,(х, х,) = 1 для всех х. (5.139) Индекс Х в обозначении цгн(х, х;) указывает на использование нормировки.