Хайкин С. - Нейронные сети (778923), страница 81
Текст из файла (страница 81)
В рассматриваемой здесь задаче регрессии "линейные веса" ш„применяемые к базисным функциям цгн(х, х,), являются наблюдениями у, модели регрессии для входных примеров х,. Таким образом, принимая у;=шо г'=1,2,...,%, функцию аппроксимации (5.133) можно преобразовать к более общему виду: г'(х) = ~~) ш,ьр„,(х, х,). (5.140) Уравнение (5.140) представляет собой описание сети на основе нормированных радиальных базисных функций [750), [1169).
Заметим, что 0 < у,(х, х,) < 1 для всех х и х,. (5.141) Следовательно, цгн(х, х,) можно интерпретировать как вероятность события, опи- сываемого вектором х при условии события х,. Основным отличием нормированных радиальных базисных функций ун(х, х;) (5.138) от обычных является знаменатель, являющийся коэффициентом нормировки (полна!1хапоп Тасгог). Этот коэффициент представляет собой оценку функции плотно- 5.12. Непвраметрическая регрессия и ее связь с сетями НВГ 396 сти вероятности входного вектора х. Следовательно, сумма базисных функций у,,(х, х,) по всем 1 = 1, 2,..., Л дает в результате единицу (см.
(5.139)). Выполнение этого условия для базисных функций (Грина) обычных сетей КВЕ (5.57) гарантировать нельзя. При выводе формулы (5.138) для г (х) основное внимание уделялось оценке плотности. Подобно задаче восстановления гиперповерхности, задача оценки плотности является плохо обусловленной. Функция оценки плотности Парзена — Розенблатта и, следовательно, функция оценки регрессии Надарайа — Ватсона могут быть выведены с применением теории регуляризации 110871. Естественно, функционал стоимости для оценки плотности состоит из суммы двух слагаемых: среднеквадратической ошибки, включающей в себя неизвестную функцию плотности вероятности, и соответствующей формы функционала стабилизации. Многомерное распределение Гаусса К(х) = 1 / 8х8 1 ехр (2х)тогэ 2 > (5. 142) где тс — размерность входного вектора х.
Сферическая симметрия ядра К(х) яс- но прослеживается в формуле (5.142). Предполагая использование общей ширины (разброса) гг, играющей в распределении Гаусса роль параметра сглаживания Ь, и центрируя ядро в точке данных х„можно записать, что Ь ) (2ягтг) „/г ~ 2оз Исходя из этого, функция оценки регрессии Надарайа — Ватсона примет следующий вид [10111: 2, у,ехр ( — 1 ~,'1 ) г'(х) = ехр ( — )~-*:--*а1-') з=1 (5.144) где знаменатель представляет собой функцию оценки плотности Пар зе пав Розенблатга, состоящую из суммы 111 многомерных распределений Гаусса с центрами в ~очках данных х„хм..., хя.
В общем случае можно использовать множество разнообразных функций ядра. Од- нако теоретические и практические соображения ограничивают этот выбор. Как и в случае с функцией Грина, широко используемым ядром является многомерное рас- пределение Гаусса: 396 Глава б. Сети на основе радиальных базисных функций Подставляя (5.143) в (5.138) и затем в (5.140), получим следующий вид функции отображения нормированной сети ЯВР: зс, ехр (-)йф-) Г(х)=' и ~, ехр ( — ~~зч,1 ) (5.145) В выражениях (5.144) и (5.145) центры нормированных радиальных базисных функций находятся в точках данных (х;1~,. Как и в случае с обычными радиальными баэисиыми функциями, лучше использовать как можно меньшее число нормированных ВВР-функций, выбирая их центры, рассматриваемые как свободные параметры, согласно некоторой эвристике (750) или некоторому принципу [847).
5.13. Стратегии обучения Случайный выбор фиксированных центров Простейший из подходов предполагает использование фиксированных радиальных базисных функций, определяющих функции активации скрытых элементов. Размещение центров может быть выбрано случайным образом из множества данных примеров. Такой подход считается "чувствительным" и требует представительного (гергезеп1айче) распределения множества обучающих данных с учетом рассматриваемой задачи 16751. Что же касается самих радиальных базисных функций, то для их реализа- Процесс обучения сети на основе радиальных базисных функций (ЯВР) без учета его теоретического обоснования можно рассматривать следующим образом.
Линейные веса, связанные с выходным узлом (узлами) сети, могут изменяться во "временном масштабе'*, отличном от используемого при работе нелинейных функций активации скрытых элементов. Если функции активации скрытых нейронов изменяются медленно, то веса выходных элементов изменяются довольно быстро с помощью линейной стратегии оптимизации. Здесь важно отметить, что разные слои сети кВР выполняют разные задачи, поэтому будет целесообразным отделить процесс оптимизации скрытого и выходного слоев друг от друга и использовать для иих разные методы и, возможно, даже разные масштабы времени (6761.
Существует множество различных стратегий обучения сети, зависящих от способа определения центров радиальных базисных функций. Первые три стратегии применимы к сетям ВВР, описание которых основано иа теории интерполяции. Последняя стратегия создания сетей сочетает в себе элементы теории регуляризации и оценки регрессии ядра. 5.13. Стратегии обучения 397 ции можно задействовать изолЧюлные функции Гаусса (1зо1гор)с Сапзз)ап бзпс11оп), стандартное отклонение которых является фиксированным относительно разброса центров.
В частности, (нормированные) радиальные базисные функции с центром в точке Г, определяются выражением СДх — Ф,)! ) = ехр ~ — '8х — ФД, г = 1,2,...,т„ тах (5.146) где т, — количество центров; д — максимальное расстояние между выбранными центрами.
В результате стандартное отклонение (т.с. ширина) всех радиальных базисных функций Гаусса будет фиксированным: А а о= ~(2т~ (5.147) = С'д, (5.148) где д — вектор желаемого отклика для множества примеров. Матрица С+ являет- ся псевдообратной матрице С, которая, в свою очередь, определяется следующим образом: (5.149) где дн = ехр( — — ))ху — Ц ), 7' = 1,2,...,Ю; г = 1,2,...,т„(5.150) где х, — у-й входной вектор множества примеров обучения. Эта формула гарантирует, что отдельные радиальные базисные функции ие будут слишком гладкими или слишком остроконечными.
Обоих этих крайних случаев следует избегать. В качестве альтернативы выражению (5.147) в наиболее разреженных областях можно использовать центры с большей шириной, что требует эксперимент с данными обучения. При использовании этого подхода единственными параметрами, которые настраиваются в процессе обучения сети, являются синаптические веса ее выходного слоя. Их проще всего настроить с помощью метода лсевдообращения (раепдо(пчегзе шейод) (160).
В частности (см. (5.77) и (5.78)): 398 Глава 6. Сети иа основе радиальных базисных функций Основой всех алгоритмов вычисления псевдообратных матриц является сингулярная декомнозиция (з(пйп! аг-ча1це десошрогйбоп — Б''ч)3) [368]. Если С вЂ” действительная матрица размерности Х х М, то суи1ествуют ортого- нальные матрицы ь) = [п~ иг пн) У = [чг, чз,..., чм), такие, что ЮтСч' = г[1ад(о„ггз,...,пк), К = ш)п(Х, М), (5.151) где аь>а,» ...ок>О. ,ч,Е+1)т (5.
152) где Ее — матрица размерности ]ч' х ]ч', выраженная в терминах сингулярных значений матрицы С: /1 Е+ = йай [ —, —,, —, О, ..., 0 ~, гп ггг пк (5. 153) Эффективный алгоритм вычисления псевдообратной матрицы описывается в [368]. Опыт использования методики случайного выбора центров показал, что этот метод относительно нечувствителен к использованию регуляризации. В задаче 5.14 будет предложено провести компьютерное моделирование задачи классификации с использованием этого метода. Случайный выбор центров можно использовать в качестве метода построения сетей КВг на основе множества примеров большого объема с возможным применением регуляризацин.
Векторы-столбцы матрицы 11 называют левыми сингулярными векторами (1ей а(пйц1аг чесгог) матрицы С, а векторы-столбцы матрицы ч' — яровыми сингулярными вектоРами (1ей а(пйп1аг чесГог). Числа пь, ггз,..., ак называют сингУлЯРными значениями (з(пбц1аг ча1пе) матрицы С. Согласно теореме о декомпозиции по сингулярным значениям, матрица, псевдообратная матрице С, размерности М х 1ч' определяется следующим образом: 5.13. Стратегии обучения 399 Выбор центров на основе самоорганизации Основной проблемой описанного выше метода выбора фиксированных центров является тот факт, что для обеспечения удовлетворительного уровня эффективности он требует большого множества примеров.