Хайкин С. - Нейронные сети (778923), страница 83
Текст из файла (страница 83)
3. Регуляризированная процедура строгой интерполяции, включающая обучение линейных весов согласно (5.54). гз Метод оценки регрессии Налараая — Ватсона является предметом интенсивного изучения в литературе по статистике, В более широком контексте непараметрическая функциональная оценка занимает центральное место в 14181 и [907]. 404 Глава б. Сети на основе радиальных базисных функций 4.
Выбор параметра регуляризации )!. и множителей а„аз,..., а, с помощью некоторого ассимптотичвски-овтимальнага метода (например, метода перекрестной проверки, определяемого выражением (5.1! 7) или метода обобщенной перекрестной поверки, описываемого выражением (5.121)). Выбранные параметры можно интерпретировать следующим образом. ° Чем больше значение параметра Х, тем сильнее шум влияет на измере- ние параметров.
° Если радиальная базисная функция С имеет унимодальное (т.е. гауссово) ядро, то чем меньше значения а„тем более "чувствителен" выход сети к соответствующей размерности входа. И наоборот, чем больше значения а„тем менее "адекватно" соответствующая входная размерность отражает влияние изменения входа на общий выход сети.
Таким образом, выбранные значения а, можно использовать для ранжирования важности соответствующих входных переменных и, следовательно, для определения потенциальных кандидатов на удаление при снижении размерности в случае необходимости. Обоснование этой процедуры детально изложено в [1172). В контексте рассматриваемой задачи такой выбор можно мотивировать следующим образом. Несложно показать, что сети ХК%Е составляют специальный класс регуляризированных сетей КВЕ в том смысле, что любую сеть Х%КЕ можно аппроксимировать правильно построенной последовательностью регуляризированных сетей КВЕ, для которой последовательность параметров регуляризации (Хн ) может возрастать до бесконечности с увеличением размера Х обучающего множества (при этом среднеквадратическая или абсолютная ошибка аппроксимации будет стремиться к нулю).
С другой стороны, при стремлении )ч' к бесконечности риск, определяемый выражением (5.99), при определенных условиях будет стремиться к (глобальной) среднеквадратической ошибке. Если для построения последовательности параметров регуляризации используется процедура выбора асимптотически оптимальных параметров, то (по определению) результирующая последовательность КВЕ-сетей должна иметь (асимптотически) минимальную среднеквадратическую ошибку на всем множестве возможных последовательностей параметров (включая ту, которая соответствует сети Х%КЕ).
Если известно, что сеть Х%КЕ является состоятельной в смысле среднеквадратической ошибки, то этому же условию удовлетворяет регуляризированная сеть КВЕ, построенная согласно такой же процедуре. Другими словами, регуляризироаанная сеть КВР, построенная с помощью этой процедуры, может унаследовать свойства состоятельности сети Х%КЕ. Такая взаимозависимость позволяет распространить известные результаты, касающиеся состоятельности сетей Х%К.Е, на такие области, как регрессия временных рядов (зипе зейез геягезз!ол), в которых часто встречаются зависимые и нестационарные процессы и где допущения обычных нейронных сетей о независимости данных обучения и стационарности процессов не выполняются. Подводя итог, 5Д4. Компьютерное моделирование: классификация образов 400 можно сказать, что описанная здесь процедура, объединяющая элементы теории регуляризации и теории оценки регрессии ядра, обеспечивает практическую методику создания и применения теоретически обоснованных регуляризированных сетей ВВЕ 5.14.
Компьютерное моделирование: классификация образов В этом разделе описывается компьютерный эксперимент, иллюстрирующий методику построения регуляризированной сети КВг на основе использования строгой интерполяции. В этом эксперименте решается задача бинарной классификации данных, полученных на основе двух равновероятных перекрывающихся двумерных распределений Гаусса, соответствующих классам С1 и Сз. Параметры распределения Гаусса выбраны такими же, как и в разделе 4.8. Класс С, характеризуется вектором среднего значения (0,0)~ и дисперсией, равной единице; класс Сз характеризуется вектором среднего значения [0,2]г и дисперсией, равной 4.
Пример, описываемый в этом разделе, можно рассматривать как аналог эксперимента, описанного в разделе 4.8, для обучения методом обратного распространения, реализованный для регуляризированной сети КВг. Для двух классов, С1 и Сз, строится регуляризированная сеть КВР с двумя выходными функциями — по одной для каждого класса. Кроме того, в качестве желаемых используются следующие бинарные значения: 00 / 1, если пример р принадлежит классу Сь, '( 0 — в противном случае, где )в = 1, 2. Прежде чем приступить к эксперименту, следует определить решающее правило, которое будет применяться для классификации.
В 11172) показано, что выходы регуляризированной сети ЙВг обеспечивают оценку апостериорной вероятности принадлежности классу. Однако это истинно только при условии, что сеть обучается с помощью двоичных векторных индикаторов желаемого отклика класса. Тогда для этого класса сетей можно применить следующее решающее правило (4.55). Выбирается класс, соответствующий максимальному выходному значению функции. Метод строгой интерполяции для выбора центров проверялся для различных значений параметра регуляризации Х. При заданном Х для вычисления вектора весов выходного слоя сети ВВг использовалось выражение (5.54): 406 Глава б. Сети на основе радиальных базисных функций ТАБЛИЦА б.б.
Вероятность корректной классификации Р,(%) дпя разных значе- ний параметра регулярнзацнн Х и размера скрытою слоя т, = 20 Значение парометра регуляризации Х Вид статистики Среднее Стандартное отклонение Минимум Максимум 0 0,1 57,49 72,42 7,47 4,11 44,20 61,60 72,70 78,30 1 74,42 3,51 65,80 78,90 10 100 73,80 72,46 4,17 4,98 63,10 60,90 79,20 79,40 1000 72,14 5,09 60,50 79,40 ТАБЛИЦА б.б.
Вероятность корректной классификации Р,(%) дпя разных значе- ний параметра регулярнзацнн Х н размера скрытого слоя т, = 100 Значение параметра регуляризации Х Вид статистики Среднее Стандартное отклонение Минимум Максимум 0 0,1 50,58 77,03 4,70 1,45 41,00 70,60 61,30 79,20 1 10 100 77,72 77,87 76,47 0,94 0,91 1,62 75,10 75,10 72,10 79,80 79,40 78,70 1000 75,33 2,25 70,10 78,20 1. Как в случае т, =20 центров, так и в случае гп1 —— 100 центров качество классификации в сети для параметра регуляризации Х =0 остается относительно плохим. где С вЂ” матрица Грина размерности )ч х Х, 11-й элемент которой соответствует значению радиальной симметричной функции Грина С(х,, х,); лг — размер обучающего множества; б — вектор желаемого отклика.
Для каждого из параметров регуляризации строились 50 независимых сетей, которые тестировались на одном и том же множестве из 1000 примеров. В табл. 5.5 приведена обобщенная статистическая информация о вероятности корректной классификации Р„вычисленной для случая тг — — 20 центров. Статистика по массиву вычислялась для различных значений параметра регуляризацни Х. В табл. 5.6 представлены соответствующие результаты, вычисленные для случая регуляризированной сети ВВг большего размера с т, = 100 центрами.
На рис. 5.7 показаны границы решений, сформированные выходами сети для значения параметра регуляризации Х = 10 (при таком значении параметра стагистические характеристики оказались наилучшими). На рис. 5.7, а показана сеть с наилучшими показателями, а на рис. 5.7, б — с наихудшими статистическими показателями в рамках массива.
Обе части этого рисунка представлены для случая сети с т, = 100 центрами. Сравнивая табл. 5.5 и 5.6, можно сделать следующие выводы. Б.14, Компьютерное моделирование: классификация образов 407 «Г Π— 5 -5 -4 О 2 4 5 ч О Рис. 5.7. Результаты компьютерного моделирования при решении задачи классификации на основе строгой интерполяции в регуляризируемых сетях ггВР: наилучшее решение (а); наихудшее решение (б).
Закрашенная область представляет собой оптимальное решение Байеса -5 -5 -4 О 2 4 5 6) 2. Использование регуляризации оказывает большое влияние иа качество классификации в сетях КВЕ 3. Для Х ) О, 1 качество классификации зависит от значения Х. Для случая т, =20 центров лучшие показатели были достигнуты при Х = 1, а для случая т, = 100 центров — при Х = 10. 4. Увеличение количества центров с 20 до 100 улучшает качество классификации приблизительно иа 4,5%. 408 Глава б.