Хайкин С. - Нейронные сети (778923), страница 52
Текст из файла (страница 52)
Для класса С1. (4.56) ух(х~с,) = —,ехр ~ — —, '8х — )кЛ ~, где вектор среднего значения )кг —— (О, 01г, а дисперсия паз = 1. 4.8. Компьютерный эксперимент 28? Для класса Сг: / 2 Ух(х~Сг) = — ехр1 — — ()х — р )! 2кпз 1 2 из (4.57) где вектор среднего значения )гз — — [2, 0)т, а дисперсия п~ ~= 4. Вероятность принадлежности образа обоим классам одинакова, т.е. р1 = рз = 1/2.
Байесовская граница решений Байесовский критерий оптимальной классификации уже обсуждался в главе 3. Для данной задачи классификации на два класса предположим, что классы С~ и Сз— равновероятны, стоимость корректной классификации равна нулю и стоимости ошибок классификации одинаковы. Тогда для нахождения оптимальной границы решений можно использовать критерий отношения правдоподобия с, Л(х) <>~, (4.58) с. где Л(х) — отношение иравдонодобия (й(сей)зооо гайо), определяемое формулой з х(х1С1) ~х(х~Сг) ' (4.59) а ~ — порог критерия (ЙгеапоЫ ог" бзе гез1), определяемый формулой ~ = — = 1.
Рз Р1 (4.60) В рассматриваемом примере имеем: Л(х) = — ехр 1 — — 11х — )ь,)! + — 11х — (з )! ( . 2пзз На рнс. 4.13 показаны трехмерные графики гауссовых распределений, определенных выражениями (4.56) и (4.57) для входного вектора х=(хы хз)т и размерности пространства входных сигналов то — — 2. На рис. 4.14 показаны корреляционные диаграммы классов С1 и Сз в отдельности и общая корреляционная диаграмма, отражающая суперпозицию графиков рассеяния по 500 точкам, выбранным для каждого процесса.
На последней диаграмме четко видно, что распределения существенно перекрываются, а значит, высока вероятность неправильной классификации. 268 Глава 4. Многослойный персептрон 1,5 0,5 !О хг -10 †!О к10 ! 1О х! -10 -Ю 0) Рис. 4.13. Функции плотности вероятности: у,(х)С, ) (а) и у,(х!Сг) (б) Таким образом, оптимальная (байесовская) граница решений определяется соот- ношением или (4.61) Используя простые преобразования, оптимальную границу решений (4.61) можно переопределить в виде (4.62) 0 !О 0 1Π— ехр [ — !)х — р.,!! + )!х — р.
)! ~ = 1 2пгг 1 г 1 г гт! — г !)х — )хг)! — — г ))х — )х!)! = 4 1ой ~ — г( . г п2 ~,гтг) ' 4.8. Компьютерный эксперимент 269 в) о 2 4 б) -5Г -4 -2 О 2 4 в) -4 -2 о 2 4 6 8 Рис. 4.14. Корреляционные диаграммы классов Сг (а) и Сг (б), а также общая корреляционная диаграмма для обоих классов (в) где (4.63) (4.64) Уравнение (4.62) описывает окружность с центром в точке х, и радиусом г. Обозначим область, расположенную внутри этого круга, символом Йм Байесовское правило классификации для этой задачи можно сформулировать следующим образом. ,Вектор наблюдения х относится к классу Сп если отношение правдоподобия Л(х) больше порогового значения Г„и к классу Сг в остальных случ гях. т 5' оо а О'. СО а (х — а )8 г хс а2 а2 ага, ~ (((хт — )82 (( / аг г г +4)ок а, — а, ~ а, — а, ' ~а, 260 Глава 4.
Многослойный лерселтрон В данном эксперименте центр круговой границы решений находится в точке ~-2/З~ а радиус области составляет г = 2,34. Обозначим символом с множество результатов корректной классификации, а символом е — множество результатов некорректной классификации. Тогда вероятность ошибки (ргоЪаЬ( 1йу ог" еггог) Р, классификатора, работающего на основе байесовского решающею правила, можем определить в виде Р, = ргР(е~С,) + рзР(е~Сз), (4.65) где Р(е~Сг) — условная вероятность ошибки для входного вектора из класса С,; Р(е1Сз) — условная вероятность ошибки для входного вектора из класса Сз,' р, и рз — априорные вероятности классов С, и Сз соответственно.
Для нашей задачи можно найти числовые значения вышеуказанных величин: Р(е(С,) = 0,1066, Р(е1Сз) О, 2642. Так как классы равновероятны, т.е, р, = рз — — 1/2, то Р, О, 1849. Следовательно, вероятность правильной классификации (ргоЬаЬВ(гу о! соггес! с1азз)йсаг(оп) составляет Р= 1 — Р, 0,8161. Экспериментальное построение оптимального многослойного персептрона В табл.
4. 1 приведены параметры многослойного персептрона (пш!61ауег регсер!гоп— МЕР) с одним слоем скрытых нейронов, который обучается с помошью алгоритма 4.8. Компьютерный эксперимент 261 ТАБЛИЦА 4.1. Переменные параметры многослойного персептрона Типичный диапазон Символ Параметр (2, оо) (О, 1) (О, 1) Количество скрытых нейронов Параметр скорости обучения Константа момента тз з? а ТАБЛИЦА 4.2. Результаты моделирования для двух скрытых нейронов (коэффи- циент скорости обучения равен 0,1, фактор момента — 0) Количество Среднеквадра- Вероятность корректной классификации Рю% Номер экс- Размер перимента обучающего множества эпох тическая огаибка 0,2375 0,2341 0,2244 80,36 80,33 80,47 320 80 20 500 2000 8000 обратного распространения в последовательном режиме.
Поскольку единственной целью классификатора является достижение приемлемого уровня корректной клас- сификации, этот критерий и применяется для проверки оптимальности переменных параметров М?.Р. Оптимальное число скрытых нейронов Учитывая практический подход к задаче определения оптимального количества скрытых нейронов (т1), будем использовать следующий критерий. Необходимо найти минимальное количество скрытых нейронов, которое обеспечивает производительность, близкую (в пределах 158) к байесовскому. Исходя из этого, эксперимент начинается с двух скрытых нейронов. Результаты моделирования приведены в табл. 4.2. Поскольку целью первого этапа моделирования является проверка достаточности или двух скрытых нейронов, параметрам а и з) произвольно присвоены некоторые номинальные значения. Для каждого запуска процесса моделирования генерировалось множество примеров обучения, с равной вероятностью содержащее образы классов С, и Сз с гауссовым распределением.
Примеры из этого множества последовательно подавались иа вход сети в течение нескольких циклов, или эпох (ерос?з). Количество эпох выбиралось так, чтобы общее число обучающих примеров в процессе обучения оставалось постоянным. Таким образом, можно усредиить результаты для обучающих множеств разного размера. В табл. 4.2 и последующих таблицах среднеквадратическая оиибка вычислялась в соответствии с функционалом, определенным формулой (4.53).
Необходимо под- 262 Глава 4. Мноюслойный персептрон черкнуть, что для этих таблиц определялась именно среднеквадратическая ошибка, хотя минимум среднеквадратической ошибки не всегда отражает хороший уровень обобщения (т.е. хорошую производительность на ранее не использованных данных). В результате обучения сети на Ч примерах вероятность корректной классификации теоретически определяется выражением Р(, )Ч) = р Р(, (Ч~С ) + р Р(, 1Ч~Сз), (4.66) гдер, =рз=1/2и Р(с,1зГ~С,) = ~ ~х(х~С1)((х, (й1(И) Р(С )ч'(Сз) = 1 — / ух(х(Сз)дх (й1(н) (4.67) (4.68) рн = А/Ф является случайной величиной, которая обеспечивает максимально правдоподоб- ную несмещенную оценку реальной эффективности классификации р. Предпола- гая, что р является константой для Ю пар "вход-выход'*, можно использовать предел Чернова (257]: Р((рн — р~ ) е) ( 2ехр( — 2а~Ю) = Ь.
Применяя предел Чернова, получим 1Ч = 26500 для б = О, 01 и в = О, 01 (т.е. с достоверностью 99;4 можно утверждать, что оценка р характеризуется данным допустимым отклонением). Рассмотрим тестовое множество, содержащее Х = 32000 образов. В последнем столбце табл. 4.2 показана вероятность корректной классифи- и Й1(сГ) — область пространства решений, в которой многослойный персептрон (обученный на Л примерах) относит вектор х (представляющий реализацию случайного вектора Х) к классу С,.
Эту область обычно находят экспериментально, оценивая функцию отображения, которой обучалась сеть, и применяя выходное решающее правило (4.55). К сожалению, численно оценить величиныР(, 1Ч(С, ) и Р(, Ф(Сз) непросто, так как сложно отыскать формальное определение границы решений Й~(Ю). Поэтому воспользуемся экспериментальным подходом и протестируем обученный многослойный персептрон на независимом множестве примеров, которые снова случайно сгенерируем на основе гауссовых распределений классов С, и Сз с равной вероятностью. Введем случайную переменную А, которая означает количество корректно классифицированных примеров из множества мощности (ч'. Тогда частное 4.8.
Компьютерный эксперимент 263 ТАБЛИЦА 4.3. Результаты моделирования для четырех скрытых нейронов (Ч = 0.1, а = О) Номер экс- Размер Количество Среднеквадраперимента обучающего эпох тическая множества ошибка .Вероятность корректной классификаиии Р„ч 500 2000 8000 320 80 20 0,2129 0,2108 0,2142 80,80 80,81 80,19 Оптимальное обучение и константа момента Для оценки оптимальности значений параметров скорости обучения Ч и момента а можно использовать любое из трех следующих определений. 1.
Оптимальными считаются константы а и з), при которых сходимость сети к локальному минимуму на поверхности ошибок достигается в среднем за минимальное количество эпох. 2. Оптимальными считаются константы а и л, при которых сходимость сети к глобальному минимуму на поверхности ошибок (в наихудшем случае или в среднем) достигается за минимальное число эпох. 3.
Оптимальными считаются константы а и т), при которых средний показатель сходимости к конфигурации, имеющей наилучшие обобщающие способности во всем пространстве входных сигналов, достигается за минимальное количество эпох. кации для тестового множества такой мощности, усредненная по десяти независимым экспериментам. Эффективность классификации многослойного персептрона с двумя скрытыми нейронами (см. табл. 4.2)достаточноблизка к производительности байесовскогоклассификатора, равной Р, =81,51'.4. Отсюда логично заключить, что рассматриваемую задачу классификации можно решить с помощью многослойного персептронного классификатора с двумя скрытыми нейронами.
Чтобы подтвердить это заключение, в табл. 4.3 представлены результаты моделирования для четырех скрытых нейронов (остальные параметры остались без изменений). Хотя среднеквадратическая ошибка в табл. 4.3 для четырех скрытых нейронов несколько ниже, чем в табл. 4.2 для двух скрытых нейронов, средний уровень корректной классификации практически не улучшился — в одном из тестов результаты оказались даже несколько хуже. Поэтому продолжим вычислительный эксперимент для двух скрытых нейронов.