Хайкин С. - Нейронные сети (778923), страница 69
Текст из файла (страница 69)
В задачах распознавания образов при обучении наиболее широко используется алгоритм обратного распространения, особенно если размерность таких задач велика (например, при оптическом распознавании символов — ОСЕ). В задачах нелинейной регрессии диапазон выходных значений (оп1рп1 гапйе) многослойного персептрона должен быть большим, чтобы вместить все данные процесса.
Если эта информация недоступна, использование в выходном слое линейных нейронов будет самым правильным решением. Относительно алгоритмов обучения можно предложить следующие наблюдения. ° Последовательный (стохастический) режим обучения на основе обратного распространения является более медленным, чем пакетный. ° Пакетный режим обучения методом обратного распространения является более медленным, чем метод сопряженных градиентов. При этом следует заметить, что последний метод используется только в пакетном режиме. Завершим обсуждение несколькими замечаниями относительно меры эффективности (рег(оппапсе шеазпге).
Модификации алгоритма обратного распространения, представленные в настоящей главе, основаны на минимизации функции стоимости Е„, определенной как сумма квадратов ошибок, усредненная по всему множеству примеров обучения. Важной чертой этого критерия является его общность и математическая трактовка. Однако во многих ситуациях, которые встречаются на практике, минимизация функции стоимости Е„соответствует оптимизации некоторой средней величины, которая не обязательно присутствует в системе и, таким образом, может достичь только своего суболтимального значения.
Например, в финансово-торговых системах единственной целью инвестора (равно как и маклера) является максимизация ожидаемой лрибьии (ехресзеб гсшпз) при минимальном риске (1921, (751]. Для этих задач в качестве меры производительности интуитивно больше подойдет отношение прибыли к изменчивости, чем среднеквадратическая ошибка Е, . Задачи 336 Выход Рис. 4.28. Нейронная сеть для решения задачи ХОК Задачи Задачи ХОгх 4.1. На рис. 4.28 показана нейронная сеть, содержащая один скрытый нейрон и предназначенная для решения задачи ХО1х. Эту сеть можно рассматривать как альтернативу предложенной в разделе 4.5.
Покажите, что сеть на рис. 4.28 решает задачу ХОхх, построив области решений и таблицу истинности сети. 4.2. Используйте алгоритм обратного распространения для вычисления множества синаптических весов и уровней порогов в нейронной сети, показанной на рис. 4.8 и предназначенной для решения задачи ХОК. Предполагается, что в качестве модели нелинейности используется логистическая функция. Обучение методом обратного распространения 4.3. Включение слагаемого момента в формулу изменения весов можно рассматривать как механизм реализации эвристик 3 и 4, предлагающих способ ускорения сходимости алгоритма обратного распространения (см. раздел 4.17). Продемонстрируйте правильность этого утверждения.
4.4. Константа момента а обычно принимает положительное значение из диапазона О < а < 1. Проанализируйте, как изменится поведение величин, описываемых выражением (4.41), во времени 1, если константе момента а присвоить отрицательное значение из диапазона — 1 < а < О. 4.5. Рассмотрим простой пример сети с одним синаптическим весом, для которой задана следующая функция стоимости: Е(ю) = )сх(ш — тне) + кз, 336 Глава 4.
Мноюслойный лерселтрон где йп и~о и Йз — константы. Для минимизации этой функции используется алгоритм обратного распространения. Исследуйте влияние константы момента а на процесс обучения, вычислив количество шагов, требуемых для сходимости, в зависимости от константы а.
4.6. В разделе 4.7 было представлено качественное обоснование следующего свойства классификатора на основе многослойного персептрона (использующего в качестве модели нелинейности логистическую функцию): он обеспечивает оценку аносеериорной вероятности принадлежности классу (а роыепоп' с!ава ргоЬаЬ111йез).
Это предполагает, что при достаточно большом наборе примеров обучения алгоритм обратного распространения, используемый для обучения нейронной сети, не будет останавливаться в точке локального минимума. Опишите это свойство математически. 4.7. Взяв за основу функцию стоимости из формулы (4.70), выведите минимизирующее решение, представленное формулой (4.72), и найдите минимальное значение функции стоимости, определенное в (4.73). 4.8. Равенства (4.8!)-(4.83) определяют частные производные функции аппроксимации Г(зч, х), используемые многослойным персептроном на рис. 4.18.
Выведите эти равенства, используя следующий сценарий: а) Функция стоимости: Е(л) = -[Н вЂ” Г(зт,х)[ . 2 б) Выход нейрона~': где зо, — синаптические веса связей между нейронами 7 и г; у, — выходной сигнал нейрона !. в) Нелинейностзс 1 ф(и) = 1+ ехр( — о) Перекрестная проверка 4.9. Можно доказать, что перекрестная проверка является частным случаем минимизации структурного риска, который рассматривался в главе 2.
Приведите пример нейронной сети, использующей перекрестную проверку, который подтверждает это утверждение. Задачи 337 4.10. При многократной перекрестной проверке не существует четкого разделения между данными для оценивания и тестирования. Можно ли использовать многократную перекрестную проверку для нахождения пороговой оценки (Ь1- азед еагппасе)? Обоснуйте свой ответ. Приемы упрощения сети 4.11. Статистические критерии выбора модели, такие как критерий минимальной длины описания Риссанена (Ызэапеп'з ппшпппп деаспрйоп 1епдйз сп~егюп) и информационно-теоретический критерий Акейка (1п)оппагюп-йзеогег)с сп1егюп дпе го А)га)ке), имеют сходную форму построения: Критерий Логарифмическая Штраф сложности = функция + за сложность модели подобия модели Обоснуйте, как использование методов снижения и исключения весов связей вписывается в такой формализм. 4.12.
а) Выведите формулу вычисления значения выпуклости Я, (4.105). б) Предполагая, что матрицу Гессе среднеквадратической ошибки многослойного персептрона можно аппроксимировать следующей диагональной матрицей: П = йай[Ьы, Ьз„...,йгги ], где И' — общее число весов сети, определите значение выпуклости Я, для веса ш, сети. Ускорение сходимости алгоритма обратного распространения 4.13. Правило обучения ое)га-Ьаг-оейа [505) представляет собой видоизмененную форму алгоритма, построенного на эвристике, описанной в разделе 4.17.
В этом правиле каждому синаптическому весу сети соответствует собственный параметр скорости обучения. Поэтому функция стоимости соответствующим образом изменяет вид. Другими словами, несмотря на математическую схожесть с обычной функцией стоимости, параметрическое пространство этой новой функции стоимости включает в себя другие параметры интенсивности обучения. Глава 4. Многослойный перселтрон 338 а) Выведите формулу для частной производной дЕ(п)/й),,(п), где з)„(п)— параметр скорости обучения, связанный с синаптическим весом шл(п).
б) Продемонстрируйте, что изменение параметров скорости обучения находится в полном соответствии с эвристиками 3 и 4 из раздела 4.17. Методы оптимизации второго порядка 4.14. Использование слагаемого момента в формуле корректировки весов (4.39) можно рассматривать как аппроксимацию метода сопряженных градиентов (103). Обоснуйте корректность этого утверждения. Начиная с формулы (4.133) для )э(п), выведите формулу Хестенесса- Штифеля (Незтепезз-Жете!): 4.15. й )= гг(п)(г(п) — г(п — 1)) з"(п — 1)г(п — 1) где з(п) — вектор направления; г(п) — резидуальная ошибка метода сопря- женных градиентов. Используйте этот результат для вывода формул Полака- Рибьера (4.134) и Флетчера-Ривза (4.135).
Компьютерное моделирование 4. 16. в) Оцените вычислительную сложность сети с помощью данных тестирования. Исследуйте применимость обучения методом обратного распространения с сигмоидальной нелинейностью для построения следующих отображений (скалярных): а) /(х) = -' 1 < х < 100; б) Дх) = 1дх,1 < х < 10; в) /(х) = ехр( — х), 1 < х < 10; г) /(х) = з(п(х), 1 < х < к/2. Для каждого отображения выполните следующее. а) Создайте два набора данных: один — для обучения, а второй — для тестирования. б) Используйте множество данных тестирования для вычисления синаптических весов сети, предполагая наличие одного скрытого слоя. Задачи 339 Используя единственный скрытый слой с различным количеством нейроном, исследуйте, как изменение количества нейронов скрытого слоя влияет на производительность сети. Данные, приведенные в табл.
4.9, представляют вес глазных линз дикого австралийского кролика как функции времени (возраста). Ни одна простая аналитическая функция не может точно интерполировать эти данные, так как неизвестен общий вид самой функции. Поэтому введем нелинейную модель этого множества данных на основе метода наименьших квадратов, использующую отрицательный экспоненциап: 4.17. р = 233, 84611 — ехр( — О, 006042х)) + е, где а — слагаемое ошибки. Используя алгоритм обратного распространения, постройте многослойный персептрон, реализующий аппроксимацию этого множества данных на основе метода наименьших квадратов. Сравните результат с описанной выше моделью.