Главная » Просмотр файлов » Хайкин С. - Нейронные сети

Хайкин С. - Нейронные сети (778923), страница 61

Файл №778923 Хайкин С. - Нейронные сети (Хайкин С. - Нейронные сети) 61 страницаХайкин С. - Нейронные сети (778923) страница 612017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 61)

В частности, для аналитического прогнозирования эффекта изменения синаптических весов строится локальная модель поверхности ошибок. Создание такой модели начинается с локальной аппроксимации функции стоимости Е„с помощью ряда Тейлора (Тау!ог зепез) в окрестности выбранной точки: Однако при этом она имеет более сложную форму, чем снижение и исключение весов, следовательно, более требовательна к ресурсам из-за своей вычислительной сложности.

ЗОО Глава 4. Многоспойный персептрон Е,„(» + Ьзч) = Е,„(чг) + й~(чг)Ьчг+ — ЬзчгНЬзч+ ОЦЬчг!) ), (4.100) 2 где Ьч — возмущение, применяемое к данной точке зч; я(зч) — вектор градиента, вычисленный в точке». Гессиан тоже вычисляется в точке зн, и, таким образом, корректно применять обозначение Н(»). Это не было сделано в формуле (4.100) для упрощения выкладок. Требуется определить множество параметров, исключение которых из многослойного персептрона вызовет минимальное увеличение функции стоимости Е„. Для того чтобы решить эту задачу на практике, необходимо выполнить следующее.

1. Вивиани аннроксимаиия (ехгегла! арргохппабоп). Предполагается, что параметры удаляются из сети только после сходимости процесса обучения (т.е. после полного обучения сети (бз!1у пашед)). Следствие этого допущения состоит в том, что некоторые значения параметров соответствуют локальным или глобальным минимумам поверхности ошибки. В таком случае вектор градиента я можно считать равным нулю и слагаемое йгсз» в правой части (4.100) можно не учитывать. В противном случае мера выпуклости (которая будет определена позже) для данной задачи может быть определена неверно. 2.

Квадратичная аннроксимаиия (с!падгабс арргохппабоп). Предполагается, что поверхность ошибок в окрестности глобального или локального минимума является приблизительно "квадратичной". Исходя из этого, в выражении (4.100) можно также не учитывать все слагаемые более высокого порядка. Исходя из этих допущений, аппроксимация (4.100) упрощается до следующего вида: ЬЕ,,„= Е(зч + Ьзч) — Е(зч) = — 2) чг~НЬи'. (4.101) Процедура оптимальной степени повреждения (орс(ша! Ьгшп дашаяе — ОВП) 1624] упрощает вычисления за счет допущения о том, что матрица Гессе Н является диагональной. Однако такое предположение не делается в процедуре онтимальной хирургии мозга (орйпа! Ьга!и зпгяеоп — ОВБ) 1428). Таким образом, процедура ОВЯ содержит процедуру ОВР в качестве частного случая. Поэтому в дальнейшем мы будем следовать стратегии ОВБ.

Целью ОВБ является обнуление одного из синаптических весов для минимизации приращения функции стоимости Е,„в (4.101). Пусть ш,(п) — некоторый синаптический вес связи. Удаление этого веса эквивалентно выполнению условия или 1, сзтч+ш, = О, (4.102) 4.15. Методы упрощения структуры сети 301 где 1, — единичный вектор, все элементы которого равны нулю за исключением з'-го, который равен единице. Теперь цель ОВ8 можно определить в следующем виде [428). Необходимо минимизировать квадратичную форму з ЬшнНЬ и по отношению к при- ращению вектора весов Ьш, принимая в качестве ограничения равенство нулю выра- жения 1~схш+го,.

После этого требуется минимизировать результат относительно индекса з'. Из этого определения вытекает наличие двух уровней минимизации. Одна процедура минимизации выполняется по векторам синаптических весов, оставшихся после обнуления (-го вектора весов. Вторая операция минимизации определяет, какой из векторов можно исключить. Для решения этой задачи условной оптимизации (сопзпа!пед орбппяабоп ргойеш) в первую очередь нужно построить Лагранжиан (1.айгап8!ап): Н= '~~тН~. — ).(1т,2~+ш,) (4.

103) глав = —, Н '1„ (4.104) а соответствующее ему оптимальное значение Лагранжиана для элемента зо, — по формуле 2 Ю, 2[Н '! (4.105) где Н ' — матрица, обратная Гессиану Н; [Н '],л — элемент с индексом 1, 1 этой обратной матрицы. Лагранжиан Яо оптимизированный по Ьзч, подлежащий ограничению при исключении 1-го синаптического веса шо называется степенью вьтуклости ю,. Выпуклость Я, описывает рост среднеквадратической ошибки (как меры эффективности), вызываемый удалением синаптического веса зо,. Обратите внимание, что выпуклостьЯ; пропорциональна квадрату синаптического веса шз.

Таким образом, вес с маленьким значением оказывает слабое влияние на среднеквадратическую ошибку. Однако из выражения (4.105) видно, что величина Я, также обратно пропорциональна диагональным элементам матрицы, обратной Гессиану. Таким образом, если величина [Н '),в мала, то даже неболыпие веса могут оказывать существенное влияние на среднеквадратическую ошибку. где Х вЂ” множитель Лагранжа ((.айгапйе шп!бр!уег).

Дифференцируя Лагранжиан о по Ьзч, применяя условие (4.102) и используя обратную матрицу, находим, что оптимальное приращение вектора весов зч вычисляется по следующей формуле: 302 Глава 4. Мноюслойный персептрои В процедуре ОВБ для удаления выбираются веса, соответствующие наименьшей степени выпуклости. Более того, соответствующие оптимальные значения модификации оставшихся весов вычисляются по формуле (4.104), т.е. веса изменяются вдоль направления г-го столбца матрицы, обратной Гессиаиу. В 1428) показано, что в некоторых тестовых задачах сети полученные в результате применения процедуры ОВБ оказались меньше, чем построенные с использованием процедуры снижения весов.

В этой же работе показано, что в результате применения процедуры ОВБ к многослойному персептроиу )чЕТ1а)к, имеющему один скрытый слой и 18000 весов, сеть сократилась до 1560 весов. Это довольно впечатляющий результат. Сеть )чЕТ1айс, разработанная в [962), описывается в главе 13. Вычисление матрицы, обратной Гессиану где о(п) — реальная выходная реакция сети иа подачу п-го примера; Ы(п) — соответ- ствующий желаемый отклик; Х вЂ” общее количество примеров в множестве обучения. Сам выходной сигнал о(п) можно представить в виде о(п) = Р(зт,х), где Р(и, х) — функция отображения "вход-выход", реализуемая многослойным пер- септроиом; х — входной вектор; зт — вектор сииаптических весов сети.

Исходя из этого, первую производную функции стоимости по и можно выразить формулой дЕ„1 ч- дг(и,х(п)) 1, ди )т, дтт (4.106) Вычисление матрицы, обратной Гессиаиу, является основой процедуры ОВБ. Когда количество свободных параметров )4~ сети становится большим, задача вычисления Н ' может стать неразрешимой. В этом разделе описывается управляемая процедура вычисления Н ', в предположении, что многослойный персептрои был полностью обучен, т.е. достиг некоторого локального минимума иа поверхности ошибок 1428].

Для упрощения выкладок предположим, что многослойный персептрои содержит единственный выходной нейрон. Тогда для данного множества обучения функцию стоимости можно выразить соотношением 4.15. Методы упрощения структуры сети ЗОЗ а вторую производную по зч, или матрицу Гессе, представить в виде д~Е, 1 г ) /дГ(зт,х(п))') )гдГ(зт,х(п)) д'Г(,х( )),,а, (4.107) В атой формуле явным образом выделена зависимость матрицы Гессе от размера обучающего множества Х.

Если сеть полностью обучена, т.е. функция стоимости достигла одного из своих локальных минимумов на поверхности ошибок, есть основания утверждать, что значение о(п) достаточно близко к а(п). При атом условии второе слагаемое можно не учитывать и аппроксимировать выражение (4.107) следующим: 1 ~ (дГ(тк,х(п))'~ (гдГ(тг,х(п)) (4.108) Для упрощения записи введем вектор размерности Игх1: 1 дГ(тг, х(п)) /у дзт (4.109) который можно вычислить с помощью процедуры, представленной в разделе 4.10. Исходя из зтого, выражение (4.108) можно переписать в рекурсивной форме: н Н(п) = ~> ~(й)~ (й) = Н(п — 1) +Й(п)6, (п), и = 1, 2, ..., Х. (4.1!О) ь=1 А = В ' + СРС где С и Р— две другие матрицы.

Согласно лемме об инвертировании матриц, матрица, обратная А, определяется соотношением А-~ В ВС(Р+ СтВС)-~СтВ Эту рекурсивную запись удобно применить в так называемой лемме об инвертировании матриц (шап1х !пчегз!оп !епппа), известной также под названием равенства Вудбурри (%ообЬшту еопа1!!у). Пусть А и  — две положительно определенные матрицы, удовлетворяющие со- отношению 304 Глава 4, Мноюслойный лерселтрон Для задачи, определяемой соотношением (4.110), имеем: А = Н(п), В '=Н(п — 1), С =Р,(п), В = 1. Применяя лемму об инвертировании матриц, можно вывести требуемую рекурсивную формулу вычисления матрицы, обратной Гессиану; Н '(п — 1)Цп)0 (п)Н '(п — 1) 1+0 (п)Н '(и — 1)0(и) Обратите внимание, что знаменатель в формуле (4.111) является скаляром, следовательно, вычисление обратной матрицы не составляет труда.

Имея последнее значение Н '(и — 1), можно вычислить значение Н '(и) на основе и-го примера, представленного вектором с(п). Рекурсивные вычисления продолжаются до тех пор, пока не будет обработано все множество из Х примеров. Для инициализации этого алгоритма необходимо задать достаточно большое начальное приближение Н '(О), так как на каждом шаге рекурсии элементы матрицы будут только убывать. Это требование можно удовлетворить с помощью следующего значения матрицы: Н '(О) = б '1, (4.112) где Ь вЂ” достаточно малое положительное число; 1 — единичная матрица. Такая форма исходного значения гарантирует, что матрица Н "(п) всегда будет положительно определенной. Влияние Ь прогрессивно уменьшается по мере подачи все большего количества примеров. Алгоритм оптимальной хирургии мозга (ОВЯ) в сжатом виде представлен в табл, 4.6 1428). 4.16.

Преимущества и ограничения обучения методом обратного распространения Алгоритм обратного распространения является самым популярным среди алгоритмов обучения многослойного персептрона с учителем. По существу он представляет собой градиентный метод, а не метод оптимизации. Процедура обратного распространения обладает двумя основными свойствами. 4.16. Преимущества и ограничения обучения методом обратною распространения 366 ТАБЛИЦА 4.6.

Алгоритм оптимальной хирургии мозга 1. Минимизируем среднеквадратическую ошибку в процессе обучения данного многослойного персептрона. 2. Используем процедуру, описанную в разделе 4.10, для вычисления вектора и() = — '"" где е'(х,тч) — отображение "вход-выход", реализуемое многослойным персептроном с вектором синаптических весов зч и вектором входного сигнала х. 3. С помощью рекурсивного выражения (4.111) вычисляем матрицу, обратную Гессиану (Н '). 4. Находим некоторое (, соответствующее наименьшей степени выпуклости з Я. — э з~н-'~ где 1Н ']<, — (,1-й элемент этой матрицы Н ".

Если степень выпуклости о, гораздо меньше, чем среднеквадратическая ошибка Е„, то данный синаптический вес ш, удаляется, и мы снова переходим к шагу 4. В противном случае переходим к шагу 5. 5. Изменяем все синаптические веса сети, применяя приращение Ьтч = — ~ — -~ — Н '1„ переходим к шагу 2. б. Процесс вычисления прекращается, если больше не существует весов, которые можно удалить из сети, существенно не увеличив среднеквадратическую ошибку (в этот момент сеть желательно обучить заново). ° Во-первых, ее легко просчитать локально. ° Во-вторых, она реализует стохастический градиентный спуск в пространстве весов (при котором синаптические веса обновляются для каждого примера).

Эти два свойства обучения методом обратного распространения в контексте многослойного персептрона и определяют его преимущества и ограничения. Связность Алгоритм обратного распространения является примером ларадигмы связности (соп- песпопЫ рагаййш), согласно которой возможности нейронной сети по обработке информации реализуются за счет локальных вычислений. Эта форма вычислительных ограничений называется ограничением локальности (1оса!йу сопз1гаш1) в том смысле, что вычисления в каждом нейроне, на который воздействуют другие нейроны, выполняются обособленно. Использование локальных вычислений в контексте искусственных нейронных сетей обьясняется тремя принципиальными причинами.

Характеристики

Тип файла
DJVU-файл
Размер
10,59 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6552
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее