Главная » Просмотр файлов » Хайкин С. - Нейронные сети

Хайкин С. - Нейронные сети (778923), страница 51

Файл №778923 Хайкин С. - Нейронные сети (Хайкин С. - Нейронные сети) 51 страницаХайкин С. - Нейронные сети (778923) страница 512017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 51)

Если же синаптическим весам присвоить малые начальные значения, алгоритм будет очень вяло работать в окрестности начала координат поверхности ошибок. В частности, это верно для случая антисимметричной функции активации, такой как гиперболический тангенс. К сожалению, начало координат является седяовой точкой (аа<Ы!е ро(пг), т.е, стационарной точкой, где образующие поверхности ошибок вдоль одной оси имеют положительный градиент, а вдоль другой — отрицательный.

По этим причинам нет смысла использовать как слишком большие, так и слишком маленькие начальные значения синаптических весов. Как всегда, золотая середина находится между этими крайностями. Для примера рассмотрим многослойный персептрон, в котором в качестве функции активации используется гиперболический тангенс. Пусть пороговое значение, применяемое к нейронам сети, равно нулю. Исходя из этого, индуцированное локальное поле нейрона 1 можно выразить следующим образом: т оу ~~~ ггггт уг Предположим, по входные значения, передаваемые нейронам сети, имеют нуле- вое среднее значение и дисперсию, равную единице, т.е.

)г„= Е[у,] = О для всех г, оз = Е[(у, — рг)з] = Е[уз] = 1 для всех г. Далее предположим, что входные сигналы некоррелированны: [ 1 для гг = г, ( О для Й ~ г', и синаптические веса выбраны из множества равномерно распределенных чисел с нулевым средним р = Е[ш,;] = О для всех пар (1', г) 262 Глава 4. Многослойный персептрон и дисперсией сг~ = Е[[ш г — )г )~] = Е[ш8 ] для всех пар ()', г). Следовательно, математическое ожидание и дисперсию индуцированного локаль- ного поля можно выразить так: т тл р„= Е[из] = Е ~~г шзгуг = ~~ Е[ш,,]Е[у;] = О, г=г г=1 сг~ = Е[(и — 1г„)з] = Е[из] = Е ~~г ~~г штш .у,у„ г=1 к=1 ~~г Е[ш,гш,ь]Е[угуь] = ~~г Е[шз] = тсг~, (4.48) г=1 ь=1 где т — число синаптических связей нейрона.

На основании этого результата можно описать хорошую стратегию инициализации синаптических весов таким образом, чтобы стандартное отклонение индуцированного локального поля нейрона лежало в переходной области между линейной частью сигмоидальной функции активации и областью насыщения. Например, для случая гиперболического тангенса с параметрами а и 1г (см. определение функции) эта цель достигается при гг„= 1 в (4.48). Исходя из этого, получим [617): -г!г о =т (4.49) Таким образом, желательно, чтобы равномерноераспределение, из которого выби- раются исходные значения синаптических весов, имело нулевое среднее значение и дисперсию, обратную корню квадратному из количества синаптических связей нейрона. 7.

Обучение ло подсказке (Ыпгз). Обучение на множестве примеров связано с аппроксимацией неизвестной функцией отображения входного сигнала на выходной. В процессе обучения из примеров извлекается информация о функции Д ) и строится некоторая аппроксимация этой функциональной зависимости. Процесс обучения на примерах можно обобщить, добавив обучение ло лодсклзке, которое реализуется путем предоставления некоторой априорной информации о функции Д ) 14).

Такая информация может включать свойства инвариантности, симметрии и прочие знания о функции Д ), которые можно использовать для ускорения поиска ее аппроксимации и, что более важно, для повышения качества конечной оценки. Использование соотношения (4.49) является одним из примеров такого подхода. 4.?. Представление выхода и решающее правило 253 У( г Уг хг Рис. 4.12. Блочная диаграмма классификатора входных сигналов 8. Скорость обучения (1еагшпй гагев). Все нейроны многослойного персептрона в идеале должны обучаться с одинаковой скоростью.

Однако последние слои обычно имеют более высокие значения локальных градиентов, чем начальные слои сети. Исходя из этого параметру скорости обучения т) следует назначать меньшие значения для последних слоев сети и большие — для первых. Чтобы время обучения для всех нейронов сети было примерно одинаковым, нейроны с большим числом входов должны иметь меньшее значение параметра обучения, чем нейроны с малым количеством входов. В [617) предлагается назначать параметр скорости обучения для каждого нейрона обратно пропорционально квадратному корню из суммы его синаптических связей. Более подробно о параметре скорости обучения речь пойдет в разделе 4.17.

4.7. Представление выхода и решающее правило Теоретически для задачи классификации на М классов (М-с1авв с!авяйсайоп ргоиеш), в которой объединение М классов формирует все пространство входных сигналов, для представления всех возможных результатов классификации требуется М выходов (рис. 4.12). На этом рисунке вектор ху является 1'-м прототипом (рго1отуре) (т.е.

отдельной реализацией) гп-мерного случайного вектора х, который должен быть классифицирован многослойным персептроном. Й-й из М возможных классглв которому принадлежит данный входной сигнал, обозначается Сю Пусть уь. — й-й вГхрод сети, генерируемый в ответ на прототип х: уь =Гь(х), Й=1,2,...,М, (4.50) где функция гь( ) определяет отображение, которому обучается сеть при передаче входного примера на )с-й выход. Для удобства представления обозначим у = [ргд, "йгд,,рмд] = [Рг(ху), Йз(хз),..., Рм(хт)] = Р(ху), (4.51) где к'( ) — вектор-функция. Главный вопрос этого раздела звучит так. Каким долвгсно быть оптимальное решающее правило, применяемое длл классификации М вьподов сети после обучения многослойного пврсвптрона? 264 Глава 4.

Многослойный лерселтрон Естественно, решающее правило должно основываться на знании вектор-функции (4,52) Р:% Эх — ~уЕЯ В общем случае о вектор-функции Р( ) определенно известно лишь то, что это непрерывная функция, минимизирующая функционал эмпирического риска (ешр(пса! пзк йшсйопа1): (4.53) где й . — желаемый (целевой) выход для прототипа х; ! ! ( ! — Евклидова норма вектора; )ч' — общее число примеров, представленных сети для обучения.

Сущность критерия (4.53) та же, что и у функции стоимости (4.3). Вектор-функция Р( ) строго зависит от выбора примеров (х,, й, ), использованных для обучения сети. Это значит, что разные значения пар (х, 6 ) приведут к построению различных вектор-функций Р(.). Обратите внимание, что используемое здесь обозначение (х, й ) является эквивалентом употреблявшегося ранее обозначения (х(э), 6(2)). Предположим, что сеть обучается на двоичных целевых значениях (когорые случайно совпадают с верхней и нижней границами области значений логистической функции): ( 1, если прототип х, принадлежит классу С„, Иьт = 1( ( О, если прототип х, не принадлежит классу Сь.

Основываясь на этом допущении, класс С„можно представить М-мерным целевым вектором 1 — к-й элемент. Напрашивается предположение, что многослойный классификатор персептронного типа, обученный по алгоритму обратного распространения на конечном множестве независимых и равномерно распределенных примеров, обеспечивает асимптотическую аппроксимацию соответствующей апостериорной вероятности класса.

Это свойство можно обосновать следующим образом (881], [1133). 4.7. Представление выхода и решающее правило 26$ ° Согласно закону больших чисел, при бесконечном увеличении размера )т' обучающего множества вектор зт, минимизирующий функционал стоимости )т из (4.53), достигает оптимального значения и ', минимизирующего ожидание случайной величины 1/2()6 — я(тт, х)йз, где й — вектор желаемого отклика; Г(тт, х) — аппроксимация, реализованная многослойным персептроном для вектора весовых коэффициентов тт и входа х (1133]. Функция х(тт, х), в которой явным образом показана зависимость от вектора тт, — зто не что иное, как использованная ранее функция Е(х). ° Оптимальный вектор весов тт' обладает тем свойством, что соответствующий ему вектор фактического выхода сети г'(тт', х) является аппроксимацией, построенной по методу наименьших квадратов и минимизирующей ошибку условного ожидания вектора желаемого отклика при данном входном векторе х [1133].

Этот вопрос уже обсуждался в главе 2. ° Для задачи классификации входных сигналов на М классов к-й элемент вектора желаемого отклика равен единице, если входной вектор х принадлежит к классу Сь, и нулю в противном случае. Отсюда следует, что условное ожидание вектора желаемого отклика при данном векторе х равно апостериорной вероятности класса Р(Сь ~к), к = 1, 2,..., М (881]. Случайный вектор х относится к классу Сы если Рь(х) ) Р (х) для всех т ф. Й, где Гь(х) и Р,(х) — элементы векторфункиии отображения (4. 55) Р1(х) р( ) Р2(х) Рм (х) Единственное наибольшее значение выходного сигнала существует с вероятностью 1, если соответствующие апостериорные распределения классов различаются.

(Здесь предполагается использование арифметики с бесконечной точностью.) Это решающее правило имеет определенное преимущество по сравнению с моделью "отжи- Отсюда следует, что многослойный персептрон (с логистической активационной функцией) действительно аппроксимирует апостериорную (а ров1епоп) вероятность распознавания класса при условии, что размерность обучающего множества достаточно велика и что процесс обучения методом обратного распространения не прекратится в точке локального минимума. Теперь можно ответить на поставленный ранее вопрос.

В частности, можно утверждать, *по соответствующее решающее правило является (приближенно) байесовским правилом, обобщенным для аностериорной вероятности оценок. 266 Глава 4. Многослойный лерселтрон га", поскольку позволяет разделить однозначные (ппагпЬ(уюпз) решения. Это значит, что вектор х относится к определенному классу, если соответствующее выходное значение превышает заданный порог (в логистических формах функции активации обычно используется значение 0,5), в противном случае классификация не однозначна. В разделе 4.6 было указано, что двоичные целевые значения (О, Ц, соответствующие логистической функции (4.30), на практике во время обучения сети должны измениться на небольшое значение е, во избежание насыщения синаптических весов (в связи с далеко не бесконечной точностью представления чисел).

В результате этой модификации целевые значения перестают быть двоичными, и асимптотические аппроксимации Гь(х) не являются апостериорными вероятностями Р(С„~х) интересующих нас М классов (414]. Вместо этого Р(Сь ~х) линейно отображается на закрытый отрезок (е, 1 — е) так, что Р(Сь~х) = 0 соответствует выходу е, а Р(Сн~х) = 1— выходу 1 — е. Так как это отображение сохраняет относительный порядок, это не влияет на результат применения выходного решающего правила (4.55). Интересно также отметить следующее. Если граница решений формируется пороговым отсечением выходов многослойного персептрона относительно некоторых фиксированных значений, ее общая форма и ориентация могут быть выражены эвристически (для случая единственного скрытого слоя) в терминах количества скрытых нейронов и относительных величин связанных с ними синаптнческнх весов [683). Однагаз такой анализ не применим к границе решений, сформированной в соответствии с выходным решающим правилом (4.55).

Скрытые нейроны лучше рассматривать как нелинейные детенгноры признаков (попйпеаг Геаппе Йегесгог), призванные отобразить классы исходного входного пространства Я ' (возможно, линейно- неразделимые) в пространство активности скрытого слоя, где нх линейная разделимость более вероятна.

4.8. Компьютерный эксперимент В этом разделе с помощью компьютерного моделирования будет проиллюстрировано поведение многослойного персептронного классификатора в процессе обучения. Целью обучения является разделение двух перекрывающихся двумерных классов с гауссовым распределением, обозначенных цифрами 1 и 2. Пусть С, и Сз — множества событий, для которых случайный вектор х принадлежит к классам 1 и 2 соответственно. Функцию плотности условной вероятности можно представить в следующем виде.

Характеристики

Тип файла
DJVU-файл
Размер
10,59 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6551
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее