Хайкин С. - Нейронные сети (778923), страница 28

Файл №778923 Хайкин С. - Нейронные сети (Хайкин С. - Нейронные сети) 28 страницаХайкин С. - Нейронные сети (778923) страница 282017-12-212017-12-21СтудИзба

Хайкин С. - Нейронные сети

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 28)

Предположение о том, что зависимая переменная Р является скалярам, было сделано исключительно с целью упрощения изложения материала без потери общности. Предположим также, что существует Х реализаций случайного вектора Х, обозначаемых (х,),'" „и соответствующее им множество реализаций случайного скаляра Р, которое обозначим (Н,)!'",.

Эти реализации (измерения) в совокупности составляют обучающую выборку (2.53) 2.13. Статистическая природа процесса обучения 136 Обычно мы не обладаем знаниями о функциональной взаимосвязи между Х и Р, поэтому рассмотрим модель (1133] Р = 7"(Х)+е, (2.54) где г" ( ) вЂ” некоторая детерминированная (десепп!и!з!!с) функция векторного аргумента; а вЂ” ожидаемая ошибка (ехрес!айопа! епог), представляющая наше "незнание" зависимости между Х и Р. Статистическая модель, описанная выражением (2.54), называется регрессионной (гейгезз!оп пюде!) (рис.

2.20, а). Ожидаемая ошибка е в общем случае является случайной величиной с нормальным распределением и нулевым математическим ожиданием. Исходя из этого, регрессионная модель на рис. 2.20, а обладает двумя важными свойствами. 1. Среднее значение ожидаемой ошибки е для любой реализации х равно нулю, т.е. Е[е[х] = О, (2.55) где Е вЂ” статистический оператор математического ожидания. Естественным следствием этого свойства является утверждение о том, что регрессионная функции Дх) является условным средним модели выхода Р для входного сигнала Х = х: )'(х) = Е[Р]х]. (2.56) Это свойство непосредственно следует из выражения (2.54) в свете (2.55).

2. Ожидаемая ошибка а не коррелирует с функцией регрессии !'(Х), т.е. Е[еДХ)] = О. (2.57) Это свойство широко известно как нринцип ортогональности (рппс(р!е о! опЬояопа!йу), который гласит, что вся информация о Р, доступная через входной сигнал Х, закодирована в функции регрессии Д(Х).

Равенство (2.57) без труда иллюстрируется следующими выкладками: Е[еДХ)] = Е[Е[еу" (Х)]х]] = Е[у(Х)Е[е]х]] = Е[7" (Х) 0] = О. Регрессионная модель (рис. 2.20, а) представляет собой математическое описание стохастической среды. В ней вектор Х используется для описания или предсказания зависимой переменной Р. На рис. 2.20, б представлена соответствующая "физическая" модель данной среды. Эта вторая модель, основанная на нейронной сети, позволяет закодировать эмпирические знания, заключенные в обучающей выборке Т, с помощью соответствуюшего набора векторов синаптических весов ж: 136 Глава 2. Процессы обучения а) Рис. 2.20. Математическое (а) и физическое (б) представление нейронной сети б) (2.58) Таким образом, нейронная сеть обеспечивает аппроксимацию регрессионной модели, представленной на рис. 2.20, а. Пусть фактический отклик нейронной сети на входной вектор х обозначается следующей вероятностной переменной: У = г(Х,тт).

(2.59) где Р(ч тт) вЂ” функция отображения входных данных в выходные, реализуемая с помощью нейронной сети. Для набора данных обучения Т, представленного в виде множества (2.53), вектор синаптических весов тт можно вычислить путем минимизации функции стоимости: тт Е(н) = вЂ” ак (д вЂ” Е(х и)) (2.60) где коэффициент 1/2 вводится исключительно из соображений совместимости с обозначениями, которые использовались ранее и будут использоваться в следующих главах.

Если не принимать во внимание коэффициент 1/2, функция стоимости Е(тт) описывает сумму квадратов разностей между желаемым И и фактическим у откликами нейронной сети для всего набора примеров обучения Т. Использование соотношения (2.60) в качестве функции стоимости отражает "пакетный" характер обучения. Это значит, что настройка синаптических весов нейронной сети выполняется для всего массива примеров обучения в целом, а не для каждого примера в отдельности. 2.13.

Статистическая природа процесса обучения 137 Пусть Ет вЂ” оператор усреднения (ачегайе орегагог) по всей обучающей выборке Т. Переменные, или их функции, обрабатываемые оператором усреднения Ет, обозначим символами х и д. При этом пара (х, Н) представляет каждый конкретный обучающий пример из набора Т. В отличие от оператора усреднения оператор статистического ожидания Е функционирует иа множестве всех значений случайных переменных Х и Р, подмиожеством которого является Т. Различие между операторами Ет и Е будет четко показано ниже.

В свете преобразования, описываемого формулой (2.58), функции Г(х,зч) и Г(х,Т) являются взаимозаменяемыми, поэтому выражение (2.60) можно переписать в виде Е(ж) = вЂ” Ег[(1, вЂ” Е(х„Т))г]. (2.61) Добавляя функцию 1(х) к аргументу (Ы, вЂ” г'(х„Т)) и вычитая ее, а затем используя (2.54), получим: г( вЂ” Е(х, Т) = (д вЂ” .((х)) + (((х) вЂ” Е(х, Т)) = а + (Дх) вЂ” Е(х, Т)).

Подставляя это выражение в (2.61) и раскрывая скобки, функцию стоимости можио записать в следующей эквивалентной форме: Е(зч) = -Ет[а']+ вЂ” Ет[(2(х) вЂ” Г(х, Т))']+ Ет[а®х) вЂ” Е(х, Т))]. (2.62) Е(тч) = -Ет[вг] + -Ет[Фх) вЂ” Г(х, Т))г] 2 2 (2.63) Первое слагаемое в правой части выражения (2.63) описывает дисперсию ожидаемой ошибки (регрессиоииого моделирования) а, вычисленной иа обучающей выборке Т. Это исходная ((пп1пз(с) ошибка, так как оиа ие зависит от вектора весов зч. Ее можио ие учитывать, так как главной задачей является минимизация функции стоимости Е(и) относительно вектора тч. Следует учитывать, что значение вектора весов зч', Заметим, что последнее слагаемое в правой части формулы (2.62) равно нулю по двум причинам. Ожидаемая ошибка е ие коррелирует с регрессионной функцией г"(х), что видно из выражения (2.57), интерпретируемого в терминах оператора Ет.

Ожидаемая ошибка а относится к регрессионной модели, изображенной иа рис. 2.20, а, в то время как аппроксимирующая функция Г(х, зч) относится к иейросетевой модели, показанной иа рис. 2.20, б. Следовательно, выражение (2.62) можно упростить: 138 Глава 2. Процессы обучения минимизирующее функцию стоимости Е(и'), будет также минимизировать и среднее по ансамблю квадратичное расстояние между регрессионной функцией 7"(х) и функцией аппроксимации г (х, и). Другими словами, естественной мерой эффективности использования Е(х, и) для прогнозирования желаемого отклика д является следующая функция: ЬачУ(х), Е(х,чч)) = Ет[(3(х) вЂ” Е(х, Т)) ].

(2.64) Этот результат имеет фундаментальное значение, так как он обеспечивает математическую основу для изучения зависимости между смещением и дисперсией, полученными в результате использования Е(х, и) в качестве аппроксимации функции 7"(х) [344). Дилемма смещения и дисперсии Используя формулу (2.56), квадрат расстояния между функциями Е(х, чч) и )'(х) можно переопределить в виде Ьач(~(х), Г(х,и)) = Ет[(Е[Р]Х = х! вЂ” Е(х, Т))~!. (2.65) Это выражение также можно рассматривать как среднее значение ошибки оценивания (еиппайоп еггог) регрессионной функции )'(х) = Е[Р]Х = х! функцией аппроксимации Е(х, и), вычисленной на всем обучающем множестве Т.

Обратите внимание, что условное среднее Е[Р]Х = х] имеет постоянное математическое ожидание на обучающем множестве Т. Далее, добавляя и вычитая среднее Ет[Е(х, Т)], получим: Е[Р]Х = х] вЂ” Е(х, Т) = (Е[Р[Х = х] вЂ” Ет[Е(х, Т)]) + (Ет[Г(х, Т)! вЂ” Е(х, Т)). гач()(х), Е(х, Т)) = В (зч) + 1ч' (чч), (2.66) где В(и) и $'(чч) определяются следующим образом: В(чч) = Ет[Е(х, Т)] вЂ” Е[Р] Х = х], )г(зч) = Ет[(Е(х, Т) вЂ” Ет[Е(х, Т)])']. (2.67) (2.68) Теперь можно сформулировать два важных наблюдения. Выполняя преобразования, использованные для вывода соотношения (2.62) из выражения (2.61), формулу (2.65) можно представить в виде суммы двух слагаемых (см.

задачу 2.22); 2.13. Статистическая природа процесса обучения 139 Ошибка дЮ Ерйк~ Исхокнвя ошибка = я -як) Функнии Щк н2 Функонв входа х Рис. 2.21. Различные источники ошибки при решении задачи регрессии 1. Элемент В(вт) описывает смещение (Ь)аз) среднего значения аппроксимирующей функции Е(х, Т) относительно регрессионной функции г"(х) = Е(ьг~Х = х).

Этот элемент выражает неспособность нейронной сети, представленной функцией Г(х, и), точно аппроксимировать регрессионную функцию ~(х) = Е[ЦХ = х). Таким образом, элемент В(тт) можно считать ошибкой аппроксимации (арргохгшайоп еггот. 2. Элемент (г(тн) представляет дисперсию (тапапсе) аппроксимирующей функции Г(х, зч) на всем обучающем множестве Т. Это слагаемое отражает неадекватность информации о регрессионной функции ~(х), содержащейся в обучающем множестве Т. Таким образом, элемент вг(иг) можно считать оигибкой оцениванил (езйшайоп еггот. На рис.

2.2! изображены взаимосвязи между целевой и аппроксимирующей функциями, а также наглядно показано, как накапливаются ошибки оценивания вЂ” смешение и дисперсия. Чтобы достичь хорошей производительности, смещение В(вт) и дисперсия Ъ'(ч) функции аппроксимации Р(х, тк) = Г(х, Т) должны быть невелики. К сожалению, в нейронных сетях, обучаемых на данных выборки фиксированного размера, малое смещение достигается за счет большой дисперсии.

Одновременно уменьшить дисперсию и смешение можно только в одном случае вЂ” если размер обучающего множества бесконечно велик. Эта проблема называется дилеммой смещения/дисперсии (Ь|аз/оапалсе дйепнпа). Следствием этой проблемы является медленная сходимость процесса обучения [344]. Дилемму смещения/дисперсии можно обойти, если преднамеренно ввести такое смещение, которое сводит дисперсию на нет или значительно ее уменьшает. Однако при этом необходимо убедиться в том, что встроенное в нейронную сеть смещение является приемлемым.

Например, в контексте классификации образов смещение можно считать "приемлемым", если оно оказывает сильное влияние на среднеквадратическую ошибку только в случае попытки вывода регрессии, которая не принадлежит ожидаемому классу. В общем случае смегцение необходимо эадавагль отдельно для каждой предметной области. На практике для 140 Глава 2.

Процессы обучения достижения этой цели используют ограниченную (сопя!та(пей) сетевую архитектуру, которая обычно работает лучше, чем архитектура общего назначения. В частности, ограничения (а значит и смещение) могут принимать форму априорных знаний, встроенных в архитектуру нейронной сети путем совместного использования весов (если несколько синапсов сети находится под управлением одного и того же весового коэффициента связи) и/или создания локальных рецепторных полей (1оса! гесерйче йе!6), связанных с отдельными нейронам сети (что было продемонстрировано прн использовании многослойного персептрона для решения задачи распознавания оптических символов) (621). Подобные архитектуры уже кратко описывались в разделе 1.7.

Характеристики

Тип файла

DJVU-файл

Размер

10,59 Mb

Материал

Хайкин С. - Нейронные сети

Тип материала

Книга

Предмет

Нейросетевое моделирование сложных технических систем

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

haykin-s.-neyronnye-seti-2084812924-1513866974.rar

Хайкин С. - Нейронные сети.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.