Хайкин С. - Нейронные сети (778923), страница 28
Текст из файла (страница 28)
Предположение о том, что зависимая переменная Р является скалярам, было сделано исключительно с целью упрощения изложения материала без потери общности. Предположим также, что существует Х реализаций случайного вектора Х, обозначаемых (х,),'" „и соответствующее им множество реализаций случайного скаляра Р, которое обозначим (Н,)!'",.
Эти реализации (измерения) в совокупности составляют обучающую выборку (2.53) 2.13. Статистическая природа процесса обучения 136 Обычно мы не обладаем знаниями о функциональной взаимосвязи между Х и Р, поэтому рассмотрим модель (1133] Р = 7"(Х)+е, (2.54) где г" ( ) — некоторая детерминированная (десепп!и!з!!с) функция векторного аргумента; а — ожидаемая ошибка (ехрес!айопа! епог), представляющая наше "незнание" зависимости между Х и Р. Статистическая модель, описанная выражением (2.54), называется регрессионной (гейгезз!оп пюде!) (рис.
2.20, а). Ожидаемая ошибка е в общем случае является случайной величиной с нормальным распределением и нулевым математическим ожиданием. Исходя из этого, регрессионная модель на рис. 2.20, а обладает двумя важными свойствами. 1. Среднее значение ожидаемой ошибки е для любой реализации х равно нулю, т.е. Е[е[х] = О, (2.55) где Š— статистический оператор математического ожидания. Естественным следствием этого свойства является утверждение о том, что регрессионная функции Дх) является условным средним модели выхода Р для входного сигнала Х = х: )'(х) = Е[Р]х]. (2.56) Это свойство непосредственно следует из выражения (2.54) в свете (2.55).
2. Ожидаемая ошибка а не коррелирует с функцией регрессии !'(Х), т.е. Е[еДХ)] = О. (2.57) Это свойство широко известно как нринцип ортогональности (рппс(р!е о! опЬояопа!йу), который гласит, что вся информация о Р, доступная через входной сигнал Х, закодирована в функции регрессии Д(Х).
Равенство (2.57) без труда иллюстрируется следующими выкладками: Е[еДХ)] = Е[Е[еу" (Х)]х]] = Е[у(Х)Е[е]х]] = Е[7" (Х) 0] = О. Регрессионная модель (рис. 2.20, а) представляет собой математическое описание стохастической среды. В ней вектор Х используется для описания или предсказания зависимой переменной Р. На рис. 2.20, б представлена соответствующая "физическая" модель данной среды. Эта вторая модель, основанная на нейронной сети, позволяет закодировать эмпирические знания, заключенные в обучающей выборке Т, с помощью соответствуюшего набора векторов синаптических весов ж: 136 Глава 2. Процессы обучения а) Рис. 2.20. Математическое (а) и физическое (б) представление нейронной сети б) (2.58) Таким образом, нейронная сеть обеспечивает аппроксимацию регрессионной модели, представленной на рис. 2.20, а. Пусть фактический отклик нейронной сети на входной вектор х обозначается следующей вероятностной переменной: У = г(Х,тт).
(2.59) где Р(ч тт) — функция отображения входных данных в выходные, реализуемая с помощью нейронной сети. Для набора данных обучения Т, представленного в виде множества (2.53), вектор синаптических весов тт можно вычислить путем минимизации функции стоимости: тт Е(н) = — ак (д — Е(х и)) (2.60) где коэффициент 1/2 вводится исключительно из соображений совместимости с обозначениями, которые использовались ранее и будут использоваться в следующих главах.
Если не принимать во внимание коэффициент 1/2, функция стоимости Е(тт) описывает сумму квадратов разностей между желаемым И и фактическим у откликами нейронной сети для всего набора примеров обучения Т. Использование соотношения (2.60) в качестве функции стоимости отражает "пакетный" характер обучения. Это значит, что настройка синаптических весов нейронной сети выполняется для всего массива примеров обучения в целом, а не для каждого примера в отдельности. 2.13.
Статистическая природа процесса обучения 137 Пусть Ет — оператор усреднения (ачегайе орегагог) по всей обучающей выборке Т. Переменные, или их функции, обрабатываемые оператором усреднения Ет, обозначим символами х и д. При этом пара (х, Н) представляет каждый конкретный обучающий пример из набора Т. В отличие от оператора усреднения оператор статистического ожидания Е функционирует иа множестве всех значений случайных переменных Х и Р, подмиожеством которого является Т. Различие между операторами Ет и Е будет четко показано ниже.
В свете преобразования, описываемого формулой (2.58), функции Г(х,зч) и Г(х,Т) являются взаимозаменяемыми, поэтому выражение (2.60) можно переписать в виде Е(ж) = — Ег[(1, — Е(х„Т))г]. (2.61) Добавляя функцию 1(х) к аргументу (Ы, — г'(х„Т)) и вычитая ее, а затем используя (2.54), получим: г( — Е(х, Т) = (д — .((х)) + (((х) — Е(х, Т)) = а + (Дх) — Е(х, Т)).
Подставляя это выражение в (2.61) и раскрывая скобки, функцию стоимости можио записать в следующей эквивалентной форме: Е(зч) = -Ет[а']+ — Ет[(2(х) — Г(х, Т))']+ Ет[а®х) — Е(х, Т))]. (2.62) Е(тч) = -Ет[вг] + -Ет[Фх) — Г(х, Т))г] 2 2 (2.63) Первое слагаемое в правой части выражения (2.63) описывает дисперсию ожидаемой ошибки (регрессиоииого моделирования) а, вычисленной иа обучающей выборке Т. Это исходная ((пп1пз(с) ошибка, так как оиа ие зависит от вектора весов зч. Ее можио ие учитывать, так как главной задачей является минимизация функции стоимости Е(и) относительно вектора тч. Следует учитывать, что значение вектора весов зч', Заметим, что последнее слагаемое в правой части формулы (2.62) равно нулю по двум причинам. Ожидаемая ошибка е ие коррелирует с регрессионной функцией г"(х), что видно из выражения (2.57), интерпретируемого в терминах оператора Ет.
Ожидаемая ошибка а относится к регрессионной модели, изображенной иа рис. 2.20, а, в то время как аппроксимирующая функция Г(х, зч) относится к иейросетевой модели, показанной иа рис. 2.20, б. Следовательно, выражение (2.62) можно упростить: 138 Глава 2. Процессы обучения минимизирующее функцию стоимости Е(и'), будет также минимизировать и среднее по ансамблю квадратичное расстояние между регрессионной функцией 7"(х) и функцией аппроксимации г (х, и). Другими словами, естественной мерой эффективности использования Е(х, и) для прогнозирования желаемого отклика д является следующая функция: ЬачУ(х), Е(х,чч)) = Ет[(3(х) — Е(х, Т)) ].
(2.64) Этот результат имеет фундаментальное значение, так как он обеспечивает математическую основу для изучения зависимости между смещением и дисперсией, полученными в результате использования Е(х, и) в качестве аппроксимации функции 7"(х) [344). Дилемма смещения и дисперсии Используя формулу (2.56), квадрат расстояния между функциями Е(х, чч) и )'(х) можно переопределить в виде Ьач(~(х), Г(х,и)) = Ет[(Е[Р]Х = х! — Е(х, Т))~!. (2.65) Это выражение также можно рассматривать как среднее значение ошибки оценивания (еиппайоп еггог) регрессионной функции )'(х) = Е[Р]Х = х! функцией аппроксимации Е(х, и), вычисленной на всем обучающем множестве Т.
Обратите внимание, что условное среднее Е[Р]Х = х] имеет постоянное математическое ожидание на обучающем множестве Т. Далее, добавляя и вычитая среднее Ет[Е(х, Т)], получим: Е[Р]Х = х] — Е(х, Т) = (Е[Р[Х = х] — Ет[Е(х, Т)]) + (Ет[Г(х, Т)! — Е(х, Т)). гач()(х), Е(х, Т)) = В (зч) + 1ч' (чч), (2.66) где В(и) и $'(чч) определяются следующим образом: В(чч) = Ет[Е(х, Т)] — Е[Р] Х = х], )г(зч) = Ет[(Е(х, Т) — Ет[Е(х, Т)])']. (2.67) (2.68) Теперь можно сформулировать два важных наблюдения. Выполняя преобразования, использованные для вывода соотношения (2.62) из выражения (2.61), формулу (2.65) можно представить в виде суммы двух слагаемых (см.
задачу 2.22); 2.13. Статистическая природа процесса обучения 139 Ошибка дЮ Ерйк~ Исхокнвя ошибка = я -як) Функнии Щк н2 Функонв входа х Рис. 2.21. Различные источники ошибки при решении задачи регрессии 1. Элемент В(вт) описывает смещение (Ь)аз) среднего значения аппроксимирующей функции Е(х, Т) относительно регрессионной функции г"(х) = Е(ьг~Х = х).
Этот элемент выражает неспособность нейронной сети, представленной функцией Г(х, и), точно аппроксимировать регрессионную функцию ~(х) = Е[ЦХ = х). Таким образом, элемент В(тт) можно считать ошибкой аппроксимации (арргохгшайоп еггот. 2. Элемент (г(тн) представляет дисперсию (тапапсе) аппроксимирующей функции Г(х, зч) на всем обучающем множестве Т. Это слагаемое отражает неадекватность информации о регрессионной функции ~(х), содержащейся в обучающем множестве Т. Таким образом, элемент вг(иг) можно считать оигибкой оцениванил (езйшайоп еггот. На рис.
2.2! изображены взаимосвязи между целевой и аппроксимирующей функциями, а также наглядно показано, как накапливаются ошибки оценивания — смешение и дисперсия. Чтобы достичь хорошей производительности, смещение В(вт) и дисперсия Ъ'(ч) функции аппроксимации Р(х, тк) = Г(х, Т) должны быть невелики. К сожалению, в нейронных сетях, обучаемых на данных выборки фиксированного размера, малое смещение достигается за счет большой дисперсии.
Одновременно уменьшить дисперсию и смешение можно только в одном случае — если размер обучающего множества бесконечно велик. Эта проблема называется дилеммой смещения/дисперсии (Ь|аз/оапалсе дйепнпа). Следствием этой проблемы является медленная сходимость процесса обучения [344]. Дилемму смещения/дисперсии можно обойти, если преднамеренно ввести такое смещение, которое сводит дисперсию на нет или значительно ее уменьшает. Однако при этом необходимо убедиться в том, что встроенное в нейронную сеть смещение является приемлемым.
Например, в контексте классификации образов смещение можно считать "приемлемым", если оно оказывает сильное влияние на среднеквадратическую ошибку только в случае попытки вывода регрессии, которая не принадлежит ожидаемому классу. В общем случае смегцение необходимо эадавагль отдельно для каждой предметной области. На практике для 140 Глава 2.
Процессы обучения достижения этой цели используют ограниченную (сопя!та(пей) сетевую архитектуру, которая обычно работает лучше, чем архитектура общего назначения. В частности, ограничения (а значит и смещение) могут принимать форму априорных знаний, встроенных в архитектуру нейронной сети путем совместного использования весов (если несколько синапсов сети находится под управлением одного и того же весового коэффициента связи) и/или создания локальных рецепторных полей (1оса! гесерйче йе!6), связанных с отдельными нейронам сети (что было продемонстрировано прн использовании многослойного персептрона для решения задачи распознавания оптических символов) (621). Подобные архитектуры уже кратко описывались в разделе 1.7.