Хайкин С. - Нейронные сети (778923), страница 29
Текст из файла (страница 29)
2.14. Теория статистического обучения В этом разделе мы продолжим рассмотрение статистических свойств нейронных сетей. Основное внимание будет уделено теории обучения (!еапппй бзеогу), связанной с решением фундаментального вопроса о том, как управлять обобщаюшей способностью нейронных сетей. Этот вопрос будет рассматриваться в контексте обучения с учителем. Модель обучения с учителем состоит из трех взаимосвязанных компонентов (рис. 2.22). В математических терминах они описываются следующим образом (1084), (1086). 1. Среда (епч!гопшепг). Среда является стационарной. Она представлена векторами х с фиксированной, но неизвестной функцией распределения вероятности Гк(х).
2. Учитель (!еас)зег). Учитель генерирует желаемый отклик 4 для каждого из входных векторов х, полученных из внешней среды, в соответствии с условной функцией распределения гк(х~а), которая тоже фиксирована, но неизвестна. Желаемый отклик д и входной вектор х связаны следующим соотношением: г( = у(х,п), (2.69) где с — шум, т.е. изначально предполагается "зашумленность" данных учителя. 3. Обучаемая машина (1еапппй шас)ппе).
Обучаемая машина (нейронная сеть) "способна реализовать множество функций отображения" вход-выход, описываемых соотношением р = г (х,чг), (2.70) где у — фактический отклик, сгенерированный обучаемой машиной в ответ на входной сигнал х; тг — набор свободных параметров (синаптических весов), выбранных из пространства параметров 1У. Уравнения (2.69) и (2.70) записаны в терминах примеров, используемых при обучении. 2.14. Теория статистическою обучения 141 г / г г ;хмпл) г(х, и) л' Рмс.
2.22. Модель процесса обучения с учителем Задача обучения с учителем состоит в выборе конкретной функции Г(х, »и), которая оптимально (в некотором статистическом смысле) аппроксимирует ожидаемый отклик г(. Выбор, в свою очередь, основывается на множестве ))(независимых, равномерно распределенных примеров обучения, описываемых формулой (2.53). Для удобства изложения материала воспроизведем эту запись сще раз: Т = ((х„га,))н „. Каждая пара выбирается обучаемой машиной из множества Т с некоторой обобщенной функцией распределения вероятности Гк р (х, с(), которая, как и другие функции распределения, фиксирована, но неизвестна. Принципиальная возможность обучения с учителем зависит от ответа на следующий вопрос: содержат ли примеры нз множества ((х„г(, )) достаточно информации для создания обучаемой машины, обладающей хорошей обобщающей способностью? Ответ на этот вопрос лежит в области результатов, впервые полученных в 1971 году [1088).
Поэтому рассмотрим задачу обучения с учителем как задачу аппроксимации (арргохппайоп ргоЫеш), состоящую в нахождении функции Г(х, )т), которая наилучшим образом приближает желаемую функцию у(х). Пусть х (г(, Г(х, »т)) — мера потерь или несходства между желаемым откликом г(, соответствующим входному вектору х, и откликом Г(х, ти), сгенерированным обучаемой машиной. В качестве меры х'(г(, Г(х, )т)) часто рассматривают квадратичную функцию потерь (с(пас(га!тс 1ояа б»псйоп), определенную как квадрат расстояния между г( = у(х) и аппроксимацией Г(х, »п)гз, гт Функция сюимоти Ь(В, Р(х, м)), определяемм формулой (27!), применяется к скадару Д В случае использования вектора В в качестве желаемого отклика функция аппроксимации Р(х, и) является векторной.
Тогда в качестве функции потерь выбирается квадрат Евклидова расстояния Е(В, р(х, м))=(! — р(», м)(!а, где р(, ) — векюр-функциа своих аргументов. 142 Глава 2. Процессы обучения з,(д, Г(х,«)) = (и' — г'(х,«)) . (2.71) Квадратичное расстояние в формуле (2.64) — это усредненное по множеству всех пар примеров (х, г() расширение меры э' (г(, Г(х, «)).
В литературе, посвященной теории статистического обучения, обычно рассматриваются конкретные функции потерь. Основное свойство представленной здесь теории статистического обучения состоит в том, что форма функции потерь з,(п', Г(х, «)) не играет особой роли. Конкретный вид функции потерь будет рассмотрен несколько позже в этом разделе. Ожидаемая величина потерь определяется функционалом риска (Пзк 1опс1юпа1) Жзг) 7 (А Р (х~ зг)) г(Р», О(х~ <~)1 (2.72) где интеграл берется по всем возможным значениям (х,п). Целью обучения с учителем является минимизация функционала риска гг(«) в классе функций аппроксимации (г'(х, ж), ягбан). Однако оценка функционала риска усложняется тем, что обобщенная функция распределения г» п(х, И) обычно неизвестна. При обучении с учителем вся доступная информация содержится в множестве данных обучения Т.
Чтобы обойти эту математическую сложность, будем использовать индуктивный принцип минимизации эмпирического риска 110871. Этот принцип основан на доступности обучающего множества Т, что идеально согласуется с философией нейронных сетей. Некоторые основные определения Прежде чем двигаться дальше, введем несколько основных определений, которые будут использоваться в изложении последующего материала. Сходимость по вероятности. Рассмотрим последовательность случайных переменных аы аз,..., ац. Эта последовательность считается сходящейся по вероятности (сотг~егйе ш ргоЬаЬ11йу) к случайной переменной ао, если для любого и > 0 выполняется следующее вероятностное соотношение: РЦак — ао~ > и) — 0 при Х вЂ” со.
(2.73) Нижний и верхний пределы (зпргепппп и шбшпш). Верхним пределом непустого множества скалярных величин А (зпр А) называется наименьший из скаляров х, для которых истинно неравенство х > у для всех у ЕА. Если такой скалярной величины не существует, то считается, что верхним пределом непустого множества А является бесконечность.
Аналогично, нижним пределом непустого множества скаляров А ((п(' А) называется наибольший из скаляров х, для которых истинно неравенство х < д для всех у Е А. Если такой скалярной величины не существует, то считается, что нижним пределом непустого множества А является минус бесконечность. 2.14. Теория статистическою обучения 143 Функционал эмпирического риека.
Для обучающего множества Т ((х,, д,)),., функционал эмпирического риска определяется в терминах функции потерь Е,(Ы„Г(х„тр,)) следующим образом: М 12, р(тт) = — ,'>,,Т(4, Е(хп и')). (2.74) Строгая состоятельность (ян1с1 сопяиепсу). Рассмотрим множество %' функций ЦИ, Г(х, тч)), распределение которых определяется интегральной функцией распределения Г» о(х, д). Пусть 1ч'(с) — непустое подмножество этого множества, такое, что 1т'(с) = тт: ЦЫ, Е(х,зя)) > с (2.75) где с Е ( — оо, +со).
Функционал эмпирического риска считается строго состоя- тельным (зп1с0у сопзЫепг), если для любого подмножества %(с) обеспечивается сходимость по вероятности 1п( Л р(тр) — 1пГ Л(тр) прн Х вЂ” ~ со. Яеж1ч) четч(с) (2.76) Теперь, ознакомившись с этими определениями, можно продолжить изучение теории статистического обучения Вапника (Чара(к). Принцип минимизации эмпирического риска 1. Он явно не зависит от неизвестной функции распределения Г» о(х, д).
2. Теоретически его можно минимизировать по вектору весовых коэффициентов тр. Пусть тг,„,р и г'(х, тт, р) — вектор весов и соответствующее ему отображение, которые минимизируют функционал эмпирического риска й, (тч), определяемый формулой (2.74). Аналогично, пусть и, и Г(х, тч,) — вектор весовых коэффициентов и отображение, минимизирующие фактический функционал риска гг(зч), заданный формулой (2.72). Векторы чр, р и тч, принадлежат пространству весов Ж. Требуется найти условия, при которых аппроксимирующее отображение Р(х, тт, р) достаточно "близко" к фактическому отображению Г(х, н,) (в качестве меры близости будем использовать разницу между гг, р(тг) и зг (и)). Основная идея принципа минимизации эмлирического риска (ещр(пса1 пзк ш(ппп)яа- 1юп) состоит в использовании функционала эмпирического риска й, р(тч), опреде- ляемого формулой (2.74). Этот новый функционал отличается от функционала В(тт), задаваемого формулой (2.72), в двух аспектах.
144 Глава 2. Процессы обучения Для иекоторого фиксированного зч = и' функционал риска В(и ) определяет математическое ожидание случайной переменной, определяемое соотношением Я„. = Т,(г(, Р(х, и*)). (2.77) В отличие от него функционал эмпирического риска В, р(и ') обеспечивает эмлирическое (арифметическое) среднее значение (ешр!пса! (апбппе1!с) шеап) случайной переменной Я ° . Согласно закону больших чисел (!аи о( 1агйе пшпЬегз), который составляет одну из основных теорем теории вероятностей, для обучающего множества Т бесконечно большого размера Х эмпирическое среднее случайной переменной Я . в общем случае сходится к ее ожидаемому значению.
Это наблюдение обеспечивает теоретический базис для использования функционала эмпирического риска В, р(зг) вместо функционала риска В(и). Однако тот факт, что эмпирическое среднее перемеииой г; ° сходится к ее ожидаемому значению, совершенно ие означает, что вектор весовых коэффициентов зг, р, минимизирующий функционал эмпирического риска В р(и'), будет также минимизировать и функционал риска В(зч).
Этому требованию можно приближенно удовлетворить, применив следующий подход. Если функционал эмпирического риска В, р(и) аннроксимирует исходный функционал риска В(зг) равномерно по зз с некоторой точностью е, то минимум В, р(и') отстоит от минимума В(и) ие более чем иа величину 2е. Формально это означает необходимость обязательного выполнения следующего условия. Для любого зч е 'й~ и е ) О должно выполняться вероятностное соотношение !1087] Р(апр ~ В(зг) — В (тч)~ ) е) — 0 при Ж вЂ” оо. (2.78) Если выполняется условие (2.78), то можно утверждать, что вектор весов и' среднего эмпирического риска равномерно сходится к своему ожидаемому значению. Таким образом, если для любой наперед заданной точности е и некоторого положительного а выполняется неравенство Р(апр ~ В(и) — В,(и)~ > е) < а, (2.79) то выполняется также и следующее неравенство: Р(В(ъ, р) — В(и,) ) 2е) < а.
(2.80) Другими словами, если выполняется условие (2.79), то с вероятностью (1 — а) решеиие Р(х, зч, р), минимизирующее функционал эмпирического риска В,„р(зг), обеспечивает отличие фактического риска В(зг, ) от минимально возможного фактического риска иа величину, ие превышающую 2е. Это значит, что при выполнении (2.79) с вероятностью (1 — а) одновременно выполняются следующие два неравенства: 2 14. Теория статистическою обучения 146 В(тт~щр) — Лчщр(ттчщр) ( Е, Лчщр(тт~) — В(те~) г е.
(2.81) (2.82) Зтн два соотношения определяют различие между функционалами истинного и эмпирического рисков в точках тт = тт, р и тт = тт,. Учитывая, что ти, р и тт, являются точками минимума функционалов Л, р(тт) и В(тт), можно сделать вывод о том, что Лчщр(ттещр) ~ Лчщр(тпо) (2.83) Складывая неравенства (2.81) и (2.82) и принимая во внимание неравенство (2.83), можно записать: Л(тт,щр) — В(тио) ( 2е. (2.84) Поскольку неравенства (2.81) и (2.82) одновременно выполняются с вероятностью (1 — а), то с такой же вероятностью выполняется и неравенство (2.84).
Также можно утверждать, что с вероятностью а будет выполняться неравенство В(ттщрр) — В(те~) ) 2е, 1. Вместо функционала риска В(тт) строится функционал эмпирического риска М Л ( т т ) ~ г ~ Т ( И Р ( х % ) ) на базе множества примеров обучения (х„г(,), 1 = 1, 2,..., )т'. 2. Пусть тт, р — вектор весовых коэффициентов, минимизирующий функционал эмпирического риска Л, р(тч) в пространстве весов тт'. Тогда В(тт, р) сходится по вероятности к минимально возможным значениям фактического риска В(тт), тч Е %. При этом при увеличении количества )т" примеров обучения до бесконечности функционал эмпирического риска Вщ,р(тт) равномерно сходится к функционалу фактического риска В(тт).