Хайкин С. - Нейронные сети (778923), страница 32
Текст из файла (страница 32)
2.25. До момента достижения точки минимума задача обучения является переопределенной (очегг)егепп)пег)) в том смысле, что емкость машины 6 слишком мала„чтобы вместить весь объем деталей обучения. После прохождения точки минимума задача обучения является педоопределенпой (ппс)егг1е1епп)пагег1), т.е. емкость машины слишком велика для такого объема данных обучения. Таким образом, при решении задачи обучения с учителем необходимо обеспечить максимальную эффективность обобщения за счет приведения в соответствие емкости машины с доступным количеством данных обучения.
Метод минимизации сгпрукгпурмого риска (шебтод ОТ зписФога1 пзк ппппшгайоп) обеспечивает индуктивную процедуру достижения этой цели, в которой ЧС-измерение обучаемой машины рассматривается какуправкяюигая переменная [1084), 110861. Для большей конкретизации рассмотрим ансамбль классификаторов образов (2 (х, тч); ттб%') и определим вложенную структуру, состоящую из п подобных машин: Ра — — (Р(х, и ); Яг Е %'й ), lс = 1, 2,..., п, (2.102) таких, что (см.
рис. 2.25) рг С рз С ... С Е (2.103) где символ С означает "содержится в'*. Соответственно ЧС-измерения отдельных классификаторов образов удовлетворяют следующему условию: )21 ~ газ ~ ~ )Го. (2.104) 156 Глава 2. Процессы обучения Это говорит о том, что ЧС-измерение каждого из классификаторов юнечно. Тогда метод минимизации структурного риска можно изложить следующим образом. ° Минимизируется эмпирический риск (т.е. ошибка обучения) для каждого из классификаторов.
° Определяется классификатор Р*, который имеет наименьший гарантированный риск. Эта конкретная машина обеспечивает наилучший компромисс между ошибкой обучения (т.е. качеством аппроксимации данных обучения) и доверительным интервалом (т.е. сложностью функции аппроксимации), которые конкурируют друг с другом. Нашей целью является поиск такой нейросетевой структуры, в которой уменыпение ЧС-измерения достигается за счет минимально возможного увеличения ошибки обучения. Принцип минимизации структурного риска может быть реализован множеством различных способов.
Например, ЧС-измерение Ь можно изменять за счет изменения количества скрытых нейронов. В качестве примера рассмотрим ансамбль полносвязных многослойных сетей прямого распространения, в которых количество нейронов в одном из скрытых слоев монотонно возрастает. В соответствии с принципом минимизации структурного риска наилучшей сетью в этом множестве будет та, для которой гарантированный риск будет минимальным. ЧС-измерение является основным понятием не толью принципа минимизации структурного риска, но и не менее мощной модели обучения, получившей название вероятностно-корректной в смысле аппроксимации (ргоЬаЫу арргохппаге)у сопесг— РАС).
Этой моделью, которая описывается в следующем разделе, мы и завершим рассмотрение вероятностных и статистических аспектов обучения. 2.15. Вероятностно-корректная в смысле аппроксимации модель обучения Вероятностно-корректная в смысле аппроксимации (ргоЬаЫу-арргохппаге!у соггесг) модель обучения (РАС) была описана в [1075]. Как и следует из ее названия, эта модель представляет собой вероятностный "каркас" (или среду) для изучения процессов обучения и обобщения в системах двоичной классификации. Она тесно связана с принципом обучения с учителем. Сначала определимся с терминологией, связанной со средой Х.
Множество из элементов Х называется понятием (сопсерг), а любой набор его подмножеств — классом понятий (сопсерг с!азз). Примером понятия называется любой объект из предметной области, вместе с меткой своего класса. Если пример относится к данному понятию, он называется положительным примером (роэ(г(че ехашр1е). Если он не относит- 2.15. Вероятностно-корректная в смысле аппроксимации модель обучения 157 ся к данному понятию, то называется отрицательньии лримерон (пеяа11че ехатр1е). Понятие, для которого приводятся примеры, называется целевым (1агяег сопсерг).
Последовательность данных обучения длины Аг для понятия с можно определить следующим образом: Т = ((х„с(х,))) (2. 105) В этой последовательности могут содержаться и повторяющиеся примеры. Примеры х,, хз,..., х„выбираются из среды Х случайным образом, в соответствии с некоторым фиксированным, но неизвестным распределением вероятности. В определении (2. 105) заслуживают внимания также следующие вопросы. ° Целевое понятие с(х,) рассматривается как функция, отображающая Х в множество (О, 1). При этом предполагается, что функция с(х;) неизвестна. ° Предполагается, что примеры статистически независимы.
Это значит, что функция плотности совместной вероятности двух различных примеров х; и х равна произведению соответствующих функций плотности вероятности. В контексте терминологии, которую мы использовали ранее, среда Х соответствует пространству входных сигналов нейронной сети, а целевое понятие — ожидаемому отклику сети. Набор понятий, порождаемых средой Х, называется пространством понятий В.
Например, пространство понятий может содержать фразы типа "буква А", "буква Б" и т.д. Каждое из этих понятий может быть закодировано различными способами при формировании множеств положительных и отрицательных примеров. В ракурсе обучения с учителем используется другое множество понятий. Обучаемая машина обычно представляет собой множество функций, каждая из которых соответствует определенному состоянию.
Например, машина может предназначаться для распознавания "буквы А", "буквы Б" и т.д. Множество всех функций (т.е. понятий), определяемых обучаемой машиной, называется пространствам енлотеэ (луробзез(в зрасе) С. Это пространство может совпадать или не совпадать с пространством понятий В. С определенной точки зрения пространства понятий и гипотез являются аналогами функции 1(х) и аппроксимирующей функции Р(х, и), которыми мы оперировали в предыдущем разделе. Предположим, что существует некоторое целевое понятие с(х) Е В, принимающее значения 0 и 1.
Требуется обучить этому понятию нейронную сеть при помощи ее настройки на множестве данных Т, определенном выражением (2.105). Пусть д(х) Е С вЂ” гипотеза, соответствующая отображению входа на выход, сформированному в результате проведенного обучения. Одним из способов достижения успеха в обучении является измерение степени близости гипотезы д(х) к целевой концепции с(х). Естественно„всегда существуют ошибки, обеспечивающие различие этих вели- 168 Глава 2. Процессы обучения Параметры упрамеиия е,о Прииероб ((Хс С( Гипотеза 3 Рис. 2.26.
Блочная диаграмма, иллюстрирующая модель обучения РАС чин. Эти ошибки являются следствием того, что мы пытаемся обучить нейронную сеть некоторой функции на основе ограниченной информации о ней. Вероятность ошибки обучения определяется выражением тзес м = Р(х е Х: д(х) ф с(х)). (2.10б) Распределение вероятности в этом примере должно быть таким же, как и при формировании примеров. Целью обучения РАС является минимизация значения р„,еэь Предметная область, доступная алгоритму обучения, определяется размером Аг обучаюшего множества Т. Кроме того, алгоритм обучения имеет два следующих параметра управления. ° Параметр ошибки (еггог рагаше(ег) е Е (О, 1). Этот параметр задает величину ошибки, при которой аппроксимация целевого понятия с(х) гипотезой д(х) считается удовлетворительной.
° Параметр доверия (сопббепсе рагаше(ег) Ь Е(0, 1]. Этот параметр задает степень правдоподобия при построении "хорошей" аппроксимации. Модель обучения РАС изображена на рис. 2.26. Теперь можно формально определить модель обучения РАС [551), [1075), [1094). Пусть В -- класс понятий для среды Х. Считается, что класс В является РАС- обучаемым, если существует алгоритм 1., обладающий следующим свойством. Дая любого целевого понятия с Е В, для любого распределении вероятности на Х и для всех 0 < е < 1/2 и 0 < Ь < 1/2 при использовании алгоритма Е для множества примеров обучения Т = [(х,, с(х,))) н с вероятностью не хуже (1 — Ь) результатом алгоритма обучения Е будет гипотеза д с ошибкой обучения ое,ыо < е. Эта вероятность получается на любом случайном подмножестве множества Т и при любой внутренней рандомизации, которая может существовать в алгоритме обучения Т.. При этан размер обучающего множества 1(( должен превышать значение некоторой г(зуикции от Ь и а Другими словами, если размер Аг обучающего множества Т достаточно велик, то существует вероятность, что в результате обучения сети на этом наборе примеров отображение входа на выход, реализуемое сетью, будет "приблизительно корректным".
Обратите внимание, что, несмотря на зависимость от е и Ь, количество примеров Аг не обязательно зависит от целевого понятия с и распределения вероятности в Х. 2.15. Вероятностно-корректная в смысле аппроксимации модель обучения 159 Сложность обучающего множества При использовании теории РАС-обучения на практике возникает интересный вопрос, касающийся сложности обучающего множества (загпр!е сошр!ехйу). Его можно сформулировать следующим образом: сколько случайных примеров нужно предоставить алгоритму обучения, чтобы обеспечить его информацией, достаточной для "изучения" неизвестного понятия с, выбранного из класса понятий В, или насколько большим должно быть обучающее множество Т? Вопрос сложности обучающего множества тесно связан с ЧС-измерением.
Однако, прежде чем продолжить рассмотрение этого вопроса, необходимо определить понятие согласованности [сопяЫепсе). Пусть Т = 1[х„г[г) ), г — некоторое множество маркированных примеров, в котором все х, е Х и все г[, Е (О, 1). Тогда понятие с называется согласованным с набором примеров Т (и наоборот, набор Т называется согласованным с с), если для любого 1 ( з ( гЧ выполняется равенство с[х,) = г[, 155 Г!. В свете концепции РАС-обучения критичным является не размер множества вычисляемых нейронной сетью функций отображения входа на выход, а ЧС-измерение сети. Более точно этот результат можно изложить в виде двух утверждений !64), ~134), ~1094).