Хайкин С. - Нейронные сети (778923), страница 33
Текст из файла (страница 33)
Рассмотрим нейронную сеть с конечным ЧС-измерением Ь > 1. 1. Любой состоятельный алгоритм обучения для этой нейронной сети является алгоритмом обучения РАС. 2. Существует такая константа К, что достаточным размером обучающего множества Т для любого алгоритма является (2.107) ?Ч = — 61оя — + 1од где б — параметр ошибки; Ь вЂ” параметр доверия. Общность этого результата впечатляет: его можно применить к обучению с учителем, независимо от типа алгоритма обучения и распределения вероятности маркированных примеров. Именно общность этого результата сделала его объектом повышенного внимания в литературе, посвященной нейронным сетям.
Сравнение результатов, полученных на основе вычисления ЧС-измерения, с экспериментальными данными выявило существенные расхождения величин'б. Это и не удивительно, поскольку та- 'Ь В этом примечании будут представлены четыре важных результата, описанных в литературе и посвяшениых сложности обучающего множества и связанным с ней вопросам обобшения. Во-первых, в [203! представлено детальное экспериментальное исследование фаьтических значений сложности обучающею множестве, основанное на применении ЧС-измерения. В частности, а экспериментах предполагалось оделить взаимосвязь между эффективностью обобщения, выполняемою нейронной сетью, и независимым от распределениа пессимистическим пределом, полученным на основе теории статистического 160 Глава 2.
Процессы обучения кое рассогласование отражает независимость огп распределения и пессимистический харакгпер (П18[пЪп[[оп-[гее, ьчог81-сазе) теоретических оценок. В действительности дела обстоят значительно лучше. Вычислительная сложность Вше одним вопросом, который нельзя обойти вниманием при рассмотрении концепции обучения РАС, является вычислительная сложность. Этот вопрос касается вычислительной эффективности алгоритма обучения. Более точно, понятие вычислительной сложности (сотрп[абопа! сотр1ехйу) связано с пессимистической оценкой времени, необходимого для обучения нейронной сети (обучаемой машины) на множестве маркированных примеров могцности Л.
На практике время работы алгоритма зависит прежде всего от скорости выполнения вычислений. Однако с теоретической точки зрения необходимо дать такое определение времени обучения, которое не будет зависеть от конкретных устройств, используемых для обработки информации. Поэтому время обучения (и соответственно вычислительная сложность) обычно измеряется в терминах количества операций (сложения, умножения и хранения), необходимых для выполнения вычислений.
При оценке вычислительной сложности алгоритма обучения необходимо изначально знать, как она зависит от размерности примеров обучения т (т.е. от размера вход- обучения Вапника. Ограничение, описанное в [10871, имеет вид о еае > О (ф 1оя (й)), где вд, — ошибка обобщения; 6 — 'т'С-измерение; Аг — размер обучающего множества. Результшы, представленные в [2031, показали, что средняя эффективность обобщения значительно лучше, чем описанная вышеприведенной формулой. Во-шорых, в [4721 были продолжены исследования, описанные ранее в [2031.
Авторы поставили перед собой ту же задачу, но отметили три важных отличия ° Все эксперименты производились на нейронных сетях с точно известными результатами илн очень хорошими пределами, полученными для ЧС-измерений. ° Рассматривался особый случай алюритма обучения. Эксперименты были основаны на реальных данных. ° Хотя в этой работе были получены более ценные с практической точки зрения оценки сложности обучающего множества, работа имела ряд существенных теоретических изъянов, ог которых нужно было избавиться, В 1989 юду вышла в свет работд посвященная оценишнию размера АГ обучающего множества, необходимого для обучения однослойной сети прямого распространения с линейными пороювыми нейронами с обеспечением хорошего качества обобщения [1071. Предполагалось, что обучающие примеры выбирыотся случайно с произвольным распределением вероятности, а тесговые примеры, используемые для оценки эффективности обобщения, имеют такое же распределение.
Согласно [!071, сеть почти наверняка обеспечивает обобщение, если выполняются следующие условия. 1. Количество ошибок на обучающем множестве не превышает величины егг2. 2. Количество примеров, используемых для обучения, удовлетворяет соотношению Аг > О [ —, 1оя [ — )), г'гу г'гк1 где 39 — число синаптических весов в сети. Это неравенство описывает независимое от распределейня пессимистическое ограничение, накладываемое на размер Аг. Но и здесь может наблюдаться большое численное расхождение межлу фактически необходимым размером обучающего множества и оценкой, обеспечиваемой этим неравенством. Наконец, в 1997 юду в [971 был поднят вопрос о том, что в задачах классификации обриов с помощью больших нейронных сетей часто оказывается, что для успешного обучении сеть способна обойтись юраздо меньшим количеством примеров, чем количество синаптических весов в ней (что утверждалось в [2031). В [971 было показано, чю в тех задачах, где нейронная сеть при небольшом количестве синаптических весов хорошо выполняет обобщение, эффективность этого обобщения определяется не количеством весов, а их величиной.
2.16. Резюме и обсуждение 161 ного слоя обучаемой нейронной сети). В этом контексте алгоритм считается вычисли- тельно эффективным (ешс)епг), если время его работы пропорционально 0(т" ), где г > 1. В этом случае говорят, что время обучения полиномиально зависит от т (ро!упоппсайу чпгЬ т), а сам алгоритм называется алгоритмам с полиномиальным временем выполнения (ро1упоппа! 1ппе а1яопбпп).
Задачи обучения, основанные на алгоритмах с полиномиальным временем выполнения, обычно считаются "простыми" [64). Еще одним параметром, юторый требует особого внимания, является параметр ошибки к. Если речь идет о сложности обучающего множества, параметр ошибки а является фиксированным, но произвольным; а при оценке вычислительной сложности алгоритма обучения необходимо знать, как она зависит от этого параметра. Интуитивно понятно, что при уменьшении параметра а задача обучения усложняется. Отсюда следует, что со временем должно быть достигнуто некоторое состояние, которое обеспечит вероятностно-корректный в смысле аппроксимации выход.
Для обеспечения эффективности вычислений соответствующее состояние должно достигаться за полиномиальное время по 1/е. Обьединив эти рассуждения, можно сформулировать следующее формальное утверждение [64]. Алгоритм обучения является вычислитвльно эффективным по параметру ошибки а, размерности примеров обучения т и размеру обучающего множества М, если время его выполнения является полинамиальным па Х, и существует такое значение )зе(б, к), достаточное для РАС-обучения, при изморам алгоритм является полинамиалъным по т и а 2.16. Резюме и обсуждение В этой главе мы обсудили некоторые важные вопросы, затрагивающие различные аспекты процесса обучения в контексте нейронных сетей.
Таким образом, были заложены основы для понимания материала оставшейся части книги. При создании нейронных сетей используются пять правил обучения: обучение на основе коррекции ошибок (епог-сопесбоп 1еагшпя), обучение на основе памяти (шешогу-Ьавеб!еагп1пк), обучение Хебба (НеЬЬ'з 1еагп!пя), конкурентное обучение (сошреббме 1еапппя) и обучение Больцмана (Во)1кшапп 1еапппя). Некоторые из этих алгоритмов требуют наличия учителя, а некоторые — нет. Важно то, что эти правила позволяют значительно продвинуться за рамки линейных адаптивных фильтров, как в смысле расширения возможностей, так н в смысле повышения универсальности. При исследовании методов обучения с учителем ключевым является понятие "учителя", призванного вносить уточняющие коррективы в выходной сигнал нейронной сети при возникновении ошибок (в обучении на основе коррекции ошибок) или "загонять" свободные входные и выходные элементы сети в рамки среды (при обучении Больцмана).
Ни одна из этих моделей принципиально не применима к биологическим 162 Глава 2. Процессы обучения организмам, которые не содержат двусторонних нервных соединений, так необходимых для обратного распространения сигналов при коррекции ошибок (в многослойных сетях), а также не поддерживают механизма корректировки поведения извне. Тем не менее обучение с учителем утвердилось в качестве мощной парадигмы обучения искусственных нейронных сетей.
В этом можно убедиться при ознаюмлении с главами 3-7 настоящей книги. В отличие от метода обратного распространения правила обучения без учителя на основе самоорганизации (такие как правило Хебба или конкурентное обучение) основаны на принципах нейробиологии. Однако для более четюго понимания этого типа обучения необходимо ознакомиться с основами теории информации Шеннона. При этом нельзя обойти вниманием принцип полного количества информации (пшше1 Ыоппаг!оп рппс!р!е) или Инфомакса (1п(ошах) (653), (654), который обеспечивает математический формализм обработки информации в самоорганизующихся нейронных сетях по аналогии с передачей информации по каналам связи. Принцип Инфомакса и его вариации подробно изложены в главе 1О. Обсуждение методов обучения было бы не полным, если бы мы не остановились на модели селективного обучения Дарвина (1Эапнппап зе!есйче !еапппй пюде!) (275), [876). Отбор (ае!есйоп) является важным биологическим принципом, который применяется в теории эволюции и развития.