Хайкин С. - Нейронные сети (778923), страница 18
Текст из файла (страница 18)
Обучение на основе памяти 93 Вычислив величину изменения синаптического веса Ьшьз(п), можно определить его новое значение для следующего шага дискретизации: шь (и + 1) = шь,(п) + Ьшь,(п). (2.4) Таким обРазом, шьэ(п) и шьз(п + 1) можно РассматРивать как стаРое и новое значения синаптического веса шь,. В математических терминах можно записать шго(п) = 3 ~шьз(п+ 1)!, (2.5) где з ' — онератор единичной задержки (шп1 де!ау орегагог). Другими словами, оператор г ' представляет собой элемент ламяти (згогаяе е!ешеп1).
На рис. 2.1, б представлен граф прохождения сигнала в процессе обучения, основанного на коррекции ошибок, для выделенного нейрона )с. Входной сигнал ль и индуцированное локальное поле оь нейрона к представлены в виде нредсинантического (ргезупар1)с) и ностсинантического (роз1зупарйс) сигналов зчго синапса нейрона й. На рисунке видно, что обучение на основе коррекции ошибок — зто пример замкнутой системы с обратной сеязью (с!озед-!сор Геег)Ьас!г).
Из теории управления известно, что устойчивость такой системы определяется параметрами обратной связи. В данном случае существует всего одна обратная связь, и единственным интересующим нас параметром является коэффициент скорости обучения т!. Для обеспечения устойчивости или сходимости итеративного процесса обучения требуется тщательный подбор этого параметра.
Выбор параметра скорости обучения влияет также на точность и другие характеристики процесса обучения. Другими словами, параметр скорости обучения г! играет ключевую роль в обеспечении производительности процесса обучения на практике. Обучение, основанное на коррекции ошибок, детально описывается в главе 3 для однослойной сети прямого распространения и в главе 4 — для многослойной. 2.3. Обучение на основе памяти При обучении на основе памяти (шешогу-Ьаяед!еагп)пк) весь прошлый опыт накапливается в большом хранилище правильно классифицированных примеров вида вход- выход: ((х,, г(;)1~ „где х, — входной вектор, а 4 — соответствующий ему желаемый выходной сигнал.
Не ограничивая общности, можно предположить, что выходной сигнал является скаляром. Например, рассмотрим задачу бинарного распознавания образов или классификации на два класса (гипотезы), С, и Сз. В этом примере желаемый отклик системы Ы, принимает значение О (или — 1) для класса С| и значение +1 для класса Сз. Если требуется классифицировать некоторый неизвестный вектор х„„, из базы данных выбирается выход, соответствующий входному сигналу, близкому к х„„,. 94 Глава 2. Процессы обучения Все алгоритмы обучения на основе памяти включают в себя две существенные составляющие. ° Критерий, используемый для определения окрестности вектора х,, ° Правило обучения, применяемое к примеру из окрестности тестового вектора. Все алгоритмы отличаются друг от друга способом реализации этих двух составляющих. В простейшем (хотя и эффективном) алгоритме обучения на основе памяти, получившем название правила ближайшего соседа (пеагезг пе!яЬЬог ги!е)з, в окрестность включается пример, ближайший к тестовому.
Например, вектор Х ги Е (хггхзг..., ХСгг) (2.6) считается ближайшим соседом вектора х„„, если выполняется условие СП1П г[(хгг Хавас) гс(х гтг хсеес)г (2.7) где с[(х„хс с) — Евклидово расстояние между векторами х; и х„„. Класс, к которому относится ближайший сосед, считается также классом тестируемого вектора х„„. Это правило не зависит от распределения, используемого при генерировании примеров обучения. В (220) проводится формальное исследование правила ближайшего соседа, применяемого для решения задачи классификации образов. При этом анализ основывается на двух следующих предположениях. ° Классифицируемые примеры (хо г[,) независимы и равнагиерно распределены (гпдерепдепг!у апд !дел[!са1[у д[впзЪцгед) в соответствии с совместным распределением примера (х, г[).
° Размерность обучающего множества )сг бесконечно велика. Показано, что при этих двух предположениях вероятность ошибки классификации при использовании правила ближайшего соседа вдвое превышает байесовскую вероятность оигибки (Вауез ргоЬаЬ(!Ьу еггот. (Байесовская вероятность ошибки— это минимальная вероятность ошибки на множестве всех правил принятия решения.) Байесовская вероятность ошибки описывается в главе 3. В этом контексте можно считать, что половина классификационной информации для обучающего множества бесконечного размера содержится в данных о ближайшем соседе. Это довольно неожиданный результат. г Принпипу ближайшего соседа поевашено очень много книг, например [240!.
2.4. Обучение Хебба 95 О О О О О О О О ! 1~ Посторонний чому злеиент !'-- ! Рис. 2.2. Область в штриховой окружности содержит две точки, принадлежащие классу 1, и одну, принадлежащую классу О, Точка в соответствует тестируемому вектору хим При ь = 3 классификатор иа основе !е-ближайших соседей отнесет точку В к классу 1, несмотря иа то, что оиа лежит ближе всего к "выбросу", относящемуся к классу О ! ! !11 ! ! 2.4. Обучение Хебба Постулат обучения Хебба (НеЬЬ'з розги1а!е о1!еаш(пя) является самым старым и самым известным среди всех правил обучения. Он назван в честь нейрофизиолога Хебба. Приведем цитату из его книги [445]. Если аксаи клетки А находится на достаточно близком расстоянии от клетки В и постоянно или периодически участвует в ее возбуждении, наблюдается процесс метаболических изменений в одном или обоих нейронах, выражающийся в том, что эффективность нейрона А как одного из возбудителей нейрона В возрастает.
Хебб предложил положить это наблюдение в основу процесса ассоциативного обучения (на клеточном уровне). По его мнению, это должно было привести к постоянной модификации шаблона активности пространственно-распределенного "ансамбля нервных клеток". Вариацией классификатора на основе ближайшего соседа является классификатор к-ближайгиих соседей (к-пеагеяг пе(ВЬЪог с!азз(бег).
Он описывается следующим образом. Находим )е классифицированных соседей, ближайших к вектору х„„, где )с— некоторое целое число. Вектор х, „относим к тому классу (гипотезе), который чаще других встречается среди )с-ближайших соседей тестируемого вектора. Таким образом, классификатор на основе к-ближайших соседей работает подобно устройству усреднения.
Например, он может не учесть единичный "выброс*', как показано на рис. 2.2 для )е = 3. Выброс (опгйег) — это наблюдение, которое отличается от номинальной модели. В главе 5 рассматривается егце один тип классификатора на основе памяти, юэторый называется сетью на базе радиальных базисных функций. 96 Глава 2. Процессы обучения Это утверждение было сделано в нейробиологическом контексте, но его можно перефразировать в следующее правило, состоящее из двух частей [180), (1016). 1.
Если два нейрона по обе стороны синапса (соединения) активизируются одновременно (т.е. синхронно), то прочность этого соединения возрастает. 2. Если два нейрона по обе стороны синапса активизируются асинхронно, то такой синапс ослабляется или вообще отмирает. Функционирующий таким образом синапс называется синапсом Хеббаз (НеЬЬ!ап бупарзе) (обратите внимание, что исходное правило Хебба не содержало второй части последнего утверждения). Если быть более точным, то синапс Хебба использует зависящий от времени, в высшей степени локальный механизм взаимодействия, изменяющий эффективность синоптического соединения в зависимости от корреляции между предсинаптической и постсинаптической активностью.
Из этого определения можно вывести следующие четыре свойства (ключевых механизма), характеризующие синапс Хебба (161). 1. Зависимость от времени (1ппе-дерепдепг шесЬашзш). Синапс Хебба зависит от точного времени возникновения предсинаптического и постсинаптического сигналов. 2. Покальность (!оса! шесЬашбш), По своей природе синапс является узлом передачи данных, в котором информационные сигналы (представляющие текущую активность предсииаптических и постсинаптических элементов) находятся в пространственно-временной (зрабогешрога!) близости. Эта локальная информация используется синапсом Хебба для выполнения локальных синаптических модификаций, характерных для данного входного сигнала.