Хайкин С. - Нейронные сети (778923), страница 27
Текст из файла (страница 27)
выполняется условие (2.50). Как определить емкость или запоминающую способность (а1огаяе сарасйу) ассоциативной памяти? Другими словами, какое максимальное количество образов можно в ней сохранить? Ответ на этот фундаментальный вопрос связан с рангом матрицы памяти М. Рангом матрицы называется количество ее независимых строк (столбцов).
Это значит, что если ранг прямоугольной матрицы размерности 1 х т равенг, то выполняется соотношение г < ппп(1, гп). В случае корреляционной памяти размерность матрицы памяти составляет т х т, где 2.11. Память 131 т — размерность пространства входных сигналов. Отсюда следует, что ранг матрицы М ограничен сверху числом т. Теперь можно сформулировать утверждение о том, что количество образов, которые могут быть надежно сохранены в корреляционной памяти, не может превышать размерности пространства входных сигналов. В реальных ситуациях часто приходится сталкиваться с тем, что ключевые образы, представленные на вход ассоциативной памяти, практически никогда не являются ортогональными.
Следовательно, корреляционная память, характеризуемая соотношением (2.34), иногда может давать сбои и ошибочные результаты. Это значит, что ассоциативная память может случайно распознать и классифицировать образ, никогда ранее не виденный. Чтобы проиллюстрировать это свойство ассоциативной памяти, рассмотрим следующий набор ключевых образов: (Хкеу): ХУ ~ Х2~... ~ Хд~ и соответствующий ему набор запоминаемых образов: (Уе~е~е) ' УЫУ2~ ' ' ' Уд' Для описания близости ключевых образов в линейном пространстве сигналов введем пошпие общности (сопппппйу) и определим общность множества образов (хь,у) как нижний предел скалярного произведения хтх, любых двух векторов из этого множества. Пусть М вЂ” матрица памяти, построенная согласно формуле (2.34) в результате обучения ассоциативной памяти на наборе ключевых образов (хы„) и соответствующем ему наборе откликов (у,„, ).
Отклик у этой памяти на внешнее воздействие х, из набора (хы ) будет описываться выражением (2.39). При этом предполагается, что все векторы из множества (хь,у) являются единичными (т.е. векторами с единичной энергией). Кроме того, предположим, что хт >, (2.51) Если нижняя граница Т достаточно велика, то память не сможет отличить вектор у от отклика на любой другой входной вектор из множества (х„,„). Если ключевые образы этого набора имеют вид (2.52) Х~ =Хе+я, где к — некоторый стохастический вектор, то, вероятнее всего, память распознает вектор хо и ассоциирует его с вектором ус, а не с вектором из фактического множества образов, использованных в процессе обучения.
Здесь символами хо и уо обозначена никогда ранее не виденная пара сигналов. Этот феномен можно назвать логикой лсивоулиого (которой на самом деле не существует) (210). 132 Глава 2. Процессы обучения 2.12. Адаптация При решении реальных задач часто оказывается, что одним из основных измерений процесса обучения является пространство, а другим — время.
Пространственно- временная структура обучения подтверждается многими примерами задач обучения, рассмотренными в разделе 2.10 (например, задачами управления или построения диаграммы направленности). Биологические виды, от насекомых до человека, обладают способностью для представления временной структуры опыта. Такое представление позволяет животным адаптировать (адар[) свое поведение к временной структуре событий в пространстве поведения (336]. Если нейронная сеть работает в стационарной (51айопагу) среде (т.е. в среде, статистические характеристики которой не изменяются во времени), она теоретически может быть обучена самым существенным статистическим характеристикам среды с помощью учителя. Например, синаптические веса сети можно вычислить в процессе обучения на множестве данных, представляющих среду.
После завершения процесса обучения синаптические веса сети отражают статистическую структуру среды, которая теперь считается неизменной или "замороженной". Таким образом, для извлечения и использования накопленного опыта обучаемая система полагается на ту или иную форму памяти. Однако чаще всего окружающая среда является нестацианарной (попз[а[юпагу).
Это значит, что статистические параметры входных сигналов, генерируемых средой, изменяются во времени. В такого рода ситуациях методы обучения с учителем доказали свою несостоятельность, так как сеть не обладает средствами отслеживания статистических вариаций среды, с которой имеет дело. Чтобы обойти этот изъян, необходимо постоянно адаптировать свободные параметры сети к вариациям входного сигнала в режиме реального времени, т.е.
адаптивная система должна отвечать на каждый следующий сигнал, как на новый. Другими словами, процесс обучения в адаптивной системе не завершается, пока в нее поступают новые сигналы для обработки. Такая форма обучения называется непрерывным обучением (сопйппопа 1еагл[пя) или обучением на лету (1еапппя оп-й[е-йу). Для реализации непрерывного обучения можно применять линейные адаптивные фильтры (1зпеаг адарбое Ййег), построенные для линейного сумматора (т.е, отдельного нейрона, функционирующего в линейном режиме). Несмотря на довольно простую структуру (а во многом даже благодаря ей), они в настоящее время широко используются в таких несходных областях, как радиолокация, сейсмология, связь и биометрия.
Теория линейных адаптивных фильтров уже достигла в своем развитии стадии зрелости 1434], [1144]. Однако этого нельзя сказать о нелинейных адаптивных фильтрах". Задача создания оптимального линейного фильтра, положившая начало теории линейных адмпивных фильтров, впервые была поставлена в [5901 и независимо от нее несколько позже решена в [11491.
С другой стороны, формальною решения зааачн оптимальной нелинейной фильтрации в математических терминах не 2.12. Адаптация 133 При исследовании непрерывного обучения и его применения в теории нейронных сетей возникает следующий вопрос. Как нейронная сеть может адаптировать свое поведение к изменению временной структуры входных сигналов в поведенческом пространстве? Один из ответов на этот фундаментальный вопрос предполагает, что изменения статистических характеристик нестационарных процессов протекают достаточно медленно, чтобы процесс на коротком промежутке времени можно было рассматривать как лсевдостационарный. Приведем примеры. ° Синтез речевого сигнала можно рассматривать как стационарный процесс на интервале времени пор!щка ]0 — 30 миллисекунд.
° Эхо радара от дна океана можно считать стационарным на интервалах времени порядка нескольких секунд. ° При долговременном прогнозировании погоды синоптические данные можно рас- сматривать как стационарные на интервалах времени порядка нескольких минут. ° В контексте оценки тенденций биржевого рынка данные можно считать стацио- нарными на интервалах времени порядка нескольких дней.
Используя свойство псевдостационарности в стохастических процессах, можно увеличить срок эффективной работы нейронной сети за счет ее периодического переучивания (ге(гаш[пк), позволяющего учесть вариации входных данных. Такой подход можно использовать, например, для обработки биржевых данных. Можно также применить и более точный динамический (дупаппс) подход.
Для этого нужно выполнить следующую последовательность действий. ° Выбрать достаточно короткий интервал времени, на котором данные можно считать псевдостационарными, и использовать для обучения сети. ° После получения нового обучающего примера нужно отбросить самый старый вектор и добавить в выборку новый пример. существует. Тем не менее в ! 950-х годах в этой области были опубликованы отличные рабаты, которые внесли некоторую ясность в природу этой задачи [1148], [1177]. Впервые идею нелинейного адаптивного фильтра выдвинул Габор в 1954 году [330]. Со своими единомышленниками ои занялся созданием тамзпз фильтра [331]. Сначала Габор щмдложил обойти математические трудности нелинейной адаптивной фильтрации путем создания фильтра, реакция жпорого оптимизируется в процессе обучения.
Выходной сигнал такого фильтра выражается в виде хг м м р(п) = 2 ю л(п)ь 2 ~з ю„, л(п)л(гл) ь... =о =о и=о где л(0), л(1), ...,л(11г) — примеры входного сигнала фильтра. (Этот лелином теперь носит имя Габора— Колмогорова или называется рядом Всльтерра.) Первое слагаемое пслинома представяяет собой линейный фильтр, характеризуемый набором коэффициентов (ю ). Второе слагаемое характеризуется множеством диадических коэффициентов (ю„,„,) и является нелинейным. Это слагаемое содержит произведение двух экземпляров входною сигнала фильтра и имеет более высокий порядок.
Коэффициенты фильтра настраиваются с помощью метода градиентного спуска с целевой функцией среднеквадратического расстояния между желаемым ответом й(гт') и факщческим выищным сигналом фильтра у(71г). 134 Глава 2. Процессы обучения ° Использовать обновленную выборку для обучения сети. ° Непрерывно повторять описанную процедуру.
Описанный алгоритм позволяет встроить временные свойства в архитектуру нейронной сети, реалиював таким образом принцип непрерывного обучения на упорядоченных во времени примерах (сопйпца1 !еапппя язгл йпе-огг)егеб ехашр1ез). При использовании такого подхода нейронную сеть можно считать нелинейным адаптивным фильтром (поп!!пеаг асари!че 611сг), представляющим собой обобщение линейного адаптивного фильтра. Однако для реализации такого динамического подхода на компьютере требуется очень высокое быстродействие, которое позволит выполнить все необходимые вычисления за один интервал дискретизации в реальном времени. Только в этом случае фильтр не будет отставать от изменения данных на входе системы.
2.13. Статистическая природа процесса обучения В заключительном разделе настоящей главы речь пойдет о статистических аспектах обучения. В этом контексте нас не будет интересовать эволюция вектора весовых коэффициентов зч,и алгоритм обучения нейронной сети можно рассматривать как циклический. Будем оценивать только отклонение между целевой функцией Дх) и фактической функцией г'(х, зч), реализованной в нейронной сети. Здесь под вектором х понимается входной сигнал. Это отклонение можно выразить в статистических терминах. Нейронная сеть является всего лишь одной из форм, в которых при помощи процесса обучения можно закодировать эмпирические знания (ешр!пса! )спочг!ебйе) о физических явлениях или окружающей среде.
Под термином "эмпирические знания" подразумевается некий набор измерений, характеризующих данное явление. Чтобы конкретизировать это понятие, рассмотрим пример сгохастического явления, описываемого случайным вектором Х, состоящим из набора независимых переменных (!пдерепдепг чапаЫе), и случайный скаляр Р, представляющий зависимую переменную (г)ерепг)еп! чапаЫе). Каждый из элементов случайного вектора Х может иметь свой физический смысл.