Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 33
Текст из файла (страница 33)
Первый скрытый слой образован Ь (Ь» р) нейронами, реализующими радиально-базисное преобразование вектора входов 1'(1с) вида 10 НЕЙРОННЫЕ СЕТИ АССОЦИАТИВНОЙ ПАМЯТИ У,Ж) х2Ж) Уж Ф) Рис. 10.1 — Элементарная ИНС ассоциативной памяти Основное отличие этой сети, состоит в том, что если обычная ИНС реализует однозначное отображение (10.1) и 3 у(Й)=Г(хф)е Я ), то ассоциативная память (АП) отображает в у(й) все возможные векторы входов х, принадлежащие некоторой окрестности х(й) такой, что )х — хай)( < е. К настоящему времени распространение получили три основные типа АП, представленные на рис.10.2: 222 Одним из важных свойств биологического мозга является способность к запоминанию информации и ее последующему восстановлению с помощью системы ассоциаций.
Так однажды увиденный когда-то образ может быть опознан даже спустя длительное время, несмотря на все произошедшие с ним изменения. Эту функцию мозга моделирует достаточно широкий класс ИНС, называемых нейронными сетями ассоциативной памяти 14, 7, 9). Такая искусственная память представляет собой, как правило, нейронную сеть либо с прямой передачей информации, либо рекуррентную, которая в режиме обучения накапливает предъявляемые ей образы (чаще всего в векторной форме), а в режиме восстановления вызывает их из памяти, ассоциируя вновь предъявляемые данные с ранее запомнеными.
В отличие от стандартных блоков памяти ЦВМ, в ассоциативной памяти информация «размазывается» по всему множеству нейронов, входящих в сеть, что, естественно, повышает надежность ее хранения; доступ к информации производится по содержанию, а не по адресу; предусмотрена возможность устойчивой работы с искаженной или неполной информацией, что позволяет правильно опознавать по «зашумленному» фрагменту образ в целом.
На рис. 10.1 приведена простейшая архитектура ИНС ассоциативной памяти, представляющая собой по сути элементарную однослойную сеть с прямой передачей информации. 10 НЕЙРОННЫЕ СЕТИ АССОЦИАТИВНОЙ ПАМЯТИ )~ гетероассоциативные сети, реализующие отображение х~ Л' -+ у(к) ~ Я'", (10.2) для всех х, принадлежащих окрестности ()х — х(й))( < е; ~' автоассоциативные сети, являющиеся специальным гетероассоциативных и реализующих отображение подклассом (10.3) хе Л вЂ” Ф х(lс) е К для всех х, принадлежащих окрестности !)х — х(й))(<е, т.е. ассоциирующие каждый образ с самим собой (основная функция таких сетей — восстановление неполной и искаженной информации, например, узнавание образа по обрывку старой фотографии); ~ сети для распознавания образов, также являющиеся частным случаем гетероассоциативпых, в которых каждый входной вектор х ассоциируется со скаляром ) (й), т.е.
хе л — + у(Й)е )1 (10.4) для всех х, принадлежащих окрестности )(х — х(й))! < е . Основная задача, решаемая такой сетью — идентификация «имени» входного образа. х, (А) Х2 ® х, (й) х~Ж) х„® х,ж) х, (А) хг1~) х„® Рис. 10.2 — Типы ИНС ассоциативной памяти 10.1 Корреляционная матрица-память Если в качестве нейронов у схемы, приведенной на рис.
10.1, использовать обычные линейные ассоциаторы, приходим к АП, получившей название корреляционной матрицы-памяти [2841. Рассмотрим вначале простейшую ситуацию, когда заданный набор входных образов х(1),х(2),...,х(М) необходимо ассоциировать с заданным же 223 набором выходных образов у(1),у(2),...,у(Ж).
Вводя в рассмотрение (»хМ)— матрицу стимулов или ключей Х = (х(1), х(2),..., х(Ж)) и (и х М) -матрицу запомненных образов У = (у(1),у(2), ..., у(М)), несложно записать отображение, реализуемое гетероассоциативной (10.5) и автоассоциативной памятью (10.6) Х =И>Х, где И' — (их») - матрица подлежащих определению синаптических весов. В простейшем случае когда»> = » = Х и Х вЂ” (ихи) - невырожденная матрица (все векторы-ключи х(1), >с = 1,2,...,М линейно независимы), матрица И> может быть найдена путем решения системы линейных уравнений И> =УХ '. (10.7) Рассмотренный пример имеет сугубо иллюстративный характер; фактически же каждый ключ х(1с) может быть ассоциирован с запомненным образом у(1с) с помощью собственной матрицы весов и(1с) (10.8) у(7с) = и(/с)х(/с), lс =1,2,...,Л> или в скалярной форме и у>(>с) = ~и,>(/с)х,.(>с), >'=1, 2, ..., >и, >=1 (10.9) И> = ~~1 и(й), (10.10) определяющая усредненную связь между входами и выходами ассоциативной памяти.
Несложно видеть, что (10.10) может вычисляться рекуррентно (10.11) И>(й+ 1) = И'(й)+ и(1+1), И'(0) = 0 1, 224 где и„(1с) - синаптические веса ) — го нейрона, соответствующие 1с — й паре ассоциируемых образов. Таким образом, для каждой пары х(/с), у(й) существует матрица и(1с), а для всего множества образов может быть задана обобщенная матрица синаптических весов 10 НЕЙРОННЫЕ СЕТИ АССОЦИАТИВНОЙ ПАМЯТИ при этом чем больше М, тем меньше влияние каждой отдельной пары образов на конечный результат. Дж.
Андерсон постулировал [285~, что в качестве оценки матрицы й' можно использовать выражение И1(М) = Е у(У )х (й) = УХ (10.12) имеющее также рекуррентную форму И И+1) =Ч И)+уЖ+1)х'И+1), И (О) =0 К. (10.13) у = ~ у(Ус)х~(ус)х(р) =(хг(р)х(р))у(р)+ ~~,(хг(Ус)х(р))у(~) (10,14) Если же векторы-стимулы предварительно пронормированы так, что !)х(/с))(=1, /с =1,2, ..., М, (10.15) то (10.14) может быть переписано в форме у = у(р)+ ~~ ~х' (й)х(р))у(/с) = у(р) + ~~(р), (10.16) где у(р) — представляет собой полезную часть сигнала у, т.е. желаемый отклик сети, а ч(р) — вектор шума (сгозя1а11с), описывающий корреляцию между 225 Для случая нормированных и центрированных векторов х(1с), у(1с) выражение (10.12) описывает корреляционную матрицу сигналов, а рекуррентное соотношение (10.13) представляет собой модификацию рассмотренного в подразделе 4.7.1 хэббовского правила обучения.
Таким образом, обучение корреляционной матрицы-памяти сводится к рекуррентному вычислению ее синаптических весов с помощью правила (10.13) в процессе последовательного предъявления обучающих пар образов х(7с), у(lс)„й = 1, 2, ..., М. Процесс восстановления запомненной информации состоит в том, что при предъявлении сети одного из ранее показанных образов х(р) или достаточно близкого к нему (1х — х(р)~~<ь) на выходе должен появиться сигнал у(р), р = 1, 2, ..., Л . Итак, при подаче на вход АП ключа х(р) фактический сигнал на выходе согласно (10.12) имеет вид ключевым вектором х(р) и остальными стимулами х(Й)„Й ~ р, накопленными АП. Именно вектор ч(р) и порождает ошибки в процессе восстановления. Вводя косинус угла между векторами х(р) и х(й) соя(х(й), х(р)) = соя О = х (Й)х(р) 1х(Й)()! х(р))( (10.17) который с учетом (10.15) вычисляется как соя(х(7с),х(р)) = совд = х (Й)х(р), (10.18) шумовую компоненту можно переписать в виде ч(р) = ~~ соя(х(Й),х(р))у(7с), (10.19) откуда следует, что при ортогональных входных векторах (10.20) соя(х(7с),х(р)) = 0 при 7с ~ р, е, = ш1п(х (й)х(р)1.
(10.21) Чем больше значение е, для данной выборки, тем чаще будет ошибаться сеть в режиме восстановления и наоборот, чем ниже эта граница, тем надежнее работает сеть, предельная емкость которой определяется рангом матрицы И~(М), т.е. гапИМ(И) < тшп(л.,т~ Улучшить характеристики корреляционной матрицы-памяти можно, модифицировав правила ее обучения на основе идей псевдообращения и ортогонального проецирования 14, 132). 22б т.е. восстановление производится безошибочно. Поскольку в л-мерном пространстве может существовать не более л ортогональных векторов, очевидно, что корреляционная матрица-память точно может восстановить не больше п образов. Вместе с тем в реальных ситуациях входные векторы достаточно редко бывают ортогональными, а поэтому ошибки при восстановлении неизбежны.
В связи с этим достаточно остро встает вопрос о предельной емкости АП или, что то же самое, о максимальном количестве образов, которое может быть надежно запомнено. В связи с этим для заданной обучающей выборки Х,г' вводится понятие общности как нижней границы всех возможных произведений 10 НЕЙРОННЫЕ СЕТИ АССОЦИАТИВНОЙ ПАМЯТИ и(1) = х(1)х (1) (10.22) автоассоциативной памяти. Любой входной вектор х, поданный в сеть, проецируется на линейное подпространство, образованное вектором х(1),поскольку и (1)х = х(1) х (1)х = х (1)хх(1) = а, х(1), (10.23) где а, — некоторая константа. Таким образом, матрица и (1) представляет собой в общем случае неортогональный проекционный оператор в одномерное подпространство, что также можно сказать и о любой из матриц и (2), и(3),..., и(Ж). Матрица И~(М) = ~ х(/с)х' (Й) = ~и(1!) (10.24) л-=! с этой точки зрения описывает линейное преобразование, проецирующее вектор х на линейное подпространство, натянутое на векторы х(1), х(2),...,х(1!!) так, что И~(У)х = и (1)х+ и(2)х+...
+ и(У)х = а!х(1) + а,х(2) +... + а, х(1!!). (10.25) При этом И'(А!) в общем случае не является ортогональным проектором. Подобная интерпретация подтверждает вывод о том, что хэббовское обучение позволяет обеспечить хорошее восстановление при ортогональных обучающих входах, что возможно только при !!!'<и. В противном случае шумовая составляющая !! р! !(р) = ~(х (Й)х(р))х(lс) = ~а!.х(1с) (10.26) может просто подавить полезный сигнал.
Переходя к более общему случаю, вернемся к отображению (10.5) при !и ~ п ~ М, неортогональных входах х(1), х(2),..., х(М) и необратимой матрице Х. Именно эта ситуация наиболее часто возникает при решении реальных задач. Естественно, что о решении системы уравнений (10.7) в данном случае не может быть и речи, однако из линейной алгебры известно (1321, что матричная сферическая норма 227 Матрицы и (1), и (2),..., ж(У) в (10.8), (10.10) можно интерпретировать геометрически, для чего рассмотрим вначале матрицу синаптических весов (10.27) минимизируется матрицей И =УХ', (10.28) где Х" — (Юхп) — матрица псевдообратная к Х .
Матрица Х' является в некотором смысле наилучшей аппроксимацией обратной, всегда существует, единственна и если Х обратима, то Х' = Х '. Псевдообратная матрица имеет целый ряд характерных свойств, среди которых нам потребуются < ХХ+Х = Х, Х "ХХ' = Х", (1029) х (Й) =х (Й)!)х(й)1 (10.30) а также симметричность ХХ ' и Х 'Х . Сферическая норма (10,27) имеет ясную интерпретацию с точки зрения 7 задачи обучения АП. Минимизация ~~У вЂ” И~Х~~ подразумевает минимизацию суммы квадратичных норм векторов у(й) — И~х(й) для всех пар ассоциируемых образов й =1,2,...,М.
Несложно видеть корректность тождества (10.31) Их(7с) = у®)+ (Их(Ус) — у(7с)), 228 а поскольку желаемым результатом на выходе сети есть сигнал у(й), то член Их(/с) — у(/с) может рассматриваться как сгояяЫК ч(/с) (10.16), минимизация которого подавляет шум, вызывающий ошибки в процессе восстановления. Возвращаясь к выражениям (10.22)-(10.26), описывающим неортогональное проецирование на подпространство,натянутое на множество векторов-стимулов,и используя операцию псевдообращения,найдем оператор ассоциативной памяти, обеспечивающий ортогональное проецирование на это подпространство. Преимущества ортогонального проецирования поясним на примере автоассоциирования.














