Хайкин С. - Нейронные сети (778923), страница 26
Текст из файла (страница 26)
2.17, б. В данном случае уззтпы источника из входного слоя и нейроны выходного слоя работают как вычислительные элементы. Синаптические веса интегрированы в нейроны выходного слоя. Связи между двумя слоями сети представляют собой простые опроволочные'* соединения. В нижеследующих математических выкладках нейронные сети, изображенные на рис. 2.17, считаются линейными.
В результате этого предположения все нейроны рассматриваются как линейные сумматоры, что и показано на графе передачи сигнала (рис. 2.18). Для дальнейшего анализа предположим, что во входной слой передается образ хь, при этом в выходном слое возникает образ ул. Рассмотрим вопрос обуче- 2.11. Память 126 хн "а Уь Рис. 2.18. Граф передачи сигнала длн Рго линейного нейрона ния на основе ассоциации между образами х„и у„. Образы хь и уь представлены векторами, развернутая форма которых имеет следующий вид: хь(п) = [хы (п), хш(п),..., хь (п)[ у„(п) = (уы(п), уьз(п),..., у„(п))~.
Для удобства представления предположим, что размерности пространств входных и выходных векторов совпадают и равны т, т.е, размерности векторов хь и уь одинаковы. Исходя из этого, значение т будем называть размерностью сети (пегигог)г г(ппепзгопайГу), или просто размерностью. Заметим, что значение гп равно количеству узлов источника во входном слое и числу вычислительных нейронов выходного слоя.
В реальных нейронных сетях размерность гп может быть достаточно большой. Элементы векторов хь и уь могут принимать как положительные, так и отрицательные значения. В искусственных нейронных сетях такое допущение является естественным. Такая ситуация характерна и для нервной системы, если рассматривать переменную, равную разности между фактическим уровнем активности (т.е. степенью возбуждения нейрона) и произвольным ненулевым уровнем активности. Учитывая линейность сети, показанной на рис.
2.17, ассоциацию между ключевым вектором хь и запомненным вектором уь можно представить в матричном виде: у„= Ж(гг)хь, й = 1,2,...,д, (2.27) ум=~~ цг,(й)хь,ч г=1, 2, ..., т, У=1 (2.28) где Ъг(гг) — матрица весов, определяемая парами "вход-выход" (хь, уь). Чтобы детально описать матрицу весовых коэффициентов ьт'(й), обратимся к рис.
2.18, на котором представлена схема г-го нейрона выходного слоя. Выход д,ь этого нейрона вычисляется как взвешенная сумма элементов ключевого образа хь по следующей формуле: 126 Глава 2. Процессы обучения ГдЕ На,1(й),2 = 1, 2,..., т — СниалтИЧЕСКИЕ ВЕСа НЕйрОНа 1, СООтВЕтСтВуЮщИЕ К-й паре ассоциированных образов. Используя матричное представление, элемент ум можно записать в эквивалентном виде: уы = [иа„(к), иа12(к), ..., иа1 (й)] 1=1, 2, ..., гп. (2.29) Хпт Вектор-столбец в правой части равенства (2.29) представляет собой ключевой вектор хы Подставляя выражение (2.29) в определение запоминаемого вектора уь размерности т х 1, получим: и1П(й) Пааг()а) ..
и11 а(й) гс21(аа) 2с22(ас) 2сзт(ас) Уы УГ2 ХЙ2 (2.30) иапа1(п) Шпа2(п) И1тпа()С) Соотношение (2.30) описывает матричное преобразование (или отображение) (2.27) в развернутом виде. В частности, матрица 1111(к) размерности т х т определяется в виде ш11(ас) и112(п) и1!т(й) па21(аа) и122(п) ° аа2т(аа) (2.31) Шт1()С) Нат2(аа) и1тап()С) (2.32) Матрица М определяет связи между входным и выходным слоями ассоциативной памяти. Она представляет опыв1 (ехрепепсе), накопленный в результате подачи д образов, представленных в виде пар "вход-выход".
Другими словами, в матрице М содержатся данные обо всех парах "вход-выход", представленных для записи в память. Отдельные представления д пар ассоциированных образов хь -пуы )с = 1, 2,..., д формируют значения элементов отдельных матриц %(1), %'(2),..., Ж(д). Учитывая тот факт, что эта ассоциация образов представляется матрицей весов %'(12), мал1рицу линялая (шепюгу ша1пх) размерности т х т можно определить как сумму матриц весовых коэффициентов всего набора ассоциаций: 2.11.
Память 127 Описание матрицы памяти (2.32) можно представить в рекурсивной форме Мь — — Мь 1+%(й),)г = 1,2,...,о, (2.33) где исходная матрица Мс является нулевой (т.е. все сииаптические веса памяти изначально равны нулю), а окончательная матрица М совпадает с матрицей М, определенной выражением (2.32). В соответствии с рекурсивной формулой (2.33) под обозначением Мь, понимается матрица, полученная иа )с + 1 шаге ассоциации, а под Мь понимается обновленная матрица, полученная в результате добавления приращения чч'(гг), полученного иа основе и-й пары векторов.
При этом следует заметить, что при добавлении к матрице Мь г прирашеиие Ж()г) теряет свою идентичность в сумме комбинаций, формирующих матрицу М. Заметим, что при увеличении числа о хранимых образов влияние каждого из иих иа состояние памяти ослабляется. Память в виде матрицы корреляции Предположим, что ассоциативная память (см. рис. 2.17, б) была обучена иа парах векторов входного и выходного сигналов хь -ч у„, в результате чего была вычис- лена матрица памяти М. Для оценки матрицы М введем обозначение М, которое в терминах запоминаемых образов описывается выражением 150), 1210] М = ~~> у„хт.
ь=1 (2.34) Под обозначением уьх~ понимается внешнее (матричное) произведение (оп1ег ргодпсг) ключевого хь и запомненного уь образов. Это произведение является оцеикой матрицы весов чЧ()г), которая отображает выходной вектор уь иа входной вектор хь. Так как векторы у„и х„, согласно допущению, имеют одинаковые размерности, равные пзх1, матрица оценки М будет иметь размерность т х т. Это отлично согласуется с размерностью матрицы М, определенной выражением (2.32). Сумма в определении оценки матрицы М имеет прямое отношение к матрице памяти, определенной соотношением (2.32).
Элемент внешнего пРоизведениЯ Уьхьг обозначим Уыхь„где хь, — выходной сигнал узла 1 входного слоя, а уы — значение нейрона г выходного слоя. В контексте сииаптического веса гн, (Й) для Й-й ассоциации узел источника т выступает в роли предсииаптического узла, а нейрон 1 — в качестве постсииаптического узла. Таким образом, "локальный" процесс обучения, описаииый выражением (2.34), можно рассматривать как обобщение носгнулагна обучения Хебба (депега1ьзайоп оГ НеЪЪ'з розгп1аге оГ 1еагпшй). Его также называют правилом внешнего (лгатричного) произведения (ошег ргодпсг гп!е), поскольку для построения оценки М используются матричные операции. Построенная таким образом матрица памяти М называется намягнью в 128 Глава 2. Процессы обучения хт 1 Рис.
2.19. Представление выражения (2.38) в виде графа передачи сигнала виде матрицы корреляции (сопе!абоп шап1х шепюту). Корреляция, в той или иной форме, является основой процесса обучения, распознавания ассоциаций и образов, а также извлечения данных из памяти в нервной системе человека 1279). Выражение (2.34) можно переписать в следующей эквивалентной форме: хт 1 т 2 М=[у1, у, - .,у] = Ъ'Х т (2.35) где [х1~ хз~ ~ хд] ~ у9] (2.36) (2.37) М М + т ~ 1 2 (2.38) Граф передачи сигнала для этого выражения показан на рис. 2.19. Согласно ему и рекурсивной формуле (2.38), матрица Мь 1 представляет собой существующую оценку матрицы памяти, а матрица М1 — ее обновленную оценку в свете новой ассоциации между образами хь н ую Сравнивая рекурсию в формулах (2.33) и (2.38), несложно заметить, что внешнее произведение у„хт представляет собой оценку матрицы весов 'х(г()с), соответствующую й-й ассоциации ключевого и запомненного образов хи и ую Матрица Х имеет размерность пз х д и состоит из всего множества ключевых образов, использованных в процессе обучения.
Она получила название матрицы ключей ()сеу шагпх). Матрица У имеет размерность т х д и составлена из соответствующего множества запомненных образов. Она называется матрицей запоминании (шешопгег) шап1х). Выражение (2.35) можно также записать в рекурсивной форме: 2.11. Память 129 Извлечение из памяти у=Мх. (2.39) Подставляя выражение (2.34) в (2.39), получим: у= з у„х„х, =~ (х х,)у„, т х т (2.40) где хтьх, — скалярное произведение хл и х,. Выражение (2.40) можно переписать в виде у = (хтх,)у, + ~1 (хтх,)у . (2.41) я=плел Пусть ключевые образы нормированы, т.е.
имеют единичную длину (или энергию): л Е„= к*2, = хтх„= 1, й = 1,2, . Ф. (2.42) Тогда отклик памяти на возбудитель (ключевой образ) ху можно упростить следующим образом: (2.43) У = У,, + Чт, где (х„х,)у„. т (2.44) Первое слагаемое в правой части выражения (2.43) представляет собой ожидаемый отклик у,. Таким образом, его можно трактовать как "сигнальную" составляющую фактического отклика у. Второй вектор т, в правой части этого выражения представляет шум, который возникает в результате смешивания ключевого вектора х, со всеми остальными векторами, хранящимися в памяти. Именно вектор шума т; несет ответственность за ошибки при извлечении из памяти. Фундаментальными задачами, возникающими при использовании ассоциативной памяти, являются ее адресация и извлечение запомненных образов. Для того чтобы объяснить первый аспект этой задачи, обозначим через М матрицу ассоциативной памяти, прошедшей полное обучение на д ассоциациях согласно выражению (2.34).
Пусть на вход системы ассоциативной памяти подается случайный вектор возбуждения х, для которого требуется получить вектор огяклика (гезропзе): 130 Глава 2. Процессы обучения В контексте линейного пространства сигналов косинус угла между векторами хь и х, можно определить как скалярное произведение этих векторов, деленное на произведение их Евклидовых норм (попс) (или длин): х„х, г ~~хь~~ ~1х,~! (2.45) ЙхьЙ обозначается Евклидова норма вектора хь, определяемая как квадратный корень из его энергии: г ) 11з Е1!з (2.46) Возвращаясь к исходной задаче, заметим, что в соответствии с допущением (2.42) ключевые векторы нормированы. Таким образом, выражение (2.45) можно упростить: соз (хь, х,) = х„х,. (2.47) Теперь можно переопределить вектор шума (2.44) следующим образом: т, = ~~~ соа (хь, х,)у„. ь=ць~з (2.48) Известно, что если ключевые векторы являются ортогональными (огюкопа1) (т.е.
перпендикулярными друг другу в Евклидовом смысле), то соз (хь, х,) = О, к ф з, (2.49) и, следовательно, вектор шума является нулевым. В этом случае отклик у равен Уз. Итак, памЯть считаетсЯ совеРшенно ассоуииРованной (аззос)азед РегГес11У), если ключевые векторы выбираются из ортогонального набора (огйояопа! зе!), т.е. удо- влетворяют следующему условию: (2.50) Теперь предположим, что все ключевые векторы составляют ортогональный набор, т.е.