Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 36
Текст из файла (страница 36)
Заметим также, что синаптический вес и,, связывает 1 — й нейрон в Г, с ~' — м нейроном в Г„, а г,, — 1 — й нейрон в Г с ~' — м нейроном в Г . Кроме того, узлы нейроподсистемы распознавания охвачены латеральными обратными связями, обеспечивающими работу Г„в режиме «победитель получает все» (см.
подраздел 4.7.8), в результате чего в каждый момент времени только один нейрон в Г, может находиться в активном состоянии. 242 11 АДАПТИВНЫЕ РЕЗОНАНСНЫЕ НЕЙРОННЫЕ СЕТИ ящие зи и„) т-ир) Рис. 11.1 — Блок-схема адаптивной резонансной нейронной сети В процессе своей работы адаптивные резонансные сети реализуют так называемую комбинированную парадигму распознавания-обучения ~61. Первый предъявляемый образ автоматически считается центром (эталоном, прототипом) первого кластера и именно он определяет весовые параметры связи Г,.
с единственным нейроном подсистемы Г, Следующий образ сравнивается с прототипом первого кластера и если они в некотором смысле близки, то происходит уточнение весов и„, и гл В противном же случае в Р;, формируется второй нейрон-эталон второго кластера. Таким образом в результате циклического обмена информацией по восходящим-нисходящим связям реализуется одновременное самообучение-восстановление, состоящее в том, что в подсистеме Г,, определяется «близость» предъявляемого образа к ранее накопленным эталонам, а в подсистеме Г„выясняется к какому из кластеров конкретно принадлежит показанный вектор. Если при этом окажется, что данный образ расположен «далеко» от всех центров, управляющая подсистема сформирует в подсистеме распознавания новый нейрон, Работу адаптивной резонансной сети рассмотрим для случая, когда априорно полагается, что данные могут быть разбиты на и кластеров, при этом, если фактическое число кластеров окажется меньше чем т, то некоторые из нейронов подсистемы Г„никогда не будут переходить в активное состояние, в противном же случае, если и окажется меньшим фактического количества кластеров, сеть должна будет сформировать новый нейрон.
243 Начальные значения синаптических весов сети обычно полагаются равными 1 и,!(О)=, и„..(0)=1, !=1,2,...,л:, ~=1,2,...,т л+1 (11.1) п у,. ="! и,(0)х! =и!!(0)х, у=1,2,...,т, /=1 (1 1.2) если сеть только начала работу, или и у,. =~~! и„ф)х,. =и~(й)х, ~ =1,2,...,т, 1=1 если уже было отработано !! итераций. С учетом нормированности входных сигналов и прототипов кластеров соотношения (11.2), (11.3) есть не что иное, как косинусы углов между предъявляемым образом и имеющимися эталонами, определяющие «близость» образа к имеющимся центрам.
Вычисленные скалярные произведения далее поступают в подсистему распознавания Г„где определяется максимальное значение у,. =шах(у,.1, (1 1.4) т.е. нейрон-победитель, чьи параметры наиболее близки к предъявленному образу. Для этого обычно используется сеть поиска максимума МАХНЕТ 1262~, архитектура которой приведена на рис. 11.2. Как видно, МАХНЕТ достаточно близка к рекуррентной сети Хэмминга (см. подраздел 9.2) и в процессе своей работы в ускоренном времени реализует преобразование (О)= у., (1 1.5) 244 и поскольку они определяют эталон, соответствующий ! — му нейрону в Г„все нейроны подсистемы распознавания в исходном состоянии находятся в равных условиях.
После подачи на вход сети предварительно пронормированного с помощью выражения (4.398) л — мерного образа-вектора х нейроподсистема сравнения Г вычисляет скалярное произведение 11 АДАПТИВНЫЕ РЕЗОНАНСНЫЕ НЕЙРОННЫЕ СЕТИ МР+1) У2(р+ 1) У2 у,,(р+1) ут Рис. 11.2 — Нейроподсистема распознавания Г„- нейросеть МАХНЕТ где р — индекс итераций ускоренного машинного времени; е < и положительный скалярный параметр, определяющий характер сходимости процесса поиска максимума; у(и) — линейно-пороговая функция активации нейронов сети с нулевым порогом О„вид которой приведен на рис.
11.3. 245 Рис. 11.3 — Активационная функция сети МАХНЕТ На каждой итерации машинного времени р = 0,1,2,... большие по амплитуде сигналы на выходах одних нейронов подавляют более слабые сигналы на выходах других нейронов так, что если в начале работы сигнал на выходе одного из нейронов имел максимальное значение, то в конце функционирования все выходы нейронов, кроме максимального, примут значения близкие к нулю. Таким образом, сеть реализует стратегию «победитель получает все». МАХНЕТ определяет, какой из входных сигналов имеет максимальное значение, «назначая» тем самым нейрон-победитель подсистемы Г„но при этом в процессе конкуренции само значение этого сигнала теряется.
В случае, если необходимо иметь и само значение у, можно использовать каскадную схему, построенную на нейронах для сравнения двух чисел ~рис. 4.33) и приведенную на рис. 11.4. В результате попарного сравнения на выходе схемы появляется максимальное из т сравниваемых чисел. Уг Уз1 У' 'У„1 Рис. 11.4 — Схема для выделения максимального сигнала После того, как в подсистеме Г„найден нейрон-победитель, начинается фаза нисходящей верификации, когда сигнал у,. через синаптические связи ~,, возвращается в подсистему Гс в виде 24б 11 АДАПТИВНЫЕ РЕЗОНАНСНЫЕ НЕЙРОННЫЕ СЕТИ х, =~ау,.„ (11.б) после чего происходит сравнение с предъявленным образом х.
Так для бинарных векторов, чьи компоненты принимают значения +1, осуществляется проверка неравенства ~ х,. >р~~ ~х,.~ /'=! г=1 (11.7) или, что тоже самое, ~г„"у, > р~Цх,.~, (1 1.8) где 0 < р < 1 — так называемый параметр сходства, определяющий меру «близости» вектора х к центру 7' — го кластера. Чем больше значение этого параметра, тем более «жестко» осуществляется классификация, а при р =1 каждый образ, отличный от предыдущих порождает новый кластер. Если неравенства (11.б), (11.7) выполняются, происходит уточнение синаптических весов в виде [61 сЬ,, (т) =худ ( — аи, (~)+и,,(~)х,.), ~Й ~ЛУв (1) =т15 ( — и~„..(~)+и „(~)х,.) й в непрерывном времени или и, (я)х,.
и, (1+1) =6 0.5+ ~ ь„(й)х, ~=1 гя(й+1) = К~„(7с)х, (11.10) 1, если ~ — тый нейрон в Г является пабе<)ителем, (11.11) 0 для всех остальных нейронов. 247 — в дискретном времени ~48~. Здесь, как и ранее, и > 0 - скалярный параметр, определяющий скорость обучения; 0 < а <1 — фактор забывания, а Если же контрольные неравенства не выполняются, то обычно делается попытка найти новый нейрон-победитель, исключив из рассмотрения предыдущий. В конце концов если не будет найден подходящий к данному образу кластер, можно либо смягчить условия классификации, уменьшив значение параметра сходства р, либо сформировать в нейроподсистеме распознавания новый нейрон-прототип, чьи параметры определяются последним неотклассифицированным образом.
Несмотря на свои достоинства, связанные с переменным числом кластеров и возможностью работы в реальном времени, адаптивные резонансные нейронные сети получили достаточно ограниченное распространение из-за своей громоздкости и низкой помехоустойчивости, провоцирующей неограниченный рост числа нейронов в подсистеме распознавания. 248 12 НЕЙРОННЫЕ СЕТИ ОПОРНЫХ ВЕКТОРОВ 12 НЕЙРОННЫЕ СЕТИ ОПОРНЫХ ВЕКТОРОВ игх+~ =0 (12.1) (здесь и — (их 1)-вектор весов, подлежащих определению и называемый в 1274~ обобщенным портретом; 8 - скаляр, определяющий смещение), а принадлежность данных конкретному классу определяется парой неравенств < ьгхЮ+~ >О г)ля йЖ =+1, и гх®) + 0 ( О г)ля д(К) = — 1.
(12.2) Для заданной обучающей выборки, обобщенного портрета и' и смещений 0 в рассмотрение вводится область разделения р, определяемая расстоянием от разделяющей гиперплоскости до ближайших к ней точек х(й) из разных классов. Задача минимизации эмпирического риска состоит в нахождении гиперплоскости с максимально возможной областью разделения. При этом точки, ближайшие к этой оптимальной гиперпло скости и называются опорными (крайними) векторами. Рис.
12.1 иллюстрирует вид оптимальной гиперплоскости и опорных векторов. Записав оптимальную гиперплоскость в виде хгн +О =О, (12.3) 249 Нейронные сети опорных векторов, известные также как машины опорных векторов (Яиррог( Чес(ог Мас1ппея - БЧМ), впервые введенные в 1292~, представляют собой архитектуры с прямой передачей информации и являются обобщением таких популярных конструкций, как многослойные персептроны (подраздел 2.3), радиально-базисные (раздел 3) и полиномиальные (раздел 5) сети. Эти ИНС реализуют метод минимизации эмпирического риска 1293-2951 и находят применение при решении задач распознавания образов, аппроксимации, идентификации, эмуляции и т.п. (подраздел 4.2).
Ключевым понятием при синтезе этих сетей являются опорные векторы (крайние векторы согласно первоначальной терминологии В. Н. Вапника [2941), представляющие собой малое подмножество наиболее информативных данных из обучающей выборки и определяемые в процессе обучения. Рассмотрение метода минимизации эмпирического риска начнем с простейшей задачи распознавания образов, когда задана обучающая выборка с известной классификацией данных (х(й), Н(й)1,, и имеется два линейно разделимых класса. При этом для одного из этих классов обучающий сигнал принимает значение И(й) = +1, а для другого — д(к) = — 1.
Уравнение разделяющей гиперплоскости имеет вид мальная ПЛОСКОСТЬ Опорн вектор Рис. 12.1 — Оптимальная гиперплоскость и опорные векторы можно ввести разделяющую функцию О(х) =х ~ +О, (12.4) определяющую расстояние от точки х до гиперплоскости (12.3). При этом сам вектор х может быть представлен в виде суммы (12.4) О(х) =х и +О =+ !), (12.б) откуда Ях) (12.7) Элементарный анализ (12.7) показывает, что расстояние от начала координат 250 где х — проекция х на гиперплоскость ~12.3); г — алгебраический параметр расстояния, принимающий значение больше нуля на «положительной» стороне гиперплоскости и меньше нуля на «отрицательной» так, как это показано на рис. 12.2.















