Пупков К.А., Коньков В.Г. Интеллектуальные системы (1-е изд., 2001) (1245264), страница 19
Текст из файла (страница 19)
Динамическая нейронная сеть для распознавания речевых сигналовТрудности применения нейронных сетей к распознаванию речиобусловлены спецификой динамической природы речевого сигнала ивыражаются в том, что в процессе классификации сигнал должен бытьнелинейно деформирован по шкале времени с целью нормализациидлительностей различных его участков [42].В виду этого возможности применения стационарных нейронных сетей(многослойных персептронов) ограничены либо распознаванием фонем [43],соответствующих коротким участкам сигнала, на которых не требуетсянормализация длительности; либо распознаванием слов в небольших словарях[44,45], где оказывается возможным вообще не учитывать порядок следованияучастков сигнала во времени, а для распознавания достаточно просто наборапризнаков, выделенных на всей длине слова.Попыткидостичьнормализациидлительностисигналаприиспользовании стационарных нейронных сетей требуют нелинейнойдеформации пространства входов сети, которая может быть осуществлена засчет введения в нейроподобные элементы дополнительных входов,организующих временные задержки информации во всех слоях [46,47].
Такоеусложнение сети ведет к значительному увеличению времени обучения.Применение традиционных рекуррентных сетей [45,48] аналогично введению всеть механизма задержек за счет обратных связей. Кроме того, представленияэталонов оказываются скрытыми в весах сети и не допускают нагляднойинтерпретации, что является важным на этапе отладки системы распознавания ивыбора параметров первичной обработки сигнала.Предлагаемая динамическая нейронная сеть позволяет решить указанныепроблемы и формирует хорошо интерпретируемые многоуровневыеиерархические представления эталонов речевых событий, а также отличаетсябыстротой обучения.В основе нейронной сети, называемой динамическим ассоциативнымзапоминающим устройством (ДАЗУ), лежит идея отображения входныхпоследовательностей в траектории - трубки многомерного сигнальногопространства с сохранением топологии пространства перцептивных признаков.Этот принцип, предложенный А.Н.
Радченко для интерпретации работыреального нейрона [49], и развитый впоследствии в [50,51], позволяет построитьнейронную сеть, способную к распознаванию речевых образов на основепоследовательностей векторов параметров первичного описания сигнала.ДАЗУ позволяет сформировать эталон речевого образа в форме графа,порожденного объединением трубок, соответствующих отображениямконкретных акустических реализаций из обучающего множества в сигнальноепространство.
Форма эталона в ДАЗУ соответствует принятому враспознавании речи представлению эталонов речевых событий в виде сетейсостояний и переходов [42,52]. В такой сети состояния описывают относительнокороткие участки сигнала, а переходы между ними выражают отношенияследования во времени. Каждой реализации речевого образа в сетисоответствует (является наиболее близкой) определенная последовательностьсостояний и связывающих их переходов - траектория. Распознаваниеосуществляется как выбор эталона, содержащего траекторию, наиболее близкуюк той, в которую отображается входной сигнал.1.
Формирование эталона в ДАЗУ1.1. Структура ДАЗУДАЗУ представляет собой набор нейроподобных элементов (НЭ) собщим входом и общим выходом, каждый из которых моделирует точкусигнального пространства (СП) или гиперсферу с центром в этой точке. ВыходДАЗУ замыкается на общий вход всех НЭ через механизм управления,называемый механизмом внимания (МВ), что реализует обратную связь (рис.27).НЭ содержит адресную часть - вектор весов w^=(w^1,...,w^n),интерпретируемый как координаты точки в СП.
Общим входом всех НЭявляется регистр сдвига (РС), моделирующий задержку при прохождениисигнала по дендритному дереву реального нейрона [49]. На каждом тактеработы сети содержимое РС сдвигается и в освободившиеся позициидобавляется очередной входной вектор параметров (ВП) первичного описаниясигнала. Преобразование, осуществляемое РС, разбивает последовательностьВП на последовательность n-грамм, сдвинутых одна относительно другой наодин ВП.Обозначив последовательность ВП как A=(аt), можно записатьпреобразование, осуществляемое РС как отображение F, A^=F(A):F(A) = F(..., аt-1, at, ...) =(..., (аt-n,аt-n+1,...,аt-1)nt-1, (аt-n+1,аt-n+1,...,аt)nt...) == ( ..., а^t-1, a^t...) = (a^t) = A^,(143)где A^ - последовательность точек сигнального пространства, a^t.- координатыточек.Кроме того, НЭ содержит арифметическо-логическое устройство (АЛУ) ипороговый элемент.
АЛУ вычисляет расстояние от текущей n-граммы a^t,находящейся в окне РС, до адреса НЭ w^i по метрике D:D=Dn[a^t,w^i] = max{ dj: dj=d(a^jt-w^ji), j=1..n },jjгде a^ и w^ - j-ые компоненты соответствующих n-грамм, представляющиеотдельные ВП. Конкретный вид метрики d определяется особенностью65используемых параметров описания речевого сигнала. Вычисленное значение Dсравнивается с радиусом расфокусировки r и в случае Dr НЭ срабатывает - навыход ДАЗУ поступает сигнал yi0.
Уравнение D[x^,w^i]=r, описывает в СПнекоторую область - псевдогиперсферу с центром в точке c координатами w^i ис радиусом, определяемым r.траекторией. Область в СП, образованную внутренностью гиперсфер,описанных вокруг точек траектории при r>0, будем называть трубкойтраекторий A(r)^.Отображение F в трубку СП автоматически нормализует длительностьсигнала - сигналы с различными длительностями своих участков будутотображаться в одну трубку (рис. 28). Кроме того, в траекториях трубкиоказывается представлено множество близких сигналов.Рис.
27.1.2. Топология сигнального пространства ДАЗУРассмотрим,чтопредставляетсобойобразA^некоторойпоследовательности ВП сигнала A, формируемый в РС на основании (143).Представляя значения ВП сигнала как приращения ВП впредшествующий момент: at+1=at+at+1, координаты последовательных n-граммв СП можно записать как:a^t = ( at, at+at+1, ..., at+at+1+...+at+n-1 ),a^t+1 = ( at+at+1, at+at+1+at+2, ..., at+at+1+...+at+n-1+at+n )Отсюда видно, что представляет собой вектор приращения координатыточки в СП на t1 такте:a^t+1 = (at+1, at+2, ..., at+n ).Ввиду того, что параметры речевого сигнала изменяются относительноплавно, т.е., при t0 at0, а шаг извлечения параметров t на практикевыбирается малым, соседние точки a^t и a^t+1 в СП оказываются близкими и принекотором r их r-окрестности перекрываются.
Это означает, что прирассмотрении n-грамм a^t в качестве центров гиперсфер a(r)^t с радиусом r, образвходной последовательности в СП представляет собой непрерывную область,образованную внутренностью перекрывающихся гиперсфер. На болеестационарных участках образа at будет меньше, чем на переходных, где сигнализменяется быстрее, и центры гиперсфер будут располагаться более плотно(рис.
28).Отображение F сохраняет отношение связанности между точками образав СП - последние и первые (n-1) координат центров гиперсфер a^t и a^t+1совпадают, что видно из (143). Такие точки будем называть автоассоциативносвязанными. Ввиду наличия связанности последовательность A^ будем называтьРис. 28.Отображение F в СП сохраняет топологию пространства перцептивныхпризнаков - более близкие участки сигнала отображаются в более близкиетраектории A.
При использовании радиуса гиперсфер, равного r, участкисигнала с расстоянием D<r могут быть отображены в один участокгипертрубки, а более далекие участки сигнала отобразятся в разныегипертрубки. Это свойство отображения F позволяет представить всемножество реализаций речевого образа {Ai} в виде графа, образованногообъединением гипертрубок в СП, где каждая гипертрубка соответствуетмножеству близких реализаций образа, а близкие участки реализацийпредставляются одним участком трубки (рис.29).Рис.
29.1.3. Обучение ДАЗУВ процессе обучения ДАЗУ происходит покрытие гиперсферамиобластей СП, в которые отображаются реализации речевых образов изобучающего множества.66При обучении ДАЗУ запоминает образ A^ эталонной последовательностив СП. Это реализуется запоминанием n-грамм a^t в соответствующих НЭ:w^i=a^t.
Для обеспечения компактности представления эталона близкие точкиобраза a^t, лежащие на расстоянии Dr, отображаются в одну гиперсферу изапоминаются в одном НЭ:w^m+1 = a^t , если /i: Dn[w^i,a^t]<r, i=1..m(144)где m-число НЭ, уже задействованных к моменту t. Таким образом НЭ,выделяются динамически. При отсутствии сигнала yi в уже обученных НЭтекущая n-грамма в окне РС является новой для сети и запоминается - в одномиз свободных НЭ значение адреса принимает значение n-граммы: w^m+1=a^t.При наличии сигнала в некотором НЭ yi0 текущая n-грамма считается ужепредставленной в этом НЭ (отличается не более, чем на r от его адреса) изапоминания не происходит.Точки образа (a^t), формируемого РС на основании (143), ассоциативносвязаны между собой.
Для точек - центров гиперсфер запомненного в ДАЗУ наоснове (144) образа W(r)^={w(r)^i} такая связь нарушается ввиду "проглатывания"некоторых n-грамм, оказавшихся близкими к уже запомненным. Однако длядвух последовательных точек W(r)^ оказывается справедливо следующеесвойство: расстояние между последней n-1-граммой первой точки и первой n-1граммой последующей точки по метрике Dn-1 не превышает r. Ввиду этого подассоциативно связанными в дальнейшем будем понимать именно такие точки.Можно говорить, что на множестве НЭ W(r)^ определена функцияавтоассоциации:Fас(w(r)^i) = { w(r)^j: Dn-1[(w^2i,...,w^ni),(w^1j,...,w^n-1j)]r (145)Если на вход обучающегося ДАЗУ подается пара последовательностей A1и A2, представляющих различные реализации одного образа, то их близкиеучастки отобразятся в один участок трубки-траектории.