Пупков К.А., Коньков В.Г. - Интеллектуальные исследования (Современнаяя теория управления) (1072100), страница 17
Текст из файла (страница 17)
где a^j и w^j - j-ые компоненты соответствующих n-грамм, представляющие отдельные ВП. Конкретный вид метрики d определяется особенностью используемых параметров описания речевого сигнала. Вычисленное значение D сравнивается с радиусом расфокусировки r и в случае Dr НЭ срабатывает - на выход ДАЗУ поступает сигнал yi0. Уравнение D[x^,w^i]=r, описывает в СП некоторую область - псевдогиперсферу с центром в точке c координатами w^i и с радиусом, определяемым r.
Рис. 27.
1.2. Топология сигнального пространства ДАЗУ
Рассмотрим, что представляет собой образ A^ некоторой последовательности ВП сигнала A, формируемый в РС на основании (143).
Представляя значения ВП сигнала как приращения ВП в предшествующий момент: at+1=at+at+1, координаты последовательных n-грамм в СП можно записать как:
a^t = ( at, at+at+1, ..., at+at+1+...+at+n-1 ),
a^t+1 = ( at+at+1, at+at+1+at+2, ..., at+at+1+...+at+n-1+at+n )
Отсюда видно, что представляет собой вектор приращения координаты точки в СП на t1 такте:
a^t+1 = (at+1, at+2, ..., at+n ).
Ввиду того, что параметры речевого сигнала изменяются относительно плавно, т.е., при t0 at0, а шаг извлечения параметров t на практике выбирается малым, соседние точки a^t и a^t+1 в СП оказываются близкими и при некотором r их r-окрестности перекрываются. Это означает, что при рассмотрении n-грамм a^t в качестве центров гиперсфер a(r)^t с радиусом r, образ входной последовательности в СП представляет собой непрерывную область, образованную внутренностью перекрывающихся гиперсфер. На более стационарных участках образа at будет меньше, чем на переходных, где сигнал изменяется быстрее, и центры гиперсфер будут располагаться более плотно (рис. 28).
Отображение F сохраняет отношение связанности между точками образа в СП - последние и первые (n-1) координат центров гиперсфер a^t и a^t+1 совпадают, что видно из (143). Такие точки будем называть автоассоциативно связанными. Ввиду наличия связанности последовательность A^ будем называть траекторией. Область в СП, образованную внутренностью гиперсфер, описанных вокруг точек траектории при r>0, будем называть трубкой траекторий A(r)^.
Отображение F в трубку СП автоматически нормализует длительность сигнала - сигналы с различными длительностями своих участков будут отображаться в одну трубку (рис. 28). Кроме того, в траекториях трубки оказывается представлено множество близких сигналов.
Рис. 28.
Отображение F в СП сохраняет топологию пространства перцептивных признаков - более близкие участки сигнала отображаются в более близкие траектории A. При использовании радиуса гиперсфер, равного r, участки сигнала с расстоянием D<r могут быть отображены в один участок гипертрубки, а более далекие участки сигнала отобразятся в разные гипертрубки. Это свойство отображения F позволяет представить все множество реализаций речевого образа {Ai} в виде графа, образованного объединением гипертрубок в СП, где каждая гипертрубка соответствует множеству близких реализаций образа, а близкие участки реализаций представляются одним участком трубки (рис.29).
Рис. 29.
1.3. Обучение ДАЗУ
В процессе обучения ДАЗУ происходит покрытие гиперсферами областей СП, в которые отображаются реализации речевых образов из обучающего множества.
При обучении ДАЗУ запоминает образ A^ эталонной последовательности в СП. Это реализуется запоминанием n-грамм a^t в соответствующих НЭ: w^i=a^t. Для обеспечения компактности представления эталона близкие точки образа a^t, лежащие на расстоянии Dr, отображаются в одну гиперсферу и запоминаются в одном НЭ:
w^m+1 = a^t , если /i: Dn[w^i,a^t]<r, i=1..m (144)
где m-число НЭ, уже задействованных к моменту t. Таким образом НЭ, выделяются динамически. При отсутствии сигнала yi в уже обученных НЭ текущая n-грамма в окне РС является новой для сети и запоминается - в одном из свободных НЭ значение адреса принимает значение n-граммы: w^m+1=a^t. При наличии сигнала в некотором НЭ yi0 текущая n-грамма считается уже представленной в этом НЭ (отличается не более, чем на r от его адреса) и запоминания не происходит.
Точки образа (a^t), формируемого РС на основании (143), ассоциативно связаны между собой. Для точек - центров гиперсфер запомненного в ДАЗУ на основе (144) образа W(r)^={w(r)^i} такая связь нарушается ввиду "проглатывания" некоторых n-грамм, оказавшихся близкими к уже запомненным. Однако для двух последовательных точек W(r)^ оказывается справедливо следующее свойство: расстояние между последней n-1-граммой первой точки и первой n-1-граммой последующей точки по метрике Dn-1 не превышает r. Ввиду этого под ассоциативно связанными в дальнейшем будем понимать именно такие точки. Можно говорить, что на множестве НЭ W(r)^ определена функция автоассоциации:
Fас(w(r)^i) = { w(r)^j: Dn-1[(w^2i,...,w^ni),(w^1j,...,w^n-1j)]r (145)
Если на вход обучающегося ДАЗУ подается пара последовательностей A1 и A2, представляющих различные реализации одного образа, то их близкие участки отобразятся в один участок трубки-траектории. Запомненный в ДАЗУ образ W(r)^=W(r)^1W(r)^2 будет представлять в СП две трубки, сходящиеся в одну на близких участках (рис. 29). Отображая все обучающее множество последовательностей {Ai} в СП и запоминая его в ДАЗУ с динамическим выделением НЭ при некотором r, мы получаем образ-эталон в виде графа SG(r)^, представленного объединением трубок, соответствующих отдельным реализациям Ai:
SG(r)^ = F(r)( Ai ) = W(r)^ i i
Вершинам такого графа соответствуют отдельные гиперсферы w(r)^j, представленные в соответствующих НЭ, а направленным переходам между вершинами - ассоциативные связи между ними. При этом каждой реализации речевого образа Ai из обучающей выборки {Ai} соответствует последовательность связанных вершин такого графа - траектория. При достаточной полноте обучающего множества в траекториях на графе SG(r)^ оказываются представлены все возможные реализации речевого образа, причем такое представление компактно, так как их близкие участки отображаются в одни участки траекторий.
Увеличение радиуса расфокусировки при обучении позволяет отобразить более далекие участки обучающих реализаций в одну трубку и, таким образом, уменьшить число НЭ, требуемых для представления эталона SG(r)^. Поскольку значение r также определяет автоассоциативно связанные НЭ (145), то увеличение r после обучения означает не только расширение трубок эталона, но и увеличение числа ассоциативных связей между гиперсферами, т.е. увеличение числа переходов из одних трубок в другие. Отметим также, что увеличение длины n-грамм n ведет к увеличению размерности СП и повышению разделимости различных реализаций, т.е. увеличивает число вершин графа SG(r)^ и уменьшает число связей между ними. Все эти свойства позволяют варьировать форму и детальность представления эталона.
Оптимальным расположением центров гипертрубок являются точки СП, соответствующие максимумам плотности распределения точек образов обучающих реализаций a^t, что, при достаточной полноте обучающего множества, дает гарантию наиболее полного покрытия трубками тех областей СП, в которые может отобразиться произвольная реализация.
Такой топологии расположения трубок позволяет достичь применение к обучению ДАЗУ алгоритма самоорганизующихся карт Кохонена [53, 54]. В этом случае на каждом такте обучения t при наличии сигнала на выходе ДАЗУ выбирается НЭ, оказавшийся ближайшим к входной n-грамме по метрике D, и его адрес модифицируется по правилу:
w^i(t+1) = w^i(t) + (a^t - w^i(t)),
для i такого, что
Dn[a^t,w^i] = min Dn[a^t,w^j], где <<1, j
что означает сдвиг (притяжение) координат центра гиперсферы w^i в СП по направлению входной n-грамы a^t на расстояние, пропорциональное величине (a^t - w^i(t)).
Алгоритм повторяется некоторое число итераций, постепенно сдвигая оси трубок к максимумам распределения точек a^t в своей r-окрестности - центрам притяжения.
Применение алгоритма Кохонена модификации весов НЭ к ДАЗУ, работающему в режиме распознавания, делает его адаптивным - способным подстраивать координаты осей трубок к изменяющимся условиям функционирования (например, к изменению произнесения диктора).
2. Распознавание в динамическом ассоциативном запоминающем устройстве под управлением механизма внимания
Распознавание в ДАЗУ осуществляется как вложение траектории A^, соответствующей входной последовательности ВП A, в траекторию эталона - область одной из трубок графа SG(r)^. Попаданию образа A^, формируемого РС ДАЗУ, в трубку W(r)^i соответствует наличие непрерывной последовательности откликов сответствующих НЭ (yt), т.е., сигнала на выходе ДАЗУ, что и является критерием распознавания.
При распознавании каждое ДАЗУ хранит свой эталон, а все ДАЗУ работают как единое сигнальное пространство. В виду сложной топологии СП с возможностью перекрытия близких гиперсфер и отображением входного сигнала в несколько гипертрубок, как в разных ДАЗУ, так и в одном, для управления ДАЗУ в режиме распознавания используется механизм, реализующий функции, подобные локализации и генерализации внимания, и потому называемый механизмом внимания (МВ). Работа МВ основана на использовании ранее распознанной информации для предсказания следующей и подстройки радиусов расфокусировки НЭ под наилучшее распознавание ожидаемой.
Управление вниманием в отдельном ДАЗУ в общем случае может быть описано функцией R~ зависимости радиусов расфокусировок R(t)={ri(t)} всех НЭ W^ от предыдущего состояния {Y(t),R(t)}, - которое характеризуется наличием/отсутствием распознающего НЭ w^p: yp(t)0, и парой параметров Rас(t) и Rобщ(t), задающих радиусы расфокусировки на множествах НЭ W^ас=Fас(w^p) и W^общ=W^/W^ас:
ri(t+1) = R~(Y(t), R(t), i ) =