Пупков К.А., Коньков В.Г. Интеллектуальные системы (1-е изд., 2001) (1245264), страница 20
Текст из файла (страница 20)
Запомненный в ДАЗУобраз W(r)^=W(r)^1W(r)^2 будет представлять в СП две трубки, сходящиеся водну на близких участках (рис. 29). Отображая все обучающее множествопоследовательностей {Ai} в СП и запоминая его в ДАЗУ с динамическимвыделением НЭ при некотором r, мы получаем образ-эталон в виде графа SG(r)^,представленного объединением трубок, соответствующих отдельнымреализациям Ai:iSG(r)^ = F(r)( Ai ) = W(r)^ iВершинам такого графа соответствуют отдельные гиперсферы w(r)^j,представленные в соответствующих НЭ, а направленным переходам междувершинами - ассоциативные связи между ними. При этом каждой реализацииречевого образа Ai из обучающей выборки {Ai} соответствуетпоследовательность связанных вершин такого графа - траектория.
Придостаточной полноте обучающего множества в траекториях на графе SG(r)^оказываются представлены все возможные реализации речевого образа, причемтакое представление компактно, так как их близкие участки отображаются водни участки траекторий.Увеличение радиуса расфокусировки при обучении позволяет отобразитьболее далекие участки обучающих реализаций в одну трубку и, таким образом,уменьшить число НЭ, требуемых для представления эталона SG(r)^. Посколькузначение r также определяет автоассоциативно связанные НЭ (145), тоувеличение r после обучения означает не только расширение трубок эталона, нои увеличение числа ассоциативных связей между гиперсферами, т.е.
увеличениечисла переходов из одних трубок в другие. Отметим также, что увеличениедлины n-грамм n ведет к увеличению размерности СП и повышениюразделимости различных реализаций, т.е. увеличивает число вершин графаSG(r)^ и уменьшает число связей между ними. Все эти свойства позволяютварьировать форму и детальность представления эталона.Оптимальным расположением центров гипертрубок являются точки СП,соответствующие максимумам плотности распределения точек образовобучающих реализаций a^t, что, при достаточной полноте обучающегомножества, дает гарантию наиболее полного покрытия трубками тех областейСП, в которые может отобразиться произвольная реализация.Такой топологии расположения трубок позволяет достичь применение кобучению ДАЗУ алгоритма самоорганизующихся карт Кохонена [53, 54].
Вэтом случае на каждом такте обучения t при наличии сигнала на выходе ДАЗУвыбирается НЭ, оказавшийся ближайшим к входной n-грамме по метрике D, иего адрес модифицируется по правилу:w^i(t+1) = w^i(t) + (a^t - w^i(t)),для i такого, чтоDn[a^t,w^i] = min Dn[a^t,w^j], где <<1, jчто означает сдвиг (притяжение) координат центра гиперсферы w^i в СП понаправлению входной n-грамы a^t на расстояние, пропорциональное величине(a^t - w^i(t)).Алгоритм повторяется некоторое число итераций, постепенно сдвигаяоси трубок к максимумам распределения точек a^t в своей r-окрестности центрам притяжения.Применение алгоритма Кохонена модификации весов НЭ к ДАЗУ,работающему в режиме распознавания, делает его адаптивным - способнымподстраивать координаты осей трубок к изменяющимся условиямфункционирования (например, к изменению произнесения диктора).2.
Распознавание в динамическом ассоциативномустройстве под управлением механизма вниманиязапоминающем67Распознавание в ДАЗУ осуществляется как вложение траектории A^,соответствующей входной последовательности ВП A, в траекторию эталона область одной из трубок графа SG(r)^. Попаданию образа A^, формируемого РСДАЗУ, в трубку W(r)^i соответствует наличие непрерывной последовательностиоткликов сответствующих НЭ (yt), т.е., сигнала на выходе ДАЗУ, что и являетсякритерием распознавания.При распознавании каждое ДАЗУ хранит свой эталон, а все ДАЗУработают как единое сигнальное пространство.
В виду сложной топологии СП свозможностью перекрытия близких гиперсфер и отображением входногосигнала в несколько гипертрубок, как в разных ДАЗУ, так и в одном, дляуправления ДАЗУ в режиме распознавания используется механизм,реализующий функции, подобные локализации и генерализации внимания, ипотому называемый механизмом внимания (МВ). Работа МВ основана наиспользовании ранее распознанной информации для предсказания следующей иподстройки радиусов расфокусировки НЭ под наилучшее распознаваниеожидаемой.Управление вниманием в отдельном ДАЗУ в общем случае может бытьописано функцией R~ зависимости радиусов расфокусировок R(t)={ri(t)} всехНЭ W^ от предыдущего состояния {Y(t),R(t)}, - которое характеризуетсяналичием/отсутствием распознающего НЭ w^p: yp(t)0, и парой параметров Rас(t)и Rобщ(t), задающих радиусы расфокусировки на множествах НЭ W^ас=Fас(w^p) иW^общ=W^/W^ас:ri(t+1) = R~(Y(t), R(t), i ) ==где| Rас(t+1), если w^p: yp(t)0 и w^iW^ас| Rобщ(t+1), в противном случае,Rобщ(t+1) =| Rобщ(t) - R(t), если w^p: yp(t)0 и w^pW^ас| Rобщ(t) + R(t) в противном случае,Rас(t+1) =| Rас(t) + R(t), если w^p: yp(t)0 и w^pW^ас| Rобщ(t+1) в противном случае,иY(0)=0,W^общ=W^, W^ас=, R(0)=Rобщ(0)=R0- нулевые начальные условия.Здесь R - положительная функция времени, монотонно убывающая донуля, t=t-t0, а t0 есть последний такт времени, на котором происходилагенерализация внимания (отсутствие распознавания) или его переключениескачком на другую траекторию, т.е.
w^p{w^q}ас.Таким образом, при наличии распознавания в одном из НЭ МВувеличивает радиусы расфокусировки на ассоциативно связанных с ним НЭ иуменьшает на остальных, увеличивая вероятность вложения в ожидаемыепродолжения траектории в случае искажения входной информации, чтосоответствует локализации внимания. При отсутствии распознавания во всехНЭ МВ увеличивает все радиусы, помогая вложиться в ближайший участоктраектории, что соответствует генерализации внимания.Понимая под установившимся процессом непрерывное распознавание,сопровождаемое вложением образа входной последовательности в однутраекторию ДАЗУ, а под его устойчивостью - нечувствительность котклонениям входной последовательности ВП от эталонных, качественноописать динамику процесса распознавания в ДАЗУ под упралением МВ можноследующим образом.При незначительном искажении начального участка входнойпоследовательности переходный процесс отсутствует и локализация вниманияплавно переходит по ассоциативно связанным НЭ в ДАЗУ, что соответствуетустановившемуся распознаванию, запас устойчивости которого зависит отRас(t) и Rобщ(t) и потому возрастает с течением времени до некоторогопредельного значения, определяемого функцией R(t).
В случае сильногоискажения входной последовательности начало распознавания можетсопровождаться длительным переходным процессом, в ходе которого вниманието переключается скачком от одних участков траекторий к другим, то вообщегенерализуется - ДАЗУ ищет участок адекватной трубки-траектории,соответствующей достаточно длительному слабо искаженному участку навходе, захватив который, можно локализовать внимание на правильнойтраектории в течение длительного интервала времени t, после чеговозросший Rас(t) и уменьшившийся Rобщ(t) позволят устойчивораспознавать далее при значительном искажении следующих участковпоследовательности на входе.3. ЭкспериментыМодель ДАЗУ была реализована и экспериментально исследована наПЭВМ.Речевой сигнал, получаемый с выхода 16-разрядного АЦП с частотойквантования 8кГц, преобразовывался в последовательность векторов из шестипараметров, вычисляемых на временном окне длинной 32мс, сканирующемсигнал с шагом 12мс.В качестве метода первичной обработки сигнала для получения векторапараметров был использован метод перцептивного линейного предсказания[55], учитывающий основные особенности психоакустического восприятия ипорождения речи описывающий анализируемый сегмент сигнала пятью68параметрами.
В качестве шестого параметра использовался регрессионныйкоэффициент энергии, позволяющий подчеркнуть особенности динамикиспектра [56].В ходе предварительных экспериментов была определена оптимальнаядлина РС (n-грамм) ДАЗУ, равная трем векторам параметров (n=3).Эксперименты по исследованию параметров ДАЗУ проводились наобучающем множестве, состоящем из акустических реализаций 30-ти первыхударных слогов из частотного словаря [57], произносимых изолированно однимдиктором. 7 и 10 различных реализаций на каждый слог было использовано приобучении и распознавании соответственно.В ходе экспериментов было выяснено, что:1) При оптимальном радиусе расфокусировки, составившем около 5% отмаксимально возможного расстояния в СП, среднее число НЭ на слог равно 22.2) Достаточное число итераций алгоритма Кохонена для покрытияобласти эталона в СП минимальным числом НЭ и сходимости сетиравно тридцати, что соответствовало в среднем 5-ти секундамобучения на слог с Pentium 100.3) Применение механизма внимания улучшило точность распознаванияна 6%, а скорость распознавания в 1,4 раза.4) При настроеных параметрах точность распознавания тридцати слоговсоставила 92%.692.4.