part 1 (694716), страница 3
Текст из файла (страница 3)
Первой системой автоматического распознавания речи, выпускаемой нашей промышленностью, стала адаптивная микропроцессорная система распознавания изолированных слов,разработанная в НШЮчетмаше.Система содержит блок аналоговой обработки сигнала - предпроцессор (он включает микрофонный усилитель, 16-канальный спектроанализа-тор с рабочей полосой до Ь кГц, индикаторы уровня основного тона и огибающей, блоки клиппирования, наличия устной команды, вторичной обработки и управления), микропроцессор К580ИК80, специализированную подсистему для вычисления меры сходства между входной и эталонной реализациями слов, оперативное запоминающее устройство, интерфейсный блок и пульт инженера-оператора .Поток информации о речевом сигнаде (1250 байт в секунду) поступает с процессора для последующей обработки в микроЭВМ, которая одновременно управляет отдельными узламг и блоками всэй системы. Следует отметить, что система [72J по своей структуре и возможностям занимает промежуточное положение между коммерческими системами V IP-100 (США) и dp фирмы яёс (Япония).От VIP-IOO наши разработчики позаимствовали бинарное представление информации о слове на уровне вторичной обработки сигнала, а от системы нес - использование динамического программирования при нелинейном сравнении входной и эталонной реализации. Такой подход позволил производить распознавание в реальном масштабе времени и с высокой надежностью, используя отечественную элементную
13
базу. Для обучения новому словарю требуется однократное произнесение каждого слова. Надежность распознавания для группы из четырех дикторов, каждый из которых работал со своим словарем,превысила 96%; время распознавания для словаря из 200 слов - близкое к реальному (не превышающее 1с).
В [б33 описано автономное адаптивное устройство распознавания ограниченного набора слов, разработанное во Всесоюзном сельскохозяйственном институте заочного образования. Устройство выполнено на базе микросхем 155-й серии и состоит из 16 плат размером 140 х 150 мм. На вход устройства с аппаратуры первичного анализа подаются 16 бинарных признаков, один аналоговый, представленный четырехразряд очным двоичным кодом, и признак конца речевого сигнала. Память устройства вмещает до 256 отсчетов эталонов сигнала. Речевая информация поступает для последующей обработки с частотой 100 Гц, но в дальнейшем сжимается (в среднем до 16 отсчетов на слово) так, что в память можно записать лишь 16 эталонов. Нелинейное сравнение с эталоном осуществляется методом динамического программирования. Устройство [вз] может работать в двух режимах - обучения и распознавания.Точность распознавания (для одного диктора) зависит от словаря, объем которого не превышает 16 слов, и колеблется в пределах 96-99%.
Система [l] , разработанная в МВТУ им. Н.Э.Баумана и ориентированная на речевое управление движущимися объектами, была испытана десятью дикторами на словарях иг 32 слов и слитных словосочетаний на русском, английском и немецком языках ( каждый диктор имел свои эталоны).На материале 3200 реализации было получено 9Ё% правильных ответов, 1% отказов от распознавания и 1% ошибок. Система позволяла работать в трех режимах - обучения, распознавания и управления. В режиме речевого управления словарь включал всего 14 слов; надежность распознавания команд управления составила при этом 99,5№.
Интересная адаптивная система распознавания и синтеза речи была разработана на устройстве аналогового типа и ЭВМ ЕС-1030 М.Г.Демковым [35] . Словарь системы, работающей в близком к реальному времени, составлял 300 слов и словосочетаний. В результате аппаратной и программной обработки три обучающие реализации каждого слова преобразовались в эталонную последовательность длиной в 10 - 20 символов. Эксперименты по определению надежности системы проводились в условиях акустических шумов 75 -60 дБ на голосе одного оператора. При однократном произнесении словаря в объеме 300 слов точность распознавания составляла 97,2%,при одном повторении - 98,6%, при двух повторениях ошибочно
распознанного слова - 99,3%.
14
В [2b] сообщается, что фирма Dialog Systems (США) подготовила к коммерческому производству первую неадаптивную систему распознавания слов, построенную на бсль'"их интегральных схемах. Особенностью этой системы является метод сравнения, основанный на анализе большого статистического материала. Эталонные реализации формировались после изучения 500 образцов произнесения мужчинами и женщинами каждого словаря: статистика собиралась по всей территории США. Из каждого слова берется 12 выборок;на каждом отчете измеряется общая амплитуда сигнала и вычисляется спектр сигнала в диапазоне телефонного канала(300 - 3400 Гц) в 31 точке. Таким образом, каидому слову соответствует 384 числа. Обучающая выборка включала обработанные реализации 500 слов. Неизвестное слово, поступающее на вход системы, подвергается такой же обработке и сравнивается с эталонами. Система использует речевой ответ. Базовый словарь состоит из 12, слов - 10 цифр и слов "да" и "нет". Система позволяет добавлять специализированные словари. Например, для банковских работников предусмотрено включение 30 дополнительных слов, включая такие, как "баланс","итог", "взнос". В [52] сообщается, что эта фирма разработала систему продажи билетов на самодеты, откликающуюся на голос любого диктора. Однако для нее возможны и другие применения. С ее помощью служащий, находящийся в другом городе, легко может вызвать любого абонента внутренней сети. Для этого он набирает номер коммутатора фирмы, называет свой идентификационный номер и телефонный номер, который он хочет вызвать. Система обрабатывает устные команды с точностью, превышающей 95№.
В [102, 147, 146, 150, I6b - 168] описана экспериментальная система автоматического распознавания 127 слов, произносимых несколькими дикторами. Проблема особенностей произношения решается таким образом, что каждый диктор имеет набор своих эталонов, поэтому в строгом смысле слова систему Bell Laboratories нельзя считать неадаптивной. Словарь был выбран с учетом того, чтобы произвольный пользователь мог заказывать по телефону билеты на авиарейсы, используя ЭВМ с речевым вводом. Отмечается, что использование синтаксиса языка понижает ошибки распознавания слов с 11,7 до 0,4%/
В [170,172] рассматривается распознавание словаря, включающего название английских букв, цифры и три служебных слова редактирования ("стоп", "ошибк^.", "повторяю"). Словарь позволяет произносить произвольные слова, в частности фамилии,по буквам. При испытаниях системы, в которых участвовали шесть мужчин и четыре женщины, при средней точности распознавания слов словаря в
15
60% средняя точность распознавания слов, произносимых по буквам (50 случайных фамилий сотрудников Bell Laboratories ), составила 96%. Каждый диктор, как и в [25] , имел собственные эталоны. В [166,167] используется около 12 эталонов на каждое слово словаря, причем каждый эталон характеризует особенности некоторой группы дикторов. Эталоны получаются методом кластерного анализа;
при этом используется 100 обучающих реализации на каждое слово. Точность распознавания 10 цифр приближается к точности их распознавания в адаптивных системах и колеблется (для различных дикторов) от 97,5 до 100%.
В [125] предлагается для повышения точности распознавания слов ввести дополнительный уровень распознавания, который автоматически определяет пол диктора и уже дальнейшее распознавание производит с учетом этого. Введение предварительного автоматического распознавания пола диктора повысило точность распознавания цифр.
В СССР проблеме построения неадаптивных систем автоматического распознавания речи также уделяется большое внимание [10,13,33, 38, 57, 66, 76, 77, 87, йб] . Как правило, системы работают с проблемно-ориентированными языками, словарный запас которых составляет несколько десятков словоформ [40] . В [1.0,12] описана опытная эксплуатация одной из таких систем. Сейчас существуют некоторые промежуточные экспериментальные системы распознавания, работающие со множеством дикторов, часть из которых можно отнести к адаптивным, например систему МВТУ [l] .которая по своей идеологии и принципам близка к типичным настраивающимся на диктора системам - лишь память ЭВМ ограничивает число дикторов, каждый из которых имеет свою систему эталонов. Рассматриваемые же ниже системы обладают рядом особенностей, характеризующих именно неадаптивные системы: попытка пользоваться универсальными признаками фонем, использование синтаксиса и семантики рабочего языка, верификация диктора до того, как система обратилась к его эталонам, и т.д. В этом смысле к неадаптивным системам распознавания речи можно отнести две интересные системы распознавания фраз, произносимых с паузами между словами. Эти систрмы были созданы в Институте систем управления АН ГрузССР.
Одна из этих систем [ 77] была предназначена для оперативного управления объектами путем распознавания фраз-команд, произносимых предварительно верифицированными дикторами. Ьможество фраз, составленных из 134 слов,включало 75 типовых синтаксических конструкций. Каждая фраза содержала не более 14 слов и произносилась полным стилем с паузами между словами. Параметрами
16
первичного описания были: энергия с 6 полосовых фчльтров, дедек-торы плотности нулевых пересечений сигнала, общая энергия сигнала и признак звонкости - гдухости. (Параметры измерялись и вводились в память ЭВМ каждые 20 мс.) На первом этапе анализа определялась (по динамике параметров первичного описания) макро-временная структура фразы и слов. Полученная грубая структура кодировалась и вместе с данными о положении локальных максимумов скорости изменения значений параметров первичного описания служила основой для получения посегментного (кваэифонетичес-кого) описания слов во фразе. В результате каждое слово фразы представлялось в виде матрицы чисел Ц3'17! > W l•/•л-номера соответственно признака, сегмента в слове и слова во фразе.
Процесс распознавания слов начинался с выбора эталонов -претендентов, идентичных входной реализации, и кодов макровре-ненной структуры и отличных от нее числом квазифонетичвских сегментов на величину не более заданного порога. Наиболее вероятные пары гипотез о слове принимались методом динамического программирования. При этом учитывались лексические ограничения на место слова во фразе. Далее блок семантико-синтаксического анализа принимал решение об истинной последовательности слов во фразе. При работе с шестью операторами и обучении системы на каждом из них надежность распознавания слов составила 8836,а надежность распознавания фраз за счет блока лингвистического анализа - 95%. Точность верификации диктора по произвольной фразе - 96%. Система устойчива к внешним шумам до 65 дБ.
Другая система, разработанная в Институте систем управления АН ГрузССР,способна работать при более высоком урочне шумов (до 100 дБ и выше) СЗб]. Основной особенностью этой системы распознавания фраз, произносимых с паузами между словами, было наличие комплекса помехозащищенных датчиков, который обеспечил приемлемое отношение сигнал/шум на входе системы распознавания. В качестве приемника речевой информации применялся ларингофон ЛЭМ-3, а также дополнительные помехозащитные признаки устной речи, в качестве которых использовались артикуляционные характеристики ре-чеобразования. Бесконтактные датчики позволяли выделять:
- признак, отражающий изменение величины раствора ротовой щели во время произнесения неогубя°нных звуков;
- признак степени огубяения;
- признак скорости воздушного потока у потового отверстия [42].
Зак.480
17
Изучение свойств речевого сигнала в пространстве выбранных признаков позволило разработать процедуру описания слов, обеспечивающую восстановление как макровременной (имеется в виду пос-хедовательность звонких и глухих участков, а также пауз),так и квазифонемной структуры речи. При испытании систем [ЗЬ,??] выявилась высокая точность распознавания фраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающей малым объемом оперативной памяти и слабым быстродействием, из-за чего время распознавания фраз было в 30 - 50 раз больше реального.
В ранках традиционного аппаратурно-программного направления автоматического распознавания речи ведутся работы в ВЦ и Институте проблем передачи информации АН СССР [13,67,6?] .В основе метода лежит алгоритмическая обработка выделяемых специальной аппаратурой информативных параметров коротких отрезков речевого сигнала (сегментов длительностью 10-20 мс). Последовательность этих отрезков и составляет высказывание, которое требуется дешифрировать. Параметры (признаки) сегментов характеризуют (в большей или меньшей степени) параметры речеобразующего тракта человека, определяющие особенности порождаемых звуков.
В Cl3] рассмотрены алгоритмы распознавания названий чисел от нуля до ста, причем система предусматривает реальное время распознавания и произвольного диктора. Алгоритм распознавания двухступенчатый и состоит из блоков распознавания и подтверждения фонетической структуры (верификации). Если гипотезируемое слово не подтверждается (блоком верификации), то входная реализация сравнивается с другими словами, близкими к ней в пространстве признаков, или подается сигнал переспроса. При распознавании двухсловных сочетаний второе слово анализируется с конца в направлении к его началу. Варианты произношения, на основании которых создавался алгоритм, исследовались на материале около 2200 реализации названий чисел, произносимых 20 дикторами. В результате анализа получены варианты произношения двузначных чисел. Многие из них произносятся сравнительно единообразно и различаются степенью редукции безударных гласных, степенью аффрицирова-ния мягких взрывных, наличием или отсутствием смычек перед аффрикатами и т.д. В других числах может существенно нарушаться фонетическая структура, пропуски отдельных согласных.В условиях, когда возможно множество вариантов произнесения, алгоритм должен использовать лишь наиболее употребительные варианты, в которых сохраняются "оперные" звуки - ударные гласные, щелевые, взрывные, а также начальные и конечные звуки.
I&
В OS?] рассмотрено использование речевого Управления в подсистеме АСУП на базе мини-ЭВМ. Аппаратурно-программная система, разработанная в Львовском ордена Ленина государственном университете им. И.Франко, уже эксплуатируется. Система использует мини-ЭВМ ЕС-1010 в режиме реального времени и параллельной работы около 90 производственных задач. Это налагает жесткие условия на объем оперативной памяти, используемой для программ обработки речевого сигнала (всего 10 Кбайт). Словарь системы 40 слов, которые могут быть организованы в командные фразы (5 слов во фразе). Используется девять типов запроса, примерами которых могут быть: "оперативная сводка выпуска", "ресурсы смены", "выходные характеристики участка первой настройки" и т.п. Из-за жест-' ких ресурсов памяти система ориентирована на работу с одним диктором, сформировавшим свои эталоны и имеющим свой пароль. Работа системы в помещении машинного зала с уровнем шумов 68-75 дБ показала надежность распознавания фраз, превышающую У0%, а после переспроса - более 9Ь%.