Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 32
Текст из файла (страница 32)
81оскЬагп Т., ТЬе Арр11са!!оп о! Оепега!!хек 1лпеаг!!у 1о Ац!огпа1!с Оа!п Соп1го1, 1ЕЕЕ Тгапк Аиро Е1ссггоасоиэйсэ, А$.1-16, 1968, 267 — 270 (1968). 121. Веггпап !., 1 оцбэреакег Еча1ца1!оп 1!э!пд Р!8;!!а! ТесЬпщцеэ, Ргос. 5й Сопчеп1!оп о! йе Ацйо Епрпеег!пд 8ос1е1у, 1.опг)оп, Маг. 4, 1975.
122. Г1псЬагп 1., 1.оцдэреакег 8уэ(егп 8!птц1а!1оп 1!э!пд Р!д!1а! ТесЬпщце, Ргос. 5й Сопчеп!!оп о! 1Ье Ацйо Епрпеег!пд 8ос!е!у, 1.опдоп, Маг. 4, 1975. .123. КаЬ1пег 1., бо16 В., ТЬеогу апд Арр!!са1!оп о! Р!д11а! 5!дпа! Ргосеээ!пд, Ргеп1!се-На!1, Епд1е~чоой С1!!Ь, Ь!. д., 1975, рр. 565 — 571. [Имеется перевод: Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов.— Мл Мир, 1978.] 124. КоЬ1пэоп Р., Радэоп К., А Ке-бе!еггп!па!!оп о! йе Ес(ца! 1оцдпеээ Ке!а!!опэ 1ог Рцге Топеэ, ВгИ. 1. Арр1.
Р(туз., 7, 166 — 181 (1956). 125. КоЬ!пэоп С., Ро!!аск 1., 1п1егас1!оп ВеМееп Гогъ.агд апд ВасЬъ.агс! МаэЫпр;: А Меавцге о! 1п1е~та1!пд Рег!од о! йе Ацй!огу 8уэ1епт, У. Асоиэ1. 5ос. Атег., 53, 1313 — 1316 (1973). 126. 8!оскЬагп Т., частное сообщение, 1976. 127. Еаэ(оп К., 8оцпдэ1геагп — ТЬе Г!гэ1 Р1~!!а! 81цйо, гесогйпр; ецио!пеег/ргодцсег. 128. Ваггоп М. Г. Е., ТЬе Е!!ес1э о! Еаг1у Ке!1ес1!опэ оп 8цЬ)ес1!че Асоцэ(!са! Яца!11у !и Сопсег1 На11, йеэ!э 1ог !Ье РЬ.
Р. дерущее, 1!п!чегэ!1у о! 8оц1- Ьагпр1оп, 8оц!Ьагпр1оп, Епд1апд, 1974. 129. Вегкои!х К., Мс1п1оэЬ Р., А 16-СЬаппе! Ргодтагпгпед Бе!ау Ь!еМогК 54й Сопчеп!!оп о! йе Ацд!о Епд!пеег!пд 8ос!е1у, 1.оэ Апде1еэ, Мау 1976. 130. Ь!огпо!о 1., 1жаЬага М., Опоуе Н., А ТесЬпщце 1ог ОЬэегч!пд 1.оцдэреа1сег .Юане Ггоп1 Ргорада(!оп, У. АисБо Епд.
5ос., 24, 1, 9 — 13 (1976). 131. 1.ечу А., Рге1пп1пагу Н!р Ь 1лпеаг Репа!(у Кесогйпд 8!цду: РЬаэе 11 — РцэЬ!пд йе 1лгп11э, 1п!егпа1 Мегпогапйпп, Ве11 апд Но~че11, 1975. Методы обработки речевых сигналов активно развивались в течение нескольких десятилетий применительно к широкому кругу задач — от техники связи до читающих автоматов ~4]. Вплоть до середины 60-х годов почти все системы, предназначенные для обработки речевых сигналов, строились в виде аналоговых устройств. Вместе с тем в этот же период было создано несколько систем на базе универсальных цифровых вычислительных машин.
Однако такие системы обычно моделировали работу аналоговых устройств в произвольном масштабе времени и основывались на алгоритмах, приспособленных к существующей аналоговой аппаратуре 141~. Гибкость, присущая цифровым вычислительным машинам, естественным образом привела к постановке экспериментов с более сложными алгоритмами, хотя заранее было ясно, что на практике такие алгоритмы невозможно реализовать в виде аналоговых устройств.
По мере развития методов цифровой обработки сигналов как за счет расширения возможностей цифровой аппаратуры, так и за счет создания новых алгоритмов становилось все более очевидным, что цифровые методы и аппаратура должны существенно повлиять на процессы обработки речевых сигналов.
Многие усовершенствования техники цифровой обработки сигналов были внедрены в системы обработки речевых сигналов отчасти потому, что полосы частот, характерные для речевых сигналов, хорошо согласовывались с быстродействием имевшихся машин. В последнее время наблюдается тенденция к внедрению цифровой обработки сигналов в системы обработки речевых сигналов; почти все современные системы обработки речи хотя бы частично основаны на цифровых алгоритмах обработки сигналов. Задачи, связанные с обработкой речевых сигналов, можно разделить на три класса. К первому классу относятся задачи, свя- '> А. Ч. ОррепЬепп, МаээасЬцэе11э 1пэ1!1ц1е о! ТесЬпо1оду, СагпЬгЫ 1е., Мавэ. 02139.
Ци4ровая обработка .речевых сивналов 139 Глава 3 138 занные с анализом речи. Например, в автоматических системах распознавания речевых сигналов исходным является речевое колебание, на основе которого принимается решение. Другими примерами, в которых требуется только анализ речи, служат опознание и подтверждение личности по голосу. Задачи, входящие во второй класс, связаны только с синтезом речи, когда, например, па вход читающей машины подается печатный текст, а с выхода снимается речевой сигнал.
Задачи такого типа встречаются в информационных системах. Иногда желательно получить информацию из машины в словесной форме, например обращаясь к машине по обычному телефону. Подобная система позволяет врачу с большого расстояния иметь доступ к историям болезней, хранящимся в центральной вычислительной машине. В задачах третьего класса сначала выполняется анализ речевого сигнала, а затем следует его синтез. Примерами могут служить системы передачи речевых сигналов с засекречиванием и системы сжатия полосы речевого сигнала. Если речь передается с применением дискретизации сигнала во времени и квантования, то требуется скорость передачи информации порядка 90000 бит!с.
Применяя анализ речи с последующим кодированием, передачей и синтезом в приемнике, эту величину (в зависимости от вида системы и требуемого качества синтезированной речи) можно уменьшить в 10 — 50 раз. Еще одним примером систем анализа— синтеза являются системы накопления — выдачи речевых сообщений, такие, как автоматический секретарь в телефонной линии.
В системе накопления — выдачи речи анализ сообщения может выполняться в произвольном масштабе времени, а результаты анализа запоминаются в памяти вычислительной машины. Прп формировании требуемого словесного ответа эти результаты используются для управления синтезатором речи. Другими примерами задач третьего класса являются растяжение и сжатие речевых сигналов во времени и улучшение низкокачественных записей речи. Методы цифровой обработки речевых сигналов в общем можно разделить на два больших класса [10~. В одном из них используются такие же способы кодирования колебаний, как и для произвольных звуковых сигналов.
К ним относятся импульсно-кодовая модуляция (ИКМ), дельта-модуляция (ДМ), дифференциальная импульсно-кодовая модуляция (ДКИМ) и другие. Во всех перечисленных способах предполагается, что ширина спектра сигнала ограничена и никаких других предположений о сигнале не делается. Методы обработки, относящиеся к другому классу, в большей мере связаны со структурой речевых сигналов. Они основываются на моделировании органов речи линейной системой с медленно изменяющимися параметрами, возбуждаемой соответствующим сигналом.
В гл. 2, где рассматривались акустические сигналы общего вида, были описаны некоторые методы цифровой обработки сигналов, не связанные с речью. Данная глава посвящена методам обработки, применяемым к речевым сигналам. В разд. 3.2 рассмотрена упрощенная модель образования речевого сигнала. Хотя такая модель и является в некотором смысле чрезмерно упрощенной, она послужила основой для многих систем обработки речи и в общем полезна для изучения многих важных свойств речевых сигналов.
3.2. Модель речевого сигнала Методы анализа и синтеза речевых сигналов можно рассматривать с помощью модели, в которой речевой сигнал является откликом системы с медленно изменяющимися параметрами на периодическое или шумовое возбуждающее колебание [13, 4]. По существу речеобразующий механизм (голосовой тракт) является акустической трубкой, возбуждаемой соответствующим источником при создании желаемого звука.
Для звонких звуков источнику возбуждения соответствует квазипериодическая последовательность импульсов, представляющая поток воздуха, протекающий через колеблющиеся голосовые связки. Фрикативные звуки образуются при проталкивании воздуха сквозь сужение голосового тракта. При этом получается турбулентный поток, который является источником шума, возбуждающего голосовой тракт. Разрез голосового механизма показан на рис.
3.1. Пример речевого сигнала, содержащего звуки обоих видов, приведен на рис. 3.2. Как упоминалось выше, речевой сигнал можно промоделировать откликом линейной системы с переменными параметрами (голосового тракта) на соответствующий возбуждающий сигнал.
При неизменной форме голосового тракта выходной сигнал равен свертке возбуждающего сигнала и импульсного отклика голосового тракта. Однако все разнообразие звуков получается путем изменения формы голосового тракта. Если форма голосового тракта изменяется медленно, то на коротких интервалах времени выходной сигнал логично по-прежнему аппроксимировать сверткой возбуждающего сигнала и импульсного отклика голосового тракта. Такая модель вместе с временными и соответствующими частотными характеристиками для звонкого звука приведена на рис.3.3. Из примера со звонким звуком видно, что если на коротком интервале времени входной сигнал является периодическим с постоянной основной частотой, то и выходной сигнал является периодическим.
Систему можно рассмотреть и в частотной области Преобразование Фурье речевого сигнала равно произведению преобразований Фурье возбуждающей функции и импульсного отклика голосового тракта (рис. 3.3, б). Глава 3 '140 г г ~ т -т Г ! .л Л 1 ~ !. ! г ! 1 ! ! ! !, ! ! ! л ь ~ 1 ! 1 — г Г т ! ! ! 1 ХГб=аЮ УЮ е(О Ййшы Уй4 ЕйИ Рис, 3.1. Разрез голосового механизма (по Маркелу и Грею).
В частности, спектр, соответствующий периодическому возбуждающему сигналу, является линейчатым. Интервал между соседними линиями спектра равен 2и!Т, а форма огибающей спектра определяется формой воздушного импульса, выходящего из гортани. Частотная характеристика голосового тракта является сравнительно гладкой функцией частоты; поскольку голосовой тракт представляет собой полость, то в первую очередь он характеризуется акустическими резонансами, соответствующими резонансным частотам этой полости, которые обычно называются формантными частотами. Спектр речевого сигнала образуется перемножением линейчатого спектра возбуждающего сигнала и спектра, соответствующего голосовому тракту, и, следовательно, тоже является линейчатым, а его огибающая характеризует передаточную функцию голосового тракта.