Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 37
Текст из файла (страница 37)
Из определения (3.28) следует, что ~,(п) является четной частью о, (п) и может быть найдена на основе логарифма модуля (е1~), а не из комплексного логарифма, как требует формула (3.20). Можно показать, что Основным следствием данного свойства является то, что для вычисления комплексного кепстра последовательности с минимальн Имеется ряд эквивалентных определений последовательности с минимальной фазой. Обычно удобно полагать, что последовательность такова, если все нули и полюсы ее г-преобразования лежат внутри единичной окружности. 11' Цифровая обработка речевых сигналов 164 Глава 3 165 ной фазой можно обойтись логарифмом действительной, а не комплексной функции. 4.
Пусть о (и) является последовательность|о с неминимальиь ной фазой и имеет преобразование Фурье )т(ер'" ), и ~пусть о,(и) обозначает обратное преобразование Фурье от 1од ~ )т(вр'" ) ~, [т. е. о,(и) соответствует четной части комплексного кепстра последовательности о(и)1. Рассмотрим, наконец, последовательность о„,(и), определенную соотношением о (0) при и=О, 2о„(и) при п ) О, ь1 (и) = 0 при и (О. Тогда р„„(и) является комплексным кепстром последовательности с минимальной фазой о„(и), преобразование Фурье которой равно по модулю преобразованию Фурье последовательности о(и), т.
е. / )у'(е' ) ~ = ~ р'„, (е'" ) ~ . (3. 31) В силу этих четырех свойств приемы гомоморфной обработки оказываются весьма удобными для анализа и синтеза речевых сигналов. Как указывалось в разд. 3.2, короткие отрезки речевых колебаний можно промоделировать откликом линейной системы, возбуждаемой сигналом в виде последовательности импульсов, если звук звонкий, или в виде шума, если звук глухой.
Обычно полагают, что передаточная функция линейной системы, представляющей голосовой тракт, является рациональной функцией, т. е. имеет форму (3.24). Следовательно, согласно свойству 1, комплексный кепстр импульсного отклика голосового тракта имеет вид (3.25) и, в частности, сосредоточен в основном вблизи точки и=О. В случае звонкого звука сигнал, возбуждающий голосовой тракт, определяется формулой (3.26), и, следовательно„его комплексный кепстр описывается формулой (3.27).
Таким образом. комплексный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся через интервал, равный периоду основного тона. Поскольку комплексный кепстр импульсного отклика голосового тракта сосредоточен вблизи и=О, то в случае звонкой речи комплексные кепстры возбуждающего сигнала и импульсного отклика голосового тракта в основном занимают неперекрывающиеся временные интервалы. Тогда значения кепстра, представляющие голосовой тракт, могут быть извлечены из общего кспстра с помощью линейной системы, которая умножает значения„ соответствующие начальным значениям времени, на единицу, а остальные — на нуль.
Пример такого восстановления показан на рис. 3.20. На рис. 3.20,а изображен речевой сигнал в виде отрезка гласного -!О -5 о 5 ю Рис. 3 20. Восстановление речевого сигнала с помощью гомоморфной фильтрации. а — отрезок гласной; б — комплексный кепстр сигнала а; в — выделенная взвешенная последовательность импульсов основного тона; г — восстановленный импульсный отклик голосового тракта, д — 1течево11 сигнал, синтезированный по импульсному отклику г н возбуждающему сигналу. оцененному из кепстра б (по Оппенгейму и Шаферу).
звука, а на рис. 3.20, б — его комплексный кепстр, полученный после умножения сигнала рис. 3.20,а на весовую функцию Хемминга. В комплексном кепстре хорошо виден максимум в точ- у~А гй й ке, соответствующей периоду основного тона. Сигнал воз- ьь буждения (рис. 3.20, в) был получен таким подбором линейного фильтра а схеме рис. 3.19, ито сохранялись 1 Гт только составляющие кепстра, ! Г соответствующие большим значениям времени.
С помощью фильтра, сохранявшего жепстр только при начальных значениях времени, был р получен восстановленный импульсный отклик речевого тракта (рис. 3.20, г). На рис. 3.20, в хорошо просматривается влияние взвешивания сигнала, выполненного перед вычислением комплексного -.*-. а- ° -. -, Л "сь тт" та что импульс, приведенный на Р рис.
3.20,г, действительно является хорошей оценкой им- йрвмя, лус пульсного отклика голосового тракта, была вычислена свертка этого импульса с идеальным возбуждающим сигналом. Таким сигналом служила последовательность импульсов с тем же периодом, какой был у основного тона исходной речи (рис. 3.20, б) .
Полученное искусственное речевое колебание показано на рис. 3.20, д, где хорошо видно его близкое сходство с исходным колебанием. До сих пор в ходе обсуждения предполагалось, что кепстр вычисляется по формуле (3.20), когда сохраняется как амплитудная, так и фазовая информация. Но широко известно, что человеческое ухо нечувствительно к фазе. Пользуясь свойствами 3 и 4 и предполагая, что речевой сигнал на входе является минимальнофазовым, можно вычислить обратное преобразование от логарифма модуля преобразования сигнала.
Если же входной речевой сигнал фактически не является минимально-фазовым (что почти Цифровая обработка речевых сигналов 167 Глава 8 166 наверняка и должно быть), то полученные значения кепстра будут содержать информацию только о величине спектральных составляющих, но не об их фазах. Более популярно можно пояснить механизм восстановления речевого сигнала с помощью кепстров следующим образом. Как уже отмечалось, спектр звонкого звука образуется умножением огибающей, представляющей состояние голосового тракта, на функцию, определяющую тонкую структуру спектра и описывающую возбуждающий сигнал. Тогда логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала.
Логарифм огибающей спектра с ростом частоты изменяется мед.ленно, а логарифм спектра возбуждающего сигнала изменяется быстрее и периодичен. Тогда обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано вблизи начальных значений времени, а обратное преобразование от логарифма спектра возбуждающего сигнала состоит из набора линий, что отражает периодичность его в частотной области.
Чтобы выделить логарифм огибающей спектра из полного спектра логарифма, необходимо сгладить спектр логарифма. Для этого кепстр взвешивают «окном», «открытым» только в начальные моменты времени, т. е. выделяют начальный участок кепстра '[59]. Эту процедуру сглаживания полного спектра логарифма, предназначенную для получения логарифма огибающей спектра речевого сигнала, называют сглаживанием кспстра. Эффект сглаживания кепстра показан на рис. 3.21. Рис. 3.21, а содержит кепстры, полученные для последовательных отрезков речевого сигнала. На рис.
3.21, б изображены соответствующиеграфики логарифмов спектра с наложенными на них графиками логарифмов огибающей спектра, полученными методом сглаживания кепстра. Измерение огибающей спектра методом сглаживания кепстра оказалось полезным для широкого круга приложений. Оппенгейм [61] использовал его как основу системы анализа — синтеза речи, а Шафер и Рабинер [62] — для автоматического измерения параметров формант. В системе анализа — синтеза, основанной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состояние голосового тракта или огибающую спектра речевого сигнала.
Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала. Блок-схема гомоморфной системы анализа изображена на рис. 3.22,а. Параметры возбуждающего сигнала определяются по концевой части кепстра. В частности, в кепстре звонкой речи наблюдаются пики в точках, кратных периоду основного тона. Такие пики хорошо видны на рис.
3.21. В спектре глухой речи эти пики отсутствуют. Следовательно, основными операциями анализатора Хгуусгтры о'уюуууууры у1та,тгтллт, у ~~ д' -Юру~ ~с' сУ возбуждающего сигнала являются: 1) определение наличия (или отсутствия) пиков в концевой части кепстра, что является признаком звонкой или глухой речи; 2) при наличии импульсов— определение местоположения пиков в кепстре с целью измерения периода основного тона [51].
На вход гомоморфного синтезатора поступают начальная часть кепстра и параметры возбуждающего сигнала. В синтезаторе из начального участка кепстра формируется аппроксимация импульсного отклика голосового тракта. На основе параметров возбуждающего сигнала генерируется функция, которая после свертки с Рис.