47370 (665778), страница 3
Текст из файла (страница 3)
Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энергетические затраты важны для приложений в портативной аппаратуре, так как при больших затратах энергии сокращается время между подзарядками батарей или возникает необходимость использовать батареи большей емкости, что, в свою очередь, приводит к большей цене и весу.
При синтезе и исследовании полосных вокодеров и полосных вокодеров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет собой нестационарный случайный процесс с медленно меняющейся дисперсией и спектральной плотностью. При использовании подобной модели можно получить наиболее точный результат оценки качества вокодера.
-
Ортогональные вокодеры
Речевой сигнал можно промоделировать откликом на возбуждающий сигнал линейной системы с импульсной характеристикой
с переменными параметрами, так что выходной сигнал
равен свертке возбуждающего сигнала и импульсного отклика голосового тракта при условии, что форма голосового тракта неизменна.
Все разнообразие звуков получается путем изменения формы голосового тракта. Если форма голосового тракта изменяется медленно, то на коротких временных интервалах аппроксимация выходного сигнала сверткой возбуждающего сигнала и импульсного отклика голосового тракта справедлива. Если на коротком отрезке времени входной сигнал является периодическим, с постоянной входной частотой, то выходной сигнал также является периодическим. Такая модель справедлива для описания звонких звуков. Аналогично временному, преобразование речи может быть описано в частотной области, поскольку преобразование Фурье речевого сигнала равно произведению преобразований Фурье возбуждающего сигнала и импульсного отклика голосового тракта.
Частотная характеристика голосового тракта является гладкой функцией частоты и характеризуется акустическими резонансами, называемыми формантными частотами.
Поскольку при изменении различных звуков форма голосового тракта изменяется, то с течением времени будет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, возбуждающего звонкие звуки, частотный разнос между гармониками спектра будет также изменяться.
Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени.
Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосового тракта достаточно полно определяются частотами формант.
Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременного спектрального анализа.
Рассмотрим основные принципы, положенные в основу построения ортогональных вокодеров.
Запишем кратковременное преобразование Фурье дискретизированного речевого процесса
в виде
21\* MERGEFORMAT (.)
Здесь весовая функция, сдвигаемая во времени.
Соотношение (2.1) может быть переписано в двух формах. Первая форма имеет вид свертки
22\* MERGEFORMAT (.)
где – обозначает свертку.
Реализация (2.2) может быть представлена в виде рис. 2.2,а и означает, что спектр речевого процесса соответствует свертке весовой функции с сигналом
, промодулированным колебанием
.
Другая форма записи (2.1) получается, если ее переписать в виде
23\* MERGEFORMAT (.)
Система (2.3) может быть реализована в виде, представленном на рис. 2.2,б и означает преобразование речевого сигнала полосовым фильтром центральной частотой ω и импульсной характеристикой
.
Реализации, представленные на рис. 2.2,а,б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой , а во втором – полосовой фильтр, что удобно при параллельном измерении
на нескольких частотах ω.
Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах можно записать в виде
24\* MERGEFORMAT (.)
где
Формулу (2.4) можно преобразовать к виду
где
25\* MERGEFORMAT (.)
можно рассматривать как характеристику комплексного ПФ с центральной частотой .
Исходный речевой сигнал можно восстановить, сложив сигналы
на всех выходах гребенки ПФ так, что
26\* MERGEFORMAT (.)
Формула (2.4) является основополагающим уравнением анализа с кратковременным преобразованием Фурье, а формула (2.6) – основным уравнением синтезатора.
-
Гомоморфные вокодеры
В основе гомоморфных вокодеров лежит метод нелинейной (гомоморфной) фильтрации. Общая структура гомоморфных систем, предназначенных для инверсной фильтрации речевых сообщений, представлена на рис. 2.4.
Свойства системы определяется соотношением
, где
и
– Z-преобразования
и
соответственно.
Сигнал на выходе системы обычно называют комплексным кепстром. Система
является линейной, а система
– обратной к системе
.
Удобства подобных преобразований для анализа и синтеза речевых процессов обусловлены рядом свойств комплексного кепстра. В частности: комплексный спектр последовательностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет комплексный кепстр того же вида; для вычисления комплексного кепстра последовательности с минимальной фазой можно обойтись логарифмом действительной, а не комплексной функции.
Выше было показано, что отрезки речевых сигналов могут быть представлены откликом линейной системы.
Так, в случае звонких звуков возбуждаемый сигнал имеет вид последовательности импульсов. В случае глухих звуков возбуждающий сигнал может быть смоделирован в виде шума.
Обычно предполагают, что передаточная функция линейной системы, имитирующей голосовой тракт, описывается рациональной функцией Z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голосового тракта сосредоточен вблизи нуля.
В случае звонкого звука комплексный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и импульсного отклика голосового тракта занимают неперекрывающиеся временные сигналы и могут быть извлечены из общего кепстра с помощью линейной системы L.
Механизм восстановления речевого сигнала с помощью кепстров может быть пояснен следующим образом.
Поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосового тракта, на функцию, описывающую тонкую структуру спектра возбуждающего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала.
Логарифм спектра возбуждающего сигнала изменяется с ростом частоты гораздо быстрее логарифма огибающей спектра. Кроме того, он периодичен. В результате обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано по оси времени вблизи нуля, в то время как обратное преобразование от логарифма спектра возбуждающего сигнала является линейчатым, отражающим его периодичность в частотной области.
Для выделения логарифма огибающей спектра из полного спектра логарифма его «взвешивают» окном, открытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра».
В системе анализа-синтеза, основанной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состояние голосового тракта или огибающую спектра речевого процесса.
Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала.
Таким образом, основная идея гомоморфной обработки заключается в разделении или обратной свертке сегмента речевого сигнала с компонентами, представляющими собой импульсную характеристику и источник возбуждения. Это достигается путем линейной фильтрации обратного преобразования Фурье логарифма спектра сигнала (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в которых осуществляется разделение параметров речи на сигнал возбуждения и параметры речевого тракта, позволяют достигнуть малой скорости передачи и дополнительной гибкости при обработке речи ценой усложнения алгоритмов преобразований.
-
Кодирование с линейным предсказанием (LPC — Linear Predictive Coding). Рекомендации G.728, G.729, G.723
При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. Следует заметить, что буферы, необходимые для хранения потоков данных, увеличивают задержку кодирования.
Первые реализации LPC, такие как LPC-вокодер, были предназначены ля передачи данных на низких скоростях – 2,4 и 4,8 кбит/с. На скорости 2,4 кбит/с обеспечивался приемлемый уровень разборчивости речи, однако качество, естественность и узнаваемость речи недостаточны. Поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов неречевого происхождения, например сигналов модема.
Широко используемый в настоящее время метод кодирования с линейным предсказанием работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия.
Структура синтезатора речи с линейным предсказанием показана на рис. 2.5. Здесь управляющий вход или сигнал возбуждения смоделирован в виде последовательности импульсов на частоте основного тона (для вокализованной речи) или случайный шум (для невокализированной речи).
Комбинированные спектральные составляющие потока от голосовых связок, голосового тракта и звукообразования за счет губ могут быть представлены цифровым фильтром с изменяющимися параметрами и передаточной функцией
27\* MERGEFORMAT (.)
где
Параметрами, характеризующими голосовой тракт, являются коэффициенты знаменателя и масштабный множитель G.
Преобразуя уравнение (2.7) во временную область, можно получить разностное уравнение для импульсной характеристики , соответствующей
:
28\* MERGEFORMAT (.)
Уравнение (2.8) называют разностным уравнением LPC. Оно устанавливает, что текущее значение выходного сигнала может быть определено суммированием взвешенного текущего входного значения и взвешенной суммы предыдущих выходных выборок. Следовательно, в LPC анализе проблема может быть сформулирована так: даны измерения сигнала
, требуется определить параметры передаточной функции системы
.
Линейное предсказание при анализе речевых сигналов обычно используется в двух направлениях. Одно из них – проведение кратковременного спектрального анализа речи. Второе направление – построение систем анализа-синтеза.
Параметры, входящие в функцию предсказания, через формулу (2.7) определяют параметры передаточной функции голосового тракта. Может быть предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (2.7) можно преобразовать в произведение и получить структуру каскадной формы.