Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 34
Текст из файла (страница 34)
В формантном синтезаторе, изображенном на рис. 3.5, предполагается, что передаточная функция голосового тракта описывается только полюсами, т. е. она не имеет нулей-антирезонансов. На самом же деле в спектрах звуков появляются нули. Это обусловлено влиянием носовой полости, когда мягкое небо открыто для носовых звуков типа т или же когда язык делит голосовую полость на две слабо связанные полости, как для звука 1 ~13, 16]. В некоторых формантных синтезаторах имеется цепь для создания нулей частотной характеристики, но часто эффекты, связанные с влиянием этих нулей, могут имитироваться подстройкой ширины полосы первой форманты.
Речевые синтезаторы — аналоги акустической трубки основаны на аппроксимации голосового тракта набором соединенных отрез- 10 — 359 147 Цифровая обработка речевых сигналов 146 Глава 3 +уг Фы Плаи<а1ь свчвния Ащ (3.2) г з ~ дЧ~с~~атттсг, ко (3.4а) (3.4б) (3.1) 1О' ков акустических трубок, имеющих одинаковую длину (рис. 3.7) [4, 21, 83].
Обычно предполагается, что звук, распространяющийся в каждом из отрезков, можно рассматривать как плоскую волну и можно пренебречь потерями в отрезке, влиянием носового тракта и связью голосовой щели и голосового тракта. При таких предположениях анализ модели акустической трубки становится сравнительно несложным и приводит к структуре фильтра, параметры которого меняются в соответствии с изменениями парамет- о 'ч -~г ~~ — г~ — д6 Рис. 3.6.
Сравнение частотных характеристик аналогового и цифрового фильтров с пятью полюсами и простой акустической трубки (по Гоулду н Рабинеру). А — акустическая трубка; Б — цифровой фильтр, ополюсов, 10 кгц;  — аналоговый фильгр, о полюсов. ров акустической трубки. В частности, согласно работе Маркела и Грея (83], состояние акустической полости можно описать с помощью давления или объемной скорости воздушной струи как функций времени и расстояния вдоль трубки. Внутри каждого отрезка эти величины можно представить в виде комбинации прямой и обратной бегущих волн, причем прямая волна соответствует прохождению звука от голосовой щели к губам, а обратная — от губ к голосовой щели.
Если обозначить через и (х, 1) объемную скорость в т-м отрезке (х=О соответствует середине отрезка), то и (х, 1) можно представить как и„!х, !1=и„(! — — )+и (!.~ — ), где и и и обозначают соответственно прямую и обратную бегущие волны, а с — скорость звука в воздухе. г 1 1 1 1 1 1 1 1 Я-/1- — — — — — — — — — — 1т 1 — — — — -! 1 1 О1 1 1 ! 1 1 Рис. 3,7.
Представление голосового тракта набором соединенных трубок одина- ковой длины, но различного сечения. Давление р (х, ~) в т,-м отрезке также выражается через объемные скорости прямой и обратной бегущих волн: р (х, ~)= ~ и,„1 — — ~-и,„1+— где р — плотность воздуха. Прямая и обратная волны в каждом отрезке должны быть взаимосвязаны так, чтобы объемные скорости и давления на границах между отрезками были непрерывными.
В силу этого на границах часть прямой волны излучается в следующий отрезок, а часть отражается назад в виде обратной волны. В каждом отрезке аналогичное утверждение справедливо и для обратной волны. Коэффициент отражения 1г волн на границе между отрезками с номерами т и т,— 1 равен (3.3) А, +А„, где А и А ! — площади поперечного сечения т-го и (т,— 1)-го отрезков соответственно. Обозначив длину отрезка через 1 и наложив условие, что объемные скорости и давления на границах отрезков непрерывны, получим и 1(~+т)=р и 1(1 — -.)+(1+р ) и (1 — т), и,„(1 + т) = (1 — р.,„) и 1 (~ — т) — р.,„и+,„(~ — т) где т, равное 1/2с, соответствует половине времени пробега волны от одного конца отрезка до другого. Основываясь на соотношениях (3.4а) и (3.4б), связь между прямыми и обратными волнами потока можно выразить с помощью 148 Глава 3 149 Цифровая обработка речевых сигналов Ч+(( т),иод ~ м г ~п г( 1 1 1 и и+т) „' = —- 'и,, т((-т) ц„,г(( т)! птпотопни г ооаемнпй ее 1 ж-й ппт-' ! резпк (т-Зйпп~ппзпк ППОИ4ПППЮ ППОЩБЙЮ Ал, т ''4т гт /упек.
(олдспопе имело р Атг-/-~~ит Лог,+Я, ю Я(ю, п) = ~ з(Й) Ь(п — Й) е — )"'. (3.5) Рис, 3,8, а — два отрезка акустической трубки из модели рнс. 3.7, на которых показаны прямые и обратные волны; б — направленный граФ, описывающий соотношение между ~прямыми и обратными волнам~и (по Маркелу и Грею), линейного направленного графа. На рис. 3.8,а показаны два соседних отрезка модели акустической трубки, а на рис. 3.8, б— соответствующий линейный направленный граф, связывающий прямую и обратную волны.
Линейный направленный граф, описывающий соотношение между прямыми и обратными волнами модели акустической трубки, изображен на рис. 3.9. Предполагается, что на конце трубки, моделирующем губы, давление равно нулю, а также что со стороны голосовых связок 1М вЂ” 1)-й отрезок соединен с источником воздушного потока, обладающим некоторым сопротивлением, которое может быть описано коэффициентом отражения на этом конце цм.
Данный граф можно интерпретировать как схему цифрового фильтра, если считать, что время задержки в каждом отрезке, равное 2т=1/с, соответствует единичной задержке в цифровом фильтре. Келли и Лохбаум [211 первыми рассмотрели применение модели, подобной приведенной на рис. 3.9, для синтеза речевых сигналов. Ряд вариантов этой структуры, дающих выигрыш в числе умножений, длине слов (разрядности чисел) и т. п., предложен Маркелом и Греем 1831.
Вышеприведенный материал представляет собой введение в синтез речевых колебаний. В нескольких последующих разделах в рамках систем анализа — синтеза рассматриваются другие схемы синтезаторов. Как будет показано в разд. 3.6, синтезатор— аналог акустической трубки хорошо согласуется с определенной процедурой анализа — синтеза, называемой обработкой методом линейного предсказания. Рис. З.9.
Линейный направленный граф, описывающий оо нощ мой и обратной волнами в модели акустической трубки, приведенной на рис. 3,7 (по Маркелу и Грею). 3.4. Спектральный анализ на коротких интервалах времени и синтез речи В разд. 3.2 было показано,чтовчастотной области спектр коротких отрезков речевого сигнала можно представить в виде произведения огибающей, характеризующей состояние голосового тракта, и функции, описывающей тонкую структуру, которая характеризует возбуждающий сигнал.
Поскольку основным параметром сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосо~ного тракта с достаточной полнотой определяются частотами формант, то при анализе весьма удобно исходить из представления речи в частотной области. При создании разных звуков форма голосового тракта и возбуждающий сигнал изменяются. При этом изменяется и спектр речевого сигнала. Следовательно, спектральное представление речи должно основываться на кратковременном спектре, получаемом из преобразования Фурье.
Рассмотрим дискретизованный речевой сигнал, представленный последовательностью з(п). Его кратковременное преобразование Фурье 5(со, и) определяется как Таким образом, оно описывает преобразование Фурье взвешенного отрезка речевого колебания, причем весовая функция л,(п) сдвигается во времени, как показано на рис. 3.10. Есть два распространенных способа выполнения кратковременного спектрального анализа согласно соотношению (3.5). Первый способ осуще- 150 Глава 3 151 Цифровая обработка речевых сигналов (3.9) получим .2с — 1 — гй (3.10) 5,(и) = ~ з (Уг) й (и — Уг) е ~вп е Мп-И Г м,п) 5(о), и)=~я (и) е — 1"'"] ~ и (и), (3.6) т — - 1 тЛ' ыл Ыа1,П~Е' или 1тп (з (и) 1и (и) в~"п1~1 (3.8) (3.
13а) ствляется с,помощью набора фильтров, что является типичным приемом реализации анализатора, если спектральный анализдолжен производиться с помощью аналоговой системы. При вычислении кратковременного преобразования Фурье цифровыми методами может быть применен алгоритм быстрого преобразования Фурье (БПФ) или же гребенка цифровых фильтров. Чтобы пояс- ЬЮ Рис. 3.10.
К выполнению кратковременного фурье-анализа. нить, как выражение (3.5) связано с характеристикой гребенки цифровых фильтров, заметим, что оно соответствует свертке весовой функции Ци) с сигналом з(и), промодулированным колебанием е ~"", т. е. где знак * обозначает свертку. Таким образом, 5(в, п) может быть получено с помощью системы, изображенной на рис. 3.11. Другой вариант построения гребенки фильтров получается, если формулу (3.5) переписать в виде М 5(го, и)=е — 1"и ~ з (/г) й (и,гг) е1'"1п — я) (3.7) Фильтр с импульсной характеристикой гг(и)е1"" является полосовым с центральной частотой о.
Система, описываемая равенством (3.8), изображена на рис. 3.12. Выбор между системами, представленными на рис. 3.11 и 3.12, в основном определяется соображениями удобства. В первом случае используется цифровой фильтр нижних частот с импульсной характеристикой и(и), а входной сигнал модулируется с частотой, зависящей от значения н, при котором нужно измерить 5(о), и). Система рис. 3.12 более удобна для параллельного измерения 5(о), и) на нескольких частотах о.
Оценку кратковременного преобразования Фурье на равноотстоящих частотах о),=2лг/У, с=0,1, ..., У вЂ” 1, можно получить с помощью алгоритма БПФ. В частности, обозначая отсчеты 5(о), и) через 5„(и), так что 5,(и) =5(о)„, и), рис. 3 !1. Система для определения кратковременного преобразования Фурье.
С помощью замены переменных А=1+и соотношение (3.10) мож- но переписать в виде ,2с "с — 1' — и 11+и) л — с , 2п ,2п — 1' — пп — — 1г =е " ~ з(~+и)й( — 1)е 1 Суммирование в (3.11) можно сначала провести на интервалах длиной У, а затем просуммировать частичные суммы, так что .2.
. 2,. — 1' — пп - тХ+Ю вЂ” 1 — 1' — 1п 5,(и)=е ' ~ ~ з(1+и)Ь( — ~)е ' . (3.12) Рис. 3.12. Другая система для нахождения кратковременного преобразования Фурье. Заменив переменные во внутренней сумме и используя периодич. 12л~ ность комплексной экспоненты ехр( — 1 ~ — )1г), равенство (3.12) можно привести к виду ,2п ,2п — 1' — пп Х вЂ” 1 — 1' — гй 5,(и) =е " ~ я(Й, и) е я=о 153 Цифровая обработка речевых сигналов 152 Глава 3 в1'Е+ И) (3.14) 1: — / —; й-' Я(ы„и)=е ' [д„(А) . е (3.16а) где ~с — ! —, /г-' д„(Й) = з (Й) Ь (и — Й) е .