Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 38
Текст из файла (страница 38)
3.21. Оценка огибающей спектра методом сглаживания кепстра. а — кепстрьг для последовательных отРезков Речевого сигнала; б — графики логарифмов фдектра и графики логарифмов огибающей, подученные методом сглаживания кепстра гпо Шаферу и Рабинеру). Глава 3 168 цифровая обработка речевых сигналов 169 ЬГп Т) 'Л Время — ч сгп Т) в~а Т) с1п Т) Время — з сСпТ) (3.32) Звонкая /ахая рече рвчу' Рис. 3.22, Блок-схема гомоморфной системы анализа — синтеза. а — структура анализатора; б — структура синтезатора. импульсным откликом (полученным из начального участка кепстРа) и дает синтезированный речевой сигнал на выходе. В анализаторе речевого сигнала кепстр вычисляется по логарифму модуля спектра, в силу чего оп является четной функцией.
Если в синтезаторе для расчета импульсного отклика голосового тракта берется симметричный набор значений кепстра, то и полчающийся отклик будет симметричен, т. е. будет иметь нулевую (или линейную) фазу. Импульсный отклик можно вычислить и по-другому, пользуясь формулой (3.30), что дает функцию с минимальной фазой. Блок-схема синтезатора изоб ис. 3.22 б. П рис, . Прослушивания, проведенные в рабочем порядке, подтвердили, что при синтезе с минимальной и нулевой фазами получаются практически неразличимые результаты.
В целом же синтез с нулевой фазой выполнить проще, так как преобразование урье от четной последовательности является действительной. Очевидно, что вид аппаратурной реализации гомоморфной системы анализа — синтез — синтеза во многом определяется устройством выя урье. настоящее числения кратковременного преобразования Ф ье. В время в наиболее перспективных типах такой системы для выполнения спектрального анализа применяют устройства с зарятезато ов пост довой связью [39].
Некоторые модификации анализато ров и синнит р в, построенные на базе таких приборов обладают о ельными возможностями. В одной из модифика и, вместо сглаживания логарифма преобразования Фурье путем сглаживания кепстра можно использовать фильтрацию этого логарифма с помо ью фи щ ф льтра нижних частот, имеющего конечную импульсную характеристику. Тогда при анализе и синтезе речи требуется выполнять только по одному преобразованию Фурье.
3.6. Анализ— — синтез методом линеиного предсказания ак альтернативу способа получения информации о голосовом щ лаживания спектров, проиллюстрированного на примере процедуры анализа в гомоморфной системе или в р ф льтров, можно рассмотреть подход, основанный на оценке параметров модели') голосового тракта. В каче- голосового одели можно взять модель, в которой характер тракта описываются с помощью передаточной функции р еристики в виде рациональной дроби " Такой по хо и д.
и ногда называют отождествление и м модели. — Прим. перев. 170 Глава 8 Цифровая обработка речевых си налов 171 Импульсная характеристика о(п), соответствующая Н(г), удов.летворяет разностному уравнению л о (п) =6 о (и) + '~а о (и — Й) 1=1 (3.34) При этом параметрами, описывающими голосовой тракт, являются коэффициенты числителя и знаменателя и масштабный множитель 6. В общем случае импульсный отклик (или частотная характеристика), соответствующий передаточной функции (3.32), является нелинейной функцией коэффициентов числителя и знаменателя. Следовательно, при оценке этих параметров для отрезка речевого сигнала в общем случае необходимо решать систему нелинейных уравнений.
В частном случае, когда порядок многочлена в знаменателе равен нулю, определение параметров по критерию минимальной средней квадратической ошибки сводится ,к решению системы линейных уравнений. В случае, когда правая часть формулы (3.32) является дробной функцией, т. е. порядок числителя равен нулю (что соответствует модели, имеющей только полюсы), определение параметров модели также сводится к ре.шению системы линейных уравнений, получаемых из условия минимизации средней квадратической ошибки, возникающей в процессе обратной фильтрации. Отрезки речевых сигналов, конечно, имеют достаточно сложный вид, и не следует ожидать, что их можно точно описать моделью, такой, например, как (3.32), и тем более упрощенными моделями, имеющими только нули или полюсы.
Однако, как было указано в разд. 3.2, важной особенностью передаточной функции голосового тракта является то, что она в основном характеризуется резонансами, которые в свою очередь хорошо представляются с помощью полюсов. Поэтому логично ожидать, что многие важные характеристики передаточной функции голосового тракта сохранятся при использовании модели только с полюсами. Данный раздел будет полностью посвящен методике моделирования голосового тракта с помощью дробной передаточной функции (содержащей только полюсы). Такой метод расчета обычно называют линейным предсказанием [68, 70, 82, 83]. В разд.
3.7 положения данного и предшествующего разделов будут распространены на случай моделировавния речи с применением передаточной функции, имеющей как полюсы, так и нули. Сначала рассмотрим задачу оценки параметров модели только с полюсами, если импульсная характеристика известна. Пусть Н(г) — дробная передаточная функция (т)1лько с полюсами), имеющая вид Н (г)=6 1 — ~ а),~- к=! или при и ) 0 Р о (и) = ~ а,,о (п — !г), Таким образом, при п)0 характеристика о(п) представляет собой линейную комбинацию р своих предыдущих значений (т. е.
может быть линейно предсказана по ним). Если моделируемые данные точно соответствуют импульсному отклику фильтра только с полюсами, то соотношение (3.35) будет удовлетворяться точно. б е В противном случае линейная комбинация предыдущих значе и н й удет давать только некоторое приближение к о(п).
Обозначим это приближение через р(п), причем Р р(и)= ~а,р(и — lг), и) О, (3.36) )г=-! а получающаяся при этом ошибка е(п), называемая иногда остатком, равна (3.35) е (п) = р (и) — о (и) = ~ (и) — ~ а,р (и — Уг) . (3.37) Если прогнозируемые коэффициенты а), выбираются из условия минимума среднего квадратического значения ошибки, то их можно определить путем решения системы линейных уравнений. В частности, рассмотрим полную среднюю квадратическую ошибку, задаваемую в виде а (а) — ~~ а,а (а — Й) ~ !.' ! Ю вЂ” 1 Х вЂ” 1 Е = ~ е'(и)= и — 1 и =-1 (3.38) где ве хний де верхний предел Ж вЂ” 1 определяется длиной имеющегося отрезка сигнала.
Параметры а), можно найти, положив ест =О, г=1,2,...,р, а; что дает систему уравнений (3.39 ) Р ~~~а)Ят),=%;о, 1=1, 2,..., Р, )г =-1 (3.40а) где (3.40б) (3. 4 Т) к — ! Ф вЂ” 1 ч),. = ~"„о(и — 1) о(и — lг). и — ! одставляя в уравнение (3.38) выражение (3.40), получим формулу для средней квадратической ошибки Ет. а Ет= 11)„— ~ а~14,.
173 Цифровая обработка рсасвыт сигналов Глава 3. !72 В дополнение к прогнозируемым коэффициентам в формуле (3.34) необходимо задать масштабный множитель 6. Ниже схематично описан один из возможных способов его выбора. Если характеристика о(п) известна при любых и, то в сумме (3.38) верхний предел, равный М вЂ” 1, можно положить равным бесконечности, и соотношение (3.406) будет тогда иметь вид Й=О, 1,2,...,р, Р,„= '~ ', О (И вЂ” 1) О (и — Й), а=1 ~=1,2,...,р. (3.42) '> Следует иметь в виду, что коэффициенты ср;д являются коэффициентами автокорреляции только при ~, А)0 и если 1 и А не равны нулю одновременно. Поскольку о (и) =0 при п(0, коэффициенты ~р;ь определяемые формулой (3.42), являются коэффициентами автокорреляции последовательности о(и)11.
Если имеется только конечный отрезок импульсной характеристики о(п), то верхний предел в сумме (3.40 б) следует выбирать так, чтобы в сумму входили только известные значения о (и). В этом случае коэффициенты ср11, уже не являются коэффициентами автокорреляции. В приведенных рассуждениях предполагалось, что имеется конечный отрезок импульсной характеристики о(п). При моделировании речевых сигналов с помощью модели, имеющей только полюсы, исходными данными являются речевые колебания, соответствующие свертке импульсного отклика голосового тракта с возбуждающим сигналом. Из этих данных нужно найти коэффициенты срил уравнений (3.40) . Обычно применяются две процедуры.
В одной из них, называемой автоковариационным методом, в качестве аппроксимации конечного отрезка о(п) берут отрезок з(п) длиной в период основного тона (или другой конечной длины) и находят коэффициенты а1, с помощью системы уравнений (3.40) ~70]. Во втором методе отрезок длиной в несколько периодов основного тона взвешивают с помощью гладкой функции ~73]. Поскольку требуются небольшие значения аргумента, то автокорреляционная функция взвешенного отрезка речи может служить аппроксимацией автокорреляционной функции импульсной характеристики о(п) голосового тракта.
Таким образом, коэффициенты автокорреляции взвешенного отрезка речи непосредственно применяются в качестве коэффициентов сра, в системе (3.40). По вполне очевидным причинам этот метод обычно называется авто- корреляционным методом. В любом из двух методов процедура анализа применяется к последовательным отрезкам речевого сигнала, так что коэффициенты модели непрерывно обновляются, что отражает изменение характеристик голосового тракта с течением времени. Автокорреляционный и автоковариационный методы применяются для анализа речи, однако первый метод используется ~ а Л (т — Й) = Р (1) т.