Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 40
Текст из файла (страница 40)
Приведенные рассуждения, конечно, не гарантируют, что максимумы спектра получатся на частотах формант. Однако в данном примере эти частоты совпали, и опыт показывает, что чаще всего так и бывает. Линейное предсказание применяют не только для спектрального анализа речевых сигналов. Оно играет важную роль и в системах анализа — синтеза.
Параметры, входящие в функцию предсказания, через формулу (3.33) определяют параметры передаточной функции голосового тракта. При заданных параметрах речь можно синтезировать любым из способов, рассмотренных в разд. 3.3. Предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (3.33) можно преобразовать в произведение и получить структуру ~последовательной (каскадной) формы.
Оба варианта соответствуют синтезатору, воспроизводящему передаточную функцию голосового тракта. Во всех случаях, однако, выявляются трудности одного порядка. Параметры синтезатора непрерывно обновляются при смене анализируемых участков (кадров) речи. Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного участка речи к другому. При прямой форме синтезатора, однако, набор интерполированных значений параметров может соответствовать неустойчивому фильтру, хотя исходные значения относились к устойчивому фильтру. В последовательной (каскадной) структуре устойчивость обеспечивается проще.
Здесь, однако, появляется трудность, связанная с тем, что порядок, в котором расставлены элементарные блоки, должен сохраняться в интервалах между последовательными моментами изменения параметров, что является результатом влияния начальных условий непосредственно перед сменой параметров. Эти трудности не встречаются при использовании синтезированных структур, моделирующих голосовой тракт акустической трубкой. Такие структуры особенно хорошо соответствуют анализу речи методом линейного предсказания.
Существует ряд таких структур, тесно связанных между собой. Несколько неожиданным оказывается, что параметры таких структур получаются в процессе решения по алгоритму Левинсона уравнений, фигурирующих в автокорреляционном методе. В частности,. коэффициенты тс, уравнения (3.51), названные коэффициентами отражения, соответствуют коэффициентам отражения на границах соседних отрезков акустической трубки, имеющих одинаковую длину и неравное сечение, и непосредственно соответствуют коэффициентам отражения ц в структурах рис. 3.8 и 3.9.
Определение параметров возбуждающего сигнала в системе анализа — синтеза с линейным предсказанием обычно основывается на исследовании сигнала ошибки, получаемого пропусканием исходного речевого сигнала через фильтр с характеристикой, обратной той характеристике, которая аппроксимирует передаточную функцию голосового тракта. Полученный сигнал ошибки является аппроксимацией сигнала, возбуждающего речевое колебание. Для определения параметров, возбуждающего сигнала можно применить любой из множества алгоритмов различения звонкой и глухой речи (а также оценки периода основного тона), основанных на анализе сигналов во временной области, например автокорреляционный анализ [56, 83].
Итак, линейное предсказание представляет собой мощное средство для цифрового анализа речевых сигналов. Его возмо;кности очень удачно согласуются с характеристиками речевых сигналов. Кроме того, алгоритмы, основанные на этом методе, являются изящными и эффективными и хорошо соответствуют современному уровню техники в области микропроцессоров и других цифровых устройств. В данной главе были затронуты лишь некоторые из многих аспектов этого метода.
Подробнее эти вопросы изложены в превосходной книге Маркела и Грея [83]. 3.7. Моделирование речи с применением передаточной функции, содержащей полюсы и нули При рассмотрении характеристик голосового тракта и основной модели образования речевых сигналов было отмечено, что голосовой тракт неплохо описывается с помощью рациональной передаточной функции, содержащей полюсы и нули. Полюсы соответствуют резонансам голосового тракта, а нули появляются вследствие таких явлений, как коартикуляция и связь между голосовым трактом и носовой полостью.
Во многих системах анализа и синтеза речи голосовой тракт представляется моделью, передаточная функция которой содержит только полюсы, а явления, обусловленные нулями передаточной функции, учитываются выбором ширины полосы первой формапты. К настоящему времени полностью еще не выяснено, в какой степени для системы анализа — синтеза речи необходимо точное знание количества нулей и их расположения. Неопределенность обусловлена отчасти тем, что не было надежных способов обнаружения нулей передаточной функции. более общем анализе речевых сигналов проводимом например с ! > целью автоматического распознавания высказываний при исследованиях лингвистических аспектов речи и физиологических особенностей ностей ее образования, сведения о нулях спектра речевого сигнала п н ла привлекаются для выявления ряда важных признаков речи.
12' 181 Глава 3. 080 Цифровая обработка речевых сигналов При анализе речевых сигналов методом линейного предсказания с использованием модели, содержащей только полюсы, анализировались взвешенные отрезки речевого сигнала. В силу особенностей метода линейного предсказания как средства спектрального анализа результирующий спектр определялся в основном огибающей спектра речи и в модели с не очень большим числом полюсов не зависел от тонкой структуры спектра речи. В противоположность этому любой из существующих методов исследования нулей спектра очень чувствителен к тонкой структуре спектра.
Причину этого можно пояснить, обратившись к схеме рис. 3.3: любой метод обнаружения нулей спектра будет чувствителен к тому, что амплитуда спектра между гармониками основного тона стремится к нулю. Ошибочно эти значения можно принять за нули спектра. Поэтому при использовании метода исследования нулей спектра речи важно, чтобы перед выполнением анализа речевой сигнал был подвергнут инверсной свертке.
В основном применяются три метода инверсной свертки. Согласно первому методу, выделяют отрезок сигнала длительностью в один период основного тона и полагают, что колебание является импульсным откликом голосового тракта. Результат, конечно, верен только в том случае, когда импульсный отклик голосового тракта короче периода основного тона. Методику, основанную па таком методе распознавания речевого сигнала, называют синхрон.ным анализом (анализом, синхронным с основным тоном). Второй метод инверсной фильтрации основан на линейном предсказании с применением модели, передаточная функция которой содержит только полюсы.
Если огибающая спектра речи содержит и полюсы, и нули, то порядок передаточной функции, содержащей только полюсы, должен быть очень высоким, так как нули также приходится аппроксимировать с помощью полюсов. В результате анализа с применением модели высокого порядка получается аппроксимация импульсного отклика голосового тракта, или, что то же самое, огибающая спектра речи, которую можно представить с помощью модели меньшего порядка с передаточной функцией, имеющей полюсы и нули. В третьем методе применяется еомол1орфная инверсная фильтрация, дающая аппроксимацию импульсного отклика голосового тракта, к которой мо'кно применить анализ нулей и полюсов [94].
Теоретически разработано несколько методов моделирования речевого сигнала на основе передаточных функций, имеющих нули и полюсы. Методы, требующие проведения операций с большимп матрицами, и способы с итеративной оптимизацией обычно оказываются малопригодными для анализа речи, когда предъявляются высокие требования к быстродействию и объему памяти и часто требуется обработка сигналов в реальном масштабе времени. По.этому наиболее приемлемыми оказываются методы, основанные на критерии наименьших квадратов и сформулированные так, чтобы они сводились к решению линейных уравнений.
Обычно это условие приводит к методам, когда сначала определяются полюсы и затем нули, а не одновременно и то и другое. Оценить полюсы независимо от нулей можно с помощью автоковариационного варианта метода линейного предсказания. В частности, чтобы описать импульсную характеристику голосового тракта о (и) моделью, содержащей полюсы и пули, рассмотрим последовательность с(п), задаваемую разностным уравнением вида р о (п) = ~ Ь, о (п — - Й) + '5,' ар (п — Й). ~=о !г= ! (3. 53) При п>д, где д — общее число пулей, уравнение (3.53) принимает вид о (п) = '~» ар (п — Й), п > !7, (3.54) (3.55) Выберем коэффициенты аи так, чтобы суммарная средная квад- ратическая ошибка предсказания, равная Ег= '>» е'(п), н=д+1 (3.56) была минимальна.
Повторяя операции, сделанные при выводе формул (3.40), получим систему уравнений для коэффициентов оператора предсказания а1, в виде т ~~~ с! 1, 1Р1~ = !Р(о, ! = 1, 2, ° ° .,,и й=! (3.57а) еде Фи — — Х 0(п — !) 0(п — й). и=~у+! (3.57б) так что при любом п>д последовательность о(п) можно линейно предсказать по ее р предыдущим отсчетам. Таким образом, даже при наличии в модели нулей полюсы можно оценить, определив в уравнении (3.54) коэффициенты аь минимизирующие ошибку предсказания. Но, поскольку уравнение (3.54) справедливо только при п>д, в данном случае необходимо следить за тем, чтобы значения о(п) не выходили за этот предел, даже если после инверсной фильтрации функция о(п) известна при всех п. Далее допустим, что е(п) обозначает ошибку предсказания, так что е(п)=о(п) — ~' а,о(п — Й), п >д.
тг=! 182 183 Цифровая обработка речевых сигналов Глава 3 4 кГХ '«~ Ьф,~ = Р,, 1 = О, 1,..., д, я=о где й,,„= ~~~~ ~тг1 (и — 1) те1 (и — й), и=-О 4 кги г з Ф (3.58а) т (и) = ~~~ ~ а ю (и — Й) + о (и) (3.58б) (3.58в) кги Матрица коэффициентов ср;ь симметричная, но, как и автоковариационном методе, не является теплицевой. После определения коэффициентов а~ можно воспользоваться методом, предложенным Шенксом [861, и находить коэффициенты Ь~ в уравнении (3.53) путем минимизации средней квадратической ошибки между о(и) и импульсной характеристикой искомого фильтра с полюсами и нулями.