Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 33
Текст из файла (страница 33)
Поскольку при создании различных звуков форма голосового тракта изменяется, огибающая спектра речевого сигнала будет, конечно, тоже изменяться с течением времени. Аналогично при изменении периода сигнала, возбуждающего звонкие звуки, ча- 1 ч 1 е Рис. 3.2. Пример речевого колебания, иллюстрирующий звуки различных клас- сов. Произнесена фраза «зЬон1б же с)тазе...».
Рис. З.З. М ис. 3.3. Модель формирования речи как отклика квазистационарной линейной системы. а — описание во временной области;. б — описание в частотной области. 142 Глава 3 143 Цифровая обработка речевых сигналов во Ге~тт,',чу' ~,о оемувчЬ, Рис, 3.4. Спектрограммы высказывания «1пеге и аз зонте де1ау оп 1пе гауоп з1осЫпд». а — шкрокополосная спектрограмма; о — ~узкополосная спектрограмма. стотный разнос между гармониками спектра будет изменяться.
Следовательно, необходимо знать вид спектра речевого сигнала на коротких отрезках времени и как он изменяется во времени. Изображение кратковременного спектра речевого сигнала в координатах время — частота — яркость называют спектрограммой речи'> ~29]. На практике обычно рассматриваются широкополосные и узкополосные спектрограммы речи. Широкополосная спектрограмма имеет сравнительно высокое разрешение по времени, и поэтому на ней хорошо видны периоды речевого сигнала.
Однако разрешение по частоте недостаточно для изучения тонкой структуры спектра речи, определяемой возбуждающим сигналом. На узкополосной спектрограмме хорошо наблюдаются частотные гармоники возбуждающего сигнала, однако разрешение по времени не столь высокое, как на широкополосной спектрограмме. На рис. 3.4 приведены примеры широкополосной и узкополосной Н Иногда его также называют отпечатком голоса (ооссергсп1) по марке распространенной машины для снятия спектрограмм речевых сигналов. спектрограмм одного и того же высказывания.
На этих рисунках амплитуды спектральных составляющих кратковременных спектров представлены различной яркостью, причем большим амплитудам спектра соответствуют более темные участки. На рис. 3.4,а дана широкополосная спектрограмма, соответствующая фильтрам с эффективной полосой 300 Гц. При произнесении звонких звуков отчетливо наблюдаются резонансы голосового тракта, проявляющиеся на спектрограмме в виде темных полос. Можно также заметить, как изменяется во времени период основного тона.
Видны участки с глухими звуками, когда возбуждающий сигнал является шумовым, а не периодическим. Заметим, что отдельные гармоники возбуждающего сигнала звонких звуков по оси частот не разрешаются. Таким образом, по существу широкополосная спектрограмма представляет собой аппроксимацию огибающей спектра как функции времени. На рис. 3.4, б представлена узкополосная спектрограмма, соответствующая фильтрам с эффективной полосой 45 Гц. Если сравнить ее со спектрограммой рис. 3.4,а, то можно увидеть, что теперь отдельные гармоники возбуждающего сигнала разделяются по частоте, а разрешение спектральных составляющих по времени ухудшилось. Более подробно кратковременный спектральный анализ речевых сигналов будет описан в разд.
3.4. С помощью приведенной модели удобно описывать основные принципы синтеза и анализа речи. В системах анализа речевых сигналов обычно пытаются разделить возбуждающую функцию и характеристики голосового тракта. Далее в зависимости от конкретного способа анализа получают параметры, описывающие каждую компоненту. Можно возбуждающую функцию классифицировать как периодическую или шумовую и задать частоту основного тона, если она периодическая. Характеристики голосового тРакта можно представить или отсчетами его частотной характеристики, или постоянными параметрической модели.
Согласно модели рис. 3.3, синтез речи можно рассматривать как получение отклика линейной системы с медленно изменяющимися параметрами на периодический или шумоподобный возбуждающий сигнал. При синтезе речи в рамках системы анализа — синтеза речевых сигналов значения параметров линейной системы и возбуждающего сигнала поступают из анализатора, поэтому структура синтезатора ~в значительной мере обусловлена структурой анализатора.
В ~разделах 3.4 — 3.6 будет рассмотрен ряд структурных схем систем анализа — синтеза. Существует также много схем, которые можно применить в задачах, требующих только синтеза Речи. Два конкретных класса таких схем описаны в следующем разделе. Несколько других систем синтеза будут также рассмотрены при обсуждении систем анализа — синтеза речи. 145 Цифровая обработка речевых сигналов Глава 3 144 3.3. Речевые синтезаторы, воспроизводящие передаточную функцию голосового тракта, и синтезаторы — аналоги акустической трубки Для синтеза речи обычно применяются два класса синтезаторов: 1) синтезаторы, воспроизводящие передаточную функцию голосового тракта, и 2) синтезаторы — аналоги акустической трубки.
Синтезаторы первого класса представляют собой систему, передаточная функция которой аппроксимирует передаточную функцию голосового тракта без учета особенностей строения голосового тракта. Таким образом, в этом случае учитывается влияние голосового тракта на конечные результаты речеобразования. В аналогах акустической трубки моделируются давление или поток воздуха как функция времени и расстояния вдоль акустической трубки, поперечное сечение которой изменяется по ее длине.
Таким образом, в синтезаторах — аналогах акустической трубки в некотором смысле сделана попытка более естественно отразить физические изменения, происходящие в голосовом тракте в процессе речеобразования. Общая структура синтезатора, воспроизводящего передаточную функцию голосового тракта, который называется также формантным синтезатором, изображена на рис. 3.5. В основе синтезаторов этого класса лежит следующее наблюдение: поскольку голосовой тракт является акустической трубкой, то он характеризуется набором мод или резонансных частот. Поэтому его передаточную функцию можно аппроксимировать последовательным Званная Глухая Лтрамелрь дюрманл7 Рис.
3.5. Общая структура синтезатора речевого сигнала, воспроизводящего пе- редаточную функцию голосового тракта. соединением резонансных цепей, каждая из которых представляет одну моду или резонанс голосового тракта 1'17, 19, 20]. При изменении формы голосового тракта изменяются резонансные частоты. В силу этого в резонансных цепях должна быть предусмотрена возможность изменения параметров, определяющих центральные частоты и ширину полос резонаторов. Если на синтезатор поступает последовательность импульсов (при звонком звуке) или белый шум (при глухом звуке), то необходим фильтр— формирователь возбуждающего сигнала, чтобы обеспечить благоприятное «окрашивание» спектра.
Этот фильтр обычно имеет постоянные параметры. Кроме того, необходим фильтр, обеспечивающий эффект согласования акустической трубки со свободным пространством (т. е. с акустической трубкой бесконечного сечения). Это тоже фильтр с постоянными параметрами, который по своим характеристикам приближенно соответствует дифференциатору. Если формантный синтезатор выполняется в виде аналогового устройства на элементах с сосредоточенными параметрами и работает в реальном масштабе времени, то необходим еще один фильтр, называемый корректором высокочастотных полюсов.
Введение этого фильтра обусловлено тем обстоятельством, что акустическая трубка представляет собой систему с распределенными параметрами, имеющую бесконечное число резонансов, т. е. ее передаточная функция имеет бесконечное число полюсов. Хотя в полосу синтезатора попадает лишь конечное число полюсов (четыре или пять), остальные полюсы также влияют на общую форму спектра в полосе синтезатора. Таким образом, для цепочки аналоговых резонаторов с сосредоточенными параметрами необходима дополнительная частотная коррекция.
Как было впервые отмечено Голдом и Рабинером [23], этого не требуется в цифровом синтезаторе речи, так как его частотная характеристика периодична и, следовательно, фактически он имеет высокочастотные полюсы. Это же можно увидеть на примере простой акустической трубки, закрытой на одном конце и открытой на другом. Ее импульсным откликом является последовательность импульсов, которую легче получить в цифровом, чем в аналоговом фильтре, имеющем рациональную передаточную функцию. На рис. 3.6 сравниваются частотные характеристики простой акустической трубки, цифрового и аналогового фильтров с пятью полюсами; из приведенных кривых очевидна необходимость коррекции высокочастотных полюсов в аналоговом фильтре.