Оппенгейм - Применение цифровой обработки сигналов (1044221), страница 41
Текст из файла (страница 41)
В результате получается система линейных уравнений причем последовательность ггпу(и) является импульсной характери- стикой фильтра, имеющей только полюсы, т. е. Другая возможная процедура оценки нулей состоит в том, что исходную последовательность о(и) фильтруют обратным фильтром, устраняя полюсы, затем обращают спектр, чтобы превратить нули в полюсы, и далее методом линейного предсказания оценивают полюсы сигнала с обращенным спектром. Такой метод по. добен методике, первоначально предложенной Дэрбином [66, 671.
На рис. 3.25 приведены результаты исследования нулей и полюсов спектра этими методами. На рис. 3.25, а изображен спектр естественного носового согласного звука т. Отчетливо видны два глубоких провала в спектре: один на частоте 650 Гц, другой на частоте 3,2 кГц.
На рис. 3.25, б показан спектр, выделенный при гомоморфной инверсной фильтрации. Далее этот спектр был дополнительно проанализирован методом линейного предсказания с 12 полюсами; результат приведен на рис. 3.25, в. Бросается в глаза, что данный спектр точно отражает наличие. максимумов, но не провалов в спектре. На рис.
3.25, г и д показаны спектры, полученные с помощью модели, содержащей 12 полюсов и 10 нулей. Нули на рис. 3.25, г вычислялись по методу Шенкса, а на рис. 3.25, д — линейным предсказнием обращенного сигнала ошибки. Из двух последних графиков хорошо видно, что применение анализа полюсов и нулей спектра речевого сигнала. Рис. 3.25. Иллюстрация а в ка т; б — огибающая спектра, полученная сглаживанием а — опектр носового согласного звука т; — о иейного предсказания для епстра; в — результат анализа пред ~дущ р ь его спектра методом ли е МОдели с 12 полюсами; г — спектр, соответст у щ в ю ий модели с 1 полюсам лученными методом Шеикса; д — спектр, соответствующий модели с п л лями, полученными методом линейного предсказания обращенного ситнала ощи Кодеку).
184 Глава 8 Цифровая обработка речевых сигналов линейного предсказания с обращением позволит более точно оценить провалы в спектре. Этот вывод согласуется с тем, что обычно наблюдается как для естественной, так и для синтезированной речи [941. Несколько отличный и менее обоснованный подход к моделированию с использованием дробных функций, содержащих полюсы и нули, основан на применении аппроксимаций Падэ [911. Теория аппроксимации Падэ основана па идее отыскания для заданной аналитической функции аппроксимирующей функции в виде рациональной дроби с заданными порядками числителя и знаменателя, Аппроксимирующая рациональная функция выбирается так, чтобы первые р+~+1 членов ее разложения в ряд и разложения аппроксимируемой функции попарно совпадали, причем р и ъ означают соответственно порядок числителя и знаменателя аппроксимирующей функции.
Еще один чисто теоретический подход к моделированию речевого сигнала функцией с нулями и полюсами основан па том, что линейно-взвешенный комплексный кепстр последовательпостп отсчетов речевого сигнала содержит полюсы в точках, где исходная последовательность имеет нули или полюсы [931. В частности, рассмотрим последовательность о(п) с я-преобразованием Г(г) и предположим, что 1т(я) является рациональной функцией вида 1~(.)= "('. В(г) По определению комплексного кепстра о его г-преобразование Р(я) равно У(г) = 1оИ 1т (г). Тогда я-преобразование линейно-взвешенного кепстра и, (и) определяется как — я[с1о(я)/с1я1 и имеет вид Я сУ(х) .~(г) ~'(г) — ~'(г).~'(г) Я И~' Х(г) .0 (г) (3.59) где штрих означает диффернцирование по я.
Таким образом, если полюсы последовательности пи(п) определены, например, линейным предсказанием, то они представляют собой полюсы и нули о(п). При использовании этого метода требуется определить, какие из полюсов пи(п) являются полюсами, а какие — нулями о(п). Это можно сделать несколькими способами. Один из подходов состоит в том, что отдельно анализируется последовательность о(п) методом линейного предсказания и находятся ее полюсы; оставшиеся полюсы пи (и) являются нулями о (и) .
Другой способ состоит в исследовании вычетов последовательности пи(п). Нетрудно показать, что нули о(п), лежащие внутри единичного кру- будут порождать отрицательные вычеты, а полюсы, лежавшие внутри единичного круга, — положительные вычеты. Существует тест для разделения ~полюсов и нулей о(п), лежащих вне единичного круга. Интересно отметить, что распознавание речевого сигнала, обычно необходимое при моделировании на основе дробных функций с полюсами и пулями, в данном процессе по существу выполняется автоматически, так как значения кепстра, относящиеся к начальным моментам времени, содержат информацию только об импульсном отклике голосового тракта.
Еще одна возможность моделирования импульсного отклика голосового тракта заключается в построении модели с нулями и полюсами для линейно-взвешенного кепстра. Это соответствует моделированию импульсного отклика голосового тракта с помощью дробной модели с нулями и полюсами (т. е. модели, в которой полюсы и нули могут иметь нецелый порядок). Однако в настоящее время эти идеи изучены еще недостаточно глубоко и поэтому являются весьма проблематичными.
3.8. Заключение В данной главе были представлены основные идеи и методы цифровой обработки речевых сигналов. Более подробно рассматривались методы и системы, которые опираются на основную модель формирования речи. Большая часть рассуждений относилась к тому, что главной проблемой в обработке речевых сигналов является инверсная фильтрация сигнала на компоненты, представляющие по отдельности характеристики возбуждающего сигнала и голосового тракта. Кратковременный спектральный анализ и гомоморфная фильтрация весьма тесно связаны с вычислением преобразования Фурье и, следовательно, с применением алгоритма быстрого преобразования Фурье. Анализ речи методом линейного предсказания, в котором используется параметрическая модель, основан на применении эффективных алгоритмов обращения корреляционной или ковариационпой матрицы.
Метод линейного предсказания обладает рядом важных преимуществ, обусловленных параметрическим характером модели, однако по сравнению с другими методами он менее универсален. Все рассмотренные методы хорошо согласуются с современным состоянием цифровой техники и позволяют применять при создании аппаратуры большие интегральные схемы, микропроцессоры и т. д. Для систем, рассмотренных в равд. 3.3 и 3.4, кроме того, подходят приборы с зарядовой связью. Поскольку подобные устройства очень удобны для создания систем спектрального анализа с высокой разрешающей способностью, то они могут стать базой для недорогих речевых систем, в которых необходим такой анализ.
Следовательно, можно ожидать продолжения исследований и ускоренного развития всех методов и систем. 187 Глава 8 186 Цифровая обработка речевых сигналов В области обработки речевых сигналов остается еще много нерешенных проблем. Хотя метод линейного предсказания и является эффективным при описании речи математическими моделями, содержащими только полюсы, для создания моделей с полюсами и нулями или более общих параметрических моделей пока не найдено столь же надежного и эффективного метода.
Возможно, такие методы будут найдены в работах по идентификации и моделированию систем. Некоторые результаты упомянутых исследований применялись для обработки речевых колебаний, но часто оказывались неприемлемыми, так как основывались на предположениях, которые не соответствуют специфике исследований речи. Следовательно, при изучении возможностей применения таких методов следует тщательно учитывать предпосылки и характер условий, на которых они основаны. Однако при последующем развитии алгоритмов обработки речи, по-видимому, все больше будет учитываться непостоянство характеристик систем во времени и в большем объеме будут применяться методы анализа систем, хорошо зарекомендовавшие себя в других областях, таких, как оптимальное управление и моделирование систем с переменными пар а метр а ми. ЛИТЕРАТУРА Литература общего характера 1.
Со!4 В., Кас1ег С. М., Яуз1епгз 1ог Сопгргезз!пд йе Вапс)Мс1!Ь о1 ЯреесЬ, 1ЕЕЕ Ттапк Аиро 'Е1ес1тоасоиз1гсз, А!У-15, 3, 131 — 135 (1967). 2. Со!д В., Кас1ег С. М., Ир1а! Ргосезз!щ о1 5!дпа!з, МсСгаи-Н!11, Меи г'ог!с, 1969. (Имеется перевод: Голд Б., Рейдер С. М.
Цифровая обработка сигналов. — Мл Сов. радио, 1973.) 3. Г!ападап У. 1., Со1сег С. Н., КаЬгпег 1.. К., ЯсЬа1ег К. %,, 1Угпес1а М., Яуп1Ье!!с Ъ'о!сев 1ог Согпрц1егя 1ЕЕЕ $рес1тит, 7, 10, 22 — 45 (1970). 4. Г!ападап У. 1., ЯреесЬ Апа!уз!з Яуп!Ьез!з апс! Регсер!!оп, 2пс! ес!., 5рг!пс ег- Ъ'ег!ад, Меъ. г'ог!с, 1972. 5. КаЬгпег 1.. К., Кас1ег С. М., ес1з., !)!д!!а! 5!арпа! Ргосезз!пд, 1ЕЕЕ Ргезз, Меж Ъ'ог1с, 1972. 6. ЯсЬа1ег К.
%., А 5цгчеу о1 Г)1а!!а! ЯреесЬ Ргосезз!пд ТесЬп!с)цек 1ЕЕЕ Ттапк Аис1го Е1ес1тоасоиз1гсз, А!У-20, 4, 28 — 35 (1972). 7. Вг!дЬагп Е. О., ТЬе Газ! Гоцпег Тгапз1оггп, Ргеп!!се-На!1, Ещ!еюоос! С1!Из, И. У., 1974. и. ОррепЬе!гп А. Ъ'., ЯсЬа1ег К. %., !)!р!а! 5!дпа! Ргосезз!пд, Ргеп!!се-На!1, Епд!еюоос! СИЬ, М..1., 1975. [Имеется перевод: Оппенгейм А.