Диссертация (Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала), страница 5
Описание файла
Файл "Диссертация" внутри архива находится в папке "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала". PDF-файл из архива "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
Об этой работе речь пойдёт вовторой главе. На её основе развивается идея данной диссертационной работы.1.2.2Классические алгоритмы в частотной областиНесмотря на свою вычислительную сложность, методы определения ЧОТ на основеДПФ являются широко используемыми, даже в задачах реального времени. Переход в частотную область позволяет увидеть те свойства сигнала, которые в условиях временной области увидеть практически невозможно.К примеру, синусоидальный сигнал, передаваемый по проводам, может накопить в себедостаточно сильные шумовые помехи.
Взглянув на такой зашумлённый сигнал в нём можнодаже не заметить периодической составляющей. Но после применения ДПФ сразу станетясно, что в сигнале присутствует гармоническая составляющая. К примеру, на рис. 1.5 приведён график сигнала, аддитивно составленного из гармоник с частотами 90 и 150 Гц, а так23300250|X(ω)|200150100500100200300400500Частота, Гц600700Рисунок 1.6 — Спектр исходного сигнала, видны характерные пики 90 Гц и 150 Гц.180160140дистанция120100806040200100200300400 500 600Частота, Гц700800900Рисунок 1.7 — Спектр голосового сигнала.же шума. Визуально выделить гармоники не представляется возможным.
На рис.1.6 представлен спектр того же сигнала. На спектре легко заметить характерные пики в областяхчастот гармоник, присутствующих в сигнале. Этот пример показывает потенциал методов,основанных на анализе сигнала в частотной области.Метод на основе детектирования пиков спектраЭтот метод нацелен на поиск пиков спектра, равноудалённых друг от друга. Основываясь на физике процесса синтеза голосового сигнала человеком, в спектре должны присутствовать гармоники, частота которых кратна ЧОТ. На рис. 1.7 приведён пример спектраголосового сигнала.Можно проводить дополнительные действия для увеличения качества работы такогокласса алгоритмов. В работе [48] использовался метод аппроксимации пиков спектра параболами.
Из всего набора пиков выбирался максимальный по амплитуде. Он считался частотой24одной из формант. Далее выяснялся номер этой форманты путём поиска на спектре соседнихпиков, определённым образом удалённых от текущей форманты.В работе [49] были использованы нейронные сети для уточнения частоты пика на спектре сигнала. В качестве входа нейронной сети использовались три точки на спектре, представляющие интересующий пик.Спектральная корреляцияМетод спектральной корреляции детектирует ЧОТ путём сравнения сигнала с идеальной моделью. Подразумевается, что входной сигнал является голосовым и состоит лишь изгармоник, кратных ЧОТ [50]. Синтетический сигнал создаётся для некоторого набора кандидатов на ЧОТ.
Та модель, чей спектр больше всего совпадает со спектром исходного сигнала,выбирается как верная. Процесс подобен автокорреляционному методу во временной области.Lahat [51] предложил использовать корреляционный метод в частотной области. Спектрпропускается через 16 фильтров, которые покрывают диапазон поиска ЧОТ. Для каждоговыхода фильтра вычисляется автокорреляционная функция.
После этого принимается общеерешение для значения ЧОТ.Harmonic Product SpectrumМетод HPS был рассмотрен в работах [52—54]. Алгоритм оценивает ЧОТ как частоту,которая максимизирует произведение амплитуд спектра, взятых в кратных этой частотеотсчётах:f0 = arg maxfnYk=1|X(kf )|,(1.3)где X — спектр сигнала, n — количество рассматриваемых гармоник, и f0 — оценка ЧОТ.Ограничение на количество гармоник n имеет смысл для ускорения вычислений, но не несёткакого-либо иного смысла. Если в формуле (1.3) взять логарифм от произведения, то егоможно внести под знак произведения и формула примет аддитивный вид:f0 = arg maxfnXk=1log |X(kf )|.(1.4)Это вторая форма описания алгоритма HPS.
У такого подхода есть несколько слабых мест.Этот метод плохо работает с короткими сигналами, длина которых не превосходит трёх25периодов. Так же алгоритм будет плохо работать, если хотя бы одна из формант будет отсутстовать на спектре по каким-либо причинам (зашумлённость, искажения канала и т.п.).В работе [55] предложен похожий алгоритм, в котором вместо произведения используется напрямую сложение частот:f0 = arg maxfnXk=1(1.5)|X(kf )|.Эта формулировка позволяет избежать проблем с отсутствующими формантами. Но тут возникает другая проблема: предположим, у нас имеется сигнал с единственной гармоникой вf Гц. Тогда, любая из гармоник f /n будет иметь тот же вес, что и f , т.е. с той же уверенностью может являться ЧОТ, что неверно.
Такую проблему можно решить, введя весовыекоэффициенты:f0 = arg maxfnXk=1r k−1 |X(kf )|,(1.6)где r = 0.84 — эмпирически подобранное значение.В статье [56] предложена ещё одна модификация такого рода подхода. В ней используются не только пики спектров, но и их некоторая окрестность:f0 = arg maxfn XT <k=1maxfˆ∈(0.96kf,1.04kf )ˆ|X(f )| ,(1.7)где [. .
.] — нотация Айверсона, T — некоторый порог.В условиях голосового сигнала основную идею можно описать следующим образом:спектр должен иметь набор пиков, равноудалённых друг от друга на значение ЧОТ. Следовательно, если сигнал сжать в i число раз, то i-ая форманта совпадёт с ЧОТ. Метод включаетв себя 3 шага: вычисление спектра сигнала, его сжатие и произведение с исходным спектром.Рассчитывается спектр S1 . Затем происходит его сжатие в 2 раза и в результате имеем S2 .Пик второй форманты в S2 должен совпасть с пиком ЧОТ, и так далее. На рис. 1.8 приведёнасхема работы алгоритма. Видно, что гармоники накладываются в районе 170 Гц.Subharmonic-to-Harmonic Ratio (SHR)Предыдущие алгоритмы использовали информацию о пиках спектра, но никак не затрагивали частоты между пиками.
Статья [57] описывает алгоритм SHR для оценки ЧОТ.Анализируется отношение между гармониками и субгармониками сигнала. Сумма амплитудгармоник определяется какSH =nXk=1|X(kf )|26амплитуда0.20-0.200.010.020.030.040.050.060.07мсамплитуда302010амплитуда00200400600800 1000 1200 1400 1600 1800 2000частота, Гц20S1S210S300200400600частота, Гц80010001200Рисунок 1.8 — Исходный сигнал, спектр сигнала, сжатые спектрыгде n — количество рассматриваемых формант, f — кандидат на ЧОТ.
Сумма субгармоникэтоSS =nXk=1|X((k − 1/2)f )|.Отношение субгармоник к гармоникам задаётся какSHR =SS.SHКогда SHR превышает некий заданный порог, принимается решение о выборе ЧОТ f0 .КепстрТермин «кепстр» образован циклической перестановкой первых четырёх букв слова«спектр». Идея метода заключается в применении ПФ к логарифму модуля спектра [58—60].Общий вид преобразования:1Cs (q) =2πZ∞−∞ln[X(ω)]2 eiωq dω,27амплитуда0.20.10-0.1-0.2010302040506070500060007000мсln[X(ω)]250-5-10-1501000200030004000частота, ГцРисунок 1.9 — Исходный сигнал, натуральный логарифм квадрата спектра сигнала.где X(ω) — спектр сигнала x(t) (рис.1.9).
Если исходный спектр принадлежал гармоническому сигналу, т.е. был в некотором смысле периодичен, то повторное ПФ должно выделитьэту периодичность. Возможна и другая интерпретация. Допустим, голосовой сигнал x(t) былполучен от источника s(t), который сворачивается с фильтром h(t):x(t) = s(t) ∗ h(t).Сигнал s(t) синтезируется голосовыми связками. Голосовой тракт действует как фильтр h(t).Преобразование ln[X(ω)] позволяет преобразовать свёртку синала с фильтром в сумму:ln(X(ω)) = ln(S(ω)H(ω)) = ln(S(ω)) + ln(H(ω)),где S и H — фурье-образы сигналов s(t) и h(t) соответственно.
Выходит так, что аддитивная составляющая ln(S(ω)) содержит в себе информацию о всех гармониках исходного сигнала, порождённых голосовыми связками. А ln(H(ω)) имеет только низкочастотныекомпоненты, представляющие собой общую форму спектрограммы, задаваемую голосовымтрактом (рис.1.10). Далее возможно выполнить ОПФ, убрав из рассмотрения низкие «сачтоты».
Для этого выбирается некоторый порог разделения (рис.1.10). Теперь остаётся лишьнайти максимальное значение кепстра при сачотах, больших порога. Это значение и будетсоответствовать ЧОТ.Одна из проблем этого алгоритма заключается в выборе порога разделения компонентсигнала. Этот порог всегда должен быть ниже ЧОТ, но, в то же время, нужно убрать вселишние низкочастотные компоненты. Метод кепстра более подвержен ошибкам из-за вли-2810005000-500050150100200250300сачтота, отсчёты350400450амплитуда10H(ω)S(ω)50-5-1001000200030004000частота, Гц500060007000Рисунок 1.10 — Кепстр, составляющие сигнала H(ω) и S(ω).яния аддитивного шума, когда как корреляционные методы наоборот, более подверженывлиянию старших гармоник.Далее будут описаны современные алгоритмы, которые трудно отнести к одной изгрупп.
Эти алгоритмы на сегодняшний день являются наиболее широко применяемыми идают представление о текущем состоянии дел в области детектирования ЧОТ.1.2.3Алгоритм YAAPTПредставленный в статье [61] алгоритм (YAAPT) основан на анализе сигнала в частотной и временной области одновременно. Общая схема алгоритма представлена на рис. 1.11.Её можно разбить на четыре основных этапа:1. Предобработка: основная идея заключается в создании нескольких версий исходногосигнала.