Диссертация (Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала), страница 4
Описание файла
Файл "Диссертация" внутри архива находится в папке "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала". PDF-файл из архива "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
Простейший из них — zero-crossingrate (см. раздел 1.2.1).На следующем этапе развития алгоритмов можно выделить автокорреляционные методы и методы, основанные на вычислении функции расстояния (см. раздел 1.2.1).Часть алгоритмов нацелена на определение параметров полигармонической модели речевого сигнала. Общая идея здесь такова: оценить параметры модели речевого сигнала так,чтобы модель наилучшим образом аппроксимировала анализируемый сигнал (см. раздел1.2.1).Ещё одно семейство методов переносит обработку речевого сигнала в частотную область. Тут можно отметить такие методы, как детектирование пиков спектра, методы спектральной корреляции, harmonic product spectrum, методы на основе кепстра (см.
раздел1.2.2).Отдельно можно выделить методы, являющиеся наиболее успешными и популярными внаше время. Они вобрали в себя идеи из разных типов предшествующих алгоритмов. Краткоеописание таких методов см. в разделах 1.2.3 — 1.2.10.Традиционно, АОЧОТ делятся на два типа: алгоритмы во временной области и алгоритмы в частотной области. Алгоритмы во временной области анализируют сигнал в егоисходной форме — амплитуды как функция времени. Основной концепцией здесь являетсяпоиск повторяющихся шаблонов, и соотнесение периода повторения с ЧОТ.Частотные методы, с другой стороны, анализируют спектральный состав сигнала. Иуже по результатам такого анализа происходит выбор ЧОТ.Основные шаги АОЧОТ схематически изображены на рис. 1.3.
В первую очередь, сигнал разделяется на сегменты. Затем, каждый из сегментов обрабатывается следующим образом: применяется оконное преобразование Фурье для получения спектра сигнала, вычисляются кандидаты на ЧОТ, выбираются кандидаты с наибольшим уровнем достоверности.18СигналОкнаСпектрФункция стоимостиЧОТРисунок 1.3 — Диаграмма стандартной системы оценивания ЧОТ1.2.1Классические алгоритмы во временной областиКак уже было сказано, алгоритмы во временной области опираются на идею, что голосовой сигнал имеет высокую степень периодичности.
Так же основным предположениемявляется то, что в соседних периодах форма сигнала меняется слабо. Путём сравнения сигнала со своей смещённой копией можно выявить периодичность сигнала, а отсюда и ЧОТ.Пересечение нулевого уровняАлгоритм пересечения нулевого уровня (zero-crossing) является простейшим способомопределения ЧОТ. Целое семейство аналогичных методов освещено в литературе [23—28].
Методы используют информацию о том, в какие моменты времени значение отсчёта звуковогосигнала меняет знак. Расстояние между этими отсчётами принимается за период основного тона. Этот алгоритм перестаёт работать, как только сигнал начинает содержать в себечастоты, отличные от ЧОТ. В этом случае возникают дополнительные пересечения нулявнутри периода. Однако, возможно применение алгоритмов распознавания повторяющихсяшаблонов для выделения групп пересечений.
В этом случае за период принимается расстояние между такими группами. Эта идея была расширена в работе [29], где авторы в качествеопорных точек выбирают не только точки смены знака, но и некоторые дополнительныеточки.19Средняя невязка, квадратичная невязка, автокорреляционный методЕщё один распространённый тип алгоритма, «average magnitude difference function»,AMDF [30—32]. Основополагающее предположение этого метода заключается в том, чтосредняя величина сигнала будет оставаться практически одинаковой от одного периода кдругому. Функция стоимости определяется следующим образом:W/2−11 Xγ(τ ) =|xj − xj+τ |, 0 ≤ τ ≤ W/2,W j=0где τ это сдвиг, который может изменяться в заранее определённых границах.
Так же возможна модификация алгоритма путём возведения в квадрат модуля под знаком суммы [33].Метод сравнивает сигнал со своей смещённой копией. Значение τ , которое минимизируетфункцию γ(τ ), выбирается как значение ПОТ. Вычислительно такой подход очень прост,но далеко не всегда даёт хорошие результаты, особенно в условиях зашумлённого сигнала,быстрого изменения параметров речи.Shimamura и Kobayashi [34] в своей работе совместили корреляционные методы (ACF)и AMDF методы путём взвешивания ACF обратной к AMDF величиной.Hirose [35] и Talkin [36] показали, что автокорреляционную функцию можно вычислять,используя следующую нормализацию:r(d,q) = sq+KPs(n)s(n + d)n=qq+KPn=qs2 (n) ·q+KPs2 (n + d)n=qTerez [37] описал иной подход. Основная идея приводит к функции расстояния в многомерном пространстве состояний.
Проблема заключается в том, как представить одномерныйречевой сигнал в многомерной форме. В алгоритме этот вектор формируется из несколькихравномерно распределенных выборок сигналаs(n) = [s(n)s(n + d) . . . s(n + Nd)].Компоненты таких векторов образуют N-мерное пространство, пространство состояний. Вописанном алгоритме наилучшими параметрами оказываются N = 3 и d = 12. Если сигналпериодический, то вектор s будет описывать замкнутую кривую в пространстве состояний,и после одного периода вернётся в стартовую точку. Таким образом, можно ожидать, чтоD(n,p) = ||s(n) − s(n + p)||достигает минимума когда p совпадает с ПОТ.20Идея использования многомерной репрезентации сигнала для определения ЧОТ начинается с 1950-ых годов [38].
В 1964 году Рейдер [39] опубликовал векторный алгоритм поискаЧОТ, где он использовал выходные сигналы от фильтров (см. Yaggi [40]) и их преобразованиеГильберта для формирования многомерного вектора s(n, q). Затем используется евклидоворасстояние между вектором в начальной точке n = q и точки q + p. Эта функция достигаетминимума при совпадающим с ПОТ.Одним из наиболее популярных методов определения ЧОТ является автокорреляционный метод [41—43]. Автокорреляционная функция принимает на вход сигнал xt , и вычисляеткросскореляцию сигнала с собой:∞Xxj xj+τ(1.1)P0 = arg max r(P )(1.2)r(τ ) =j=−∞и ПОТ оценивается какPЕсли сигнал периодичен с периодом P0 , то xj = xj+P то автокорреляционная функция достигает максимум в точках τ = kP0 , k ∈ N.
Стоит отметить, что функция r всегдаимеет максимум в точке 0. На практике, такой подход используется для коротких участковсигнала, на которых частоты стационарны. В случае быстрого изменения частот алгоритмначинает работать гораздо хуже. В то же время, окно должно быть достаточно большим,чтобы включать в себя как минимум два периода сигнала. Методы начинают работать сошибками, когда есть сильные форманты второго-третьего порядка. Возможно применятьна ограниченной полосе частот с предварительной фильтрацией сигнала. Выбор верногопика автокорреляционной функции может быть затруднён.
Для повышения качества определения ЧОТ применяют различные методы предобработки сигналов. Одним из таких методовявляется отсечение центра (center clipping) [42]. Описывается нелинейное преобразование, ко-торое позволяет убрать средние значения сигнала, оставив характерные пики. Такой подходописывается формулой:0,for |x(n)| ≤ Ly(n) = x(n) − L for x(n) > Lx(n) + L for x(n) < −L,где L — порог отсечения. На рис.1.4 показана автокорреляционная функция до и после применения отсечения центра.Линейное предсказаниеМетоды на основе линейного предсказания обычно используются для оценки параметров передаточной функции голосового тракта [44; 45].
Полюса такого фильтра соответствуютамплитуда210.20-0.20102030405060704050607040506070амплитудамс10-10201030амплитудамс10-10201030мсРисунок 1.4 — Исходный сигнал, автокорреляция исходного сигнала, автокорреляцияпредобработанного сигналаотдельным гармоникам, входящим в сигнал.
После оценки этих параметров становится возможным определить ЧОТ.Полигармонические моделиПервый статистический подход в определении основного тона основан на принципенаименьших квадратов. Первоначально это подход был основан методике отделения периодического сигнала неизвестного периода T0 от гауссового шума в пределах рассматриваемогоокна [46].Методы на базе наименьших квадратов ведут себя как автокорреляционные: чрезвычайно устойчивы к шуму, но в некоторой степени чувствительны к сильным формантам.Сложность существующих алгоритмов квадратична, что гораздо более вычислительно затратно, чем другие методы.
Этот принцип не развивался, пока не появились более мощныекомпьютеры.Непрерывный голосовой сигнал представляется в виде суммы гармоник с амплитудами, частотами и фазами, зависящими от времени. На коротком промежутке времени этипараметры можно считать константными:s(n) =MXm=1Sm exp(iΩm n + φm ).2210Амплитуда8642022.022.042.06Время, сек2.082.1Рисунок 1.5 — Исходный сигнал, найти гармоники невозможноПараметры такой модели можно оценить при помощи локализации пиков спектра сигнала.К задаче определения ЧОТ можно перейти, введя в модель кратные гармоники [47]:u(n) =KXUk exp(ikΩ0 n + ψk )k=1и рассмотрев задачу максимизации функционалаK(p)ρ(p) =Xk=1U(kp){˙ max [Sm D(Ωm − kp)] − 1/2U(kp)}Ωm ∈L(kp)гдеD(Ω − kp) =sin[2π(Ω − kp)/p].(Ω − kp)/pВажной работой в этом направлении является [12].