Диссертация (Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала". PDF-файл из архива "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Первая версия — сигнал, пропущенный через полосовой фильтр с частотами пропускания 50Hz-150Hz. Вторая — нелинейно преобразованный сигнал (квадратсигнала), пропущенный через тот же фильтр. Авторы отмечают, что возведение вквадрат является более эффективным методом предобработки сигнала для выявления ЧОТ, чем отсечение по центру [62].2. Вычисление траектории ЧОТ по нелинейно предобработанному сигналу: оценка траектории ЧОТ проводится с помощью метода корреляции гармоник в спектральнойобласти (SHC) и динамического программирования.29ГолосовойсигналФильтрованныйсигналПредобработка1ФильтрованныйквадратсигналаБПФСпектрОценка кандидатовЧОТ (3)Оценка кандидатовЧОТ (3)Трекинг ЧОТ2Кандидаты ЧОТКандидаты ЧОТСпектральная траекторияЧОТУточнение кандидатовЧОТ (3)Уточнение кандидатовЧОТ 3Уточнённые кандидатыЧОТУточнённые кандидатыЧОТДинамическоепрограммирование4Траектория ЧОТРисунок 1.11 — Принцип работы алгоритма YAAPT3.
Оценка ЧОТ на основе метода нормированной кросскорреляционной функции(NCCF): кандидаты ЧОТ вычисляются по двум вариантам сигналов с уточнениемпо результатам шага 2.4. Окончательное определение ЧОТ: применяется подход на основе динамического программирования к результатам этапов 2 и 3 для получения окончательной траекторииЧОТ и разметки голос/не голос.1.2.4Алгоритм MBSCВ статье [63] описан алгоритм MBSC (Multi-band summary correlogram-based pitchdetection algorithm). Предложена схема вычисления ЧОТ, состоящая из 6 основных этапов,общая схема приведена на рис. 1.12.
На первом этапе исходный сигнал пропускается через набор полосовых фильтров с пересекающимися полосами пропускания. Для каждого изполученных сигналов производится построение спектральных огибающих. Каждый из спектров фильтруется особым образом [64]. Далее следует вычисление Harmonic-to-subharmonicenergy ratio (HSR) для выделения наиболее эффективных фильтров из предыдущего шагадля каждого из каналов. Для каждого из таких отфильтрованных сигналов строится автокорреляционная функция. Производится объединение всех автокорреляций по всем каналамс некоторыми весами. По результирующей автокорреляции находится максимальный пик,который аппроксимируется параболой [33] для более точного выявления ЧОТ.30Голосовой сигналРазложение по частотам с использованиемполосных фильтров0 0.8 - 1.8 kHz1.6 - 2.6 kHz2.4 - 3.4 kHzИзвлечение огибающейМногоканальная фильтрация и вычисление HSRВыбор каналов и вычисление автокорреляцийОбъединение автокорреляционных функцийВычисление кандидата ЧОТЧОТРисунок 1.12 — Принцип работы алгоритма MBSC1.2.5Алгоритм SWIPEВ диссертации Артуро Камачо [64] описан ещё один алгоритм оценивания ЧОТ: SWIPE(Sawtooth Waveform Inspired Pitch Estimator).
Основная идея алгоритма заключается в поиске часоты, которая максимизирует среднее пик-долина расстояние на гармониках, кратныхданной частоте. Пик-долина расстояние для гармоники k и частоты f определяется какdk (f ) =11[|X(kf )| − |X((k − 1/2)f )|] + [|X(kf )| − |X((k + 1/2)f )|] ,22(1.8)где X(f ) — спектр исходного сигнала. Среднее расстояние определяется какn1Xdk (f ).Dn (f ) =n k=1(1.9)Авторы предлагают размывать положение пиков спектра с помощью синусоиды, максимумыкоторой попадают в положение максимумов спектра.
Затем, спектр логарифмируют. Каждую из гармоник в 1.8 взвешивают коэффициентом r k−1 , где r — некоторое значение, непревосходящее единицу. За частоту основного тона принимают частоту, которая максимизирует 1.8 приминительно к логарифму сглаженного спектра и взвешенным гармоникам.1.2.6Алгоритм WUВ статье [65] описывается алгоритм, носящий имя автора. Алгоритм делится на 4 основных этапа.31сигналФильтрацияВычислениекоррелограммВыборканаловМежканальнаяобработкаВосстановлениетраекторииЧОТтраектория ЧОТРисунок 1.13 — Алгоритм WU.На первом этапе исходный сигнал фильтруется банком из 128 полосовых фильтров, центы которых равномерно распределены от 80 до 5000 Гц.
Полученные каналы разделяютсяна две группы — низкочастотные (центр менее 800 Гц) и высокочастотные (все остальные).Из высокочастнотной группы извлекаются огибающие спектров, применяется серия фильтраций. В конце первого этапа по всем каналам строятся нормализованные коррелограммы.В зашумлённом сигнале некоторые из каналов сильно повреждаются помехами. Навтором этапе выбираются каналы, наименее пострадавшие от шума. Такой подход помогаетувеличить робастность предложенного алгоритма.Третий этап объединяет информацию о периодичности сигнала по всем каналам.
Сначала вычисляется вклад каждого из каналов в гипотезу выбора кандидата ЧОТ. Затем, всевклады объединяются.На последнем этапе применяются скрытая марковская модель для восстановлениянепрерывной траектории ЧОТ для всего сигнала.Схематически процесс представлен на рис. 1.13.1.2.7Алгоритм YINВ работе [66] описан метод, основанный на модификации автокорреляционного подхода.Представлено 6 этапов улучшения алгоримта.Первый этап основан на внесении поправки в результат автокорреляции. Поправкавычисляется исходя из соображений минимизации квадратичной невязки сдвинутого сигналаи исходного, выраженной в терминах автокорреляции.На втором этапе в функцию невязки вносится нормировка, которая позволяет улучшитьрезультат.Следующий шаг требуется для борьбы с ошибкой кратных частот.
Авторы предложилиустановить порог и выбирать минимально возможный ПОТ, при котором значение функционала качества ниже этого порога.На пятом шаге производится интерполяция локальных минимумов функционала качества параболами. Этот шаг позволяет более точно определять ПОТ.Последний этап позволяет устранить ошибки выбора ПОТ за счёт соседних по времениПОТ. Если оказывается, что текущая оценка ПОТ завышена, то алгоритм вычисления ПОТ32запускается ещё раз, но уже с дополнительными ограничениями на допустимые значенияПОТ.1.2.8Алгоритм PEFACАлгоритм описан в статье [67]. Он оценивает ЧОТ путём свёртки спектра сигнала влогарифмическом масштабе с фильтром, который суммирует энергию гармоник, отбрасываяаддитивный шум, который имеет плавноменяющийся спектр.
Схема поиска ЧОТ короткоможет быть описана следующим образом:1. вычислить X(f ) — БПФ исходного сигнала2. перевести шкалу частот в логарифмический масштаб3. отмасштабировать спектр так, чтобы его отфильтрованная с помощью ФНЧ версиясовпала с средним речевым спектром [68]4. вычислить свёртку преобразованного сигнала с специальным фильтром h [67] и выбрать максимальный пик. Соответствующая частота и будет ЧОТ.Основной целью данного алгоритма является борьба с низкочастотными шумами.1.2.9Алгоритм High accuracy and octave immune pitch detectionВ [49] описан алгоритм поиска ЧОТ, основанный на анализе локальных максимумовсигнала в частотной области. Размер окна зависит от того, насколько высока ЧОТ. Уменьшение частоты — увеличение размера окна.На первом шаге алгоритма для каждого окна оценивается положение максимальногопика на спектре FM . Строится вектор возможных ЧОТ:Ffund [i] =MXFMi=1iОсновная идея: проверить K гармоник, отложенных от каждого кандидата ЧОТ из вектора Ffund .
Для каждого такого набора оценивается новый кандидат ЧОТ Fstart [i]. Строитсяпоказатель того, насколько каждый набор подходит под спектр (как хорошо накладывается на пики). Этот показатель есть просто сумма зачений спектра в выбранных отсчётах сдополнительными требованиями к локальным максимумам.Для более точной оценки ЧОТ используется нейронная сеть, на вход которой подаётсятри отсчёта.
По ним происходит аппроксимация уточнённого значения ЧОТ.331.2.10Алгоритм Pitch estimation using models of voiced speech onthree levelsРассмотрим ещё одну работу, [69]. Сначала строится спектрограмма исходного сигнала.Она рассматривается как матрица V . К ней применяется факторизация матрицы V = W H.W — матрица базисных векторов.
Она зафиксирована, описывает аддитивную часть, которую хотим найти в V . Базисные вектора делятся на два типа: моделирующие спектр сигналаи моделирующие частотный отклик фильтра голосового тракта. После разложения получаются предварительные траектории на спектрограмме для данного окна.Используются HMM для поиска наиболее вероятной траектории ЧОТ. Оценивается невся траектория целиком, а только локальные кусочки траектории. Параллельно оцениваетсяположение голосовых и не голосовых участков сигнала.На последнем этапе находится наиболее вероятный маршрут, склеенный из уже готовыхкусочков. Делается это на основе средних значений на кусочке и на основе метода policyiteration.1.2.11Алгоритм IRAPTАвторы [70; 71] предлагают алгоритм оценки частоты основного тона под названиемIRAPT.Предложенный алгоритм основывается на методе RAPT [36]. Из RAPT заимствованобщий «каркас» алгоритма и отдельные элементы, в частности используется функция оценкипериодичности сходная с нормированной кросс-корреляционной функцией (НККФ).Используется понижение частоты дискретизации (до 6кГц) при этом предполагается,что основная доля энергии вокализованного речевого сигнала приходится на нижнюю частьспектра (до 3кГц) и, таким образом, оценки мгновенной частоты каждой гармоники из этогодиапазона достаточно для получения точного значения основного тона.
Для оценки НККФиспользуются мгновенные гармонические параметры синусоидальной модели, характеризующие периодичность сигнала в каждый момент времени.Основные шаги предлагаемого алгоритма перечислены ниже:– понижение частоты дискретизации (как и в RAPT это выполняется для уменьшениячисла требуемых операций); при обработке речевого сигнала новая частота дискретизации составляет примерно 6кГц; в отличие от RAPT точность оценки кандидатовне так сильно зависит от частоты дискретизации (в данном случае потеря точностиобусловлена только потерей верхних гармоник) и потому оценка основного тонаможет выполняться используя всего один сигнал;34– вычисляются мгновенные параметры синусоидальной модели сигнала [70];– вычисляется НККФ, используя полученные мгновенные параметры; значения НККФсохраняются;– каждый из локальных максимумов НККФ является кандидатом периода основноготона для соответствующего момента времени;– при помощи метода динамического программирования выполняется поиск контурачастоты основного тона, соединяющий найденных кандидатов периода;– используя контур полученной частоты основного тона сигнал масштабируется вовременной области для того чтобы обеспечить его стационарность;– вычисляются мгновенные параметры синусоидальной модели масштабированногосигнала;– на основе полученных параметров вычисляется уточненная оценка основного тона;35Глава 2.