Диссертация (1149825), страница 5
Текст из файла (страница 5)
При сдвигании окна вдоль временной оси на выходе будут получатьсяпеременные амплитуды тех гармоник, которые участвуют в ВДПФ, и частотыизменения амплитуд будут совпадать с частотой входной гармоники. То естьбудет происходить утечка входной информации в нежелательные места. Учетэтого явления вообще позволяет восстановить форму входного сигнала, однакодля синтеза ускоренного или замедленного звука колебания найденных амплитуд недопустимы.Кроме того, при анализе амплитуд гармонических составляющих входного26сигнала даже в случае совпадения частот гармоник ряда Фурье со входными частотами ВОПФ теряет информацию об изменении амплитуд входных гармоникпо ширине окна и выдает некоторые усредненные амплитуды по этой ширине.Если после этого восстанавливать сигнал согласно формуле (1.9) и периодически распространить его на длительный период времен, то из-за особенностейчеловеческого слуха будет происходить относительно исходного сигнала субъективное ослабление громкости тех входных гармонических составляющих, которые имели большую амплитуду только на небольшом участке окна.
То естьв воспроизводимом сигнале будет искажен тембр.Более подходящим представляется для этих целей вейвлет-преобразование.§1.6. Вейвлетное преобразованиеПоскольку ПФ дает амплитудно-временное представление сигнала, для нестационарных сигналов оно не дает информацию, в какой момент или хотя бы интервал времени возникла та или иная частота. То есть с его помощью не удастся определить, к примеру, паталогию на электрокардиограмме. Поэтому приработе с биологическими сигналами имеет смысл обратиться к их частотновременному (ЧВ) представлению.
Согласно многим известным работам, например [1], [4], [14], [20], [31], [33], [34], непрерывное вейвлет-преобразование (НВП)такое представление и обеспечивает. Термин “ЧВ-представление”, используемый в русскоязычных работах, является калькой с английского “time-frequencyrepresentation” [31]. ЧВ-представление получается с помощью ЧВ-анализа —калька с английского термина “time-frequency analysis” [34].Формула для НВП сигнала W (t) выглядит следующим образом:)(∫ ∞1t−τψdt,ΨW (τ, B) = √W (t)ψ ∗BB −∞(1.12)где τ — параметр сдвига, B — параметр масштаба, ψ(t) — некоторая функцияпреобразования, именуемая материнским вейвлетом, ∗ — оператор комплексно-27го сопряжения.Для простоты вычислений материнские вейвлеты, как правило, выбираются вещественнозначными.
В таблице 5 приведены широко применяемые материнские вейвлеты.Название вейвлета ФормулаHAAR-вейвлетψ(t) =FHAT-вейвлетψ(t) =t ∈ [0, ..., 1/2);1,−1, t ∈ [1/2, ..., 1);0.|t| ≤ 1/3;1,−1/2, 1/3 < |t| ≤ 1;0.Wave-вейвлетψ(t) = te−tMHAT-вейвлетψ(t) = (1 − t2 )e−t2/2.2/2.Табл.5. Примеры часто используемых материнских вейвлетов.Недостатки вейвлет-преобразования заметны уже в непрерывном случае.Пример 1. Пусть синусоида sin Ωt подвергается НВП, а в качестве материнского используется HAAR-вейвлет. Распишем формулу (1.12) для этогослучая:∫τ +B/2∫τ +Bsin Ωt dt −sin Ωt dt =ττ +B/2()()1B=cos Ω(τ + B) − 2 cos Ω τ ++ cos Ωτ =Ω2()()2BΩBΩ=cos− 1 cos Ωτ +.Ω22Аналогично получаем для косинусоиды:()()BΩBΩ2HAARΨcos (τ, B) =1 − cossin Ωτ +.Ω22ΨHAAR(τ, B)sin=(1.13)(1.14)Таким образом, если входной сигнал имеет видW (t) = a0 +P∑i=1ai cos Ωi t + bi sin Ωi t,ai , bi ∈ R,(1.15)28то результат НВП для некоторого масштаба B с использованием HAARвейвлета имеет периодическую или квазипериодическую зависимость от τ :ΨHAAR(τ, B) =W)((()())P∑2BΩiBΩiBΩi=cos−1bi cos Ωi τ +− ai sin Ωi τ +, (1.16)Ω222ii=1то есть фактически получается та же сумма, но с другими коэффициентамигармоник и с фазовыми сдвигами.Для входного сигнала (1.15) частоты гармоник постоянны.
Поэтому можно было бы ожидать, что выход из НВП, будучи объявленным “частотновременным представлением”, должен быть набором констант. Однако ложность этого ожидания показывает формула (1.16). Некорректность применениятермина “ЧВ-представление” к НВП характерно и для других вейвлетов.Пример 2. Пусть синусоида sin Ωt подвергается НВП, а в качестве материнского используется FHAT-вейвлет.
Распишем формулу (1.12) для этогослучая:∫ τ +B∫ τ −B/311sin Ωt dt −sin Ωt dt =ΨFsinHAT (τ, B) =sin Ωt dt −2 τ +B/32 τ −Bτ −B/3(()())3BB=cos Ω τ −− cos Ω τ ++2Ω331+(cos Ω (τ + B) − cos Ω (τ − B)) =2Ω()BΩ1− sin BΩ .(1.17)= sin Ωτ 3 sinΩ3∫τ +B/3Аналогично получаем для косинусоиды:1ΨFcosHAT (τ, B) = cos ΩτΩ()BΩ3 sin− sin BΩ .3Результат НВП для входного сигнала (1.15) примет вид()P∑BΩ1i3 sin− sin BΩi (ai cos Ωi τ + bi sin Ωi τ ) .ΨFWHAT (τ, B) =Ω3ii=1(1.18)(1.19)29В отличие от HAAR-вейвлета, FHAT-вейвлет не создает фазового сдвига, нопо-прежнему результат НВП представляет из себя ряд, в котором каждое слагаемое исходного ряда после замены времени t на временной сдвиг τ умножа3 sin BΩ/3 sin BΩется на коэффициент−, зависящий только от частоты Ω иΩΩмасштаба B. То есть синусоидальное преобразуется в синусоидальное, косинусоидальное — в косинусоидальное.Чтобы выполнить на компьютере вейвлет-преобразование для дискретногосигнала {Wi }, оно дискретизируется следующим образом.
Вначале коэффициенты масштаба и сдвига дискретизируются [33] какB(j) = B0j ,τ (j, k) = kB0j τ0 .(1.20)Затем вычисляются аналитически или приближенно интегралы от вейвлетов[9]:∫(t − τ (j, k)Ui (τ (j, k), B(j)) =ψ∗B(j)−∞где в качестве ti берется отсечка входного WAV-файла.ti)dt,(1.21)Будем трактовать дискретный сигнал Wi как ступенчатую функцию, заданную согласно формуле W (t) = Wi , t ∈ [ti , ti+1 ), i = 0, ..., N − 1. Интеграл вформуле (1.12), являющийся ее правой частью, заменяется суммой.
И вводитсяновое обозначение для дискретного вейвлет-преобразования (ДВП):()∫ ti+1∑1t−τΨ(j, k) := ΨψW (j, k) = √W (t)ψ ∗dt =BB i ti)∫ ti+1 (1 ∑∗ t−τWiψdt ==√BB iti(∫ ti+1 ()) )(∫ ti1 ∑t−τt−τ=√Wiψ∗dt −ψ∗dt =BBB i−∞−∞1 ∑=Wi (Ui+1 (τ (j, k), B(j)) − Ui (τ (j, k), B(j))) ,B(j) iРеконструкция входного сигнала производится по формуле∑∑W (t) =Ψ(j, k)u(j, k, t),jk(1.22)(1.23)30−j/2где u(j, k, t) = B0ψ(B0−j t − kτ0 ).В указанном преобразовании (1.22) можно наблюдать эффект “биения”,суть которого демонстрируется следующей теоремой. Пусть у нас цифровойсигнал состоит из отсечек чистой гармоники вида W (n) = sin Ωn, а материнский вейвлет ψ имеет конечный носитель длиной S и SΩ = p1 /p2 , где p1 , p2— взаимно простые целые числа и p2 > 1.
Тогда функция ΨψW (j, k) из (1.22)является периодической по аргументу k с периодом p2 .Это утверждение, разумеется, верно и для материнских вейвлетов с бесконечным носителем, но более сложно доказывается.Таким образом, широко распространенное утверждение о вейвлет-преобразовании как о преобразовании сигнала в частотно-временную область несовсем корректно, поскольку в приведенном в теореме контрпримере сигнал Wпостоянной частоты преобразуется в переменный по временному сдвигу τ (k)набор функций ΨψW (j, k), j = 1, 2, ....Это не мешает восстановлению исходного сигнала по этому набору функций.
Однако не приближает к пониманию частот Ωi и амплитуд ai , bi гармоник,составляющих исходный цифровой сигнал:W (n) = a0 (n) +P∑ai (n) cos Ωi n + bi (n) sin Ωi n,(1.24)i=1и поэтому не способствует нашему плану по изменению скорости воспроизведения с сохранением тональности.§1.7. PSOLAОтрыв в задаче изменения темпа воспроизведения речи был воспроизведен технологией PSOLA (Pitch Synchronous Overlap and Add) и TD-PSOLA (TimeDomain Pitch Synchronous Overlap and Add). В них не производится определение каких-либо гармоник, составляющих речевой сигнал. Для ускорения/замедления используется форма сигнала в некотором сглаженном по краям31окне. Окна следуют регулярно и налагаются друг на друга. При воспроизведении интервал между окнами расширяется для замедления и сужается дляускорения [30].
К достоинствам технологии следует отнести высокую скоростьобработки сигнала. К недостаткам — проблемы с воспроизведением короткихвзрывных согласных и дырявость при замедлении. При ускорении — нежелательный эффект тремоляции (быстрого вибрато). Их причина — зависимостьформы окна от коэффициента ускорения/замедления и внедрение отдельных“быстрых” частей фонем в не подходящие для них места.
К сожалению, производители звуковых редакторов с опцией ускорения/замедления, как правило,не сообщают о математическом аппарате, заложенном в программу, и о немприходится догадываться по характерным дефектам.Глава 2.ЗАДАЧА ГАРМОНИЧЕСКОЙАППРОКСИМАЦИИ§2.1. Критерий качестваПомимо медленного изменения амплитуд гармоник, в реальных звуках и в частности в человеческой речи происходит еще и медленное изменение фундаментальной частоты. Таким образом, общий вид аппроксиматора усложняется:f (x, y, ω, t, ∆t) == x0 (t, ∆t) +P∑xi (t, ∆t) cos(ωi (t, ∆t)∆t) + yi (t, ∆t) sin(ωi (t, ∆t)∆t),(2.1)i=1гдеx = (x0 , ..., x ),Py = (y1 , ..., y ),Pω = (ω1 , ..., ω ).PДля цифрового звука время t дискретно. Выбором масштаба времени можно назначить шаг дискретизации равным 1. Не умаляя общности можно считать, что отсечки происходят во время t = n = 1, 2, ....