Автореферат (1149279), страница 3
Текст из файла (страница 3)
При k ≥ 0 округлим число 2kF до ближайшего целого числа2kF = ℓkF + xkF , где |xkF | ≤ 0.5 и ℓkF целое.14Теорема 4. При |τ | < NrP (τ ) =11 − αF2"12NN−1Xn=−N2πi|Sen |2 e 2N τ n + 2 Re∞XαFk∞X(−πix2F k /2)jj!j=0k=1#ρℓ2F k ,j (τ ) .Приближение функции rP основано на выборе конечного множествапар неотрицательных индексов M = {(ℓ, j)}, для которых вычисляются величины ρℓ,j (τ ).Следствие 2. Общее количество преобразований Фурье, необходимых привычислении приближенияrbP,M (τ ) =1 ρ0,0 (τ ) + 2 Re1 − αF2XαFk(k,j):(ℓ2F k ,j)∈Mj(−πix2F k /2)ρℓ2F k ,j (τ ) .j!для −N ≤ τ < N , равноNfft = |M| + Jmax + 1.Для повышения качества аппроксимации есть смысл включать в множество M все пары (ℓ, j) при 0 ≤ j ≤ J(ℓ) − 1.
Далее будем считать, что этоусловие выполнено.Максимальное число ℓ, для которого (ℓ, 0) ∈ M, обозначим через L.Пусть P — целое число и F = N/P . Максимальное целое число k, длякоторого 2F k ≤ L + 0.5, обозначим K(P ) = ⌊P (2L + 1)(4N )⌋.Теорема 5. Погрешность приближения функции φ0 оценивается сверхуследующим образом:N/2−1|φ0 (P ) − φb0 (P )| ≤Xt=−N/2γP (t)|est | |est | + 2⌊ Pt + F2 ⌋Xq=1|est−qP | ,гдеJ(ℓ2F k ) πt12 XkK(P )+1 1 + |αF | |α|xγP (t) =+|α|F2FkF1 − αF2J(ℓ2F k )! N|1 + αF zPt |2K(P )k=1152πiи zPt = e− 2N 2F t .Для каждого вычета k = 0,1, .
. . , P − 1 минимальное число из промежутка −N/2 + 1 ≤ t ≤ N/2 − 1, сравнимое с k, обозначим t0k , а количествочисел из этого промежутка, сравнимых с k, обозначим Nk .Теорема 6. Для каждого P ∈ [Pmin , Pmax ]N/2−1|φ0 (P ) − φb0 (P )| ≤ λksw k2 ,где sw = (sw,t )t=−N/2, sw,t = st wt,λ = max λk ,0≤k≤P −1cn,k = wt0k +nP ,λk = kAk k,ai,j,k = c,k icj,k dmax{i,j},k ,0 ≤ i,j ≤ Nk − 1,dn,k = γP (t0k + nP ).В четвёртой главе диссертационной работы продемонстрирована работа алгоритма оценивания ЧОТ из главы 3, а также проведено сравнениекачества оценивания ЧОТ с наиболее известными существующими алгоритмами, такими как: YAAPT [Zahorian S.
A., Hu H., 2008], SWIPE [Camacho A.,Harris J. G., 2008], RAPT [Talkin D., 1995], PEFAC [Gonzalez S., Brookes M.,2011], и YIN [De Cheveigne A., Kawahara H., 2002]. В качестве тестовой былавыбрана база PTDB-TUG [Pirker G., 2011]. Извлечено 300 голосовых участков из разных аудиозаписей, содержащихся в базе. Затем, были полученыоценки ЧОТ всеми вышеуказанными алгоритмами (их реализации на Matlabмогут быть найдены в открытом доступе).
После оценки ЧОТ были получены значения комплексных амплитуд и вычислены значения функции невязкиJmin (P0 ) для кандидатов ЧОТ, нормированы на энергию сигнала и усреднены по всем экспериментам. В таблице 1 представлены значения Jmin (P0 ) дляразных вариантов применения высокочастотных фильтров к исходному сигналу и к смоделированному. Через PTDB отмечен результат, полученный поразметке ЧОТ, имеющийся в базе данных PTDB-TUG.Предложенный в диссертационной работе алгоритм оценивания ЧОТназван «метод минимизации дисперсии шума» (МДШ), или «Noise VarianceMinimization» (NVM).16Частота среза PTDB YAAPT SWIPE RAPT PEFAC YIN NVM0 Гц0.3318 0.6025 0.2900 0.3147 0.3046 0.2781 0.2709200 Гц0.3531 0.6281 0.3092 0.3328 0.3221 0.2958 0.28850.3763 0.6467 0.3311 0.3534 0.3429 0.3163 0.3095400 Гц600 Гц0.3895 0.6561 0.3445 0.3682 0.3577 0.3304 0.32411000 Гц0.4082 0.6675 0.3635 0.3887 0.3795 0.3504 0.34502000 Гц0.4300 0.6793 0.3861 0.4131 0.4049 0.3735 0.3693Таблица 1 — Среднее значение для Jmin (P0 ) после высокочастотнойфильтрации сигналаЗаключение.В рамках этой диссертационной работы получены результаты, позволяющие эффективно оценивать параметры полигармонических моделей речевого сигнала.
Результаты представляют практическую ценность в задачах,где критична точность локализации старших гармоник речевого сигнала, атакже в условиях коротких временных интервалов и быстрого изменения параметров сигнала.Основные результаты работы заключаются в следующем.1. Рассчитаны асимптотические коэффициенты в алгоритме оценивания комплексных амплитуд для стационарной и аффинной полигармонических моделей речевого сигнала.2.
Получены алгоритмы оценивания частоты основного тона для стационарной и аффинной полигармонических моделей речевого сигнала на основе несмещённой оценки дисперсии шума модели.3. Получен алгоритм приближённого расчёта частоты основного тонадля стационарной полигармонической модели речевого сигнала накоротких фреймах, имеющий асимптотическую сложность N log N ,и установлена связь между его точностью и скоростью работы.4.
Проведено сравнение разработанного алгоритма расчёта частотыосновного тона с существующими алгоритмами.17Публикации автора по теме диссертации1. Melnikov A., Barabanov A. Guaranteed estimation of speechfundamental frequency with bounded complexity algorithm //Cybernetics and Physics. — 2016. — Т.
5, № 1.2. Barabanov A., Melnikov A., Magerkin V., Vikulov E. Fast Algorithmfor Precise Estimation of Fundamental Frequency on Short TimeIntervals // Lecture Notes in Computer Science. Т. 9319. — Springer,2015. — С. 217—225.3. Melnikov A., Akhunzyanov R., Kudashev O., Luckyanets E.
AudiovisualLiveness Detection // Lecture Notes in Computer Science. Т. 9280. —Springer, 2015. — С. 643—652.4. Мельников А. Быстрый алгоритм идентификации параметров модели голосового сигнала // Сборник трудов XII Всероссийского совещания попроблемам управления (ВСПУ-2014).
— 2014. — С. 3090—3101.18.















