Диссертация (1149280), страница 17
Текст из файла (страница 17)
На рис. 4.3 показана реальнаяошибка приближения этой функции, а так же аналитические оценки ошибки, представленныев теореме 9 и теореме 10. Видно, что для множества M2 оценки погрешности в области низкихF на порядок ниже, чем для M1 .На следующем шаге осуществим переход от φ0 к Jmin за счёт умножения на соответствующий коэффициент (см. рис. 2.9). На рис. 4.4 показана аппроксимация для Jmin, а так жеаналитические границы погрешности для наборов M1 и M2 . Хотя в этом конкретном примерефактическая точность аппроксимации для обоих случаев является более чем допустимой, ноаналитическая оценка погрешности разнится сильно.Далее, совершим переход от Jmin к σb(F ) за счёт умножения на соответствующий коэф-фициент (см. рис.
2.9).Для варианта алгоритма с множеством M2 можно сделать вывод, что аналитическаяоценка погрешности позволяет выбрать целочисленный локальный минимум из полученныхрезультатов, и он будет определён верно. Для варианта алгоритма с множеством M1 такого вывода сделать нельзя, т.к. аналитическая погрешность слишком велика.
В этом случае1200.0140.4реальная ошибкаоценка ошибки (теор. 9)оценка ошибки (теор. 10)0.35реальная ошибкаоценка ошибки (теор. 9)оценка ошибки (теор. 10)0.0120.30.010.250.0080.20.0060.150.0040.10.0020.0501.61.822.22.4F2.62.833.201.61.822.22.4F2.62.833.2б) Множество M2а) Множество M1Рисунок 4.3 — Результат аппроксимации φ0 (F )68аппроксимация Jminреальное значение Jminоценка точности (теор. 10)6аппроксимация Jminреальное значение Jminоценка точности (теор.
10)5442302-21-40-6-81.61.822.22.4F2.62.833.2-11.61.82а) Множество M12.22.4F2.62.833.2б) Множество M2Рисунок 4.4 — Результат аппроксимации Jmin (F )0.80.07аппроксимация σ(F )реальное значение σ(F )оценка точности (теор. 10)0.6аппроксимация σ(F )реальное значение σ(F )оценка точности (теор. 10)0.060.050.40.040.20.0300.02-0.20.01-0.4-0.61.601.822.22.4F2.6а) Множество M12.833.2-0.011.61.822.22.4F2.6б) Множество M2Рисунок 4.5 — Результат аппроксимации σb(F )2.833.2121необходимо выделить тот участок области поиска ЧОТ, где аналитической оценки точностинедостаточно для выделения локального минимума.
Затем, участок поиска ЧОТ сокращается, изменяется множество M и производится дополнительные вычисления для уменьшенияаналитической погрешности. Процесс продолжается до того момента, пока погрешность нестанет допустимой для выбора всех целочисленных кандидатов ЧОТ на заданном интервалеЧОТ.На последнем шаге полученные целочисленные кандидаты на ЧОТ уточняются припомощи метода, описанного в разделе 2.4.2.В итоге, алгоритм поиска ЧОТ можно описать следующим образом:Исходные параметры: исходный сигнал sРезультат: значение ЧОТ Ppitchзафиксировать множество M;зафиксировать отрезок поиска ЧОТ Prange = [Pmin ; Pmax ] ;до тех пор, пока аналит. погр. не позв.
выбрать целочисл. канд. ЧОТ выполнятьвычислить φ0 (F );вычислить Jmin(F );вычислить σb(F );к Pcandidate доб. те канд. ЧОТ, для которых погр. позв. выделить лок. мин.уменьшить область поиска Prange ;обновить множество M;конецпроизв. уточнение Pcandidate и выбрать оптимальный Ppitch ;Алгоритм 1: Поиск ЧОТ1224.2Сравнение с существующими алгоритмами определения ЧОТВ рамках этой работы было проведено сравнение с существующими алгоритмами детектирования ЧОТ, такими как: YAAPT [73], SWIPE [64], RAPT [36], PEFAC [67], и YIN [66].В качестве тестовой была выбрана база PTDB-TUG [74].
Извлечено 300 голосовых участковиз разных аудиозаписей, содержащихся в базе. Затем, были получены оценки ЧОТ всемивышеуказанными алгоритмами (их реализации на Matlab могут быть найдены в открытомдоступе). После оценки ЧОТ были получены значения комплексных амплитуд и вычисленызначения функции невязки Jmin (P0 ) для кандидатов ЧОТ, нормированы на энергию сигнала и усреднены по всем экспериментам. В таблице 1 представлены значения Jmin(P0 ) дляразных вариантов применения высокочастотных фильтров к исходному сигналу и к смоделированному. Через PTDB отмечен результат, полученный по разметке ЧОТ, имеющийся вбазе данных PTDB-TUG.Предложенный в диссертационной работе алгоритм оценивания ЧОТ назван «методминимизации дисперсии шума» (МДШ), или «Noise Variance Minimization» (NVM).Частота среза PTDB0 Гц0.3318200 Гц0.35310.3763400 Гц600 Гц0.38951000 Гц0.40822000 Гц0.4300Таблица 1 — Среднее значениеYAAPT SWIPE0.60250.29000.62810.30920.64670.33110.65610.34450.66750.36350.67930.3861для Jmin (P0 ) послеRAPT PEFAC0.3147 0.30460.3328 0.32210.3534 0.34290.3682 0.35770.3887 0.37950.4131 0.4049высокочастотнойYINNVM0.2781 0.27090.2958 0.28850.3163 0.30950.3304 0.32410.3504 0.34500.3735 0.3693фильтрации123ЗаключениеВ рамках этой диссертационной работы получены результаты, позволяющие эффективно оценивать параметры полигармонических моделей речевого сигнала.
Результаты представляют практическую ценность в задачах, где критична точность локализации старшихгармоник речевого сигнала, а также в условиях коротких временных интервалов и быстрогоизменения параметров сигнала.Основные результаты работы заключаются в следующем.1. Рассчитаны асимптотические коэффициенты в алгоритме оценивания комплексныхамплитуд для стационарной и аффинной полигармонических моделей речевого сигнала.2. Получены алгоритмы оценивания частоты основного тона для стационарной и аффинной полигармонических моделей речевого сигнала на основе несмещённой оценки дисперсии шума модели.3.
Получен алгоритм приближённого расчёта частоты основного тона для стационарной полигармонической модели речевого сигнала на коротких фреймах, имеющийасимптотическую сложность N log N, и установлена связь между его точностью искоростью работы.4. Проведено сравнение разработанного алгоритма расчёта частоты основного тона ссуществующими алгоритмами.124Список литературы1. Denes P. B., Pinson E. The speech chain. — Macmillan, 1993.2. O’shaughnessy D. Speech communication: human and machine. — Universities press, 1987.3.
Breen A., Bowers E., Welsh W. An investigation into the generation of mouth shapes fora talking head // Spoken Language, 1996. ICSLP 96. Proceedings., Fourth InternationalConference on. Т. 4. — IEEE. 1996. — С. 2159—2162.4. Rossing T. D. [и др.] The Science of Sound/Edition 3. — Addison Wesley, 2009.5. Rabiner L. R., Schafer R. W. Introduction to digital speech processing // Foundations andtrends in signal processing. — 2007. — Т. 1, № 1.
— С. 1—194.6. Von Helmholtz H. On the Sensations of Tone as a Physiological Basis for the Theory ofMusic. — Longmans, Green, 1912.7. Резонатор Гельмгольца. — https://en.wikipedia.org/wiki/Helmholtz_resonance.8. Zeng Y.-M., Wu Z.-Y., Falk T., Chan W.-Y. Robust GMM based gender classification usingpitch and RASTA-PLP parameters of speech // Machine Learning and Cybernetics, 2006International Conference on. — IEEE. 2006.
— С. 3376—3379.9. Ververidis D., Kotropoulos C., Pitas I. Automatic emotional speech classification //Acoustics,Speech,andSignal Processing,2004. Proceedings.(ICASSP’04).IEEEInternational Conference on. Т. 1. — IEEE. 2004. — С. I—593.10. Ryynanen M. P., Klapuri A. Polyphonic music transcription using note event modeling //Applications of Signal Processing to Audio and Acoustics, 2005. IEEE Workshop on. — IEEE.2005.
— С. 319—322.11. Fu Z., Lu G., Ting K. M., Zhang D. A survey of audio-based music classification andannotation // Multimedia, IEEE Transactions on. — 2011. — Т. 13, № 2. — С. 303—319.12. Griffin D. W., Lim J. S. Multiband excitation vocoder // Acoustics, Speech and SignalProcessing, IEEE Transactions on. — 1988. — Т. 36, № 8.
— С. 1223—1235.13. Fant G., Liljencrants J., Lin Q.-g. A four-parameter model of glottal flow // STL-QPSR. —1985. — Т. 4, № 1985. — С. 1—13.14. Neri A., Cucchiarini C., Strik H., Boves L. The pedagogy-technology interface in computerassisted pronunciation training // Computer assisted language learning. — 2002.
— Т. 15,№ 5. — С. 441—467.15. Aronson A. E., Bless D. Clinical voice disorders. — Thieme, 2011.16. Houtsma A. J. Pitch and timbre: Definition, meaning and use // Journal of New MusicResearch. — 1997. — Т. 26, № 2. — С. 104—115.17. Психоакустика. — https://en.wikipedia.org/wiki/Psychoacoustics.12518. Мельников А. Быстрый алгоритм идентификации параметров модели голосового сигнала // Сборник трудов XII Всероссийского совещания по проблемам управления(ВСПУ-2014).















