Диссертация (Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала". PDF-файл из архива "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст из PDF
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТНа правах рукописиМельников Александр АлексеевичБЫСТРЫЕ АЛГОРИТМЫ ОЦЕНКИ ПАРАМЕТРОВПОЛИГАРМОНИЧЕСКОЙ МОДЕЛИ ГОЛОСОВОГО СИГНАЛАСпециальность 01.01.09 —«Дискретная математика и математическая кибернетика»Диссертация на соискание учёной степеникандидата физико-математических наукНаучный руководитель:доктор физико-математических наук, профессорБарабанов Андрей ЕвгеньевичСанкт-Петербург — 20162ОглавлениеСтр.Введение . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .40.1 Кодирование речевого сигнала . . . . . . . . . . . . . . . . . . . . . . . . . . . .60.2 Фонемы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .70.3 Первые попытки . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .70.4 Высота звука . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90.4.1Величина высоты звука . . . . . . . . . . . . . . . . . . . . . . . . . . . .100.4.2Высота звука и частота основного тона . .
. . . . . . . . . . . . . . . . .10Глава 1. Основные понятия и описание существующих методовопределения ЧОТ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141.1 Основные понятия в цифровой обработке сигналов . . . . . . . . . . . . . . . .141.1.1Импульсно-кодовая модуляция . . . . . . . . . .
. . . . . . . . . . . . . .141.1.2Дискретное преобразование Фурье . . . . . . . . . . . . . . . . . . . . .141.1.3Быстрое преобразование Фурье . . . . . . . . . . . . . . . . . . . . . . .161.1.4Оконные преобразования . . . . . .
. . . . . . . . . . . . . . . . . . . . .161.2 Алгоритмы оценивания ЧОТ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171.2.1Классические алгоритмы во временной области . . . . . . . . . . . . . .181.2.2Классические алгоритмы в частотной области . . . . . . . . . . .
. . . .221.2.3Алгоритм YAAPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .281.2.4Алгоритм MBSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .291.2.5Алгоритм SWIPE . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .301.2.6Алгоритм WU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .301.2.7Алгоритм YIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .311.2.8Алгоритм PEFAC . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .321.2.9Алгоритм High accuracy and octave immune pitch detection . . . . . . . .321.2.10 Алгоритм Pitch estimation using models of voiced speech on three levels .331.2.11 Алгоритм IRAPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33Глава 2. Определение параметров модели голосового сигнала . . . . . . . . . .352.1 Оценивание комплексных амплитуд голосового сигнала по МНК . . . . . . . .352.1.1Аффинные колокольчики . . . . . . .
. . . . . . . . . . . . . . . . . . . .382.1.2Вычисление коэффициентов квадратичных форм . . . . . . . . . . . . .422.1.3Нормализованные колокольчики . . . . . . . . . . . . . . . . . . . . . . .462.1.4Решение предельных уравнений МНК . . . . . . . . . . . . . .
. . . . .482.2 Несмещённый критерий оценки периода основного тона . . . . . . . . . . . . .522.2.1Модель измерения с белым шумом . . . . . . . . . . . . . . . . . . . . .5332.2.2Расчёт подавляемой части шума . . . . . . . . . . . . . . . . . . . . . . .2.2.3Критерий оценки периода основного тона по эмпирической дисперсии55шума . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59Стационарная аппроксимация . . . . . . . . . . . . . . . . . . . . . . . .622.3 Вычисление показателей качества для целых значений периода . . . . . . . . .652.2.42.3.1Аффинная модель с целым периодом основного тона .
. . . . . . . . . .662.3.2Стационарная модель с целым периодом основного тона . . . . . . . . .692.3.3Большой целый период . . . . . . . . . . . . . . . . . . . . . . . . . . . .722.4 Локальные вычислительные алгоритмы . . . . . . . . . . . . . . . . . . . . . .792.4.1Решение системы линейных уравнений . . . . . . . . .
. . . . . . . . . .792.4.2Локальная подстройка оценки ЧОТ . . . . . . . . . . . . . . . . . . . . .81Глава 3. Алгоритм быстрого оценивания ЧОТ . . . . . . . . . . . . . . . . . . . .873.1 Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .873.1.1Минимизируемая функция . . . . . . . . . . .
. . . . . . . . . . . . . . .873.1.2Частный случай . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .893.2 Свойства функции «колокольчик» . . . . . . . . . . . . . . . . . . . . . . . . . .893.2.1Расчёт предельного колокольчика . . . . . . . . . . . . . . .
. . . . . . .903.2.2Точность предельного колокольчика . . . . . . . . . . . . . . . . . . . .913.2.3Полиномиальная аппроксимация . . . . . . . . . . . . . . . . . . . . . .963.3 Аппроксимация функции φ(P ) . . . . . . . . . . . . . . . . . . . . . . . . . . . .993.3.1Факторизация знаменателя . . .
. . . . . . . . . . . . . . . . . . . . . . . 1003.3.2Аппроксимация φ0 (P ) при помощи сглаживающей функции . . . . . . . 1033.3.3Аппроксимация функции φ0 (P ) при помощи ряда Лорана . . . . . . . . 109Глава 4. Экспериментальные результаты . . . . . . . . . . . . . . . . . .
. . . . . 1184.1 Демонстрация работы алгоритма определения ЧОТ . . . . . . . . . . . . . . . 1184.2 Сравнение с существующими алгоритмами определения ЧОТ . . . . . . . . . . 122Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 123Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . 1314ВведениеРечь является основным инструментом общения между людьми. В обыденном понимании человеческая речь это звуковая волна, испускаемая человеческим ртом и слышимаячеловеческим ухом. Такая волна называется речевым сигналом. Речевой сигнал может бытьпреобразован в осциллограмму (см. рис. 1) при помощи микрофона. Обратное преобразование осуществляется при помощи динамиков.За этими понятиями стоит сложный механизм синтеза и восприятия речевого сигнала человеческим организмом. На рис. 2 продемонстрирован процесс синтеза и восприятияречи.
В классической работе [1] авторы называют это процесс как «речевая цепь» (speechchain). Он начинается с текста, каким-то образом представленного в мозге человека. Длятого, чтобы произнести этот текст, человек неявно преобразует его в символьное представление последовательности звуков соответствующей звуковой версии текста.
На этом этапетекстовые символы преобразуются в фонетические (с ударениями и продолжительностями).Они описывают базовые звуки звуковой версии текста и манеру, в которой это сообщениебудет произнесено (скорость, окрас). Следующий шаг — генерация последовательности мышечных команд, которые приводят в действие артикуляционную систему человека (язык,губы и т.д.). На последнем шаге физически извлекается звук при помощи движения воздухачерез органы и изменения во времени их положения.
Многие органы вовлечены в синтез речевого сигнала. Лёгкие обеспечивают необходимое давление воздуха. Воздух проходит черезвокальный тракт (трубка, соединяющая легкие и горло), голосовые связки, глотку, надгортанник и другие органы в полости рта. Затем, он выходит через рот и носовые полости в видеакустической волны. Получающийся речевой сигнал кодирует сообщение, сформированноев мозге человека. Когда мы говорим, выдыхаемый воздух из легких движется вверх черезтрахею и входит гортань. В гортани движение воздуха ограничено губообразной тканью,называемой голосовыми связками. Это очень важные мембраны в голосовом аппарате. Онизадают высоту речи.