Диссертация (1149280)
Текст из файла
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТНа правах рукописиМельников Александр АлексеевичБЫСТРЫЕ АЛГОРИТМЫ ОЦЕНКИ ПАРАМЕТРОВПОЛИГАРМОНИЧЕСКОЙ МОДЕЛИ ГОЛОСОВОГО СИГНАЛАСпециальность 01.01.09 —«Дискретная математика и математическая кибернетика»Диссертация на соискание учёной степеникандидата физико-математических наукНаучный руководитель:доктор физико-математических наук, профессорБарабанов Андрей ЕвгеньевичСанкт-Петербург — 20162ОглавлениеСтр.Введение . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .40.1 Кодирование речевого сигнала . . . . . . . . . . . . . . . . . . . . . . . . . . . .60.2 Фонемы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .70.3 Первые попытки . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .70.4 Высота звука . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90.4.1Величина высоты звука . . . . . . . . . . . . . . . . . . . . . . . . . . . .100.4.2Высота звука и частота основного тона . .
. . . . . . . . . . . . . . . . .10Глава 1. Основные понятия и описание существующих методовопределения ЧОТ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141.1 Основные понятия в цифровой обработке сигналов . . . . . . . . . . . . . . . .141.1.1Импульсно-кодовая модуляция . . . . . . . . . .
. . . . . . . . . . . . . .141.1.2Дискретное преобразование Фурье . . . . . . . . . . . . . . . . . . . . .141.1.3Быстрое преобразование Фурье . . . . . . . . . . . . . . . . . . . . . . .161.1.4Оконные преобразования . . . . . .
. . . . . . . . . . . . . . . . . . . . .161.2 Алгоритмы оценивания ЧОТ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171.2.1Классические алгоритмы во временной области . . . . . . . . . . . . . .181.2.2Классические алгоритмы в частотной области . . . . . . . . . . .
. . . .221.2.3Алгоритм YAAPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .281.2.4Алгоритм MBSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .291.2.5Алгоритм SWIPE . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .301.2.6Алгоритм WU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .301.2.7Алгоритм YIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .311.2.8Алгоритм PEFAC . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .321.2.9Алгоритм High accuracy and octave immune pitch detection . . . . . . . .321.2.10 Алгоритм Pitch estimation using models of voiced speech on three levels .331.2.11 Алгоритм IRAPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33Глава 2. Определение параметров модели голосового сигнала . . . . . . . . . .352.1 Оценивание комплексных амплитуд голосового сигнала по МНК . . . . . . . .352.1.1Аффинные колокольчики . . . . . . .
. . . . . . . . . . . . . . . . . . . .382.1.2Вычисление коэффициентов квадратичных форм . . . . . . . . . . . . .422.1.3Нормализованные колокольчики . . . . . . . . . . . . . . . . . . . . . . .462.1.4Решение предельных уравнений МНК . . . . . . . . . . . . . .
. . . . .482.2 Несмещённый критерий оценки периода основного тона . . . . . . . . . . . . .522.2.1Модель измерения с белым шумом . . . . . . . . . . . . . . . . . . . . .5332.2.2Расчёт подавляемой части шума . . . . . . . . . . . . . . . . . . . . . . .2.2.3Критерий оценки периода основного тона по эмпирической дисперсии55шума . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59Стационарная аппроксимация . . . . . . . . . . . . . . . . . . . . . . . .622.3 Вычисление показателей качества для целых значений периода . . . . . . . . .652.2.42.3.1Аффинная модель с целым периодом основного тона .
. . . . . . . . . .662.3.2Стационарная модель с целым периодом основного тона . . . . . . . . .692.3.3Большой целый период . . . . . . . . . . . . . . . . . . . . . . . . . . . .722.4 Локальные вычислительные алгоритмы . . . . . . . . . . . . . . . . . . . . . .792.4.1Решение системы линейных уравнений . . . . . . . . .
. . . . . . . . . .792.4.2Локальная подстройка оценки ЧОТ . . . . . . . . . . . . . . . . . . . . .81Глава 3. Алгоритм быстрого оценивания ЧОТ . . . . . . . . . . . . . . . . . . . .873.1 Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .873.1.1Минимизируемая функция . . . . . . . . . . .
. . . . . . . . . . . . . . .873.1.2Частный случай . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .893.2 Свойства функции «колокольчик» . . . . . . . . . . . . . . . . . . . . . . . . . .893.2.1Расчёт предельного колокольчика . . . . . . . . . . . . . . .
. . . . . . .903.2.2Точность предельного колокольчика . . . . . . . . . . . . . . . . . . . .913.2.3Полиномиальная аппроксимация . . . . . . . . . . . . . . . . . . . . . .963.3 Аппроксимация функции φ(P ) . . . . . . . . . . . . . . . . . . . . . . . . . . . .993.3.1Факторизация знаменателя . . .
. . . . . . . . . . . . . . . . . . . . . . . 1003.3.2Аппроксимация φ0 (P ) при помощи сглаживающей функции . . . . . . . 1033.3.3Аппроксимация функции φ0 (P ) при помощи ряда Лорана . . . . . . . . 109Глава 4. Экспериментальные результаты . . . . . . . . . . . . . . . . . .
. . . . . 1184.1 Демонстрация работы алгоритма определения ЧОТ . . . . . . . . . . . . . . . 1184.2 Сравнение с существующими алгоритмами определения ЧОТ . . . . . . . . . . 122Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 123Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . 1314ВведениеРечь является основным инструментом общения между людьми. В обыденном понимании человеческая речь это звуковая волна, испускаемая человеческим ртом и слышимаячеловеческим ухом. Такая волна называется речевым сигналом. Речевой сигнал может бытьпреобразован в осциллограмму (см. рис. 1) при помощи микрофона. Обратное преобразование осуществляется при помощи динамиков.За этими понятиями стоит сложный механизм синтеза и восприятия речевого сигнала человеческим организмом. На рис. 2 продемонстрирован процесс синтеза и восприятияречи.
В классической работе [1] авторы называют это процесс как «речевая цепь» (speechchain). Он начинается с текста, каким-то образом представленного в мозге человека. Длятого, чтобы произнести этот текст, человек неявно преобразует его в символьное представление последовательности звуков соответствующей звуковой версии текста.
На этом этапетекстовые символы преобразуются в фонетические (с ударениями и продолжительностями).Они описывают базовые звуки звуковой версии текста и манеру, в которой это сообщениебудет произнесено (скорость, окрас). Следующий шаг — генерация последовательности мышечных команд, которые приводят в действие артикуляционную систему человека (язык,губы и т.д.). На последнем шаге физически извлекается звук при помощи движения воздухачерез органы и изменения во времени их положения.
Многие органы вовлечены в синтез речевого сигнала. Лёгкие обеспечивают необходимое давление воздуха. Воздух проходит черезвокальный тракт (трубка, соединяющая легкие и горло), голосовые связки, глотку, надгортанник и другие органы в полости рта. Затем, он выходит через рот и носовые полости в видеакустической волны. Получающийся речевой сигнал кодирует сообщение, сформированноев мозге человека. Когда мы говорим, выдыхаемый воздух из легких движется вверх черезтрахею и входит гортань. В гортани движение воздуха ограничено губообразной тканью,называемой голосовыми связками. Это очень важные мембраны в голосовом аппарате. Онизадают высоту речи.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.















