Автореферат (1149279)
Текст из файла
На правах рукописиМельников Александр АлексеевичБЫСТРЫЕ АЛГОРИТМЫ ОЦЕНКИПАРАМЕТРОВ ПОЛИГАРМОНИЧЕСКОЙМОДЕЛИ ГОЛОСОВОГО СИГНАЛАСпециальность 01.01.09 —«Дискретная математика и математическая кибернетика»Авторефератдиссертации на соискание учёной степеникандидата физико-математических наукСанкт-Петербург — 2016Работа выполнена в Санкт-Петербургском государственном университетеНаучный руководитель:доктор физико-математических наук, профессорБарабанов Андрей ЕвгеньевичОфициальные оппоненты: Соколов Виктор Федорович,доктор физико-математических наук, профессор,Федеральное государственное бюджетное учреждение науки Коми научный центр Уральскогоотделения Российской академии наук (Коми НЦУрО РАН),отдел математики, ведущий научный сотрудникПацко Валерий Семёнович,кандидат физико-математических наук, старшийнаучный сотрудник,Федеральное государственное бюджетное учреждение науки Институт математики и механикиим.
Н.Н.Красовского Уральского отделения Российской академии наук (ИММ УрО РАН),отдел динамических систем, заведующий секторомВедущая организация:Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наукЗащита состоится «16» ноября 2016 г. в 16 часов на заседании диссертационного совета Д 212.232.29 на базе Санкт-Петербургского государственного университета по адресу:199178, Санкт-Петербург, 10 линия В.О., д.33/35, ауд.
74.Сдиссертациейможноознакомитьсявбиблиотекеим.М.ГорькогоСанкт-Петербургскогогосударственногоуниверситетапоадресу:199034,Санкт-Петербург,Университетскаянаб.,7/9инасайтеhttp://spbu.ru/science/disser/dissertatsii-dopushchennye-k-zashchite-i-svedeniya-o-zashchite.Автореферат разослан «»2016 г..Ученый секретарьдиссертационного советаД 212.232.29, проф., докт. физ.-мат.наукВ.М. НежинскийОбщая характеристика работыАктуальность темы. Математические модели речевых сигналов применяются для решения разнообразных задач анализа, синтеза, распознаванияи кодирования речи [Springer, Handbook of speech processing, 2007]. Основноймоделью звонкого речевого сигнала на коротком промежутке времени является периодическая функция, которая полностью определяется своим периодом, а также амплитудами и фазами всех гармоник, входящих в ряд Фурье.Идентификация этих параметров по измеряемым отсчётам с определённойчастотой дискретизации и в условиях шумов составляет задачу анализа речевого сигнала.
Наибольшую сложность представляет оценка периода моделиили обратной ему величины - частоты основного тона (ЧОТ), которая характеризует высоту слышимой речи. Комплексные амплитуды оцениваются пометоду наименьших квадратов из условия минимума квадратичной невязкисигнала и модели.Многие исследователи занимались вопросом определения ЧОТ голосового сигнала. Первые шаги в этом направлении были сделаны ещё в 19 веке.Гельмгольц [1912] с помощью специальных резонаторов выделял гармоники,содержащиеся в речевом сигнале.Первыми математическими подходами можно считать семейство методов, основанных на выборе маркеров ЧОТ с последующей их обработкой.Простейший из них — zero-crossing rate — выделяет последнее пересечениенуля перед каждым максимумом на периоде. Целое семейство аналогичныхметодов освещено в литературе [Dologlou I., Carayannis G., 1989; Hess W.
J,1976; Ananthapadmanabha T., Yegnanarayana B., 1975, Dolansky L. O., 1955;Howard I. S., Walliker J., 1989; Hess W. J., 1976].На следующем этапе развития алгоритмов можно выделить автокорреляционные методы и методы, основанные на вычислении функции расстояния.
Один из распространённых типов алгоритма, «average magnitudedifference function», AMDF [M. Ross, 1974; Sobolev V., Baronin S., 1968; MoorerJ. A., 1974; Cheveigne A. de, Kawahara H., 2002], основан на предположении отом, что средняя величина сигнала будет оставаться практически одинаковойот одного периода к другому.3Shimamura и Kobayashi [2001] в своей работе совместили корреляционные методы (ACF) и AMDF методы путём взвешивания ACF обратной кAMDF величиной.Hirose [1992] и Talkin [1995] показали, что автокорреляционную функцию можно вычислять, используя дополнительную нормализацию.Terez [2002] описал иной подход.
Основная идея приводит к функциирасстояния в многомерном пространстве состояний. Идея использования многомерной репрезентации сигнала для определения ЧОТ начинается с 1950-ыхгодов [Hess W. J., 1982].В 1964 году Рейдер опубликовал векторный алгоритмпоиска ЧОТ, где он использовал выходные сигналы от фильтров (см. Yaggi,1962) и их преобразование Гильберта для формирования многомерного вектора, по которому производилась оптимизация.Автокорреляционные методы описаны в работах [Rabiner L., 1977;Sondhi M.
M., 1968; Markel J. D., 1972].Часть алгоритмов нацелена на определение параметров полигармонической модели речевого сигнала. Общая идея здесь такова: оценить параметры модели речевого сигнала так, чтобы модель наилучшим образом аппроксимировала анализируемый сигнал (см. [Griffin D. W., 1988; Noll A. M., 1969;McAulay R.
J., Quatieri T. F., 1990].Ещё одно семейство методов переносит обработку речевого сигнала вчастотную область. Тут можно отметить такие методы, как детектированиепиков спектра, методы спектральной корреляции, harmonic product spectrum,методы на основе кепстра (см. [McLeod P., Wyvill G., 2003; Dziubinski M.,Kostek B., 2004; Kondoz A. M., 2005; Lahat M., Niederjohn R. J., Krubsack D.A., 1987; Schroeder M. R., 1968; Martin P. A., 1987; Brown J. C., 1992; Hermes D.J., 1988; Duifhuis H., Willems L. F., Sluyter R., 1982; Noll A.
M., 1967; IndefreyH., Hess W. J., Seeser G., 1985; Martin P., 1982]).Отдельно можно выделить методы, являющиеся наиболее успешнымии популярными в наше время: YAAPT [Zahorian S. A., Hu H., 2008], MBSC[Tan L. N., Alwan A., 2013], SWIPE [Camacho A., Harris J. G., 2008], WU [WuM., Wang D., Brown G. J., 2003], YIN [De Cheveigne A., Kawahara H., 2002],PEFAC [Gonzalez S., Brookes M., 2011], IRAPT [Azarov E., Vashkevich M.,Petrovsky A., 2012]. Они вобрали в себя идеи из разных типов предшествующих алгоритмов.4Целью диссертационной работы является создание алгоритма оценкипараметров полигармонической модели голосового сигнала, который превосходит аналогичные алгоритмы по точности и имеет эффективную вычислительную сложность.Для достижения поставленной цели необходимо было решить следующие задачи.1.
Получить алгоритм оценивания всех параметров стационарной иаффинной полигармонической модели речевого сигнала.2. Получить алгоритм приближённого расчёта ЧОТ для стационарнойполигармонической модели речевого сигнала на коротких фреймах,имеющий сложность N log N и установить взаимосвязь между точностью и скоростью работы алгоритма.3.
Провести сравнение с существующими алгоритмами оцениванияЧОТ.Основные положения, выносимые на защиту.1. Получен способ оценивания комплексных амплитуд для аффиннойполигармонической модели речевого сигнала (Теорема 1). На основеутверждения для аффинной модели утверждение теоремы распространяется для стационарного случая.2. Получен критерий для оценивания ЧОТ аффинной полигармонической модели речевого сигнала (Следствие 1).
На основе утверждения для аффинной модели следствие распространяется для стационарного случая.3. Получена формула явного вычисления значений функционала качества Jmin для стационарной модели голосового сигнала (Теорема2).4. Получен метод приближённого вычисления значений функционалакачества (Лемма 1, Теоремы 3, 4, Следствие 2).5. Получена аналитическая оценка точности аппроксимации функционала качества (Теоремы 5, 6).Научная новизна.
Все результаты, выносимые на защиту, являютсяновыми.Практическая значимость Полученные результаты обеспечиваютвысокую точность оценки параметров полигармонических моделей голосово5го сигнала на коротких промежутках времени, содержащих около двух периодов для стационарной модели и около трёх периодов для аффинной модели.Они позволяют эффективно моделировать короткие аллофоны, а также переходные процессы с высокой точностью.Достоверность полученных результатов подтверждается доказательством всех сформулированных утверждений, а также сравнением результатовс известными алгоритмами на опубликованной открытой базе данных.Апробация работы.
Основные положения диссертационной работы доложены на Международной конференции Speech and Computer (2015),Международной конференции Image Analysis and Processing (2015), Всероссийском совещании по проблемам управления (2014) и на семинарах кафедрытеоретической кибернетики математико-механического факультета СПбГУ.Работы [1—3] написаны в соавторстве. В работе [1] автору принадлежат формулировки и доказательства основных теорем, выносимых на защиту. В работе [2] автором сформулирован критерий выбора периода основного тона, близкий к методу максимума правдоподобия.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.















