Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТНа правах рукописиМеденников Иван ПавловичМЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММНЫЕ СРЕДСТВАРАСПОЗНАВАНИЯ РУССКОЙ ТЕЛЕФОННОЙСПОНТАННОЙ РЕЧИСпециальность 05.13.11 —«Математическое и программное обеспечение вычислительных машин,комплексов и компьютерных сетей»Диссертация на соискание ученой степеникандидата технических наукНаучный руководитель:доктор физико-математических наук, профессорЖабко Алексей ПетровичСанкт-Петербург — 20162ОглавлениеСтр.Введение .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 1. Современные подходы к распознаванию слитной испонтанной речи . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.1 Структура современных систем автоматического распознаванияречи . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .1.2 Обработка сигнала и извлечение информационных признаков . . .1.3 Акустическое моделирование . . . . . . . . . . . . . . . . . . . . .1.3.1 Скрытые марковские модели и модели гауссовых смесей . .1.3.2 Акустические модели на основе глубоких нейронных сетей1.3.3 Методы адаптации акустических моделей на основеглубоких нейронных сетей . . . . .
. . . . . . . . . . . . . .1.4 Языковое моделирование . . . . . . . . . . . . . . . . . . . . . . . .1.5 Декодирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.6 Анализ эффективной методики обучения системы распознаванияанглийской телефонной спонтанной речи . . . . .
. . . . . . . . . .1.7 Распознавание русской спонтанной речи . . . . . . . . . . . . . . .1.7.1 Состояние исследований в области распознаваниядиктовочной и спонтанной русской речи . . . . . . . . . . .1.8 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 2. Методы построения информационных признаков иакустических моделей на основе глубоких нейронных сетей .2.1 Интерпретация глубокой нейронной сети как каскаданелинейных преобразований признаков . . .
. . . . . . . . . . . .2.1.1 Признаки, извлекаемые из нейронной сети с узким горлом2.2 Метод построения информационных признаков, извлекаемых изадаптированной к диктору и акустическим условиям глубокойнейронной сети с узким горлом . . . . . . . . . . . . . . . . . . .512121417172137434447505153. 55. 55. 59. 6232.2.12.32.4Эксперименты по оценке эффективности предложенногометода построения признаков в задаче распознаванияанглийской спонтанной речи . . . . .
. . . . . . . . . . . .Двухэтапный алгоритм инициализации обучения акустическихмоделей на основе глубоких нейронных сетей . . . . . . . . . . .2.3.1 Эксперименты по оценке эффективности предложенногодвухэтапного алгоритма инициализации обученияакустических моделей в задаче распознавания английскойспонтанной речи . . . . . . . . . .
. . . . . . . . . . . . . .Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 3. Построение системы распознавания русской телефоннойспонтанной речи . . . . . . . . . . . . . . . . . . . . . . . . . . .3.1 Речевые базы для обучения и настройки системы . . . . . . . . .3.2 Построение языковых моделей . . . . . . . . . .
. . . . . . . . . .3.2.1 Сбор обучающих данных для языковой модели изоткрытых источников . . . . . . . . . . . . . . . . . . . . .3.2.2 Построение финальной триграммной языковой модели . .3.3 Формирование словаря транскрипций . . . . . . . . . . . . . . . .3.3.1 Построение транскрипций для списка слов из языковоймодели . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .3.3.2 Учет эффектов коартикуляции в словосочетаниях ифонетических особенностей русской спонтанной речи . .3.4 Построение акустических моделей . . . . . . . . . . . . . . . . . .3.4.1 Апробация методики обучения акустических моделей дляанглийской спонтанной речи из инструмента Kaldi ASRдля русского языка . . . . . . . .
. . . . . . . . . . . . . .3.4.2 Обучение глубоких нейронных сетей, адаптированныхпри помощи i-векторов . . . . . . . . . . . . . . . . . . . .3.4.3 Обучение акустических моделей с использованиемпризнаков, извлеченных из адаптированной при помощиi-векторов глубокой нейронной сети с узким горлом . . .3.4.4 Выбор конфигурации акустических признаков . . . . . . .3.4.5 Построение финальной акустической модели . . . . . . .3.5 Выводы . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 67. 72. 73. 76. 78. 79. 80. 82. 82. 84. 85. 87. 89. 89. 93....971011061114Глава 4. Программные средства системы распознавания русскойтелефонной спонтанной речи . . . . . . . . . . . . . . . . . .4.1 Структура системы распознавания русской телефоннойспонтанной речи . . . . . . . . . . . .
. . . . . . . . . . . . . . .4.1.1 Подсистема обучения . . . . . . . . . . . . . . . . . . . .4.1.2 Подсистема распознавания речи . . . . . . . . . . . . . .4.2 Оценка эффективности разработанной системы и сравнение ссуществующими системами слитного распознавания на русскомязыке . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .4.2.1 Методика тестирования . . . . . . . . . . . . . . . . . . .4.2.2 Описание тестовых баз . . . . . . . . . . . . . . . . . . .4.2.3 Пример работы построенной системы распознавания . .4.2.4 Сравнение с другими системами распознавания слитнойрусской речи . . . . . . . . . .
. . . . . . . . . . . . . . .4.2.5 Оценка быстродействия разработанной системы . . . . .4.3 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 114. . 114. . 115. . 118........120120121122. . 123. . 126. . 128Заключение . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 129Список сокращений и условных обозначений . . . . . . . . . . . . . . . . 131Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1335ВведениеАктуальность темы исследования. Развитие науки и техники неразрывносвязано с эволюцией средств взаимодействия человека и машины. В современном мире все большую популярность приобретает речевой интерфейс человекомашинного взаимодействия. Это обусловлено тем, что именно речь является наиболее естественным для человека средством коммуникации.
Важнейшей составляющей речевого человеко-машинного интерфейса являются системы автоматического распознавания речи.Одной из наиболее сложных задач в области автоматического распознавания речи является задача распознавания разговорной спонтанной речи — стиляречи, который характеризуется отсутствием заранее подготовленной формы и содержания устного сообщения и непосредственным участием говорящих. Сложность задачи вызвана следующими особенностями разговорной спонтанной речи:значительная междикторская вариативность, вариативность темпа речи и манерыпроизнесения, наличие акцентной и эмоциональной речи, большое количествоиспользуемых словоформ.
Задача дополнительно осложняется наличием хезитаций — речевых колебаний, связанных со спонтанностью речи, к которым относятся паузы, нелексические вставные звуки, «слова-паразиты», коррекции предложения, замены слов, повторы, заикания, незавершенные предложения. В ситуации речевой коммуникации именно спонтанная речь является первичной [1],поэтому задача ее распознавания крайне актуальна.Системы распознавания телефонной спонтанной речи являются крайневостребованными, например, в задачах контроля качества обслуживания вконтакт-центрах и анализа тематик больших архивов телефонных переговоров.
Однако при использовании телефонного канала имеются различные особенности, ухудшающие качество работы систем распознавания речи. К ним относятся ограничение полосы пропускания диапазоном частот0–4000 Гц, наличие аддитивных и нелинейных канальных искажений, а также потеря информации в результате кодирования речевого сигнала. Эти особенностидополнительно осложняют задачу распознавания телефонной спонтанной речи.Актуальность темы исследования подтверждается большим количеством посвященных ей докладов на международных конференциях, таких как6Interspeech, ICASSP, SPECOM, ASRU, TSD, а также повсеместным внедрениемсистем автоматического распознавания спонтанной речи.Степень разработанности темы исследования.