Диссертация (1148236)
Текст из файла
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТНа правах рукописиМеденников Иван ПавловичМЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММНЫЕ СРЕДСТВАРАСПОЗНАВАНИЯ РУССКОЙ ТЕЛЕФОННОЙСПОНТАННОЙ РЕЧИСпециальность 05.13.11 —«Математическое и программное обеспечение вычислительных машин,комплексов и компьютерных сетей»Диссертация на соискание ученой степеникандидата технических наукНаучный руководитель:доктор физико-математических наук, профессорЖабко Алексей ПетровичСанкт-Петербург — 20162ОглавлениеСтр.Введение .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 1. Современные подходы к распознаванию слитной испонтанной речи . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.1 Структура современных систем автоматического распознаванияречи . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .1.2 Обработка сигнала и извлечение информационных признаков . . .1.3 Акустическое моделирование . . . . . . . . . . . . . . . . . . . . .1.3.1 Скрытые марковские модели и модели гауссовых смесей . .1.3.2 Акустические модели на основе глубоких нейронных сетей1.3.3 Методы адаптации акустических моделей на основеглубоких нейронных сетей . . . . .
. . . . . . . . . . . . . .1.4 Языковое моделирование . . . . . . . . . . . . . . . . . . . . . . . .1.5 Декодирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.6 Анализ эффективной методики обучения системы распознаванияанглийской телефонной спонтанной речи . . . . .
. . . . . . . . . .1.7 Распознавание русской спонтанной речи . . . . . . . . . . . . . . .1.7.1 Состояние исследований в области распознаваниядиктовочной и спонтанной русской речи . . . . . . . . . . .1.8 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 2. Методы построения информационных признаков иакустических моделей на основе глубоких нейронных сетей .2.1 Интерпретация глубокой нейронной сети как каскаданелинейных преобразований признаков . . .
. . . . . . . . . . . .2.1.1 Признаки, извлекаемые из нейронной сети с узким горлом2.2 Метод построения информационных признаков, извлекаемых изадаптированной к диктору и акустическим условиям глубокойнейронной сети с узким горлом . . . . . . . . . . . . . . . . . . .512121417172137434447505153. 55. 55. 59. 6232.2.12.32.4Эксперименты по оценке эффективности предложенногометода построения признаков в задаче распознаванияанглийской спонтанной речи . . . . .
. . . . . . . . . . . .Двухэтапный алгоритм инициализации обучения акустическихмоделей на основе глубоких нейронных сетей . . . . . . . . . . .2.3.1 Эксперименты по оценке эффективности предложенногодвухэтапного алгоритма инициализации обученияакустических моделей в задаче распознавания английскойспонтанной речи . . . . . . . . . .
. . . . . . . . . . . . . .Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 3. Построение системы распознавания русской телефоннойспонтанной речи . . . . . . . . . . . . . . . . . . . . . . . . . . .3.1 Речевые базы для обучения и настройки системы . . . . . . . . .3.2 Построение языковых моделей . . . . . . . . . .
. . . . . . . . . .3.2.1 Сбор обучающих данных для языковой модели изоткрытых источников . . . . . . . . . . . . . . . . . . . . .3.2.2 Построение финальной триграммной языковой модели . .3.3 Формирование словаря транскрипций . . . . . . . . . . . . . . . .3.3.1 Построение транскрипций для списка слов из языковоймодели . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .3.3.2 Учет эффектов коартикуляции в словосочетаниях ифонетических особенностей русской спонтанной речи . .3.4 Построение акустических моделей . . . . . . . . . . . . . . . . . .3.4.1 Апробация методики обучения акустических моделей дляанглийской спонтанной речи из инструмента Kaldi ASRдля русского языка . . . . . . . .
. . . . . . . . . . . . . .3.4.2 Обучение глубоких нейронных сетей, адаптированныхпри помощи i-векторов . . . . . . . . . . . . . . . . . . . .3.4.3 Обучение акустических моделей с использованиемпризнаков, извлеченных из адаптированной при помощиi-векторов глубокой нейронной сети с узким горлом . . .3.4.4 Выбор конфигурации акустических признаков . . . . . . .3.4.5 Построение финальной акустической модели . . . . . . .3.5 Выводы . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 67. 72. 73. 76. 78. 79. 80. 82. 82. 84. 85. 87. 89. 89. 93....971011061114Глава 4. Программные средства системы распознавания русскойтелефонной спонтанной речи . . . . . . . . . . . . . . . . . .4.1 Структура системы распознавания русской телефоннойспонтанной речи . . . . . . . . . . . .
. . . . . . . . . . . . . . .4.1.1 Подсистема обучения . . . . . . . . . . . . . . . . . . . .4.1.2 Подсистема распознавания речи . . . . . . . . . . . . . .4.2 Оценка эффективности разработанной системы и сравнение ссуществующими системами слитного распознавания на русскомязыке . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .4.2.1 Методика тестирования . . . . . . . . . . . . . . . . . . .4.2.2 Описание тестовых баз . . . . . . . . . . . . . . . . . . .4.2.3 Пример работы построенной системы распознавания . .4.2.4 Сравнение с другими системами распознавания слитнойрусской речи . . . . . . . . . .
. . . . . . . . . . . . . . .4.2.5 Оценка быстродействия разработанной системы . . . . .4.3 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 114. . 114. . 115. . 118........120120121122. . 123. . 126. . 128Заключение . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 129Список сокращений и условных обозначений . . . . . . . . . . . . . . . . 131Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1335ВведениеАктуальность темы исследования. Развитие науки и техники неразрывносвязано с эволюцией средств взаимодействия человека и машины. В современном мире все большую популярность приобретает речевой интерфейс человекомашинного взаимодействия. Это обусловлено тем, что именно речь является наиболее естественным для человека средством коммуникации.
Важнейшей составляющей речевого человеко-машинного интерфейса являются системы автоматического распознавания речи.Одной из наиболее сложных задач в области автоматического распознавания речи является задача распознавания разговорной спонтанной речи — стиляречи, который характеризуется отсутствием заранее подготовленной формы и содержания устного сообщения и непосредственным участием говорящих. Сложность задачи вызвана следующими особенностями разговорной спонтанной речи:значительная междикторская вариативность, вариативность темпа речи и манерыпроизнесения, наличие акцентной и эмоциональной речи, большое количествоиспользуемых словоформ.
Задача дополнительно осложняется наличием хезитаций — речевых колебаний, связанных со спонтанностью речи, к которым относятся паузы, нелексические вставные звуки, «слова-паразиты», коррекции предложения, замены слов, повторы, заикания, незавершенные предложения. В ситуации речевой коммуникации именно спонтанная речь является первичной [1],поэтому задача ее распознавания крайне актуальна.Системы распознавания телефонной спонтанной речи являются крайневостребованными, например, в задачах контроля качества обслуживания вконтакт-центрах и анализа тематик больших архивов телефонных переговоров.
Однако при использовании телефонного канала имеются различные особенности, ухудшающие качество работы систем распознавания речи. К ним относятся ограничение полосы пропускания диапазоном частот0–4000 Гц, наличие аддитивных и нелинейных канальных искажений, а также потеря информации в результате кодирования речевого сигнала. Эти особенностидополнительно осложняют задачу распознавания телефонной спонтанной речи.Актуальность темы исследования подтверждается большим количеством посвященных ей докладов на международных конференциях, таких как6Interspeech, ICASSP, SPECOM, ASRU, TSD, а также повсеместным внедрениемсистем автоматического распознавания спонтанной речи.Степень разработанности темы исследования.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.