Главная » Просмотр файлов » Диссертация

Диссертация (1148236), страница 19

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 19 страницаДиссертация (1148236) страница 192019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 19)

е. последнего скрытого и выходного слоев), использовалась для построения80-мерных IVBN2 признаков.На построенных IVBN2 признаках была обучена по критерию максимального правдоподобия трифонная GMM-HMM модель tri_ivbn2 с 450 тыс. гауссиан и 15 тыс. связанных состояний трифонов. По результатам сравнения этой модели с GMM-HMM моделью gmm_ivbn, обученной в разделе 3.4.3 на признакахIVBN, представленным в таблице 3.14, оказалось, что использование новой конфигурации признаков позволило улучшить качество распознавания на 2,1–4,1%абсолютных и 4,5–9,0% относительных, в зависимости от базы, на которой осуществлялась оценка.Далее IVBN2 признаки, взятые с временным контекстом в 31 кадр, прореженным через 5 кадров (т.

е. [-15 -10 -5 0 5 10 15]), были использованы для обучения глубокой нейронной сети с 4 скрытыми слоями по 2048 нейронов с сигмоидами в качестве функций активации. При обучении использовалась разметка обучающих данных на связанные состояния трифонов, сделанная с помощьюGMM-HMM модели tri_ivbn2. Инициализация обучения выполнялась при помо-108Таблица 3.14Сравнение GMM-HMM акустических моделей, построенных на признаках,извлекаемых из адаптированных к диктору глубоких нейронных сетей с узкимгорлом, обученных с использованием старой и новой конфигураций признаков,на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %gmm_ivbnSTC-dev-132,1——29,22,99,046,4——44,32,14,551,1——47,73,46,748,5——44,44,18,5gmm_ivbn2gmm_ivbnSTC-dev-2gmm_ivbn2gmm_ivbnSTC-dev-3gmm_ivbn2gmm_ivbngmm_ivbn2STC-dev-4щи двухэтапного алгоритма, представленого в разделе 2.3: первый этап — предобучение с использованием ограниченных машин Больцмана, второй этап — обучение по критерию минимизации взаимной энтропии по обучающим данным, изкоторых случайным образом были выброшены 98% примеров, помеченных какпауза.

Полученная в результате двухэтапного предобучения глубокая нейроннаясеть использовалась для инициализации обучения DNN-HMM модели dnn_ivbn2с использованием критерия минимизации взаимной энтропии по полным обучащим данным.Результаты сравнения построенной модели dnn_ivbn2 с аналогичной DNNHMM моделью dnn_ivbn, обученной в разделе 3.4.3 на признаках IVBN, представлены в таблице 3.15. Согласно этим результатам, использование новой конфигурации признаков для построения высокоуровневых признаков, извлекаемыхиз глубокой нейронной сети с узким горлом, адаптированной при помощи iвекторов, позволило улучшить качество распознавания на 3,4–3,9% абсолютныхи 7,2–13,7% относительных, в зависимости от оценочной базы.109Таблица 3.15Сравнение DNN-HMM акустических моделей, обученных по критериюминимизации взаимной энтропии на признаках, извлекаемых изадаптированных к диктору глубоких нейронных сетей с узким горлом,построенных с использованием старой и новой конфигураций признаков, натестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_ivbnSTC-dev-128,4——24,53,913,744,0——40,53,58,047,1——43,73,47,245,0——41,63,47,6dnn_ivbn2dnn_ivbnSTC-dev-2dnn_ivbn2dnn_ivbnSTC-dev-3dnn_ivbn2dnn_ivbndnn_ivbn2STC-dev-4110Таблица 3.16Сравнение DNN-HMM акустических моделей, обученных по критерию sMBR напризнаках, извлекаемых из адаптированных к диктору глубоких нейронныхсетей с узким горлом, построенных с использованием старой и новойконфигураций признаков, на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3,STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_ivbn_smbrSTC-dev-125,3——22,03,313,041,3——37,34,09,744,5——41,43,17,042,1——38,14,09,5dnn_ivbn2_smbrdnn_ivbn_smbrSTC-dev-2dnn_ivbn2_smbrdnn_ivbn_smbrSTC-dev-3dnn_ivbn2_smbrdnn_ivbn_smbrdnn_ivbn2_smbrSTC-dev-4111Последним шагом было дообучение глубокой нейронной сети dnn_ivbn2 сиспользованием критерия разделения последовательностей sMBR.

Как и в разделе 3.4.3, было проведено несколько итераций дообучения. В итоге была построенаDNN-HMM модель dnn_ivbn2_smbr. Результаты сравнения с аналогичной моделью dnn_ivbn_smbr, обученной в разделе 3.4.3 на IVBN признаках, построенных сиспользованием старой конфигурации «сырых» признаков 31xfbank-0, представлены в таблице 3.15.

Улучшение качества распознавания за счет перехода на новую конфигурацию «сырых» признаков 11xfbank-3 составило 3,4–3,9% абсолютных и 7,2–13,7% относительных.DNN-HMM модель dnn_ivbn2_smbr была выбрана в качестве финальнойакустической модели для системы распознавания русской телефонной спонтанной речи. Для демонстрации суммарной эффективности использованных методов, а именно подбора конфигурации акустических признаков, адаптации глубокой нейронной сети при помощи i-векторов, использования высокоуровневыхпризнаков, извлекаемых из глубокой нейронной сети с узким горлом, а также использования двухэтапного алгоритма инициализации обучения DNN-HMM моделей, приведем в таблице 3.17 результаты сравнения финальной акустической модели с DNN-HMM моделью dnn_31xfbank_smbr — лучшей из моделей, построенных без использования вышеперечисленных методов.

Можно видеть, что использованные методы позволили сократить ошибку распознавания русской спонтанной речи на 6,5–8,0% абсолютных и 16,0–22,8% относительных, в зависимости отбазы, на которой проводилась оценка.3.5Выводы1. Представлены речевые базы, использованные для обучения и настройкисистемы.2. Построена триграммная языковая модель по текстовым расшифровкамобучающих баз.

Обучены дополнительные языковые модели по текстовым данным, собранным из открытых источников, а именно с русскоязычных форумов, современных книг и субтитров к фильмам. Финаль-112Таблица 3.17Оценка эффективности методов, использованных при построении финальнойакустической модели, на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3,STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbank_smbrSTC-dev-128,5——22,06,522,845,3——37,38,017,749,3——41,47,916,046,9——38,18,818,8dnn_ivbn2_smbrdnn_31xfbank_smbrSTC-dev-2dnn_ivbn2_smbrdnn_31xfbank_smbrSTC-dev-3dnn_ivbn2_smbrdnn_31xfbank_smbrdnn_ivbn2_smbr3.4.5.6.STC-dev-4ная языковая модель получена при помощи линейной интерполяции основной и дополнительных триграммных моделей.Сформирован словарь, ставящий в соответствие каждому слову, присутствующему в языковой модели, одну или несколько транскрипций (последовательностей фонем).

Вручную добавлены альтернативные транскрипции для наиболее частотных слов, произношение которых в спонтанной речи отличается от написания и от канонического произношенияв диктовочной речи.Двухпроходный алгоритм распознавания речи, учитывающий на уровнетранскрипций эффекты коартикуляции в словосочетаниях и фонетические особенности русской спонтанной речи, показал потенциал для повышения точности распознавания.Предпринята попытка построения акустических моделей для распознавания русской спонтанной речи по описанной в разделе 1.6 методике построения системы распознавания английской спонтанной речи.Обучена адаптированная к диктору и акустической обстановке при помощи i-векторов DNN-HMM акустическая модель. Показано, что приме-1137.8.9.10.нение двухэтапного алгоритма инициализации, представленного в разделе 2.3, позволяет улучшить адаптированную акустическую модель.Из глубокой нейронной сети с узким горлом, построенной на основеэтой модели согласно описанному в разделе 2.2 алгоритму, полученыпризнаки.

Построенные признаки использовались для обучения GMMHMM модели, с помощью которой была сгенерирована улучшенная разметка обучающих данных на связанные состояния трифонов. На основепостроенных признаков и разметки обучены DNN-HMM акустическиемодели, демонстрирующие значительное улучшение по сравнению какс неадаптированными, так и с адаптированными моделями.Проведены эксперименты по подбору конфигурации признаков для обучения DNN-HMM акустических моделей.

Лучшие результаты продемонстрировали логарифмы энергий сигнала в 23 Мел-частотных треугольных фильтрах (FBANK), дополненные первыми и вторыми производными и взятые с временным контекстом в 11 кадров (центральный кадри по 5 кадров слева и справа), построенные с применением нормализации среднего спектра и ограничением частотного диапазона сигнала64–3800 Гц.Подобранная конфигурация признаков использована для построенияадаптированной при помощи i-векторов глубокой нейронной сети с узким горлом с использованием предложенного в разделе 2.3 двухэтапногоалгоритма инициализации обучения.

Эта глубокая нейронная сеть с узким горлом использована для построения высокоуровневых признаков,на основе которых далее обучена финальная DNN-HMM акустическаямодель.Использование при построении финальной акустической модели совокупности методов: подбора конфигурации признаков, адаптации глубокой нейронной сети при помощи i-векторов, использования высокоуровневых признаков, извлекаемых из глубокой нейронной сети с узким горлом, и двухэтапного алгоритма инициализации обучения DNN-HMM моделей, позволило улучшить качество распознавания русской спонтаннойречи на 6,5–8,0% абсолютных и 16,0–22,8% относительных, по сравнению с базовой неадаптированной DNN-HMM моделью.114Глава 4.

Программные средства системы распознавания русской телефоннойспонтанной речиВ этой главе представлена структура построенной системы распознаваниярусской телефонной спонтанной речи. Приведены результаты сравнения разработанной системы с существующими системами распознавания слитной русскойречи по точности распознавания, а также проведена оценка быстродействия разработанной системы.4.1 Структура системы распознавания русской телефонной спонтанной речиРазработанная система распознавания русской телефонной спонтанной речи состоит из двух основных подсистем (см.

рисунок 4.1):1. Подсистема обучения — отвечает за создание акустических и языковыхмоделей, а также словаря транскрипций.2. Подсистема распознавания речи — осуществляет автоматическое преобразование речи из входных wav-файлов в текст, используя при этомрезультаты работы подсистемы обучения.Разработка отдельных составных частей системы осуществлялась припомощи языков программирования C++, Perl, Python, Bash с использованием объектно-ориентированного и процедурного подходов. Наряду с самостоятельно разработанными программными средствами, использовались инструментSRILM — The SRI Language Modeling Toolkit [138] для построения языковых моделей, инструмент Kaldi ASR [101] для обучения акустических моделей, а такжеряд программных средств, разработанных в ООО «ЦРТ» [9] (декодер, модуль обработки сигнала и построения признаков, модуль извлечения i-векторов, модульавтоматического создания транскрипций, инструмент для сбора текстовых данных из сети Интернет).115Рисунок 4.1 — Структура системы распознавания русской телефоннойспонтанной речи4.1.1 Подсистема обученияСхема подсистемы обучения представлена на рисунке 4.2.

Характеристики

Список файлов диссертации

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее