Главная » Просмотр файлов » Диссертация

Диссертация (1148236), страница 18

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 18 страницаДиссертация (1148236) страница 182019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 18)

В целях со-102кращения времени проведения экспериментов использовалась 270-часовая подвыборка обучающей базы STC-train, обозначаемая в дальнейшем STC-train-270.Для обучения DNN-HMM акустических моделей были использованы следующие варианты конфигураций признаков:1. 31xfbank-0 (базовая конфигурация, использованная в экспериментахв разделе 3.4.2) — логарифмы энергий в 20-ти треугольных Мелчастотных фильтрах (FBANK), построенные с ограничением частотного диапазона в 300–3400 Гц и нормализацией среднего спектра, взятые свременным контекстом в 31 кадр (центральный кадр и по 15 кадров слеваи справа).2. 11xfbank-0 — логарифмы энергий в 20-ти треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 300–3400 Гц и нормализацией среднего спектра, дополненные первымии вторыми производными и взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа).3.

31xmfcc-0 — 13-мерные MFCC признаки, построенные с использованием20-ти треугольных Мел-частотных фильтров, ограничением частотногодиапазона в 300–3400 Гц и нормализацией среднего кепстра, взятые свременным контекстом в 31 кадр (центральный кадр и по 15 кадров слеваи справа).4.

11xmfcc-0 — 13-мерные MFCC признаки, построенные с использованием20-ти треугольных Мел-частотных фильтров, ограничением частотногодиапазона в 300–3400 Гц и нормализацией среднего кепстра, дополненные первыми и вторыми производными и взятые с временным контекстом в 11 кадров (центральный кадр и по 5 кадров слева и справа).5. 11xfbank-1 — логарифмы энергий в 23-х треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 20–4000 Гц и нормализацией среднего спектра, дополненные первымии вторыми производными и взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа).6. 11xfbank-2 — логарифмы энергий в 23-х треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 20–4000 Гц, дополненные первыми и вторыми производными и взятые103с временным контекстом в 11 кадров (центральный кадр и по 5 кадровслева и справа).7. 11xfbank-3 — логарифмы энергий в 23-х треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 64–3800 Гц и нормализацией среднего спектра, дополненные первымии вторыми производными и взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа).При построении этих признаков сигнал разбивался на перекрывающиеся временные окна длиной 16 мс с шагом в 10 мс.

Признаки были построены при помощиинструментов, разработанных в ООО «ЦРТ» [9].На каждой из конфигураций признаков была обучена соответствующая глубокая нейронная сеть с 6 скрытыми слоями по 1024 нейрона с сигмоидами в качестве функций активации. Для инициализации обучения использовались ограниченные машины Больцмана. Разметка обучающих данных на связанные состояния трифонов осуществлялась при помощи GMM-HMM модели tri_ivbn, обученной в разделе 3.4.3 на признаках, извлекаемых из адаптированной при помощиi-векторов глубокой нейронной сети с узким горлом. Глубокие нейронные сетибыли обучены при помощи критерия минимизации взаимной энтропии.Таблица 3.12Сравнение DNN-HMM акустических моделей, обученных с использованиемразличных конфигураций признаков, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4Конфигурация признаковТестовая базаWER, %∆WER, %WERR, %31xfbank-0STC-dev-133,1——11xfbank-033,10,00,031xmfcc-035,0-1,9-5,711xmfcc-034,4-1,3-3,911xfbank-131,51,64,811xfbank-231,51,64,810411xfbank-331,61,54,549,1——11xfbank-047,61,53,131xmfcc-049,4-0,3-0,611xmfcc-049,5-0,4-0,811xfbank-145,93,26,511xfbank-246,93,24,511xfbank-346,13,06,153,0——11xfbank-050,82,24,231xmfcc-052,90,10,211xmfcc-053,5-0,5-0,911xfbank-149,53,56,611xfbank-249,53,56,611xfbank-349,33,77,050,8——11xfbank-049,21,63,131xmfcc-048,82,03,911xmfcc-051,2-0,40,811xfbank-146,44,48,711xfbank-246,44,48,711xfbank-346,04,89,431xfbank-031xfbank-031xfbank-0STC-dev-2STC-dev-3STC-dev-4105Как и в разделе 3.4.1, в целях ускорения проведения экспериментов использовалась маленькая языковая модель lang_final_small.

Сравнение DNN-HMM моделей, обученных с использованием представленных выше конфигураций признаков, проводилось на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STCdev-4. Анализируя результаты сравнения, приведенные в таблице 3.12, можносделать следующие выводы:1. При использовании временного контекста в 31 кадр MFCC-признаки иFBANK-признаки обеспечивают примерно одинаковую точность распознавания (сравнение конфигураций 31xfbank-0 и 31xmfcc-0).2.

Для FBANK-признаков временной контекст в 11 кадров с использованием первых и вторых производных дает значительно лучшие результаты,чем аналогичный временной контекст для MFCC-признаков (сравнениеконфигураций 11xfbank-0 и 11xmfcc-0), а также чем контекст в 31 кадрдля FBANK-признаков (сравнение конфигураций 11xfbank-0 и 31xfbank0) и MFCC-признаков (сравнение конфигураций 11xfbank-0 и 31xmfcc-0).3. Использование более широкого частотного диапазона (20–4000 Гц против 300–3400 Гц) и большего числа треугольных Мел-частотных фильтров (23 против 20) при построении FBANK-признаков позволяет значительно улучшить работу DNN-HMM моделей (сравнение конфигураций11xfbank-1 и 11xfbank-0).4.

Использование нормализации среднего спектра значимо улучшает точность распознавания на тестовой базе STC-dev-2 и не оказывает влияния на остальных тестовых базах (сравнение конфигураций 11xfbank-1 и11xfbank-2).5. Ограничение частотного диапазона 64–3800 Гц при построении FBANKпризнаков демонстрирует слегка лучшие результаты, чем ограничение20–4000 Гц (сравнение конфигураций 11xfbank-3 и 11xfbank-1).Исходя из этих соображений, в качестве финальной конфигурации признаков дляобучения DNN-HMM моделей была выбрана конфигурация 11xfbank-3, демонстрирующая 1,5–4,8% абсолютного улучшения и 4,5–9,4% относительного улучшения качества распознавания русской спонтанной речи по сравнению с базовойконфигурацией 31xfbank-0, в зависимости от базы, на которой проводилось сравнение.1063.4.5Построение финальной акустической моделиУлучшение качества распознавания, обеспечиваемого DNN-HMM моделью, приводит к улучшению качества распознавания акустическими моделями,обученными на признаках, извлекаемых из глубокой нейронной сети с узким горлом, построенной на основе этой модели.

В связи с этим было решено провестиповторный цикл построения высокоуровневых признаков и обучения DNN-HMMакустических моделей на основе построенных признаков, используя в качествебазовых признаков конфигурацию 11xfbank-3, описанную в разделе 3.4.4.Как и в разделе 3.4.2, глубокие нейронные сети, обученные на базовых признаках, содержали 6 скрытых слоев по 1024 нейрона с сигмоидами в качествефункций активации. Для обучения использовалась разметка обучающих данныхна связанные состояния трифонов, сделанная при помощи GMM-HMM моделиtri_ivbn, построенной в разделе 3.4.3. Оценка эффективности работы построенных моделей осуществлялась на четырех базах STC-dev-1, STC-dev-2, STC-dev3, STC-dev-4, использовалась маленькая языковая модель lang_final_small.Для обучения адаптированной глубокой нейронной сети использовалисьi-векторы, построенные в разделе 3.4.2.

Обучение адаптированной моделиdnn_11xfbank-3_iv_2 осуществлялось с использованием двухэтапного алгоритмаинициализации, полностью аналогично обучению модели dnn_31xfbank_iv_2 (см.раздел 3.4.2).Результаты, демонстрируемые DNN-HMM моделью dnn_11xfbank-3_iv_2,а также их сравнение с результатами аналогичной адаптированной моделиdnn_31xfbank_iv_2, обученной в разделе 3.4.2 с использованием старой конфигураций признаков, приведены в таблице 3.13. Можно видеть абсолютное улучшение качества распознавания на 2,6–4,2% и относительное улучшение на 5,4–8,9%,в зависимости от базы, на которой оценивались результаты, за счет перехода наконфигурацию признаков 11xfbank-3.Далее в адаптированную глубокую нейронную сеть dnn_11xfbank-3_iv_2был добавлен линейный скрытый слой размерности 80 перед последним скрытым слоем и проведено дообучение, полностью аналогично тому, как это былопроделано в разделе 3.4.3. Полученная таким образом глубокая нейронная сеть сузким горлом после удаление всех слоев, следующих за узким линейным слоем107Таблица 3.13Сравнение адаптированных при помощи i-векторов DNN-HMM акустическихмоделей, обученных по критерию минимизации взаимной энтропии сиспользованием старой и новой конфигураций признаков, на тестовых базахSTC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbank_iv_2STC-dev-129,1——26,52,68,944,4——41,03,47,748,5——45,92,65,445,5——41,34,29,2dnn_11xfbank-3_iv_2dnn_31xfbank_iv_2STC-dev-2dnn_11xfbank-3_iv_2dnn_31xfbank_iv_2STC-dev-3dnn_11xfbank-3_iv_2dnn_31xfbank_iv_2dnn_11xfbank-3_iv_2STC-dev-4(т.

Характеристики

Список файлов диссертации

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее