Главная » Просмотр файлов » Диссертация

Диссертация (1148236), страница 16

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 16 страницаДиссертация (1148236) страница 162019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

По89Таблица 3.5Оценка эффективности предложенного двухпроходного алгоритмараспознавания речи на тестовых базах STC-dev-1, STC-dev-2Режим работыТестовая базаWER, %∆WER, %WERR, %однопроходныйSTC-dev-137,6——36,11,54,052,9——51,21,73,258,0——55,92,13,656,1——54,21,93,4двухпроходныйоднопроходныйSTC-dev-2двухпроходныйоднопроходныйSTC-dev-3двухпроходныйоднопроходныйSTC-dev-4двухпроходныйэтой причине двухпроходный алгоритм не был использован в разработанной системе распознавания русской телефонной спонтанной речи.

Однако в настоящеевремя ведутся работы по модификации двухпроходного алгоритма распознаванияречи с целью повышения его быстродействия и эффективности.3.4Построение акустических моделей3.4.1 Апробация методики обучения акустических моделей для английскойспонтанной речи из инструмента Kaldi ASR для русского языкаПервым этапом в построении акустических моделей для системы распознавания русской спонтанной речи было прохождение пути, аналогичного рецептуswbd(s5c) из инструмента Kaldi ASR [101], описанному в разделе 1.6. Этот этапбыл нацелен на то, чтобы определить, какие стадии рецепта вносят наибольшийвклад в качество распознавания, а также оценить эффективность рецепта в реша-90емой задаче построения системы распознавания русской спонтанной речи. Процесс прохождения этого этапа описан в статье [21].При обучении акустических моделей использовался описанный выше набор фонем, а также словарь, построенный на основе этого набора фонем в разделе 3.3. При построении скрытых марковских моделей фонемы sil и spn моделировались пятью состояниями, все остальные фонемы — тремя состояниями.

Обучение акустических моделей проводилось на обучающей базе STC-train-1, оценка эффективности — на тестовой базе STC-dev-1. Для языкового моделированияиспользовалась триграммная модель lang_final_small, которая была построена вразделе 3.2.2.Аналогично рецепту swbd(s5c), были обучены следующие GMM-HMM акустические модели:1. Монофонная модель (mono) с 1000 гауссиан по 30000 предложений. Использовались 13-мерные MFCC признаки с CMN, дополненные первымии вторыми производными.2.

Первая трифонная модели (tri1) с 32000 гауссиан и 3200 связанных состояний трифонов по 30000 предложений. Использовались 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.3. Вторая трифонная модель (tri2) с 32000 гауссиан и 3200 связанных состояний трифонов по 90000 предложений. Использовались 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.4.

Третья трифонная модель (tri3) с 70000 гауссиан и 5000 связанных состояний трифонов по 90000 предложений. Использовались взятые для 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13-мерныеMFCC признаки с CMN, к которым было примененено LDA-MLLT преобразование с понижением размерности до 40.5. Четвертая трифонная модель (tri4) с 200000 гауссиан и 11500 связанныхсостояний по всем данным. В качестве признаков используются взятыедля 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13мерные MFCC с CMN, к которым было примененено LDA-MLLT преобразование с понижением размерности до 40, адаптированные к дикторус помощью fMLLR преобразования.916. Дискриминативное дообучение четвертой трифонной модели с использованием MPE критерия (tri4_mpe) по всем данным.Разметка обучающих данных на связанные состояния трифонов, сделанная припомощи GMM-HMM модели tri4, использовалась для обучения по критерию минимизации взаимной энтропии трех DNN-HMM моделей с 6 скрытыми слоями по1024 нейрона с сигмоидами в качестве функций активации:1.

DNN-HMM модель dnn_mfcc, обученная с использованием 13-мерныхMFCC признаков с CMN, дополненных первыми и вторыми производными и взятых для 11 соседних кадров (центральный кадр и по 5 кадровслева и справа).2. DNN-HMM модель dnn_mllt, обученная с использованием 40-мерныхLDA-MLLT признаков от модели tri3, взятых для 11 соседних кадров(центральный кадр и по 5 кадров слева и справа).3. DNN-HMM модель dnn_fmllr, обученная с использованием адаптированных к диктору 40-мерных LDA-MLLT-fMLLR признаков от модели tri4,взятых для 11 соседних кадров (центральный кадр и по 5 кадров слева исправа).При обучении этих DNN-HMM моделей применялось предобучение при помощиограниченных машин Больцмана.

Обучение DNN-HMM с использованием критериев разделения последовательностей в этом эксперименте не проводилось.Результаты, демонстрируемые обученными GMM-HMM и DNN-HMM моделями, представлены в таблице 3.6. Они оказались значительно хуже, чем результаты аналогичных акустических моделей для английской спонтанной речи,приведенные в таблице 1.2. Разница в точности распознавания, составившая около 15% абсолютных для подвыборки Switchboard и около 10% абсолютных дляполной тестовой базы HUB5 Eval 2000, предположительно, обусловлена сделующими факторами:1. Более спонтанным и диалоговым характером русских тестовых записей,по сравнению с записями из английской тестовой базы HUB5 Eval 2000.2.

Низким качеством отекстовки обучающих записей в базе STC-train.3. Особенностями русской речи (флективность языка, свободный порядокслов в предложении, вялая артикуляция), усложняющими ее распознавание по сравнению с английской речью.Полученные результаты позволяют сделать выводы о том, что92Таблица 3.6Результаты, демонстируемые акустическими моделями для русского языка,обученными по методике из Kaldi для базы Switchboard, натестовой базе STC-dev-1Акустическая модельWER, %∆WER, %WERR, %tri250,4——tri347,62,85,5tri440,89,619,0tri4_mpe36,214,228,2dnn_mfcc32,2——dnn_mllt32,00,20,6dnn_fmllr31,21,03,11. DNN-HMM модели обеспечивают значительно более высокую точностьраспознавания русской спонтанной речи, чем GMM-HMM модели.2. Снижение чувствительности системы распознавания речи к акустической вариативности речевого сигнала посредством применения алгоритмов нормализации (LDA-MLLT) и адаптации (fMLLR) демонстрируетвысокую эффективность при использовании GMM-HMM акустическихмоделей и значительно меньшую — при использовании DNN-HMM акустических моделей.Стоит особо отметить, что адаптиция к диктору при помощи fMLLR позволила добиться лишь незначительного улучшения точности распознавания с использованием DNN-HMM акустической модели.

Возможной причиной этого является низкое качество использованной автоматической разметки обучающих записей на дикторов. При этом, как уже говорилось в разделе 1.3.3, применениеfMLLR-адаптиции требует предварительного прохода распознавания, что существенно (почти в 2 раза) снижает скорость работы системы распознавания. Руководствуясь этими соображениями, в дальнейшем при построении акустическихмоделей для распознавания русской спонтанной речи было принято решение отказаться от использования fMLLR-адаптации к диктору.933.4.2Обучение глубоких нейронных сетей, адаптированных при помощиi-векторовАнализ существующих на сегодняшний день алгоритмов адаптации DNNHMM акустических моделей, проведенный в разделе 1.3.3, показал, применениеадаптации с использованием i-векторов позволяет существенно повысить точность распознавания речи и при этом практически не оказывает влияния на быстродействие системы.

В этом разделе описано построение адаптированных припомощи i-векторов DNN-HMM акустических моделей для русской спонтаннойречи.Для извлечения i-векторов, как и в экспериментах на английской спонтанной речи, проведенных в разделе 2.2.1, использовались инструменты, разработанные в ООО «ЦРТ» [9] и описанные в работах [84; 137]. Система на основеUBM с 2048 гауссианами была обучена на 13-мерных MFCC-признаках, дополненных первыми и вторыми производными, с ее помощью извлекались i-векторыдля обучающих и тестовых записей. Для используемых обучающих данных STCtrain характерны низкое качество автоматической разметки на дикторов и наличие большого количества коротких файлов, что приводит к недостатку данныхдля надежной оценки i-вектора.

В связи с этим, руководствуясь результатами исследования [87], было принято решение использовать i-векторы размерности 50,т. е. вдвое меньшей, чем в экспериментах на английской спонтанной речи.Обучение DNN-HMM акустических моделей осуществлялось по обучающим данным STC-train, размеченным на связанные состояния трифонов при помощи трифонной GMM-HMM акустической модели tri4, построенной в разделе 3.4.1.В качестве признаков для обучения были выбраны логарифмы энергий в20-ти треугольных Мел-частотных фильтрах (FBANK), взятые с контекстом в 31кадр (центральный кадр и по 15 кадров слева и справа). При вычислении этих признаков частотный диапазон сигнала был искусственно ограничен полосой 300–3400 Гц. Для нормализации признаки подвергались вычитанию среднего спектра (преобразование, аналогичное нормализации среднего кепстра (CMN), в пространстве частот).

Такая конфигурация FBANK-признаков была выбрана в качестве стартовой точки для экспериментов, поскольку аналогичная конфигурация94MFCC-признаков успешно применялась в работах [18–20; 22]. Выбор более «сырых» спектральных FBANK признаков, а не кепстральных MFCC, обусловлен результатами работ [140; 141] и других исследований, в которых показано превосходство FBANK-признаков над MFCC при использовании DNN-HMM акустических моделей.Базовая модель dnn_31xfbank была обучена по критерию минимизации взаиной энтропии с использованием инициализация при помощи ограниченных машин Больцмана.Адаптированная модель dnn_31xfbank_iv была получена в результате расширения входного слоя базовой модели и дообучения по критерию минимизациивзаимной энтропии.

При этом для обновление параметров модели использовалсяалгоритм ускоренного градиента Нестерова с показателем 0,7, скорость обучениябыла уменьшена до 0,0004. Также использовался штраф 4·10−8 на отклонение весов от значений инициализирующей модели, определяемый по формуле 2.4.Обучениедругойадаптированнойглубокойнейроннойсетиdnn_31xfbank_iv_2 осуществлялось с использованием двухэтапного алгоритмаинициализации одним из способов, предложенных в разделе 2.3, состоящим изследующих этапов:1. Обучение по критерию минимизации взаимной энтропии неадаптированной модели с прореженной до 2% паузой (т. е. по обучающим данным. из которых случайным образом выброшено 98% примеров, помеченных как пауза).

Характеристики

Список файлов диссертации

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее