Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 12

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 12 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 12 (48863) - СтудИзба2019-06-292019-06-29zzyxelСтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи689

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 12 страницы из PDF

Предлагается следующий алгоритм обучения акустических моделей наоснове признаков, построенных согласно предложенному методу:1. Обучение трифонной GMM-HMM модели на основе построенных признаков.2. Разметка обучающих данных на связанные состояния трифонов при помощи построенной трифонной GMM-HMM модели.3. Обучение DNN-HMM модели с использованием построенных признаков, взятых с широким временным контектом (например, в 31 кадр). Приэтом для понижения размерности входного слоя следует применять прореживание векторов признаков по времени, аналогично используемому вработах [127;133], например, брать каждый пятый вектор (т. е. [-15 -10 -566Рисунок 2.8 — Схема алгоритма построения признаков при помощиадаптированной с использованием i-векторов глубокой нейронной сети с узкимгорлом0 5 10 15]). Одним из преимуществ такого обучения глубоких нейронныхявляется возможность эффективно учитывать более широкий временнойконтекст, по сравнению с глубокими нейронными сетями, обученнымина «сырых» признаках.672.2.1 Эксперименты по оценке эффективности предложенного методапостроения признаков в задаче распознавания английской спонтанной речиВ этом разделе описаны эксперименты, проведенные для оценки эффективности работы разработанного метода построения признаков в задаче распознавания английской спонтанной речи.

Для обучения акустических моделей использовалась база Switchboard [2], для оценки результатов — подвыборка Switchboardтестовой базы HUB5 Eval 2000. В качестве основы для экспериментов был использован рецепт swbd(s5c) из инструмента Kaldi ASR [101], описанный в разделе 1.6.Для построения i-векторов использовалась система на основе UBM(Universal Background Model) с 512 гауссианами, обученная на 13-мерных MFCCпризнаках, дополненных первыми и вторыми производными. С ее помощью извлекались i-векторы размерности 100 для обучающих и тестовых записей. Использовались инструменты, разработанные в ООО «ЦРТ» [9] и описанные в работах [84; 137].Обучение на fMLLR-адаптированных признакахВ этой серии экспериментов в качестве базовой модели была взята глубокая нейронная сеть dnn5b с 6 скрытыми слоями по 2048 нейрона и сигмоидами в качестве функций активации из рецепта swbd(s5c), обученная на fMLLRадаптированных при помощи трифонной GMM-HMM модели tri4 40-мерныхпризнаках, взятых с временным контекстом в 11 кадров (центральный кадр и по5 кадров слева и справа).Адаптированная модель dnn5b_iv была обучена на входных признаках базовой модели, дополненных i-вектором размерности 100.

Обучение инициализировалось базовой моделью с расширенным входным слоем, при этом использовалась скорость обучения 0,002 и штраф 4 · 10−8 на отклонение весов от значенийбазовой модели.68В адаптированную модель при помощи сингулярного разложения матрицывесов 6-го скрытого слоя был добавлен линейный слой размерности 80.

Полученная таким образом нейронная сеть с узким горлом использовалась для инициализации обучения модели dnn5b_iv_bn6-80, при этом обучение проводилось соскоростью 0,002 и штрафом 4 · 10−8 на отклонение весов от значений инициализирующей нейронной сети. Эта модель после удаления последнего скрытого слояи выходного слоя использовалась для построения 80-мерных признаков (SDBN).На SDBN признаках была обучена трифонная GMM-HMM модель tri_sdbnс теми же числом гауссиан (200000) и связанных состояний (11500), что и базовая трифонная модель tri4. Также SDBN признаки, взятые с контекстом в 31 кадр,прореженным по времени через 5 кадров (т. е.

[-15 -10 -5 0 5 10 15]), были использованы для обучения DNN-HMM модели dnn_sdbn с 4 скрытыми слоями по 2048нейронов с сигмоидами, с инициализацией обучения при помощи ограниченныхмашин Больцмана. Для обучения всех вышеперечисленных моделей использовалась разметка на связанные состояния трифонов, сделанная при помощи базовойGMM-HMM модели tri4.DNN-HMM модель dnn_sdbn_smbr_i1lats была обучена по sMBR-критериюразделения последовательностей, по схеме обучения, аналогичной моделиdnn5b_smbr_i1lats из рецепта swbd(s5c).Наконец, DNN-HMM модель dnn_sdbn_sdbn-ali_smbr_i1lats была обученааналогичным образом с использованием разметки на связанные состояния трифонов, сделанной с помощью GMM-HMM модели tri_sdbn. Результаты экспериментов, приведенные в таблице 2.1, говорят о следующем:1.

DNN-HMM модель dnn5b_iv, адаптированная к диктору и акустическойобстановке при помощи i-векторов, продемонстрировала 0,5% абсолютное и 3,4% относительное уменьшение ошибки распознавания, по сравнению с базовой DNN-HMM моделью.2. Адаптированная при помощи i-векторов DNN-HMM модель с узким горлом dnn5b_iv_bn6-80 дала ожидаемое ухудшение по сравнению с моделью dnn5b_iv, но тем не менее оказалась лучше базовой DNN-HMM модели на 0,3% абсолютных и 2,1% относительных.3. Трифонная GMM-HMM модель на SDBN признаках tri_sdbn показала5,7% абсолютное и 26,8% относительное уменьшение ошибки распознавания, по сравнению с базовой трифонной GMM-HMM моделью.69Таблица 2.1Результаты, демонстрируемые моделями, обученными на признаках,построенных с помощью предложенного метода, на подвыборке Switchboardтестовой базы HUB5 Eval 2000.Акустическая модельWER, %∆WER, %WERR, %tri421,3——tri_sdbn15,65,726,8dnn5b14,6——dnn5b_iv14,10,53,4dnn5b_iv_bn6-8014,30,32,1dnn_sdbn13,61,06,8dnn5b_smbr_i1lats12,9——dnn_sdbn_smbr_i1lats12,40,53,9dnn_sdbn_sdbn-ali_smbr_i1lats12,10,86,24.

DNN-HMM модель dnn_sdbn продемонстрировала 1,0% абсолютное и6,8% относительное уменьшение ошибки распознавания, по сравнениюс базовой DNN-HMM моделью, а также 0,5% абсолютное и 3,5% относительное уменьшение ошибки распознавания, по сравнению с адаптированной DNN-HMM моделью dnn5b_iv.5. DNN-HMM модель dnn_sdbn_smbr_i1lats, обученная с использованиемкритерия sMBR, оказалась на 0,5% абсолютных и 3,9% относительныхлучше, чем базовая модель dnn5b_smbr_i1lats, обученная по тому же критерию.6. DNN-HMM модель dnn_sdbn_sdbn-ali_smbr_i1lats, обученная с использованием критерия sMBR и разметки от GMM-HMM модели tri_sdbn,оказалась на 0,9% абсолютных и 6,2% относительных лучше, чем базовая модель dnn5b_smbr_i1lats, обученная по тому же критерию.Результаты позволяют сделать вывод о высокой эффективности разработанногометода в задаче распознавания английской спонтанной речи.70Обучение на сырых признаках без использования fMLLR-адаптацииВ приведенных выше экспериментах обучение проводилось на уже адаптированных к диктору при помощи fMLLR-преобразования признаках.

Однако использование i-векторов осуществляет адаптацию к диктору, как и fMLLRадаптация. Как показано в работе [85], использование fMLLR-адаптированныхпризнаков уменьшает прирост, обеспечиваемый за счет применения адаптациипри помощи i-векторов. Следовательно, есть основания ожидать, что без использования fMLLR-адаптации разработанный метод построения признаков продемонстрирует еще большую эффективность.Для оценки работы предложенного метода построения признаков в условиях отсутствия fMLLR-адаптации была проведена еще одна серия экспериментов.При этом для обучения моделей использовалась та же разметка на связанные состояния трифонов, сделанная при помощи модели tri4, а в качестве признаковдля обучения глубоких нейронных сетей были использованы сырые спектральные признаки — логарифмы энергий сигнала в 23-х треугольных Мел-частотныхфильтрах (FBANK), дополненные первыми и вторыми производными и взятыес временным контекстом в 11 кадров (центральный кадр и по 5 кадров слева исправа).

Аналогичным образом, что и в экспериментах на fMLLR-признаках, были обучены следующие модели:1. Базовая DNN-HMM модель dnn-fbank с 6 скрытыми слоями по 2048 нейронов с сигмоидами.2. DNN-HMM модель dnn-fbank_iv, адаптированная при помощи i-векторов(использовались те же 100-мерные i-векторы, что и в экспериментах наfMLLR-признаках).3. Адаптированная DNN-HMM модель dnn-fbank_iv_bn6-80 с линейным узким слоем размерности 80, расположенным перед последним скрытымслоем.Далее глубокая нейронная сеть с узким горлом dnn-fbank_iv_bn6-80 была использована для построения 80-мерных признаков (SDBN-FBANK), на которых были обучены трифонная GMM-HMM модель tri_sdbn-fbank и DNN-HMM модельdnn_sdbn-fbank с 4 скрытыми слоями по 2048 нейронов с сигмоидами в качествефункций активации (как и в предыдущем эксперименте, признаки для этой DNN-71HMM модели брались с временным контекстом в 31 кадр, прореженным через 5кадров).

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.