Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 12
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 12 страницы из PDF
Предлагается следующий алгоритм обучения акустических моделей наоснове признаков, построенных согласно предложенному методу:1. Обучение трифонной GMM-HMM модели на основе построенных признаков.2. Разметка обучающих данных на связанные состояния трифонов при помощи построенной трифонной GMM-HMM модели.3. Обучение DNN-HMM модели с использованием построенных признаков, взятых с широким временным контектом (например, в 31 кадр). Приэтом для понижения размерности входного слоя следует применять прореживание векторов признаков по времени, аналогично используемому вработах [127;133], например, брать каждый пятый вектор (т. е. [-15 -10 -566Рисунок 2.8 — Схема алгоритма построения признаков при помощиадаптированной с использованием i-векторов глубокой нейронной сети с узкимгорлом0 5 10 15]). Одним из преимуществ такого обучения глубоких нейронныхявляется возможность эффективно учитывать более широкий временнойконтекст, по сравнению с глубокими нейронными сетями, обученнымина «сырых» признаках.672.2.1 Эксперименты по оценке эффективности предложенного методапостроения признаков в задаче распознавания английской спонтанной речиВ этом разделе описаны эксперименты, проведенные для оценки эффективности работы разработанного метода построения признаков в задаче распознавания английской спонтанной речи.
Для обучения акустических моделей использовалась база Switchboard [2], для оценки результатов — подвыборка Switchboardтестовой базы HUB5 Eval 2000. В качестве основы для экспериментов был использован рецепт swbd(s5c) из инструмента Kaldi ASR [101], описанный в разделе 1.6.Для построения i-векторов использовалась система на основе UBM(Universal Background Model) с 512 гауссианами, обученная на 13-мерных MFCCпризнаках, дополненных первыми и вторыми производными. С ее помощью извлекались i-векторы размерности 100 для обучающих и тестовых записей. Использовались инструменты, разработанные в ООО «ЦРТ» [9] и описанные в работах [84; 137].Обучение на fMLLR-адаптированных признакахВ этой серии экспериментов в качестве базовой модели была взята глубокая нейронная сеть dnn5b с 6 скрытыми слоями по 2048 нейрона и сигмоидами в качестве функций активации из рецепта swbd(s5c), обученная на fMLLRадаптированных при помощи трифонной GMM-HMM модели tri4 40-мерныхпризнаках, взятых с временным контекстом в 11 кадров (центральный кадр и по5 кадров слева и справа).Адаптированная модель dnn5b_iv была обучена на входных признаках базовой модели, дополненных i-вектором размерности 100.
Обучение инициализировалось базовой моделью с расширенным входным слоем, при этом использовалась скорость обучения 0,002 и штраф 4 · 10−8 на отклонение весов от значенийбазовой модели.68В адаптированную модель при помощи сингулярного разложения матрицывесов 6-го скрытого слоя был добавлен линейный слой размерности 80.
Полученная таким образом нейронная сеть с узким горлом использовалась для инициализации обучения модели dnn5b_iv_bn6-80, при этом обучение проводилось соскоростью 0,002 и штрафом 4 · 10−8 на отклонение весов от значений инициализирующей нейронной сети. Эта модель после удаления последнего скрытого слояи выходного слоя использовалась для построения 80-мерных признаков (SDBN).На SDBN признаках была обучена трифонная GMM-HMM модель tri_sdbnс теми же числом гауссиан (200000) и связанных состояний (11500), что и базовая трифонная модель tri4. Также SDBN признаки, взятые с контекстом в 31 кадр,прореженным по времени через 5 кадров (т. е.
[-15 -10 -5 0 5 10 15]), были использованы для обучения DNN-HMM модели dnn_sdbn с 4 скрытыми слоями по 2048нейронов с сигмоидами, с инициализацией обучения при помощи ограниченныхмашин Больцмана. Для обучения всех вышеперечисленных моделей использовалась разметка на связанные состояния трифонов, сделанная при помощи базовойGMM-HMM модели tri4.DNN-HMM модель dnn_sdbn_smbr_i1lats была обучена по sMBR-критериюразделения последовательностей, по схеме обучения, аналогичной моделиdnn5b_smbr_i1lats из рецепта swbd(s5c).Наконец, DNN-HMM модель dnn_sdbn_sdbn-ali_smbr_i1lats была обученааналогичным образом с использованием разметки на связанные состояния трифонов, сделанной с помощью GMM-HMM модели tri_sdbn. Результаты экспериментов, приведенные в таблице 2.1, говорят о следующем:1.
DNN-HMM модель dnn5b_iv, адаптированная к диктору и акустическойобстановке при помощи i-векторов, продемонстрировала 0,5% абсолютное и 3,4% относительное уменьшение ошибки распознавания, по сравнению с базовой DNN-HMM моделью.2. Адаптированная при помощи i-векторов DNN-HMM модель с узким горлом dnn5b_iv_bn6-80 дала ожидаемое ухудшение по сравнению с моделью dnn5b_iv, но тем не менее оказалась лучше базовой DNN-HMM модели на 0,3% абсолютных и 2,1% относительных.3. Трифонная GMM-HMM модель на SDBN признаках tri_sdbn показала5,7% абсолютное и 26,8% относительное уменьшение ошибки распознавания, по сравнению с базовой трифонной GMM-HMM моделью.69Таблица 2.1Результаты, демонстрируемые моделями, обученными на признаках,построенных с помощью предложенного метода, на подвыборке Switchboardтестовой базы HUB5 Eval 2000.Акустическая модельWER, %∆WER, %WERR, %tri421,3——tri_sdbn15,65,726,8dnn5b14,6——dnn5b_iv14,10,53,4dnn5b_iv_bn6-8014,30,32,1dnn_sdbn13,61,06,8dnn5b_smbr_i1lats12,9——dnn_sdbn_smbr_i1lats12,40,53,9dnn_sdbn_sdbn-ali_smbr_i1lats12,10,86,24.
DNN-HMM модель dnn_sdbn продемонстрировала 1,0% абсолютное и6,8% относительное уменьшение ошибки распознавания, по сравнениюс базовой DNN-HMM моделью, а также 0,5% абсолютное и 3,5% относительное уменьшение ошибки распознавания, по сравнению с адаптированной DNN-HMM моделью dnn5b_iv.5. DNN-HMM модель dnn_sdbn_smbr_i1lats, обученная с использованиемкритерия sMBR, оказалась на 0,5% абсолютных и 3,9% относительныхлучше, чем базовая модель dnn5b_smbr_i1lats, обученная по тому же критерию.6. DNN-HMM модель dnn_sdbn_sdbn-ali_smbr_i1lats, обученная с использованием критерия sMBR и разметки от GMM-HMM модели tri_sdbn,оказалась на 0,9% абсолютных и 6,2% относительных лучше, чем базовая модель dnn5b_smbr_i1lats, обученная по тому же критерию.Результаты позволяют сделать вывод о высокой эффективности разработанногометода в задаче распознавания английской спонтанной речи.70Обучение на сырых признаках без использования fMLLR-адаптацииВ приведенных выше экспериментах обучение проводилось на уже адаптированных к диктору при помощи fMLLR-преобразования признаках.
Однако использование i-векторов осуществляет адаптацию к диктору, как и fMLLRадаптация. Как показано в работе [85], использование fMLLR-адаптированныхпризнаков уменьшает прирост, обеспечиваемый за счет применения адаптациипри помощи i-векторов. Следовательно, есть основания ожидать, что без использования fMLLR-адаптации разработанный метод построения признаков продемонстрирует еще большую эффективность.Для оценки работы предложенного метода построения признаков в условиях отсутствия fMLLR-адаптации была проведена еще одна серия экспериментов.При этом для обучения моделей использовалась та же разметка на связанные состояния трифонов, сделанная при помощи модели tri4, а в качестве признаковдля обучения глубоких нейронных сетей были использованы сырые спектральные признаки — логарифмы энергий сигнала в 23-х треугольных Мел-частотныхфильтрах (FBANK), дополненные первыми и вторыми производными и взятыес временным контекстом в 11 кадров (центральный кадр и по 5 кадров слева исправа).
Аналогичным образом, что и в экспериментах на fMLLR-признаках, были обучены следующие модели:1. Базовая DNN-HMM модель dnn-fbank с 6 скрытыми слоями по 2048 нейронов с сигмоидами.2. DNN-HMM модель dnn-fbank_iv, адаптированная при помощи i-векторов(использовались те же 100-мерные i-векторы, что и в экспериментах наfMLLR-признаках).3. Адаптированная DNN-HMM модель dnn-fbank_iv_bn6-80 с линейным узким слоем размерности 80, расположенным перед последним скрытымслоем.Далее глубокая нейронная сеть с узким горлом dnn-fbank_iv_bn6-80 была использована для построения 80-мерных признаков (SDBN-FBANK), на которых были обучены трифонная GMM-HMM модель tri_sdbn-fbank и DNN-HMM модельdnn_sdbn-fbank с 4 скрытыми слоями по 2048 нейронов с сигмоидами в качествефункций активации (как и в предыдущем эксперименте, признаки для этой DNN-71HMM модели брались с временным контекстом в 31 кадр, прореженным через 5кадров).