Диссертация (1148236), страница 16
Текст из файла (страница 16)
По89Таблица 3.5Оценка эффективности предложенного двухпроходного алгоритмараспознавания речи на тестовых базах STC-dev-1, STC-dev-2Режим работыТестовая базаWER, %∆WER, %WERR, %однопроходныйSTC-dev-137,6——36,11,54,052,9——51,21,73,258,0——55,92,13,656,1——54,21,93,4двухпроходныйоднопроходныйSTC-dev-2двухпроходныйоднопроходныйSTC-dev-3двухпроходныйоднопроходныйSTC-dev-4двухпроходныйэтой причине двухпроходный алгоритм не был использован в разработанной системе распознавания русской телефонной спонтанной речи.
Однако в настоящеевремя ведутся работы по модификации двухпроходного алгоритма распознаванияречи с целью повышения его быстродействия и эффективности.3.4Построение акустических моделей3.4.1 Апробация методики обучения акустических моделей для английскойспонтанной речи из инструмента Kaldi ASR для русского языкаПервым этапом в построении акустических моделей для системы распознавания русской спонтанной речи было прохождение пути, аналогичного рецептуswbd(s5c) из инструмента Kaldi ASR [101], описанному в разделе 1.6. Этот этапбыл нацелен на то, чтобы определить, какие стадии рецепта вносят наибольшийвклад в качество распознавания, а также оценить эффективность рецепта в реша-90емой задаче построения системы распознавания русской спонтанной речи. Процесс прохождения этого этапа описан в статье [21].При обучении акустических моделей использовался описанный выше набор фонем, а также словарь, построенный на основе этого набора фонем в разделе 3.3. При построении скрытых марковских моделей фонемы sil и spn моделировались пятью состояниями, все остальные фонемы — тремя состояниями.
Обучение акустических моделей проводилось на обучающей базе STC-train-1, оценка эффективности — на тестовой базе STC-dev-1. Для языкового моделированияиспользовалась триграммная модель lang_final_small, которая была построена вразделе 3.2.2.Аналогично рецепту swbd(s5c), были обучены следующие GMM-HMM акустические модели:1. Монофонная модель (mono) с 1000 гауссиан по 30000 предложений. Использовались 13-мерные MFCC признаки с CMN, дополненные первымии вторыми производными.2.
Первая трифонная модели (tri1) с 32000 гауссиан и 3200 связанных состояний трифонов по 30000 предложений. Использовались 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.3. Вторая трифонная модель (tri2) с 32000 гауссиан и 3200 связанных состояний трифонов по 90000 предложений. Использовались 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.4.
Третья трифонная модель (tri3) с 70000 гауссиан и 5000 связанных состояний трифонов по 90000 предложений. Использовались взятые для 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13-мерныеMFCC признаки с CMN, к которым было примененено LDA-MLLT преобразование с понижением размерности до 40.5. Четвертая трифонная модель (tri4) с 200000 гауссиан и 11500 связанныхсостояний по всем данным. В качестве признаков используются взятыедля 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13мерные MFCC с CMN, к которым было примененено LDA-MLLT преобразование с понижением размерности до 40, адаптированные к дикторус помощью fMLLR преобразования.916. Дискриминативное дообучение четвертой трифонной модели с использованием MPE критерия (tri4_mpe) по всем данным.Разметка обучающих данных на связанные состояния трифонов, сделанная припомощи GMM-HMM модели tri4, использовалась для обучения по критерию минимизации взаимной энтропии трех DNN-HMM моделей с 6 скрытыми слоями по1024 нейрона с сигмоидами в качестве функций активации:1.
DNN-HMM модель dnn_mfcc, обученная с использованием 13-мерныхMFCC признаков с CMN, дополненных первыми и вторыми производными и взятых для 11 соседних кадров (центральный кадр и по 5 кадровслева и справа).2. DNN-HMM модель dnn_mllt, обученная с использованием 40-мерныхLDA-MLLT признаков от модели tri3, взятых для 11 соседних кадров(центральный кадр и по 5 кадров слева и справа).3. DNN-HMM модель dnn_fmllr, обученная с использованием адаптированных к диктору 40-мерных LDA-MLLT-fMLLR признаков от модели tri4,взятых для 11 соседних кадров (центральный кадр и по 5 кадров слева исправа).При обучении этих DNN-HMM моделей применялось предобучение при помощиограниченных машин Больцмана.
Обучение DNN-HMM с использованием критериев разделения последовательностей в этом эксперименте не проводилось.Результаты, демонстрируемые обученными GMM-HMM и DNN-HMM моделями, представлены в таблице 3.6. Они оказались значительно хуже, чем результаты аналогичных акустических моделей для английской спонтанной речи,приведенные в таблице 1.2. Разница в точности распознавания, составившая около 15% абсолютных для подвыборки Switchboard и около 10% абсолютных дляполной тестовой базы HUB5 Eval 2000, предположительно, обусловлена сделующими факторами:1. Более спонтанным и диалоговым характером русских тестовых записей,по сравнению с записями из английской тестовой базы HUB5 Eval 2000.2.
Низким качеством отекстовки обучающих записей в базе STC-train.3. Особенностями русской речи (флективность языка, свободный порядокслов в предложении, вялая артикуляция), усложняющими ее распознавание по сравнению с английской речью.Полученные результаты позволяют сделать выводы о том, что92Таблица 3.6Результаты, демонстируемые акустическими моделями для русского языка,обученными по методике из Kaldi для базы Switchboard, натестовой базе STC-dev-1Акустическая модельWER, %∆WER, %WERR, %tri250,4——tri347,62,85,5tri440,89,619,0tri4_mpe36,214,228,2dnn_mfcc32,2——dnn_mllt32,00,20,6dnn_fmllr31,21,03,11. DNN-HMM модели обеспечивают значительно более высокую точностьраспознавания русской спонтанной речи, чем GMM-HMM модели.2. Снижение чувствительности системы распознавания речи к акустической вариативности речевого сигнала посредством применения алгоритмов нормализации (LDA-MLLT) и адаптации (fMLLR) демонстрируетвысокую эффективность при использовании GMM-HMM акустическихмоделей и значительно меньшую — при использовании DNN-HMM акустических моделей.Стоит особо отметить, что адаптиция к диктору при помощи fMLLR позволила добиться лишь незначительного улучшения точности распознавания с использованием DNN-HMM акустической модели.
Возможной причиной этого является низкое качество использованной автоматической разметки обучающих записей на дикторов. При этом, как уже говорилось в разделе 1.3.3, применениеfMLLR-адаптиции требует предварительного прохода распознавания, что существенно (почти в 2 раза) снижает скорость работы системы распознавания. Руководствуясь этими соображениями, в дальнейшем при построении акустическихмоделей для распознавания русской спонтанной речи было принято решение отказаться от использования fMLLR-адаптации к диктору.933.4.2Обучение глубоких нейронных сетей, адаптированных при помощиi-векторовАнализ существующих на сегодняшний день алгоритмов адаптации DNNHMM акустических моделей, проведенный в разделе 1.3.3, показал, применениеадаптации с использованием i-векторов позволяет существенно повысить точность распознавания речи и при этом практически не оказывает влияния на быстродействие системы.
В этом разделе описано построение адаптированных припомощи i-векторов DNN-HMM акустических моделей для русской спонтаннойречи.Для извлечения i-векторов, как и в экспериментах на английской спонтанной речи, проведенных в разделе 2.2.1, использовались инструменты, разработанные в ООО «ЦРТ» [9] и описанные в работах [84; 137]. Система на основеUBM с 2048 гауссианами была обучена на 13-мерных MFCC-признаках, дополненных первыми и вторыми производными, с ее помощью извлекались i-векторыдля обучающих и тестовых записей. Для используемых обучающих данных STCtrain характерны низкое качество автоматической разметки на дикторов и наличие большого количества коротких файлов, что приводит к недостатку данныхдля надежной оценки i-вектора.
В связи с этим, руководствуясь результатами исследования [87], было принято решение использовать i-векторы размерности 50,т. е. вдвое меньшей, чем в экспериментах на английской спонтанной речи.Обучение DNN-HMM акустических моделей осуществлялось по обучающим данным STC-train, размеченным на связанные состояния трифонов при помощи трифонной GMM-HMM акустической модели tri4, построенной в разделе 3.4.1.В качестве признаков для обучения были выбраны логарифмы энергий в20-ти треугольных Мел-частотных фильтрах (FBANK), взятые с контекстом в 31кадр (центральный кадр и по 15 кадров слева и справа). При вычислении этих признаков частотный диапазон сигнала был искусственно ограничен полосой 300–3400 Гц. Для нормализации признаки подвергались вычитанию среднего спектра (преобразование, аналогичное нормализации среднего кепстра (CMN), в пространстве частот).
Такая конфигурация FBANK-признаков была выбрана в качестве стартовой точки для экспериментов, поскольку аналогичная конфигурация94MFCC-признаков успешно применялась в работах [18–20; 22]. Выбор более «сырых» спектральных FBANK признаков, а не кепстральных MFCC, обусловлен результатами работ [140; 141] и других исследований, в которых показано превосходство FBANK-признаков над MFCC при использовании DNN-HMM акустических моделей.Базовая модель dnn_31xfbank была обучена по критерию минимизации взаиной энтропии с использованием инициализация при помощи ограниченных машин Больцмана.Адаптированная модель dnn_31xfbank_iv была получена в результате расширения входного слоя базовой модели и дообучения по критерию минимизациивзаимной энтропии.
При этом для обновление параметров модели использовалсяалгоритм ускоренного градиента Нестерова с показателем 0,7, скорость обучениябыла уменьшена до 0,0004. Также использовался штраф 4·10−8 на отклонение весов от значений инициализирующей модели, определяемый по формуле 2.4.Обучениедругойадаптированнойглубокойнейроннойсетиdnn_31xfbank_iv_2 осуществлялось с использованием двухэтапного алгоритмаинициализации одним из способов, предложенных в разделе 2.3, состоящим изследующих этапов:1. Обучение по критерию минимизации взаимной энтропии неадаптированной модели с прореженной до 2% паузой (т. е. по обучающим данным. из которых случайным образом выброшено 98% примеров, помеченных как пауза).