Диссертация (1148236), страница 18
Текст из файла (страница 18)
В целях со-102кращения времени проведения экспериментов использовалась 270-часовая подвыборка обучающей базы STC-train, обозначаемая в дальнейшем STC-train-270.Для обучения DNN-HMM акустических моделей были использованы следующие варианты конфигураций признаков:1. 31xfbank-0 (базовая конфигурация, использованная в экспериментахв разделе 3.4.2) — логарифмы энергий в 20-ти треугольных Мелчастотных фильтрах (FBANK), построенные с ограничением частотного диапазона в 300–3400 Гц и нормализацией среднего спектра, взятые свременным контекстом в 31 кадр (центральный кадр и по 15 кадров слеваи справа).2. 11xfbank-0 — логарифмы энергий в 20-ти треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 300–3400 Гц и нормализацией среднего спектра, дополненные первымии вторыми производными и взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа).3.
31xmfcc-0 — 13-мерные MFCC признаки, построенные с использованием20-ти треугольных Мел-частотных фильтров, ограничением частотногодиапазона в 300–3400 Гц и нормализацией среднего кепстра, взятые свременным контекстом в 31 кадр (центральный кадр и по 15 кадров слеваи справа).4.
11xmfcc-0 — 13-мерные MFCC признаки, построенные с использованием20-ти треугольных Мел-частотных фильтров, ограничением частотногодиапазона в 300–3400 Гц и нормализацией среднего кепстра, дополненные первыми и вторыми производными и взятые с временным контекстом в 11 кадров (центральный кадр и по 5 кадров слева и справа).5. 11xfbank-1 — логарифмы энергий в 23-х треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 20–4000 Гц и нормализацией среднего спектра, дополненные первымии вторыми производными и взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа).6. 11xfbank-2 — логарифмы энергий в 23-х треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 20–4000 Гц, дополненные первыми и вторыми производными и взятые103с временным контекстом в 11 кадров (центральный кадр и по 5 кадровслева и справа).7. 11xfbank-3 — логарифмы энергий в 23-х треугольных Мел-частотныхфильтрах (FBANK), построенные с ограничением частотного диапазонав 64–3800 Гц и нормализацией среднего спектра, дополненные первымии вторыми производными и взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа).При построении этих признаков сигнал разбивался на перекрывающиеся временные окна длиной 16 мс с шагом в 10 мс.
Признаки были построены при помощиинструментов, разработанных в ООО «ЦРТ» [9].На каждой из конфигураций признаков была обучена соответствующая глубокая нейронная сеть с 6 скрытыми слоями по 1024 нейрона с сигмоидами в качестве функций активации. Для инициализации обучения использовались ограниченные машины Больцмана. Разметка обучающих данных на связанные состояния трифонов осуществлялась при помощи GMM-HMM модели tri_ivbn, обученной в разделе 3.4.3 на признаках, извлекаемых из адаптированной при помощиi-векторов глубокой нейронной сети с узким горлом. Глубокие нейронные сетибыли обучены при помощи критерия минимизации взаимной энтропии.Таблица 3.12Сравнение DNN-HMM акустических моделей, обученных с использованиемразличных конфигураций признаков, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4Конфигурация признаковТестовая базаWER, %∆WER, %WERR, %31xfbank-0STC-dev-133,1——11xfbank-033,10,00,031xmfcc-035,0-1,9-5,711xmfcc-034,4-1,3-3,911xfbank-131,51,64,811xfbank-231,51,64,810411xfbank-331,61,54,549,1——11xfbank-047,61,53,131xmfcc-049,4-0,3-0,611xmfcc-049,5-0,4-0,811xfbank-145,93,26,511xfbank-246,93,24,511xfbank-346,13,06,153,0——11xfbank-050,82,24,231xmfcc-052,90,10,211xmfcc-053,5-0,5-0,911xfbank-149,53,56,611xfbank-249,53,56,611xfbank-349,33,77,050,8——11xfbank-049,21,63,131xmfcc-048,82,03,911xmfcc-051,2-0,40,811xfbank-146,44,48,711xfbank-246,44,48,711xfbank-346,04,89,431xfbank-031xfbank-031xfbank-0STC-dev-2STC-dev-3STC-dev-4105Как и в разделе 3.4.1, в целях ускорения проведения экспериментов использовалась маленькая языковая модель lang_final_small.
Сравнение DNN-HMM моделей, обученных с использованием представленных выше конфигураций признаков, проводилось на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STCdev-4. Анализируя результаты сравнения, приведенные в таблице 3.12, можносделать следующие выводы:1. При использовании временного контекста в 31 кадр MFCC-признаки иFBANK-признаки обеспечивают примерно одинаковую точность распознавания (сравнение конфигураций 31xfbank-0 и 31xmfcc-0).2.
Для FBANK-признаков временной контекст в 11 кадров с использованием первых и вторых производных дает значительно лучшие результаты,чем аналогичный временной контекст для MFCC-признаков (сравнениеконфигураций 11xfbank-0 и 11xmfcc-0), а также чем контекст в 31 кадрдля FBANK-признаков (сравнение конфигураций 11xfbank-0 и 31xfbank0) и MFCC-признаков (сравнение конфигураций 11xfbank-0 и 31xmfcc-0).3. Использование более широкого частотного диапазона (20–4000 Гц против 300–3400 Гц) и большего числа треугольных Мел-частотных фильтров (23 против 20) при построении FBANK-признаков позволяет значительно улучшить работу DNN-HMM моделей (сравнение конфигураций11xfbank-1 и 11xfbank-0).4.
Использование нормализации среднего спектра значимо улучшает точность распознавания на тестовой базе STC-dev-2 и не оказывает влияния на остальных тестовых базах (сравнение конфигураций 11xfbank-1 и11xfbank-2).5. Ограничение частотного диапазона 64–3800 Гц при построении FBANKпризнаков демонстрирует слегка лучшие результаты, чем ограничение20–4000 Гц (сравнение конфигураций 11xfbank-3 и 11xfbank-1).Исходя из этих соображений, в качестве финальной конфигурации признаков дляобучения DNN-HMM моделей была выбрана конфигурация 11xfbank-3, демонстрирующая 1,5–4,8% абсолютного улучшения и 4,5–9,4% относительного улучшения качества распознавания русской спонтанной речи по сравнению с базовойконфигурацией 31xfbank-0, в зависимости от базы, на которой проводилось сравнение.1063.4.5Построение финальной акустической моделиУлучшение качества распознавания, обеспечиваемого DNN-HMM моделью, приводит к улучшению качества распознавания акустическими моделями,обученными на признаках, извлекаемых из глубокой нейронной сети с узким горлом, построенной на основе этой модели.
В связи с этим было решено провестиповторный цикл построения высокоуровневых признаков и обучения DNN-HMMакустических моделей на основе построенных признаков, используя в качествебазовых признаков конфигурацию 11xfbank-3, описанную в разделе 3.4.4.Как и в разделе 3.4.2, глубокие нейронные сети, обученные на базовых признаках, содержали 6 скрытых слоев по 1024 нейрона с сигмоидами в качествефункций активации. Для обучения использовалась разметка обучающих данныхна связанные состояния трифонов, сделанная при помощи GMM-HMM моделиtri_ivbn, построенной в разделе 3.4.3. Оценка эффективности работы построенных моделей осуществлялась на четырех базах STC-dev-1, STC-dev-2, STC-dev3, STC-dev-4, использовалась маленькая языковая модель lang_final_small.Для обучения адаптированной глубокой нейронной сети использовалисьi-векторы, построенные в разделе 3.4.2.
Обучение адаптированной моделиdnn_11xfbank-3_iv_2 осуществлялось с использованием двухэтапного алгоритмаинициализации, полностью аналогично обучению модели dnn_31xfbank_iv_2 (см.раздел 3.4.2).Результаты, демонстрируемые DNN-HMM моделью dnn_11xfbank-3_iv_2,а также их сравнение с результатами аналогичной адаптированной моделиdnn_31xfbank_iv_2, обученной в разделе 3.4.2 с использованием старой конфигураций признаков, приведены в таблице 3.13. Можно видеть абсолютное улучшение качества распознавания на 2,6–4,2% и относительное улучшение на 5,4–8,9%,в зависимости от базы, на которой оценивались результаты, за счет перехода наконфигурацию признаков 11xfbank-3.Далее в адаптированную глубокую нейронную сеть dnn_11xfbank-3_iv_2был добавлен линейный скрытый слой размерности 80 перед последним скрытым слоем и проведено дообучение, полностью аналогично тому, как это былопроделано в разделе 3.4.3. Полученная таким образом глубокая нейронная сеть сузким горлом после удаление всех слоев, следующих за узким линейным слоем107Таблица 3.13Сравнение адаптированных при помощи i-векторов DNN-HMM акустическихмоделей, обученных по критерию минимизации взаимной энтропии сиспользованием старой и новой конфигураций признаков, на тестовых базахSTC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbank_iv_2STC-dev-129,1——26,52,68,944,4——41,03,47,748,5——45,92,65,445,5——41,34,29,2dnn_11xfbank-3_iv_2dnn_31xfbank_iv_2STC-dev-2dnn_11xfbank-3_iv_2dnn_31xfbank_iv_2STC-dev-3dnn_11xfbank-3_iv_2dnn_31xfbank_iv_2dnn_11xfbank-3_iv_2STC-dev-4(т.