Диссертация (1148236), страница 17
Текст из файла (страница 17)
Для инициализации обучения использовалось предобучение при помощи ограниченных машин Больцмана.2. Обучение по критерию минимизации взаимной энтропии адаптированной модели с прореженной до 2% паузой. Обучение инициализировалосьглубокой нейронной сетью, полученной на этапе 1, с увеличенным на50 входным слоем. Для обновление параметров модели использовалсяалгоритм ускоренного градиента Нестерова с показателем 0,7, скоростьобучения была уменьшена до 0,0004. Также использовался штраф 4·10−8на отклонение весов от значений инициализирующей модели, определяемый по формуле 2.4.3. Обучение по критерию минимизации взаимной энтропии адаптированной модели dnn_31xfbank_iv_2 по полному набору обучающих данных.Обучение инициализировалось глубокой нейронной сетью, получен-95ной на этапе 2.
Как и на предыдущем этапе, использовались алгоритмускоренного градиента Нестерова с показателем 0,7, скорость обучения0,0004 и штраф 4 · 10−8 на отклонение весов от значений инициализирующей модели, определяемый по формуле 2.4.Для оценки качества построенных моделей использовались все четыре настроечных базы STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4. Как и в разделе 3.4.1, в целях ускорения проведения экспериментов использовалась маленькая языковая модель lang_final_small. Полученные результаты, приведенные втаблице 3.7, говорят о том, что адаптация при помощи i-векторов DNN-HMMмодели, обученной по критерию минимизации взаимной энтропии, обеспечилауменьшение пословной ошибки распознавания на 2,1–2,6% абс.
и 4,7–6,6% отн.Использование двухэтапного алгоритма инициализации обучения позволило добиться дополнительного улучшения: 2,9–4,0% абс. и 6,2–9,1% отн. превосходстванад базовой неадаптированной моделью. Это свидетельствует об эффективностипредложенного в диссертации двухэтапного алгоритма инициализации обученияв задаче распознавания русской телефонной спонтанной речи.Стоит отметить существенно более низкие показатели точности распознавания на базах STC-dev-2, STC-dev-3 и STC-dev-4, по сравнению с базой STCdev-1 — разница составила около 15% абсолютных. Это объясняется сложнымиакустическими условиями, в которых были записаны эти базы (GSM канал, а неIP-телефон).Для проверки работы адаптированных при помощи i-векторов глубоких нейронных сетей, обученных с использованием критерия разделения последовательностей, были построены две модели.
Неадаптированная модельdnn_31xfbank_smbr была получена в результате дообучения по sMBR-критериюмодели dnn_31xfbank; адаптированная модель dnn_31xfbank_iv_2_smbr была получена в результате дообучения по sMBR-критерию модели dnn_31xfbank_iv_2.Аналогично sMBR-моделям для английской спонтанной речи, построенным вразделе 1.6, использовалось несколько итераций обучения с использованием критерия разделения последовательностей. Полученные результаты представлены втаблице 3.8.
Они позволяют сделать вывод, что адаптация при помощи i-векторовглубоких нейронных сетей, обученных с использованием критерия разделенияпоследовательностей, также работает эффективно.96Таблица 3.7Сравнение адаптированной при помощи i-векторов и неадаптированнойDNN-HMM моделей для русской спонтанной речи, обученных по критериюминимизации взаимной энтропии, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbankSTC-dev-132,0——dnn_31xfbank_iv29,92,16,6dnn_31xfbank_iv_229,12,99,147,5——dnn_31xfbank_iv45,02,55,3dnn_31xfbank_iv_244,43,16,551,7——dnn_31xfbank_iv49,12,65,0dnn_31xfbank_iv_248,53,26,249,5——dnn_31xfbank_iv47,22,34,7dnn_31xfbank_iv_245,54,08,1dnn_31xfbankdnn_31xfbankdnn_31xfbankSTC-dev-2STC-dev-3STC-dev-497Таблица 3.8Сравнение адаптированной при помощи i-векторов и неадаптированнойDNN-HMM моделей для русской спонтанной речи, обученных сиспользованием критерия sMBR, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4акустическая модельтестовая база WER, % ∆WER, % WERR, %dnn_31xfbank_smbrSTC-dev-1dnn_31xfbank_iv_2_smbrdnn_31xfbank_smbrSTC-dev-2dnn_31xfbank_iv_2_smbrdnn_31xfbank_smbrSTC-dev-3dnn_31xfbank_iv_2_smbrdnn_31xfbank_smbrdnn_31xfbank_iv_2_smbrSTC-dev-428,5——26,02,58,845,3——42,42,96,449,3——47,02,34,746,9——44,12,86,0Улучшение качества распознавания, обеспечиваемое за счет такой адаптации, составило 2,3–2,9% абсолютных и 4,7–8,8% относительных, в зависимостиот базы, на которой проводилась оценка.3.4.3 Обучение акустических моделей с использованием признаков,извлеченных из адаптированной при помощи i-векторов глубокой нейроннойсети с узким горломПрименение адаптации DNN-HMM акустических моделей с использованием i-векторов позволило значительно сократить ошибку распознавания за счетповышения устойчивости системы распознавания к канальной и междикторскойвариативности речевого сигнала.
Для дальнейшего улучшения достигнутых результатов был применен представленный в главе 2 метод извлечения высокоуровневых признаков из адаптированной при помощи i-векторов глубокой нейроннойсети.98Извлечение признаков осуществлялось согласно описанному в разделе 2.2алгоритму. При помощи сингулярного разложения матрицы весов 6-го скрытого слоя в глубокую нейронную сеть dnn_31xfbank_iv_2 был добавлен узкий слойразмерности 80 с линейной функцией активации.
Полученная таким образом глубокая нейронная сеть с узким горлом была дообучена по критерию минимизации взаимной энтропии. Дообучение проводилось с уменьшенной до 0,0004скоростью обучения, обновление весов осуществлялось при помощи алгоритмаускоренного градиента Нестерова с показателем 0,7, также использовался штраф4 · 10−8 на отклонение весов от соответствующих значений инициализирующейглубокой нейронной сети.
Обученная таким образом глубокая нейронная сеть после удаления всех слоев, следующих за узким горлом (т. е. последнего скрытогослоя и выходного слоя) использовалась для извлечения 80-мерных IVBN признаков.Таблица 3.9Оценка эффективности работы GMM-HMM акустической модели, обученной напризнаках, извлекаемых из адаптированной при помощи i-векторов глубокойнейронной сети с узким горлом, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %tri4_mpeSTC-dev-136,2——32,14,111,3tri_ivbntri_ivbnSTC-dev-246,4——tri_ivbnSTC-dev-351,1——tri_ivbnSTC-dev-448,5——Построенные таким образом IVBN признаки были использованы для обучения трифонной GMM-HMM модели tri_ivbn с 15 тыс. связанных состояний и 450тыс.
гауссиан по критерию максимального правдоподобия. Результаты, демонстрируемые этой GMM-HMM моделью на четырех тестовых базах STC-dev-1,STC-dev-2, STC-dev-3, STC-dev-4, а также сравнение с лучшей из обученных ранее без использования IVBN признаков моделью tri4_mpe на тестовой базе STCdev-1, приведены в таблице 3.9. Отметим, что, несмотря на отсутствие дискрими-99нативного обучения и fMLLR-адаптации, обученная на IVBN признаках GMMHMM модель оказалась на 4,1% абсолютных и 11,3% относительных лучше, чемGMM-HMM модель tri4_mpe. Тем не менее, результаты на четырех тестовых базах заметно уступили представленным в таблице 3.8 результатам лучшей DNNHMM модели dnn_31xfbank_iv_2_smbr.Для обучения DNN-HMM модели IVBN признаки были взяты с контекстомв 31 кадр, прореженным по времени через 5 кадров (т.
е. [-15 -10 -5 0 5 10 15]).Использовалась конфигурация глубокой нейронной сети с 4 скрытыми слоямипо 2048 нейронов с сигмоидами в качестве функций активации. Разметка обучающих данных на связанные состояния трифонов была сделана GMM-HMM моделью tri_ivbn. Для инициализации обучения использовался двухэтапный алгоритм,который был представлен в разделе 2.3: на первом этапе выполнялось предобучение с использованием ограниченных машин Больцмана, на втором этапе осуществлялось обучение по критерию минимизации взаимной энтропии по обучающим данным, из которых случайным образом были выброшены 98% примеров,помеченных как пауза.
Полученная глубокая нейронная сеть использовалась дляинициализации обучения DNN-HMM модели dnn_ivbn с использованием критерия минимизации взаимной энтропии по полным обучащим данным. Результатыоценки эффективности построенной модели на четырех тестовых базах STC-dev1, STC-dev-2, STC-dev-3, STC-dev-4, представленные в таблице 3.10, говорят опревосходстве над адаптированной при помощи i-векторов DNN-HMM модельюdnn_31xfbank_iv_2, обученной по критерию минимизации взаимной энтропии, на0,4–1,4% абсолютных и 0,9–2,9% относительных, в зависимости от базы, на которой проводилась оценка.Наконец, DNN-HMM модель dnn_ivbn_smbr была получена после нескольких итераций дообучения глубокой нейронной сети dnn_ivbn с использованиемкритерия sMBR.
Сравнение этой модели на тестовых базах STC-dev-1, STCdev-2, STC-dev-3, STC-dev-4 с адаптированной при помощи i-векторов моделью dnn_31xfbank_iv_2_smbr, обученной по sMBR-критерию, приведено в таблице 3.11. По его результатам видно, что использование IVBN признаков позволилоулучшить качество распознавания на 0,7–2,5% абсолютных и 2,6–5,3% относительных, в зависимости от базы, на которой осуществлялась оценка. Стоит отметить, что улучшение от использования признаков, извлеченных из адаптированной при помощи i-векторов глубокой нейронной сети с узким горлом, оказалось100Таблица 3.10Оценка эффективности работы DNN-HMM модели для русской спонтаннойречи, обученной по критерию минимизации взаимной энтропии сиспользованием признаков, извлекаемых из адаптированной при помощиi-векторов глубокой нейронной сети с узким горлом, на тестовых базахSTC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbank_iv_2STC-dev-129,1——28,40,72,444,4——44,00,40,948,5——47,11,42,945,5——45,00,51,1dnn_ivbndnn_31xfbank_iv_2STC-dev-2dnn_ivbndnn_31xfbank_iv_2STC-dev-3dnn_ivbndnn_31xfbank_iv_2dnn_ivbnSTC-dev-4101заметно больше при обучении по критерию разделения последовательностей, чемпри обучении по критерию минимизации взаимной энтропии.Проведенные в этом разделе исследования подтверждают высокую эффективность предложенного в главе 2 метода построения акустических моделей с использованием высокоуровневых признаков, извлекаемых из глубокой нейроннойсети с узким горлом, адаптированной при помощи i-векторов, в задаче распознавания русской спонтанной речи.Таблица 3.11Оценка эффективности работы DNN-HMM модели для русской спонтаннойречи, обученной по критерию sMBR с использованием признаков, извлекаемыхиз адаптированной при помощи i-векторов глубокой нейронной сети с узкимгорлом, на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая база WER, % ∆WER, % WERR, %dnn_31xfbank_iv_2_smbr STC-dev-126,0——dnn_ivbn_smbr25,30,72,7dnn_31xfbank_iv_2_smbr STC-dev-242,4——dnn_ivbn_smbr41,31,12,6dnn_31xfbank_iv_2_smbr STC-dev-347,0——dnn_ivbn_smbr44,52,55,3dnn_31xfbank_iv_2_smbr STC-dev-444,1——dnn_ivbn_smbr42,12,04,53.4.4 Выбор конфигурации акустических признаковДля дальнейшего улучшения качества распознавания было проведено экспериментальное исследование, нацеленное на улучшение конфигурации акустических признаков для обучения DNN-HMM акустических моделей.