Диссертация (1148236), страница 19
Текст из файла (страница 19)
е. последнего скрытого и выходного слоев), использовалась для построения80-мерных IVBN2 признаков.На построенных IVBN2 признаках была обучена по критерию максимального правдоподобия трифонная GMM-HMM модель tri_ivbn2 с 450 тыс. гауссиан и 15 тыс. связанных состояний трифонов. По результатам сравнения этой модели с GMM-HMM моделью gmm_ivbn, обученной в разделе 3.4.3 на признакахIVBN, представленным в таблице 3.14, оказалось, что использование новой конфигурации признаков позволило улучшить качество распознавания на 2,1–4,1%абсолютных и 4,5–9,0% относительных, в зависимости от базы, на которой осуществлялась оценка.Далее IVBN2 признаки, взятые с временным контекстом в 31 кадр, прореженным через 5 кадров (т.
е. [-15 -10 -5 0 5 10 15]), были использованы для обучения глубокой нейронной сети с 4 скрытыми слоями по 2048 нейронов с сигмоидами в качестве функций активации. При обучении использовалась разметка обучающих данных на связанные состояния трифонов, сделанная с помощьюGMM-HMM модели tri_ivbn2. Инициализация обучения выполнялась при помо-108Таблица 3.14Сравнение GMM-HMM акустических моделей, построенных на признаках,извлекаемых из адаптированных к диктору глубоких нейронных сетей с узкимгорлом, обученных с использованием старой и новой конфигураций признаков,на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %gmm_ivbnSTC-dev-132,1——29,22,99,046,4——44,32,14,551,1——47,73,46,748,5——44,44,18,5gmm_ivbn2gmm_ivbnSTC-dev-2gmm_ivbn2gmm_ivbnSTC-dev-3gmm_ivbn2gmm_ivbngmm_ivbn2STC-dev-4щи двухэтапного алгоритма, представленого в разделе 2.3: первый этап — предобучение с использованием ограниченных машин Больцмана, второй этап — обучение по критерию минимизации взаимной энтропии по обучающим данным, изкоторых случайным образом были выброшены 98% примеров, помеченных какпауза.
Полученная в результате двухэтапного предобучения глубокая нейроннаясеть использовалась для инициализации обучения DNN-HMM модели dnn_ivbn2с использованием критерия минимизации взаимной энтропии по полным обучащим данным.Результаты сравнения построенной модели dnn_ivbn2 с аналогичной DNNHMM моделью dnn_ivbn, обученной в разделе 3.4.3 на признаках IVBN, представлены в таблице 3.15. Согласно этим результатам, использование новой конфигурации признаков для построения высокоуровневых признаков, извлекаемыхиз глубокой нейронной сети с узким горлом, адаптированной при помощи iвекторов, позволило улучшить качество распознавания на 3,4–3,9% абсолютныхи 7,2–13,7% относительных, в зависимости от оценочной базы.109Таблица 3.15Сравнение DNN-HMM акустических моделей, обученных по критериюминимизации взаимной энтропии на признаках, извлекаемых изадаптированных к диктору глубоких нейронных сетей с узким горлом,построенных с использованием старой и новой конфигураций признаков, натестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_ivbnSTC-dev-128,4——24,53,913,744,0——40,53,58,047,1——43,73,47,245,0——41,63,47,6dnn_ivbn2dnn_ivbnSTC-dev-2dnn_ivbn2dnn_ivbnSTC-dev-3dnn_ivbn2dnn_ivbndnn_ivbn2STC-dev-4110Таблица 3.16Сравнение DNN-HMM акустических моделей, обученных по критерию sMBR напризнаках, извлекаемых из адаптированных к диктору глубоких нейронныхсетей с узким горлом, построенных с использованием старой и новойконфигураций признаков, на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3,STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_ivbn_smbrSTC-dev-125,3——22,03,313,041,3——37,34,09,744,5——41,43,17,042,1——38,14,09,5dnn_ivbn2_smbrdnn_ivbn_smbrSTC-dev-2dnn_ivbn2_smbrdnn_ivbn_smbrSTC-dev-3dnn_ivbn2_smbrdnn_ivbn_smbrdnn_ivbn2_smbrSTC-dev-4111Последним шагом было дообучение глубокой нейронной сети dnn_ivbn2 сиспользованием критерия разделения последовательностей sMBR.
Как и в разделе 3.4.3, было проведено несколько итераций дообучения. В итоге была построенаDNN-HMM модель dnn_ivbn2_smbr. Результаты сравнения с аналогичной моделью dnn_ivbn_smbr, обученной в разделе 3.4.3 на IVBN признаках, построенных сиспользованием старой конфигурации «сырых» признаков 31xfbank-0, представлены в таблице 3.15.
Улучшение качества распознавания за счет перехода на новую конфигурацию «сырых» признаков 11xfbank-3 составило 3,4–3,9% абсолютных и 7,2–13,7% относительных.DNN-HMM модель dnn_ivbn2_smbr была выбрана в качестве финальнойакустической модели для системы распознавания русской телефонной спонтанной речи. Для демонстрации суммарной эффективности использованных методов, а именно подбора конфигурации акустических признаков, адаптации глубокой нейронной сети при помощи i-векторов, использования высокоуровневыхпризнаков, извлекаемых из глубокой нейронной сети с узким горлом, а также использования двухэтапного алгоритма инициализации обучения DNN-HMM моделей, приведем в таблице 3.17 результаты сравнения финальной акустической модели с DNN-HMM моделью dnn_31xfbank_smbr — лучшей из моделей, построенных без использования вышеперечисленных методов.
Можно видеть, что использованные методы позволили сократить ошибку распознавания русской спонтанной речи на 6,5–8,0% абсолютных и 16,0–22,8% относительных, в зависимости отбазы, на которой проводилась оценка.3.5Выводы1. Представлены речевые базы, использованные для обучения и настройкисистемы.2. Построена триграммная языковая модель по текстовым расшифровкамобучающих баз.
Обучены дополнительные языковые модели по текстовым данным, собранным из открытых источников, а именно с русскоязычных форумов, современных книг и субтитров к фильмам. Финаль-112Таблица 3.17Оценка эффективности методов, использованных при построении финальнойакустической модели, на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3,STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbank_smbrSTC-dev-128,5——22,06,522,845,3——37,38,017,749,3——41,47,916,046,9——38,18,818,8dnn_ivbn2_smbrdnn_31xfbank_smbrSTC-dev-2dnn_ivbn2_smbrdnn_31xfbank_smbrSTC-dev-3dnn_ivbn2_smbrdnn_31xfbank_smbrdnn_ivbn2_smbr3.4.5.6.STC-dev-4ная языковая модель получена при помощи линейной интерполяции основной и дополнительных триграммных моделей.Сформирован словарь, ставящий в соответствие каждому слову, присутствующему в языковой модели, одну или несколько транскрипций (последовательностей фонем).
Вручную добавлены альтернативные транскрипции для наиболее частотных слов, произношение которых в спонтанной речи отличается от написания и от канонического произношенияв диктовочной речи.Двухпроходный алгоритм распознавания речи, учитывающий на уровнетранскрипций эффекты коартикуляции в словосочетаниях и фонетические особенности русской спонтанной речи, показал потенциал для повышения точности распознавания.Предпринята попытка построения акустических моделей для распознавания русской спонтанной речи по описанной в разделе 1.6 методике построения системы распознавания английской спонтанной речи.Обучена адаптированная к диктору и акустической обстановке при помощи i-векторов DNN-HMM акустическая модель. Показано, что приме-1137.8.9.10.нение двухэтапного алгоритма инициализации, представленного в разделе 2.3, позволяет улучшить адаптированную акустическую модель.Из глубокой нейронной сети с узким горлом, построенной на основеэтой модели согласно описанному в разделе 2.2 алгоритму, полученыпризнаки.
Построенные признаки использовались для обучения GMMHMM модели, с помощью которой была сгенерирована улучшенная разметка обучающих данных на связанные состояния трифонов. На основепостроенных признаков и разметки обучены DNN-HMM акустическиемодели, демонстрирующие значительное улучшение по сравнению какс неадаптированными, так и с адаптированными моделями.Проведены эксперименты по подбору конфигурации признаков для обучения DNN-HMM акустических моделей.
Лучшие результаты продемонстрировали логарифмы энергий сигнала в 23 Мел-частотных треугольных фильтрах (FBANK), дополненные первыми и вторыми производными и взятые с временным контекстом в 11 кадров (центральный кадри по 5 кадров слева и справа), построенные с применением нормализации среднего спектра и ограничением частотного диапазона сигнала64–3800 Гц.Подобранная конфигурация признаков использована для построенияадаптированной при помощи i-векторов глубокой нейронной сети с узким горлом с использованием предложенного в разделе 2.3 двухэтапногоалгоритма инициализации обучения.
Эта глубокая нейронная сеть с узким горлом использована для построения высокоуровневых признаков,на основе которых далее обучена финальная DNN-HMM акустическаямодель.Использование при построении финальной акустической модели совокупности методов: подбора конфигурации признаков, адаптации глубокой нейронной сети при помощи i-векторов, использования высокоуровневых признаков, извлекаемых из глубокой нейронной сети с узким горлом, и двухэтапного алгоритма инициализации обучения DNN-HMM моделей, позволило улучшить качество распознавания русской спонтаннойречи на 6,5–8,0% абсолютных и 16,0–22,8% относительных, по сравнению с базовой неадаптированной DNN-HMM моделью.114Глава 4.
Программные средства системы распознавания русской телефоннойспонтанной речиВ этой главе представлена структура построенной системы распознаваниярусской телефонной спонтанной речи. Приведены результаты сравнения разработанной системы с существующими системами распознавания слитной русскойречи по точности распознавания, а также проведена оценка быстродействия разработанной системы.4.1 Структура системы распознавания русской телефонной спонтанной речиРазработанная система распознавания русской телефонной спонтанной речи состоит из двух основных подсистем (см.
рисунок 4.1):1. Подсистема обучения — отвечает за создание акустических и языковыхмоделей, а также словаря транскрипций.2. Подсистема распознавания речи — осуществляет автоматическое преобразование речи из входных wav-файлов в текст, используя при этомрезультаты работы подсистемы обучения.Разработка отдельных составных частей системы осуществлялась припомощи языков программирования C++, Perl, Python, Bash с использованием объектно-ориентированного и процедурного подходов. Наряду с самостоятельно разработанными программными средствами, использовались инструментSRILM — The SRI Language Modeling Toolkit [138] для построения языковых моделей, инструмент Kaldi ASR [101] для обучения акустических моделей, а такжеряд программных средств, разработанных в ООО «ЦРТ» [9] (декодер, модуль обработки сигнала и построения признаков, модуль извлечения i-векторов, модульавтоматического создания транскрипций, инструмент для сбора текстовых данных из сети Интернет).115Рисунок 4.1 — Структура системы распознавания русской телефоннойспонтанной речи4.1.1 Подсистема обученияСхема подсистемы обучения представлена на рисунке 4.2.