Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 7
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
Для инициализации обучения обычно используется глубокая нейронная сеть, обученная покритерию минимизации взаимной энтропии. Эта же глубокая нейронная сеть чаще всего (хотя и не всегда) используется для разметки обучающих предложенийна состояния HMM и для генерации гипотез распознавания обучающих предложений.Сравнение различных критериев разделения последовательностей в задачераспознавания английской спонтанной речи, проведенное в работе [72], показывает незначительное превосходство state MBR (sMBR) критерия над остальными.Результаты этого сравнения приведены в таблице 1.1.Обучение DNN с использованием критериев разделения последовательностей обладает склонностью к переобучению: нередко возникает ситуация, когдапоследовательный критерий улучшается, но при этом значительно ухудшаетсяточность классификации кадров. Для борьбы с этим в работе [73] предложена техника, названная кадровым сглаживанием (Frame Smoothing, F-Smoothing): вместоминимизации одного лишь последовательного критерия осуществляется минимизация взвешенной суммы последовательного критерия и взаимной энтропииJF S (W, b; S) = (1 − H)JCE (W, b; S) + HJSEQ (W, b; S).(1.53)37Таблица 1.1Сравнение различных критериев разделения последовательностей в задачераспознавания английской спонтанной речи на подвыборках Switchboard изтестовых выборок HUB5 Eval 2000 и HUB5 Eval 2001Акустическая модельWER HUB5 2000 (sw)WER HUB5 2001 (sw)GMM bMMI18,618,9DNN CE14,214,5DNN MMI12,913,3DNN bMMI12,913,2DNN MPE12,913,2DNN sMBR12,613,0В задаче распознавания английской спонтанной речи эта техника позволяет получить до 4% относительного уменьшения ошибки распознавания.1.3.3Методы адаптации акустических моделей на основе глубокихнейронных сетейОдной из главных причин ошибок, возникающих при работе систем автоматического распознавания речи, является несоответствие условия обучения иэксплуатации.
Для улучшения точности распознавания в условиях, отличных отусловий обучения, разрабатываются алгоритмы адаптации акустических моделей. В отличие от методов нормализации, методы адаптации неразрывно связаныс типом используемой акустической модели и предназначены для подстройки модели под конкретные условия эксплуатации. Основные методы адаптации GMMHMM акустических моделей перечислены в разделе 1.3.1. Для CD-DNN-HMMтакже разработано большое количество методов адаптации.Одним из направлений является выделение и настройка подмножества параметров нейронной сети.
Сюда относятся:1. Адаптация линейного входного слоя [74]. Суть метода заключается втом, что параметры всех слоев дикторонезависимой нейронной сети,382.3.4.5.6.кроме первого, фиксируются и на данных определенного диктора алгоритмом обратного распространения ошибки осуществляется настройкапараметров первого слоя.Адаптация линейного скрытого слоя [75].Адаптация линейного выходного слоя [74; 76].Дискриминативная линейная регрессия в пространстве признаков(feature Discriminant Linear Regression, fDLR) [77].
Является разновидностью алгоритма адаптации линейного входного слоя, в которой для каждого кадра применяется одинаковое преобразование, т. е. соответствующие параметры матрицы преобразования являются общими. По сравнению с методом адаптации линейного входного слоя, данный метод имеет меньшее количество настраиваемых параметров, поэтому он меньшеподвержен переобучению и демонстрирует лучшее качество работы приналичии небольшого количества адаптационных данных.Использование дикторозависимого слоя.
Идея метода заключается в том,что наиболее чувствительные к междикторской вариативности параметры нейронной сети локализованы в определенном слое многослойнойнейронной сети. В работе [78] показано, что наибольшей чувствительностью обладают параметры второго слоя. Предложенная схема адаптациисостоит из трех этапов. На первом этапе обучается дикторонезависимаянейронная сеть. На втором этапе также выполняется обучение нейронной сети алгоритмом обратного распространения ошибки, но для каждого диктора используется индивидуальный набор параметров дикторозависимого слоя (второго). На третьем этапе фиксируются параметры всехдикторонезависимых слоев, полученные на втором этапе, и по даннымцелевого диктора настраиваются параметры дикторозависимого слоя.Факторизация параметров нейронной сети и последующее выделениедикторозависимого фактора.
Известно, что многослойные нейронные сети обладают большой избыточностью, в частности, большая часть параметров близка к нулю. Это позволяет представить параметры нейронной сети в более компактном виде без потери качества. Одним из способов для сокращения количества параметров является сингулярное преобразование.
При помощи сингулярного преобразования матрицы весовпредставляются в виде произведения двух матриц, имеющих существен-39но меньшую размерность по сравнению с исходной –– формируется т. н.узкое горло (bottleneck). Полученная после факторизации сеть зановообучается. Подобный способ обучения зачастую позволяет не только неухудшить точность распознавания, но и немного улучшить.В работе [79] предлагается два метода адаптации с использованием факторизации параметров нейронной сети.
В первом методе в факторизованную при помощи сингулярного преобразования нейронную сеть междусоответствующими левыми и правыми матрицами вставляются квадратные единичные матрицы, которые затем настраиваются в процессе адаптации, остальные параметры при этом остаются фиксированными. Вовтором методе предполагается, что матрицы разности параметров дикторозавимой и дикторонезавимой сетей будет иметь низкий ранг. Этиразности подвергаются сингулярному преобразованию. Остальные шаги идентичны первому методу.Другое направление — настройка всех параметров DNN с использованием в целевой функции дополнительного регуляризирующего слагаемого, не позволяющего настроенным параметрам слишком сильно отклониться от исходноймодели. В качестве регуляризатора применяют:1. L2–штраф на изменение параметров модели [80].2.
Дивергенцию Кульбака-Лейблера выходного распределения сенонов [81].Предоставление нейронной сети дополнительной информации о фонограмме или ее участках также является одним из путей к адаптации DNN-HMM. Вданной группе можно выделить:1. Использование дикторских кодов [82] для быстрой адаптации к диктору.Идея метода заключается в том, чтобы в пространстве признаков обучитьдополнительную входную сеть, на вход каждого слоя которой подаютсяне только выходы предыдущего слоя или, для первого слоя, акустические признаки, но и специально обучаемый дикторский код, представляющий собой малоразмерный вектор дикторских характеристик. Приэтом адаптационная сеть учится по всем обучающим данным и не меняется в зависимости от диктора, а дикторские коды обучаются для каждого диктора только по его данным.40Обучение акустической модели выполняется в два этапа.
На первомэтапе стандартным способом обучается дикторонезависимая нейроннаясеть. На втором этапе обучаются адаптационная нейронная сеть и коды дикторов; параметры дикторонезависимой нейронной сети при этомостаются неизменными, параметры адаптационной сети настраиваютсяпо всем обучающим данным, а коды каждого диктора настраиваютсятолько по его данным.Адаптация при помощи данного метода применяется в режиме работы сучителем, т. е. предполагается наличие точных текстовых расшифровоки разметки адаптационной выборки на дикторов.
В процессе адаптациипараметры обеих нейронных сетей не меняются, а настраиваются толькодикторские коды, которые затем подаются на вход адаптационной нейронной сети.2. Адаптация при помощи i-векторов. В задаче идентификации диктора [83; 84] вектор акустических признаков xt рассматривается как сгенерированный из модели Гауссовых смесей с диагональными ковариационными матрицами, называемой также универсальной фоновой моделью (Universal Background Model, UBM), которая обучается по большомуобъему фонограмм.xt ∼K∑ck N (·; µk (0); Σk ).(1.54)k=1При этом вектор акустических признаков xt (s), принадлежащий дикторуs, считается сгенерированным из адаптированный к этому диктору модели Гауссовых смесейxt (s) ∼K∑ck N (·; µk (s); Σk ).(1.55)k=1Идея метода i-векторов [83] заключается в предположении, что существует линейная зависимость между дикторо-зависимыми математическими ожиданиями µk (s) и дикторо-независимыми математическими41ожиданиями µk (0), определяемая выражениемµk (s) = µk (0) + Tk w(s),(1.56)где w(s) — вектор, характеризующий диктора s, или i-вектор.
Такимобразом, i-вектор представляет собой малоразмерный вектор, кодирующий отличие плотности распределения вероятностей акустических признаков, оцененной по фонограмме, от эталонной. I-вектор содержит канальную и дикторскую информацию. I-векторы широко применяются взадаче идентификации диктора [83; 84].Метод адаптации DNN при помощи i-векторов, предложенный в работе [85] заключается в добавлении к вектору акустических признаков iвектора, вычисленного по фрагменту фонограммы, соответствующемуопределенному диктору (см.