Автореферат (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 3
Описание файла
Файл "Автореферат" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Приведены результаты исследований, показывающих, чтонелинейные преобразования признаков, осуществляющиеся на скрытых слояхDNN, обеспечивают устойчивость по отношению к малым возмущениям входного сигнала. Дано описание DNN с узким горлом, позволяющих извлекатьпризнаки, обладающие устойчивостью по отношению к акустической вариативности речевого сигнала.Далее представлен разработанный автором метод построения высокоуровневых информативных признаков, идея которого заключается в использовании адаптированной DNN для извлечения признаков. Основой для этой идеипослужил сделанный в главе вывод о том, что чем лучше точность распознавания, которая обеспечивается DNN с узким горлом, тем лучшую точность распознавания будет обеспечивать система, построенная на основе признаков, извлеченных из этой DNN.
Анализ алгоритмов адаптации DNN-HMM акустическихмоделей, проведенный в первой главе, показал, что адаптация DNN к диктору иакустической обстановке с использованием i-векторов — малоразмерных векторов, кодирующих отличие плотности распределения вероятностей акустических признаков, оцененной по фонограмме, от эталонной — значительно повышает точность распознавания речи за счет предоставления DNN дополнительной информации о фонограмме. Таким образом, в основе разработанногометода лежит предположение, что использование признаков, извлекаемых изDNN с узким горлом, адаптированной при помощи i-векторов, позволит повысить устойчивость по отношению к акустической вариативности и обеспечитьлучшую способность к разделению акустических классов.Основные этапы представленного в диссертации алгоритма построенияпризнаков, согласно разработанному методу, таковы:1.
Обучение неадаптированной DNN по критерию минимизации взаимнойэнтропии (рисунок 1а).2. Расширение входного слоя обученной DNN с инициализацией соответствующих коэффициентов матрицы весов нулевыми значениями.10Рисунок 1 — Основные этапы обучения глубокой нейронной сети с узкимгорлом, адаптированной при помощи i-векторов.3. Дообучение DNN с расширенным входным слоем по признакам, к которым на каждом кадре добавлен i-вектор, соответствующий данному участку фонограммы (рисунок 1б).
При этом используется меньшая скоростьобучения, а к целевой функции добавлено слагаемое R(W), штрафующееотклонение весов Wl обучаемой модели от значений весов W̄l исходноймодели, определяемое по формулеR(W) = λNl NL+1 ∑l−1∑∑(Wlij − W̄lij )2 ,(2)l=1 i=1 j=1где λ — величина штрафа.4.
Разбиение слоя l глубокой нейронной сети (например, последнего скрытого слоя) на два слоя следующим образом:vl = f (Wl vl−1 + bl ) ≈ f (Wlout (Wlbn vl−1 + 0) + bl ).(3)Здесь первый слой — малоразмерный слой с линейной функцией активации, матрицей весов Wlbn и нулевым вектором смещений; второй слой —нелинейный слой с матрицей весов Wlout и вектором смещений bl , имеющий размерность исходного разбиваемого слоя. Разбиение осуществляется при помощи сингулярного разложения (Singular Values Decomposition,11SVD) матрицы весов Wl :Wl ≈ Wlout Wlbn .(4)Таким образом, исходная DNN с L скрытыми слоями преобразуется в DNNс (L + 1) скрытыми слоями с линейным узким слоем l.5. Дообучение полученной DNN с узким горлом (рисунок 1в) с меньшей скоростью и штрафом на отклонение весов от весов исходной модели, определяемым по формуле 2.6. Отбрасывание слоев DNN, следующих за узким горлом, и использованиеполученной DNN с узким горлом для построения высокоуровневых информативных признаков.Предлагается следующий алгоритм обучения DNN-HMM акустическихмоделей на основе информативных признаков, построенных согласно описанному выше методу:1.
Обучение трифонной акустической модели на основе моделей гауссовыхсмесей (Gaussian Mixture Models, GMM) и HMM с использованием построенных признаков.2. Разметка обучающих данных на связанные состояния трифонов при помощи построенной трифонной GMM-HMM модели.3. Обучение DNN-HMM модели с использованием построенных признаков,взятых с широким временным контекстом.Также во второй главе представлен двухэтапный алгоритм инициализации обучения акустических моделей на основе DNN.
Основой для него послужило наблюдение, что сегменты, не содержащие речи, составляют значительную долю в фонограммах, на которых осуществляется обучение акустических моделей. По этой причине при обучении DNN по критерию минимизациивзаимной энтропии может возникать ситуация, когда качество классификациинеречевых фонем улучшается в ущерб качеству классификации речевых фонем, и, следовательно, в ущерб качеству распознавания речи. Предложенныйалгоритм направлен на уменьшение влияния этого эффекта и состоит из двухэтапов:1. Осуществляется предобучение DNN одним из способов: при помощи ограниченных машин Больцмана, автоэнкодеров, или дискриминативного алгоритма предобучения.2.
Полученная на первом этапе предобученная DNN используется для инициализации обучения по критерию минимизации взаимной энтропии насбалансированной по количеству неречевых примеров обучающей выборке. Балансировка происходит следующим образом: из обучающих примеров, соответствующих неречевым фонемам, случайным образом выбирается некоторая их часть так, чтобы количество примеров для неречевыхфонем в обучающей выборке было примерно равным среднему количеству примеров для одной речевой фонемы.12DNN, полученную на втором этапе алгоритма, в дальнейшем предлагается использовать для инициализации обучения по полной обучающей выборке.
Этоспособствует улучшению качества классификации неречевых фонем без большого ущерба для качества классификации речевых фонем, что позволяет повысить точность распознавания речи. Также предложены варианты использования предложенного двухэтапного алгоритма для обучения DNN, адаптированных при помощи i-векторов.В третьей главе представлен метод построения системы распознаваниярусской телефонной спонтанной речи, включающий в себя обучение языковыхмоделей, формирование словаря транскрипций и обучение акустических моделей.Для построения системы распознавания использовался 400-часовой обучающий корпус, состоящий из записей телефонной спонтанной речи нарусском языке.
Все фонограммы были записаны с частотой дискретизации8000 Гц, 16 бит на отсчет. Записи характеризовались большой дикторской вариативностью, а также разнообразием акустической обстановки, в которой происходили записываемые диалоги. Для настройки системы и экспериментов использовались четыре базы длительностью 30 минут, 1 час 18 минут, 1 час 43 минуты, 44 минуты соответственно, не пересекающиеся ни по произнесениям, нипо составу дикторов с обучающими данными.Триграммная языковая модель с модифицированным сглаживаниемКнесера-Нея была построена по текстовым расшифровкам записей обучающего корпуса, дополненным текстовыми данными, собранными из открытых источников: субтитров к фильмам, современных книг и текстов обсуждений с форумов сети Интернет.
Перед построением языковой модели тексты подвергались нормализации — автоматической очистке от спецсимволов, опечаток иорфографических ошибок. Построенная языковая модель содержала 214 тыс.униграмм, 4 млн. биграмм и 2,4 млн. триграмм.Транскрипции, или последовательности фонем, соответствующие слову,были сгенерированы автоматически с использованием инструмента — транскриптора, разработанного в ООО «ЦРТ». Всего для списка из 214 тыс. слов,содержащихся в языковой модели, было сгенерировано 220 тыс.
каноническихтранскрипций, отражающих произнесение слова с точки зрения норм русскогоязыка. Поскольку произношение слов в русской спонтанной речи зачастую значительно отличается от канонического в силу эффектов ассимиляции и редукции звуков, а также других особенностей произношения в разговорной речи,существует необходимость добавления неканонических, или альтернативных,транскрипций в словарь. Для тысячи наиболее частотных в языковой моделислов были вручную добавлены альтернативные транскрипции.Для учета эффектов коартикуляции (взаимного влияния звуков в слитнойречи друг на друга) в словосочетаниях, а также фонетических особенностейрусской спонтанной речи, автором был предложен двухпроходный алгоритмраспознавания речи, продемонстрировавший потенциал для улучшения точ-13ности распознавания.
Однако необходимость второго прохода распознаваниязначительно (на 30–40%) замедляет работу системы, поэтому двухпроходныйалгоритм не был использован в разработанной системе распознавания русскойтелефонной спонтанной речи.Первым этапом построения акустических моделей для системы распознавания русской телефонной спонтанной речи было прохождение пути, аналогичного рецепту для английской спонтанной речи из инструмента Kaldi ASR. Далее было проведено обучение DNN-HMM акустических моделей (шесть скрытых слоев по 1024 нейрона), адаптированных при помощи i-векторов.
Адаптация DNN-HMM модели при помощи i-векторов позволила достичь 2,1–2,6%абсолютного (абс.) и 4,7–6,6% относительного (отн.) улучшения показателя пословной ошибки распознавания (Word Error Rate, WER), являющегося общепринятым критерием качества работы системы распознавания речи и определяемого по формулеWER =S+I +DS+I +D· 100% =· 100%,NC +S+D(5)где N — количество слов в эталонном тексте, C — количество правильно распознанных слов, S, I, D — соответственно число замен, вставок и удаленийв результате распознавания. Использование представленного во второй главедвухэтапного алгоритма инициализации обучения позволило добиться дополнительного улучшения: 2,9–4,0% абс. и 6,2–9,1% отн.
превосходства по WERнад базовой неадаптированной моделью.Для дальнейшего улучшения достигнутых результатов был использованпредставленный во второй главе метод извлечения высокоуровневых информативных признаков из адаптированной при помощи i-векторов DNN. Высокоуровневые признаки были построены по алгоритму, представленному во второй главе, и затем использовались для обучения DNN-HMM модели (четырескрытых слоя по 2048 нейронов).